В учебниках или научных книгах есть список важных терминов — алфавитно-предметный указатель или индекс. В индексе перечислены наиболее важные термины данной книги (ключевые слова) и номера страниц на которых они встречаются. Работа поисковиков основана на подобном принципе. По сути, когда пользователь вводит поисковой запрос (ключевое слово), он обращается к предметному указателю Интернета или индексу — списку всех ключевых слов Интернета, с указанием страниц, где они встречаются.
Поисковая машина — это программа, которая составляет и хранит предметный указатель Интернета (индекс), а также находит в нем заданные ключевые слова.
Этапы составления индекса и поиска по нему:
Сбор адресов веб-страниц в Интернете
В поисковую машину загружают первоначальный список адресов страниц сайтов. Затем поисковая машина, а точнее ее составная часть — поисковый робот, собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все, найденные в ссылках адреса, к своему первоначальному списку адресов. Таким образом, первоначальный список быстро увеличивается.
Страница, на которую не ведет ни одна ссылка, не попадет в индекс поисковика никогда, поэтому если вы сделали новый сайт его необходимо зарегистрировать в поисковых системах, чтобы он попал в индекс.
Выкачивание страниц
Поисковой робот или паук обходит страницы, скачивает с них текстовый материал и хранит на дисках своих компьютеров, затем передает на индексирование индексному роботу.
Составление индекса
Для начала текст индексируемой страницы очищается от всяких нетекстовых элементов (графики, разметки языка HTML и пр.). Далее слова, выбранные из текста, приводятся к своим основам или именительному падежу. Собранные основы слов выстраивают в алфавитном порядке с указанием номера страницы, где взята основа, и номера вхождения, где стояла основа на данной странице.
Для построения индекса исходные данные преобразуются так, чтобы объем базы был минимальным, а поиск осуществлялся очень быстро и давал максимум полезной информации.
Поиск
Когда пользователь вводит слово в строку запроса, поисковая машина обращается к индексу. Находит все номера страниц, относящиеся к заданному слову, и показывает пользователю результат поиска (список страниц). [2, с. 87].