Индексирования.
Поисковые системы

РефератПомощь в написанииУзнать стоимостьмоей работы

Indexer (робот — индексатор) — программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т. д. Таким образом… Читать ещё >

Индексирования. Поисковые системы (реферат, курсовая, диплом, контрольная)

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) — программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос «get/path/document» и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

1)URL страницы
2) Дата, когда страница была скачана
3)http-заголовок ответа сервера
4)тело страницы (html-код)

Crawler («путешествующий» паук) — программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача — определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Информация Единицы измерения Операционных Классификация вирусов Антивирус Редактирование и форматирование Excel Access

Столь взрывной рост объема данных обусловлен множеством фактов, однако главные факторы — это популяризация цифрового контента и в особенности видео, а также законодательные требования некоторых стран, где телекоммуникационных — и интернет-провайдеров обязывают хранить данные и журналы активности интернет-пользователей, благодаря чему, архивы крупных провайдеров могут измеряться терабайтами…

Контрольная