Понятие поисковых систем и поисковых машин
Поисковая машина — это комплекс программного обеспечения, который обеспечивает работу поисковой системы В первую очередь важно осознать еще одно и, наверное, самое существенное отличие между работой поисковой машины в интернете и работой любой другой информационной системы, осуществляющей поиск в различного рода каталогах и базах данных. Поисковая машина не ищет информацию среди того, что есть… Читать ещё >
Понятие поисковых систем и поисковых машин (реферат, курсовая, диплом, контрольная)
Поиск информации — задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.
Поисковая система — это программно-аппаратный комплекс, имеющий веб-интерфейс, который предоставляет возможность поиска данных в Интернете. Поисковые системы это инструмент, позволяющий пользователю глобальной сети в кратчайшие сроки найти интересующую его информацию.
Первоочередная задача любой поисковой системы — доставлять людям именно ту информацию, которую они ищут. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска — релевантность.
Релевантность — это соответствие результатов поиска сформулированному запросу. [2,с. 47].
Точность — это мера качества выданных результатов, она вычисляется как количество релевантных страниц в общем объеме страниц, выданных в результатах поиска.
По пространственному масштабу ПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное — по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.
Основой всех поисковых систем составляют базы данных — совокупность данных организованных по предельным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимо от прикладных программ.
Можно выделить следующие элементы функционирования поисковых систем:
Сбор информации — организованный в специальном порядке процесс сбора и отображения информации:
- -получение информации
- -оценка относимости информации
- -порядок отбора и фиксации информации
Комплектование — процесс сложения информации из множества частей в единое целое и доведения её до пользователя.
Поддержание целостности и сохранения информации — пересмотр, ревизия и отсеивание утратившей актуальность информации являются неотъемлемой функцией информационных подразделений. Сохранность информации осуществляется с помощью нормативно — инструктивных документов.
Поисковая машина — это комплекс программного обеспечения, который обеспечивает работу поисковой системы В первую очередь важно осознать еще одно и, наверное, самое существенное отличие между работой поисковой машины в интернете и работой любой другой информационной системы, осуществляющей поиск в различного рода каталогах и базах данных. Поисковая машина не ищет информацию среди того, что есть в интернете на момент поступления запроса, а пытается сформировать ответ на основании собственного информационного хранилища — базы данных, называемой индексом, где она хранит досье на все известные ей сайты и периодически его обновляет. Другими словами, поисковая машина работает не с оригиналом, а с проекцией области допустимых значений поиска. Все последние изменения в интернете могут отразиться в результатах поиска только после того, как соответствующие страницы будут проиндексированы — добавлены в индекс поисковой системы. Итак, поисковая система в первом приближении состоит из поисковой машины, базы данных или индекса и точек входа в систему.
Поисковая машина состоит из:
- · паук или спайдер (spider) —приложение, которое занимается скачиванием страниц интернет ресурсов.
- · индексатор (indexer). Индексатор производит первоначальный анализ содержимого скачанной страницы, выделяет основные части (название страницы, описание, ссылки, заголовки и т. д.) и раскладывает все это по разделам поисковой базы данных — помещает в индекс поисковой системы. На основе результатов первоначального анализа индексатор также может принять решение, что страница вообще «недостойна» находиться в индексе. Причины такого решение могут быть разными: страница не имеет названия, является точной копией другой, уже имеющейся в индексе страницы или содержит ссылки на запрещенные законодательством ресурсы.
- · краулер (crawler) —программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. Краулер анализирует пути, ведущие с текущей страницы на другие разделы сайта, или на страницы внешних интернет ресурсов и определяет дальнейший порядок обхода пауком нитей всемирной паутины. Именно краулер находит новые для поисковой машины страницы и передает их пауку. Работа краулера построена на базе алгоритмов поиска на графах в ширину и глубину.
- · подсистема обработки и выдачи результатов (Search Engine and Results Engine) — самая важная часть любой поисковой машины. Алгоритмы работы этой подсистемы компании разработчики хранят в строгой секретности, поскольку они являют собой коммерческую тайну. Именно эта часть поисковой машины отвечает за адекватность ответа поисковой системы на запрос пользователя [7, с. 82].