Помощь в написании студенческих работ
Антистрессовый сервис

Поиск с использованием поисковых машин

РефератПомощь в написанииУзнать стоимостьмоей работы

Это наиболее сложный и трудоемкий этап, связанный с обработкой значительного количества информации, большая часть которой обычно является шумовой. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных… Читать ещё >

Поиск с использованием поисковых машин (реферат, курсовая, диплом, контрольная)

Наиболее широко используемым, но в то же время наиболее сложным является метод поиска с использованием поисковых систем. Его широкая распространенность обусловлена тем, что поисковые системы содержат в себе индексы громадного количества сайтов и при правильно сформированном запросе можно сразу же получить ссылки на интересующие ресурсы. Сложность метода состоит в том, что для того, чтобы результат был качественным, необходимо уметь выбрать наиболее подходящие поисковые системы, правильно формулировать запросы к ним, учитывать их особенности и функциональные возможности.

Двоякая характеристика данного метода связана с тем, что проведение эффективного поиска требует одновременного решения двух противоположных задач: увеличении охвата с целью извлечения максимального количества значимой информации и уменьшении охвата с целью минимизации шумовой информации. Нетрудно увидеть, что одновременно осуществить и то и другое довольно сложно, хотя найти оптимальное соотношение все-таки возможно.

Составление и выполнение запросов к поисковым машинам

Это наиболее сложный и трудоемкий этап, связанный с обработкой значительного количества информации, большая часть которой обычно является шумовой. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных релевантными, собираются для последующего анализа.

Как формат, так и семантика запросов может варьироваться в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы должны составляться так, чтобы область поиска была максимально конкретизирована и сужена, то есть предпочтение следует отдавать использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится их пробная реализация — как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.

Языки запроса различных машин поиска в основном являются сочетанием следующих функций:

  • · осуществление поиска документов при помощи операторов булевой алгебры AND, OR, NOT. AND (И) — содержащих все термины, соединенные им, OR (ИЛИ) — искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором; NOT (НЕ) — поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором;
  • · осуществление поиска документов при помощи операторов расстояния, ограничения порядка следования и расстояния между словами. NEAR — второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов;

FOLLOWED BY — термины следуют в заданном порядке; ADJ — термины, соединенные оператором, являются смежными;

  • · возможность усечения терминов — использование символа * вместо его окончания термина; позволяет включить в искомый список все слова, производные от его начальной части шаблона;
  • · учет морфологии языка — машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск;
  • · возможность поиска по словосочетанию, фразе;
  • · ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т. д.);
  • · ограничение по дате опубликования документа;
  • · ограничение на количество совпадений терминов;
  • · возможность поиска графических изображений;
  • · чувствительность к строчным и прописным буквам.

Результат запроса, то есть выведенный системой список ссылок на найденные ресурсы, обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Показать весь текст
Заполнить форму текущей работой