Поисковые машины.
Информационные технологии в юридической деятельности

РефератПомощь в написанииУзнать стоимостьмоей работы

Поисковые машины. Информационные технологии в юридической деятельности (реферат, курсовая, диплом, контрольная)

Как указывалось выше, поисковые каталоги имеют очень низкий коэффициент охвата ресурсов WWW. И хотя во многих случаях для реферативного поиска это не критично, очень часто необходим механизм поиска актуальной, уникальной, специальной информации, которая не охвачена и не может быть охвачена поисковыми каталогами.

Для многократного увеличения охвата веб-ресурсов, процесс формирования базы данных поисковой системы необходимо автоматизировать, т. е. исключить человеческий фактор. При этом значительно падает качество ссылок, предоставляемых системой по результатам поиска, но одновременно увеличивается их количество.

Разработка программных средств автоматического поиска — это сегодня одно из самых развивающихся направлений в Интернет.

Как же должна работать поисковая машина? При поиске веб-ресурсов пользователь составляет запрос на поиск с помощью ключевых слов. Поисковая система должна найти веб-страницы, соответствующие запросу. В результате пользователь должен получить гиперссылки и краткие сведения о найденных ресурсах, на основании которых можно выбрать то, что ему НУЖНО.

Для эффективного решения задачи поиска за короткое время процесс необходимо разбить на несколько этапов. Па первых этапах ведется подготовка базы данных поисковой машины. Эта работа ведется постоянно и независимо от конкретных запросов. Поисковая машина последовательно исследует все доступные узлы Интернет со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернета. При поступлении же от пользователя запроса на поиск выполняется непосредственно последний этап, на котором поисковая машина использует уже заранее индексированную информацию из собственной базы данных. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

Сегодня в мире существуют тысячи поисковых машин. Можно отметить следующие зарубежные системы:

• AltaVista (www.altavista.com);
• Google (www.google.com);
• HotBot (www.hotbot.com);
• Inktomi (www.inktomi.com);
• Lycos (www.lycos.com);
• WebCrawler (www.webcrawler.com).

В России наиболее крупными и популярными поисковыми системами являются Япс1ех (www.yandex.ru) и Рамблер (www.rambler.ru).

Работа поисковой машины обычно состоит из трех основных этапов. Два этапа являются подготовительными, а на третьем этапе происходит взаимодействие с пользователем.

На первом этапе поисковая система сканирует информационное пространство WWW. Для этого используют специальные агентские программы, обычно называемые роботами или пауками (crawlers). Эти программы работают в чем-то аналогично браузерам. Только в отличие от обычных браузеров им не надо выполнять функции просмотра и воспроизведения содержимого — их задача состоит только в том, чтобы автоматически разыскивать в Сеги веб-ресурсы. Следуя по гиперссылкам, эти «науки» «ползают» по всемирной паутине и копируют данные веб-ресурсов в свою базу данных. Также происходит обновление ранее принятых документов, но измененных за время после предыдущего копирования.

На втором этапе происходит индексация базы данных, т. е. создаются специальные индексы. Это необходимо для ускорения поиска в базе данных.

Аналогично устроены и поисковые указатели (индексы). Простейший тип индекса — это словарь, в который входят все слова, встреченные при просмотре веб-ресурсов. Против каждого слова приводится список ссылок, указывающих на местоположение соответствующих ресурсов в базе данных. Поиск по ключевым словам при использовании такого индекса происходит очень быстро, так как он предварительно отсортирован по алфавиту.

На третьем этапе работы происходит рафинирование результирующего списка. Создается список ссылок, который будет передан пользователю в качестве результирующего. Качество работы поисковой системы во многом зависит от методов, использованных на этом этапе.

На этапе рафинирования происходит фильтрация и ранжирование результатов поиска. При фильтрации происходит отсев ссылок, которые выдавать нецелесообразно. Прежде всего, проверяется наличие дубликатов. На первых двух этапах поисковая машина находит множество ссылок, ведущих к одному и тому же веб-ресурсу. Дублирующиеся ссылки перегружают результирующий список и затрудняют пользователю выбор полезных ресурсов. Затем выполняется ранжирование. При ранжировании происходит упорядочивание результирующего списка, при котором наиболее полезные (с точки зрения поисковой системы) ссылки приводятся в начале списка, а наименее полезные — в его конце. Критерий полезности для клиента той или иной ссылки может быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.

При ранжировании учитывается количество появлений ключевых слов в веб-документе. Большую полезность могут иметь те документы, в которых искомое слово появляется достаточно часто в начале документа, в его первых 5—10 абзацах. Также считается полезным, когда ключевые слова встречаются в заголовках документа и в подрисуночных подписях.

Имеются и другие специальные методы ранжирования. Среди них наиболее распространенным является использование количества ссылок с других веб-страниц. При этом еще на этапе индексации высокий рейтинг могут получать те страницы, на которые имеется больше ссылок. Этот метод использует оценку более высокой важности тех документов, которые чаще цитируются.

Но главная объективная трудность поисковых машин обусловлена бурным развитием информационного пространства Интернет. Па ранних этапах коэффициент охвата веб-ресурсов поисковыми системами достигал 50%. В 1994 г. количество веб-ресурсов составляло около 100 млн веб-страниц, из которых десятки миллионов были проиндексированы. В дальнейшем коэффициент охвата продолжал падать, и в 2000 г. не превышал 20%.

В 2002 г. лидер среди поисковых машин — Google в своей базе содержала 1,25 млрд страниц проиндексированной информации. Общее количество веб-страниц в Интернете на этот момент оценивалось примерно в 10 млрд^[1].

Существуют средства поиска, которые позволяют усовершенствовать процесс путем запуска одновременно нескольких средств поиска. Это так называемый мета-поиск (или внешний поиск), который повышает качество поиска, объединяя достоинства и возможности всех используемых средств. При этой технологии подключаются сразу несколько поисковых машин, которым одновременно отправляется запрос. Получив результаты от различных систем, метапоисковая система их группирует и удаляет повторения в результатах поиска.

В качестве примера метаиоисковой системы можно привести MetaCrawler (www.metacrawler.com), которая подключает девять поисковых систем одновременно, или NIGMA (www.nigma.ru, разработка ВМК МГУ).

Кроме поиска документов в WWW часто бывает необходимо найти какой-либо конкретный файл. При этом зачастую требуется информация, расположенная не на веб-сайте, а размещенная на FTP-сервере. Для подобной работы существуют свои специализированные серверы. Многие поисковые машины умеют осуществлять поиск в телеконференциях и среди различных файлов. Например, упоминавшийся ранее крупнейший поисковик Fast Search (www.alltheweb.com) позволяет осуществлять поиск на FTP-серверах и в новостных группах, а также с успехом выводит отдельные списки по МРЗ-файлам, картинкам и видеоклипам.

Очень часто поисковые каталоги и индексирующие поисковые сервера интегрируются, предоставляя и тот, и другой сервис.

Рассмотрим методику поиска в Интернете.

Познакомившись с основными типами поисковых систем, важно научиться использовать их возможности в конкретных случаях поиска необходимой информации. При первичном, реферативном поиске рекомендуется пользоваться каталогами. При этом, как правило, удается найти несколько источников, в той или иной мере содержащих полезные сведения. Ознакомившись с их содержанием можно уточнить основные понятия и термины и подобрать набор ключевых слов, характеризующих задачу, для более углубленного поиска. Кроме того, многие сайты, найденные в каталогах, содержат списки ссылок по рассматриваемой теме, что помогает в дальнейшем поиске.

При более конкретном, углубленном поиске используют поисковые машины, которым надо сформулировать запрос, наиболее точно характеризующий тему. Запрос составляется с использованием ключевых слов. Следует различать приемы простого, расширенного, контекстного и специального поиска.

При простом поиске задается одно или несколько ключевых слов. Недостатком простого поиска является то, что обычно он выдает слишком много документов, среди которых трудно выбрать наиболее подходящие.

При расширенном поиске ключевые слова связывают между собой операторами логических отношений. Расширенный поиск применяют в тех случаях, когда приемы простого поиска дают слишком много результатов.

С помощью логических отношений поисковое задание формируют так, чтобы более точно детализировать задание и ограничить область отбора, например по дате публикации или по типу данных. Для использования расширенного поиска или применяют специальный язык запросов данной поисковой машины, или специальную форму, позволяющую задать нужные условия.

При контекстном поиске задается точная фраза, которую надо найти. Этот вид поиска информации часто удобен, но доступен далеко не во всех поисковых системах. Чтобы обеспечивать такую возможность, система должна работать не только с индексированными файлами, но и с полноценными образами веб-страниц. Эта операция достаточно медленная, и ее выполняют не все поисковые системы.

При специальном поиске ищут заданные адреса URL, а также данные, содержащиеся в служебных полях, например в поле заголовка.

[1] URL: http://www.3dnews.ru/software-news/google_proindeksiroval_trillion_stranits/

Показать весь текст

Заполнить форму текущей работой