Методы повышения эффективности поиска научной информации: На материале Internet

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Разработана модель расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений. Разработанные методы повышения эффективности поиска научной информации реализованы в виде макетных версий программ стилистического анализа и ассистента формирования запросов на основе тезауруса. В работе предложены эффективные с точки зрения реализации структурные схемы поиска… Читать ещё >

Методы повышения эффективности поиска научной информации: На материале Internet (реферат, курсовая, диплом, контрольная)

Содержание

1. Internet. Стили речи. Тезаурус
- 1. 1. Internet и средства поиска информации
  - 1. 1. 1. Краткая история
  - 1. 1. 2. Основы построения машин поиска
  - 1. 1. 3. Российский Internet
  - 1. 1. 4. Современные тенденции развития средств поиска
- 1. 2. Стили речи и классификация текстов
  - 1. 2. 1. Различные подходы к определению понятия «стиль»
  - 1. 2. 2. Статистические методы в стилистике и классификация текстов
- 1. 3. Тезаурус
  - 1. 3. 1. Краткая история
  - 1. 3. 2. Тезаурусы в информационном поиске
- 1. 4. Результаты и
выводы
2. Классификация документов по стилям
- 2. 1. Подходы к решению задачи стилистической классификации
  - 2. 1. 1. Система стилей
  - 2. 1. 2. Методика классификации
- 2. 2. Опытный массив документов ** «
- 2. 3. Параметры классификации
  - 2. 3. 1. Первичный набор параметров
  - 2. 3. 2. Общая методика вычисления параметров
  - 2. 3. 3. Формальные параметры
  - 2. 3. 4. Формально-семантические параметры
- 2. 4. Параметры опытного массива и их первичная статистическая обработка
- 2. 5. Сокращение набора параметров
- 2. 6. Классификация опытного массива документов
  - 2. 6. 1. Условия применения процедур дискриминанта ого анализа
  - 2. 6. 2. Первая классификация документов опытного массива
  - 2. 6. 3. Главные компоненты — новые параметры классификации
- 2. 7. Результаты и
выводы
3. Расширение запроса с помощью тезауруса
- 3. 1. Описание метода
- 3. 2. Модель тезауруса и процедура формирования запросов
- 3. 3. Программная реализация
- 3. 4. Результаты и
выводы
4. Проверка результатов. Практические рекомендации
- 4. 1. Стилистическая классификация документов
  - 4. 1. 1. Классификация тестового массива документов
  - 4. 1. 2. Возможные реализации

Эффективность научно-исследовательских работ напрямую зависит от качества их информационного обеспечения, а поиск информации является ключевым этапом любого научного исследования. На сегодняшний день глобальная сеть Internet — важнейший источник информации для всех областей знаний, однако поиск специализированной научно-технической информации при помощи Internet зачастую оказывается малоэффективным.

Сегодня с трудом верится в то, что на начальной стадии своего развития Internet был по преимуществу сетью научных и образовательных учреждений, а наиболее популярная служба Internet — WWW, — была разработана в европейском центре ядерных исследований CERN как способ объединения разнородных научных ресурсов и облегчения переходов между ними.

Один из авторов заметил, что «по мере развития Интернет обостряется парадокс: вероятность существования нужной информации возрастает, а возможность ее нахождения уменьшается» [33]. Это происходит потому, что наполнение сети очень разнородно, громадно по объему, быстро и нерегулярно обновляется, плохо поддается структуризации и управлению.

Internet унаследовал хаотичность структуры от своего предшественника — сети ARPANET, которая разрабатывалась по заказу военного ведомства США в конце 60-х — начале 70-х гг. Одним из главных требований заказчика была высокая живучесть сети, поэтому в основе ARPANET лежали полная независимость отдельных сегментов и отсутствие централизованного управления. Однако вряд ли разработчики могли тогда предположить, насколько стремительно будет развиваться этот проект. По данным Internet Software Consortium (www.isc.org), в январе 2000 года к Internet было подключено 72 398 092 машины (против 37 машин сети ARPANET в 1972 году).

Появление «всемирной паутины» (WorldWide Web), новых программ и протоколовразвитие средств связи и доступность персональных компьютеров сделали достаточно закрытую до этого сеть привлекательной для мил5 лионов новых пользователей. 1995 год был назван годом триумфа Internet. Впрочем, триумфальными для Internet можно назвать и все последующие годы.

В связи с бурным развитием Internet проблема поиска информации приобрела особую остроту и стала общезначимой. Поиск информации в Internet перестал быть темой исключительно специализированных изданий1, а службы поиска превратились в коммерчески успешные компании. По данным Nielsen Media Research, к поисковым службам Internet сегодня обращается около 71% многомиллионной армии пользователей (цит. по [23]). По результатам опросов, наиболее требовательными к качеству информационного поиска оказываются научные работники (см., например, [53]).

По сравнению с локальными информационно-поисковыми системами (ИПС) задача поиска информации в Internet значительно усложняется .

В настоящее время в Internet представлены два основных вида служб поиска информации: 1) тематические каталоги ресурсов и 2) машины поиска (МП) по ключевым словам. Эти универсальные средства обладают целым рядом недостатков с точки зрения поиска научной информации.

Процесс отнесения документа к одному из разделов тематического каталога не поддается полностью автоматизации, поэтому каталоги охватывают ограниченное количество ресурсов и «не успевают» за ростом сети.

Машины поиска по ключевым словам охватывают больше ресурсов и чаще обновляются. Однако нередко они оказываются малоэффективными с точки зрения поиска научной информации из-за большого уровня шума (ссылок на нерелевантные документы), ограниченных возможностей языков запросов и формы представления результатов поиска.

1 См., например: Быковский Е. Взгляд сверху вниз // Итоги. — 1999. — 24 августа. — С.56−57.

2 Internet можно сравнить с очень большой библиотекой, где отсутствует какая-либо специализация и хранятся самые разные книги: от научных фолиантов и поэтических сборников до телефонных справочников и каталогов «Товары — почтой». Причем книги появляются в «библиотеке» совершенно самопроизвольно и в труднопредсказуемых местах. Интересы посетителей «библиотеки» не менее разнообразны, чем ее содержание. Со всем этим должен справляться «библиограф» — поисковая служба Internet. 6.

Поэтому сегодня особую актуальность приобретают исследования, направленные на повышение эффективности поиска научной информации в Internet. Решение проблемы лежит в области разработки теоретических основ, методов и средств использования слабо структурированных информационных баз в научных исследованиях.

Целью нашей работы является разработка методов повышения эффективности поиска научной информации:

1) автоматической стилистической классификации документов и.

2) расширения запроса с помощью тезауруса.

Оба метода ориентированы на усиление поиска русскоязычных научных документов с помощью универсальных МП.

Для достижения указанной цели в работе поставлены и решены следующие задачи:

• разработка процедуры автоматической классификации документов по стилям;

• разработка структурной схемы машины поиска с использованием стилистического анализа;

• разработка модели расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений;

• разработка структурной схемы поиска информации с использованием процедуры расширения запроса на основе тезауруса;

• разработка макетных версий программ, реализующих предложенные методы;

• тестирование разработанных методов;

• выработка рекомендаций по практическому использованию методов. Научная новизна работы состоит в следующем:

• разработана процедура автоматической стилистической классификации текстовых документов;

• введен показатель стилистической информативности документа- 7.

• разработана модель расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений. Разработанные методы повышения эффективности поиска научной информации реализованы в виде макетных версий программ стилистического анализа и ассистента формирования запросов на основе тезауруса. В работе предложены эффективные с точки зрения реализации структурные схемы поиска научной информации с использованием разработанных методов.

Разработанные программы прошли испытания и внедрены в компании «Конвекс» (Екатеринбург), Свердловской областной универсальной научной библиотеке им. В. Г. Белинского, НИИ ЦветМет (Екатеринбург). Результаты работы используются в научных исследованиях и учебном процессе на кафедре риторики и стилистики русского языка Уральского государственного университета и на кафедре вычислительной техники Уральского государственного технического университета.

Основные результаты и положения работы докладывались и обсуждались на XXXV Международной научной студенческой конференции «Студент и научно-технический прогресс» (Новосибирск, 1997), всероссийской конференции «Информационные технологии, системы управления и электроника» (Екатеринбург, 1997), семинаре «Методы прикладной математики и информационные технологии в многодисциплинарных исследованиях и проектах» (Омск, 1998), 30-й региональной молодежной конференции «Проблемы теоретической и прикладной математики» (Екатеринбург, 1999), четвертом и пятом рабочих совещаниях по электронным публикациям EL-PUB-99 и EL-PUB-2000 (Новосибирск, 1999 и 2000), рабочем совещании «Новые Интернет-технологии» (Петрозаводск, 2000).

Основное содержание работы опубликовано в 5 печатных и 3 электронных работах. 8.

12.Результаты работы прошли испытания и внедрены в компании «Конвекс» (Екатеринбург), Свердловской областной универсальной научной библиотеке им. В. Г. Белинского, НИИ ЦветМет (Екатеринбург). Результаты работы используются в научных исследованиях и учебном процессе на кафедре риторики и стилистики русского языка Уральского государственного университета и на кафедре вычислительной техники Уральского государственного технического университета-УПИ.

В заключение мы хотим поблагодарить д-ра филол. наук, профессора Тамару Вячеславовну Матвееву и канд. физ.-мат. наук, доцента Юрия Борисовича Мельникова за участие в обсуждении результатов и содержания работыкомпанию «Агама» (www.agama.com) — за предоставленный модуль морфологического анализаМихаила Щекотилова и Илью Бирюкова — за помощь в создании программ.

Заключение

В результате проведенных исследований предложены методы повышения эффективности поиска научной информации в Internet.

Показать весь текст

Список литературы

Абраменко А. Ненайденный документ — потерянный документ. -Электронный офис. 1998. — № 2. — В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/2−98 04.htm.
Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных: Справ, изд. М.: Финансы и статистика, 1983.-471 с.
Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении. JL: Наука, 1967. — 403 с.
Андрющенко В.М. Концепция и архитектура Машинного фонда русского языка. М.: Наука, 1989. — 196 с.
Ашманов И. Информация и знания: невидимая грань // Электронный офис. 1998. — № 2. — В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/2−98 02.htm.
Ашманов И., Руссова Н. Поисковые системы русскоязычных документов // Электронный офис. 1997. — Май/Июнь. — В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/may july97 5. htm
Ашманов И. Автоматический поиск документов: осознанная необходимость // Электронный офис. 1996. — Октябрь. — В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/eo Oktober 4.htm.
Барлас Л.Г. Русский язык. Стилистика. Пособие для учителей. М.: Просвещение, 1978. — 256 с.
Боровиков В.П. Популярное введение в программу STATISTICA. М.: КомпьютерПресс, 1998. — 267 с.
Браславский П.И. Распознавание стилей речи применительно к информационному поиску: постановка задачи // Математические структуры и моделирование: Сб. научн. тр., Вып. 3. / Под ред. А. К. Гуца. Омск: Омск, гос. ун-т, 1999.-С. 134−140.
Браславский П.И. Стилистическая классификация документов в задачах информационного поиска // Проблемы теоретической и прикладной математики: Тезисы докладов 30-ой Региональной молодежной конференции. Екатеринбург: ИММ УрО РАН, 1999. — С. 79−80.
Браславский П.И., Гольдштейн C.JL, Ткаченко Т. Я. Тезаурус как средство описания систем знаний// Научно-техническая информация. Сер.2, 1997. -№ 11. — С.16−21.
Васильева А.Н. Курс лекций по стилистике русского языка. Научный стиль речи. М.: Русский язык, 1976. — 189 с.
Головин Б.Н. О вероятностно-статистическом изучении стилевой дифференциации языка. К.: Знание, 1964. — 21 с.
Головин Б.Н. Язык и статистика. М.: Просвещение, 1970. — 190 с.
Гринберг И., Гарбер JI. Разработка новых технологий информационного поиска // Открытие системы, 1999. — № 9−10(41−42). — С 28−30.
Едемский М. Бродяга //Мир Internet. 1998. — № 1(16). — С. 68−74.
Изменения в языке научной прозы/ О. Б. Сиротинина, С. А. Бах, В. А. Богданова и др. // Вопросы стилистики. Вып. 3. Саратов: Изд-во Сарат. ун-та, 1969. — С. 37−55.
Изменения в языке публицистики (на материале международных обзоров) / О. Б. Сиротинина, С. А. Бах, В. А. Богданова и др. // Вопросы стилистики. Вып. 3. Саратов: Изд-во Сарат. ун-та, 1969. — С. 5−36.
Каменнова М. Управление электронными документами: технологии и решения // Открытие системы, 1995. — № 4. — С. 38−44.
Капустин В. Поиск информации в Интернете // Мир Internet, 1998. — № 9. — С. 54−59.31 .Карташева Е. Интеллектуальные поисковые системы Excalibur // Сети, -1997.-№ 6.-С. 98−105.
Кауфман С.И. Из курса лекций по статистической стилистике. М.: МОПИ, 1970.-319 с.
Кешелава В. Поисковые системы для Интернет // PC Week/RE, 1997. -№ 10. — С.22−27.
Ким Дж.-О., Мьюллер Ч. У. Факторный анализ: статистические методы и практические вопросы // Факторный, дискриминантный и кластерный анализ: Пер. с англ. М.: Финансы и статистика, 1989. — С. 5−77.
Кияк Т.Р. Лингвистические аспекты терминоведения. К.: УМК ВО, 1989.- 104 с.
Клекка У.Р. Дискриминантный анализ // Факторный, дискриминантный и кластерный анализ: Пер. с англ. М.: Финансы и статистика, 1989. — С. 78 138.
Клочкова Э.А. О влиянии формы разговорной речи на распределение классов слов // Русская разговорная речь. Сб. науч. трудов. Саратов: Изд-воСГУ, 1970.-С. 126−134.
Колмановская Е. Что и как найти в русском Internet? //Мир ПК 1999. -№ 10.-С. 70−73.
Кожина М.Н. К основаниям функциональной стилистики. Пермь: Б. и., 1968.-251 с.
Кожина М.Н. О речевой системности научного стиля сравнительно с некоторыми другими. Пермь: Б. и., 1972. — 395 с.
Кожина М.Н. Стилистика русского языка. -М.: Просвещение, 1977.
Кожина М.Н. Стилистика русского языка. 3-е изд., перераб. и доп. М.: Просвещение, 1993. -221 с.
Лейчик В.М. Терминология информатики: теоретические и практические вопросы// Информатика: Итоги науки и техники. Т.2. М., 1977. — С.40−53.
Михайлов А.И., Черный А. И., Гилиревский P.C. Основы информатики. 2-е изд., перераб. и доп. М.: Наука, 1968. — 756 с. 1.l
Налимов B.B. Вероятностная модель языка. О соотношении естественных и искусственных языков. 2-е изд., перераб. и доп. М.: Наука, 1979. — 303 с.
Никитина С.Е. Семантический анализ языка науки. (На материале лингвистики.) -М.: Наука, 1987. 141 с.
Пархоменко В.Ф. Работа с русскоязычными полнотекстовыми базами данных в ИПС АРТШ>АКТ // Научно-техническая информация. Сер.2. -19−98.-№ 1.-С. 25−29/4
Плешко В.В. Визуализация массивов полнотекстовых документов в информационных системах // Материалы конференции «Анализ систем на рубеже XXI века». М., 1997. — В работе использовалась электронная версия: http://is.park.ru/park/websom/ansys97.zip .
Прикладная статистика: Классификация и снижение размерности: Справ, изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л.Д. Мешалкин- Под. ред. С. А. Айвазяна. М.: Финансы и статистика, 1989. — 606 с.
Россия в Интернете. Всероссийский опрос 1У'99./Агентство monitoring.ru. http ://www.monitoring .ru/internet/archive/1999/ГУ71 /.112
Россия в Интернете. Февраль 2000: Обзор отчета /Агентство monitoring.ru. -http://www.monitoring.ru/intemet/surnmarizing.html.
Русская разговорная речь. Фонетика. Морфология. Лексика. Жест. -М.: Наука, 1983.-238 с.
Садовничий В. А., Васенин В. А., Мокроусов А. А., Тутубалин А. В. Российский Интернет в цифрах и фактах. М.: Изд-во МГУ, 1999. — 148 с.
Сиротинина О.Б. Современная разговорная речь и ее особенности. М., 1974. 144 с.
Солтон Дж. Динамические библиотечно-информационные системы. -Пер. с англ. М.: Мир, 1979. — 558 с.
Степанов Ю.С. Стиль // Языкознане. Большой энциклопедический словарь /Гл. ред. В. Н. Ярцева. 2-е изд. — М.: Большая Российская энциклопедия, 1998.-С. 494−495.
Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления: ГОСТ 7.25−80. Введ. 01.01.82. — М.: Изд-во стандартов, 1981. — 15 с.
Тезаурус научно-технических терминов / Под. ред. Шемакина Ю. И. М.: Воениздат, 1972. — 671 с.
Храмцов П. Информационно-поисковые системы Internet // Открытые системы, 1996. — № 3(17). — С. 46−49.
Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытие системы, 1996. — № 6(20). — С. 46−56.
Храмцов П.Б. Лабиринт Internet. Практическое руководство. М.: «ЭЛЕКТРОИНФОРМ», 1996. — 256 с.
Частотный словарь общенаучной лексики. Под общ. ред. Е. М. Степановой. М.: Изд-во МГУ, 1970. — 87 с.
Частотный словарь русского языка. Под. ред. Л. Н. Засориной. М.: Русс, яз., 1977.-934 с. 69 .Черный А. И. Общая методика построения тезаурусов // Научно-техническая информация. Сер.2, 1968. — № 5. — С. 17−33.
Чибисов А. Поисковые возможности Excalibur RetrievalWare // Открытие системы, 1996. — № 5(19). — С 49−53.
Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. М.: Воениздат, 1974. — 188 с. 72.1Пехтман Н. А. Об одном принципе расширения и углубления тезауруса // Научно-техническая информация. Сер.2, 1981. — № 7. — С.10−12.
Шрейдер Ю.А. Тезаурус в информатике и теоретической лингвистике // Научно-техническая информация. Сер.2, 1971. — № 3. — С. 21−24.
Электронный учебник по статистике / StatSoft, Inc. 1999. -http://www.statsoft.ru/home/textbook/default.htm.
Aitchison J. et al. Thesaurus construction and use: a practical manual. 3rd edn. London: Aslib, 1997. — 186 p.
Allen R.F. Computer-Aided Stylistic Analysis. A Case Study of French Texts // Computational Linguistics. An International Handbook on Computer Oriented Language Research and Applications. Berlin: Walter de Gruyter, 1989. — P. 544−552.
Hert C.A. Understanding information retrieval interactions: theoretical and practical implementations. London: Ablex Publishing Corp., 1997. — 326 p.
Karlgren J., Cutting D. Recognizing Text Genres with Simple Metrics Using Discriminant Analysis // Proc. 15th International Conference on Computational Linguistics (COLING). Kyoto, 1994. — Vol. 2. — P. 1071−1075.
Kirriemuir J.W., Willet P. Use of Cluster Analysis Methods for Analysing the Outputs of Multiple-Database Searches //Electronic Library and Visual Information Research. Proc. 2nd ELVIRA Conference. London, 1995. — P. 117−126.
Schwarz С. Web Search Engines // Journal of the American Society for Information Science. 1998. — № 49(11). — P. 973−982.

Заполнить форму текущей работой