Помощь в написании студенческих работ
Антистрессовый сервис

Введение. 
Разработка программного продукта для решения задач бикластерного анализа англоязычных текстов

РефератПомощь в написанииУзнать стоимостьмоей работы

Кластерный анализ текстов в первую очередь может применяется для оптимизации поиска: по пользовательскому запросу определяется наиболее релевантный кластер текстов и дальнейший поиск производится только по этому кластеру, а не по всему набору текстов. При этом тексты чаще всего рассматриваются как «мешки слов» (bag-of-words model), то есть учитывается только количество вхождений слова в текст… Читать ещё >

Введение. Разработка программного продукта для решения задач бикластерного анализа англоязычных текстов (реферат, курсовая, диплом, контрольная)

На сегодняшний день практические все научные статьи публикуются в электронном виде. Доступ к таким статьям предоставляется в сети Интернет как самими авторами, так и электронными библиотеками. Пожалуй, из самых крупных электронных библиотек стоит выделить такие, как IEEE Xplore, ACM Digital Library и Springer — вместе они предоставляют доступ более чем к 10 миллионам различных научных статей и книг. Анализ всего этого разнообразия статей сейчас является актуальной задачей: анализ может использоваться, например, в целях оптимизации поиска релевантной информации, а также для образования базы фактов (знаний). Безусловно, одному человеку практически невозможно уследить за всеми новыми методами, инструментами и знаниями, которые скрывают в себе миллионы статей и книг. В связи с этим, автоматизированный анализ естественного языка сегодня является важной проблемой.

В данной работе мы фокусируемся на анализе текстов на основе ключевых слов и словосочетаний. В целом, концепция ключевых слов широко используется при анализе текстовых данных и в алгоритмах поиска релевантной информации. Анализ текстов на основе всех слов, встречаемых в них, является очень трудоёмкой задачей, поэтому использование ограниченного количества ключевых слов может заметно ускорить алгоритмы анализа и уменьшить потребление оперативной памяти.

Кластерный анализ текстов в первую очередь может применяется для оптимизации поиска: по пользовательскому запросу определяется наиболее релевантный кластер текстов и дальнейший поиск производится только по этому кластеру, а не по всему набору текстов. При этом тексты чаще всего рассматриваются как «мешки слов» (bag-of-words model), то есть учитывается только количество вхождений слова в текст, но не учитывается их порядок. Каждый текст в такой модели можно охарактеризовать вектором релевантности ключевых слов и сравнивать их на основе этих векторов — на этой идее строится множество существующих алгоритмов кластеризации текстов.

С другой стороны, многие исследователи применяют кластерный анализ для нахождения групп синонимов и автоматического построения терминологических словарей (тезаурусов — thesaurus). Схожесть же между словами во многих алгоритмах определяется на основе их совместной встречаемости в различных текстах. В то же время, при кластеризации текстов схожими считаются те тексты, которые содержат схожие наборы ключевых слов. Такая симметричность в подходах к задачам кластеризации текстов и слов была использована Диллоном в 2001 году. Диллон предложил идею параллельной кластеризации (бикластеризации) ключевых слов и текстов на основе матрицы релевантности слово/текст. Его метод был основан на идее нахождения минимального разреза в двудольном графе (графе связей между словами и текстами) и позволял получать тесно-связанные кластеры слов и документов.

В рамках же данной работы основными объектами изучения являются бикластеры ключевых слов и словосочетаний. Бикластер ключевых слов, по сути, является парой множеств ключевых слов и словосочетаний (фраз), с высокой степенью схожести между ними. Под схожестью между фразами здесь подразумевается, что они релевантны тесно пересекающимся наборам текстов (более формально «схожесть» описана во второй главе).

Одним из возможных способов применения таких бикластеров слов, является нахождение связей между классами в системе классификации статей или других документов. Представим, что первое множество фраз (из бикластера) характерно для некоторого домена статей в системе классификации, тогда второе множество фраз может описывать более широкий домен, то есть родительский узел в графе таксономии. Таким образом можно попытаться автоматически построить таксономию или граф связей между понятиями для коллекции научных статей на основе бикластеров ключевых слов. Вдобавок, пользуясь бикластерами можно быстро находить коллекции «похожих» слов для заданного, что может помочь, например, при поиске наиболее релевантных документов по текстовому запросу.

Что касается самих методов бикластерного анализа, помимо метода, предложенного Диллоном, мы рассматриваем также другой подход к задаче бикластеризации, представленный Миркиным и Крамаренко. Если метод Диллона разбивает множества слов и текстов на непересекающиеся подмножества, то на алгоритм Миркина и Крамаренко («BBox») такое ограничение не накладывается. Это позволяет рассматривать одни и те же словосочетания в различных «контекстах» (бикластерах), что может быть важно при построении таксономии или графов зависимостей.

Цель работы.

Основной целью данной работы является реализация программного продукта, который бы позволял пользователю решать задачи бикластерного анализа англоязычных текстов. Таким образом, программный продукт должен позволять пользователю решать следующие основные задачи:

  • 1. Загрузка коллекции научных статей из электронной библиотеки (IEEE, Springer);
  • 2. Получение набора ключевых слов и словосочетаний из приобретённой коллекции статей;
  • 3. Построение векторов релевантности для каждой ключевого фразы (i-ый элемент вектора определяет релевантность ключевой фразы к i-ой статье в коллекции);
  • 4. Вычисление матрицы схожести между ключевыми фразами на основе их векторов релевантности;
  • 5. Бикластерный анализ матрицы релевантности фраза/текст;
  • 6. Бикластерный анализ матрицы схожести между ключевыми фразами и визуализация получаемых бикластеров в формате графа связей между фразами.

В дополнение, пользователю должна предоставляться возможность загружать ключевые словосочетания, предлагаемые непосредственно электронной библиотекой для содержащихся в ней статей.

Помимо программного модуля, описанного выше, необходимо разработать Веб-интерфейс для демонстрации возможностей бикластерного анализа аннотаций к научным статьям и соответствующих ключевых словосочетаний (данные для анализа согласуются с научным руководителем). Также Веб-интерфейс нужен для удобной визуализации данных для анализа и получаемых результатов — бикластеров.

В следующих частях данной работы мы рассмотрим необходимые алгоритмы и метрики для выполнения шести основных шагов, приведённых выше. Также будут описаны технические и концептуальные аспекты реализации этих алгоритмов, и будет представлен новый жадный метод бикластеризации. Далее будут описаны полученные результаты и приведено сравнение различных алгоритмов бикластеризации. В конце работы будет представлено описание реализованного программного продукта.

Показать весь текст
Заполнить форму текущей работой