Помощь в написании студенческих работ
Антистрессовый сервис

Использование кластеризации для анализа текстовых данных: Обзор

РефератПомощь в написанииУзнать стоимостьмоей работы

Сами матрицы релевантности могут представляться в бинарном виде (единица, если слово содержится в документе), но чаще исследователи пользуются метриками релевантности, которые учитывают частоту встречаемости слова как в самом документе, так и во всей коллекции: например, метрика TF-IDF или получившая широкое распространение в последнее время метрика Okapi BM25. Использование таких метрик… Читать ещё >

Использование кластеризации для анализа текстовых данных: Обзор (реферат, курсовая, диплом, контрольная)

Кластерный анализ текстовых данных

Интерес к анализу текстовых данных существует по двум основным направлениям: структурирование текстовых данных в целях, например, повышения качества результатов поисковых запросов, и семантический анализ текстов. Семантический анализ может применяться для извлечения фактов из текстов и построения базы знаний или автоматического построения отчётов.

Кластеризация при анализе текстов находит применение, например, в задачах визуализации информации, индексации и структурирования документов. Также нужно отметить, что кластеризация слов используется в задачах нахождения синонимов и классификации документов. Это позволяет говорить о том, что кластерный анализ является высоко-востребованной задачей в области анализа текстовых данных. В первую очередь это можно связать с тем, что текстовые данные по своей природе являются неструктурированными, а значит, сложно поддаются анализу в «сыром» виде.

Кластерный анализ документов чаще всего основывается на модели «мешка слов», в котором тексты рассматриваются как векторы принадлежности или векторы релевантности слов. При этом количество различных слов в документах может быть очень большим — десятки тысяч, а значит полная матрица релевантности слово/документ может содержать десятки или даже сотни миллионов элементов. Работа с матрицами такого размера является сложной вычислительной задачей, поэтому исследователи часто прибегают к методам извлечения ключевых слов или фильтруют слова на основе частоты их встречаемости в документах. Идея фильтрации заключается в том, чтобы исключить из рассмотрения слова, которые встречаются в слишком большом или, наоборот, слишком малом количестве текстов. Слова, встречающиеся в большом количестве текстов можно считать стоп-словами, так как туда обычно попадают такие слова, как «a», «the», «this» и так далее. В то же время, слова, которое встречаются в небольшом количестве документов можно считать шумом.

Сами матрицы релевантности могут представляться в бинарном виде (единица, если слово содержится в документе), но чаще исследователи пользуются метриками релевантности, которые учитывают частоту встречаемости слова как в самом документе, так и во всей коллекции: например, метрика TF-IDF или получившая широкое распространение в последнее время метрика Okapi BM25. Использование таких метрик позволяет более точно сравнивать два документа, основываясь на соответствующих им векторам релевантности.

Что касается кластеризации слов, то схожесть между словами обычно вычисляется на основе документов, в которых они встречаются. Основная идея заключается в том, что слова, встречающиеся в схожем наборе документов должны принадлежать одному кластеру. Таким образом для слов строятся вектора релевантности, аналогичные векторам релевантности для текстов, и схожесть между словами определяется на основе таких векторов. Другой популярный подход к кластеризации слов использует коллекцию документов, где каждый документ принадлежит некоторому заранее определённому классу. Основываясь на такой коллекции для каждого слова и каждого класса считается вероятность принадлежности документа классу при условии, что документ содержит данное слово. По полученным в итоге вероятностным распределениям слов по классам производится кластеризация, то есть класс документов выступает в роли свойства (feature) для слова.

В 2000 году Слоним и Тишби предложили идею двухшаговой кластеризации текстов. На первом шаге их метод находит кластеры слов, а на втором шаге эти кластеры используются уже для кластеризации документов. Основная идея заключается в том, что можно сравнивать документы не на основе векторов релевантности по большому количеству слов, а на основе векторов релевантности по ограниченному набору кластеров. Это позволило не только ускорить алгоритм кластеризации, но и, как утверждают авторы, получить результаты, много превосходящие по точности и компактности похожие одношаговые алгоритмы. В целом, эту работу можно считать предпосылкой к использованию бикластерного анализа для текстовых данных, так как кластеризация здесь проводится по двум типам объектов.

Показать весь текст
Заполнить форму текущей работой