Использование кластеризации для анализа текстовых данных: Обзор

РефератПомощь в написанииУзнать стоимостьмоей работы

Сами матрицы релевантности могут представляться в бинарном виде (единица, если слово содержится в документе), но чаще исследователи пользуются метриками релевантности, которые учитывают частоту встречаемости слова как в самом документе, так и во всей коллекции: например, метрика TF-IDF или получившая широкое распространение в последнее время метрика Okapi BM25. Использование таких метрик… Читать ещё >

Использование кластеризации для анализа текстовых данных: Обзор (реферат, курсовая, диплом, контрольная)

Кластерный анализ текстовых данных

Интерес к анализу текстовых данных существует по двум основным направлениям: структурирование текстовых данных в целях, например, повышения качества результатов поисковых запросов, и семантический анализ текстов. Семантический анализ может применяться для извлечения фактов из текстов и построения базы знаний или автоматического построения отчётов.

Кластеризация при анализе текстов находит применение, например, в задачах визуализации информации, индексации и структурирования документов. Также нужно отметить, что кластеризация слов используется в задачах нахождения синонимов и классификации документов. Это позволяет говорить о том, что кластерный анализ является высоко-востребованной задачей в области анализа текстовых данных. В первую очередь это можно связать с тем, что текстовые данные по своей природе являются неструктурированными, а значит, сложно поддаются анализу в «сыром» виде.

Кластерный анализ документов чаще всего основывается на модели «мешка слов», в котором тексты рассматриваются как векторы принадлежности или векторы релевантности слов. При этом количество различных слов в документах может быть очень большим — десятки тысяч, а значит полная матрица релевантности слово/документ может содержать десятки или даже сотни миллионов элементов. Работа с матрицами такого размера является сложной вычислительной задачей, поэтому исследователи часто прибегают к методам извлечения ключевых слов или фильтруют слова на основе частоты их встречаемости в документах. Идея фильтрации заключается в том, чтобы исключить из рассмотрения слова, которые встречаются в слишком большом или, наоборот, слишком малом количестве текстов. Слова, встречающиеся в большом количестве текстов можно считать стоп-словами, так как туда обычно попадают такие слова, как «a», «the», «this» и так далее. В то же время, слова, которое встречаются в небольшом количестве документов можно считать шумом.

Что касается кластеризации слов, то схожесть между словами обычно вычисляется на основе документов, в которых они встречаются. Основная идея заключается в том, что слова, встречающиеся в схожем наборе документов должны принадлежать одному кластеру. Таким образом для слов строятся вектора релевантности, аналогичные векторам релевантности для текстов, и схожесть между словами определяется на основе таких векторов. Другой популярный подход к кластеризации слов использует коллекцию документов, где каждый документ принадлежит некоторому заранее определённому классу. Основываясь на такой коллекции для каждого слова и каждого класса считается вероятность принадлежности документа классу при условии, что документ содержит данное слово. По полученным в итоге вероятностным распределениям слов по классам производится кластеризация, то есть класс документов выступает в роли свойства (feature) для слова.

В 2000 году Слоним и Тишби предложили идею двухшаговой кластеризации текстов. На первом шаге их метод находит кластеры слов, а на втором шаге эти кластеры используются уже для кластеризации документов. Основная идея заключается в том, что можно сравнивать документы не на основе векторов релевантности по большому количеству слов, а на основе векторов релевантности по ограниченному набору кластеров. Это позволило не только ускорить алгоритм кластеризации, но и, как утверждают авторы, получить результаты, много превосходящие по точности и компактности похожие одношаговые алгоритмы. В целом, эту работу можно считать предпосылкой к использованию бикластерного анализа для текстовых данных, так как кластеризация здесь проводится по двум типам объектов.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Система дистанционного обучения

Таким образом, информационные и телекоммуникационные технологии снимают не только пространственно-временные ограничения в работе студента, но и ограничения в получении информации с сайта любого вуза и создают основу открытого обучения. Так, имеющаяся на Западе сеть открытых университетов позволяет студентам выбирать для изучения любые дисциплины со своих сайтов. После изучения и сдачи экзаменов…

Реферат