Помощь в написании студенческих работ
Антистрессовый сервис

Использование бикластеров в анализе текстовых данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Вообще, сам подход Диллона к разбиению графа на компоненты не являлся на тот момент новаторским. Идея нахождения минимального сбалансированного разреза в графе (Normalized Cut) была предложена в 2000 году Ши и Маликом и была использована Диллоном в его работе. Несмотря на это, основной заслугой Диллона является именно адаптация этой идеи к случаю с анализом текстовых данных, что позволило ему… Читать ещё >

Использование бикластеров в анализе текстовых данных (реферат, курсовая, диплом, контрольная)

В целом, бикластерный анализ может применяется, например, в тех случаях, когда необходимо кластеризовать два типа объектов вместе (между объектами задана метрика связи) или выявить внутренние связи между объектами одного типа.

Использование бикластеров в анализе текстовых данных в основном применяется в связи с симметричностью подходов к кластеризации слов на основе их совместной встречаемости в документах и кластеризации документов на основе встречаемых в них словах.

Пожалуй, первым, кто предложил использовать такую симметричность для параллельной кластеризации текстов и слов был Диллон в 2001 году. Бикластерный анализ (в английской литературе принято также называть анализ такого рода ко-кластеризацией — co-clustering) документов в том виде, в котором он был предложен Диллоном, позволял одновременно находить связанные кластеры слов и документов. Такой подход помогает посмотреть на структуру коллекции текстов сразу на двух уровнях: наборы документов и наиболее характерные для них слова. Сам алгоритм использует модель «мешка слов» для представления текстов, то есть объектом бикластеризации является матрица релевантности, а именно двудольный граф связей между словами и текстами, построенный на основе матрицы релевантности.

Вообще, сам подход Диллона к разбиению графа на компоненты не являлся на тот момент новаторским. Идея нахождения минимального сбалансированного разреза в графе (Normalized Cut) была предложена в 2000 году Ши и Маликом и была использована Диллоном в его работе. Несмотря на это, основной заслугой Диллона является именно адаптация этой идеи к случаю с анализом текстовых данных, что позволило ему находить связанные бикластеры слов и документов. Его работа дала толчок к использованию алгоритмов бикластеризации для анализа текстов.

В дальнейшем были предложены новые алгоритмы бикластеризации текстов совместно со словами, которые основываются на других моделях представления текстовых данных. Так, в 2006 году был представлен алгоритм бикластеризации текстов, основанный на представлении текстов в виде случайной смеси различных тем, где тема характеризуется вероятностью генерируемых ею слов (используемая в работе модель похожа на распространённую в анализе текстовых данных моделью Латентного Размещения Дирихле).

Если говорить о бикластеризации ключевых слов и словосочетаний, то кажется, что эта тема в научной литературе не раскрыта. Однако графы связей между ключевыми словосочетаниями (и группами ключевых словосочетаний), основанные на их совместной встречаемости в текстах, являются объектами изучения для многих исследователей, так как они позволяют наглядно визуализировать темы (домены), представленные в коллекции текстов. Например, в статье 2012 года Миркина, Черняк и Чугуновой используется таблица релевантности для построения графа зависимостей между словосочетаниями. В их исследовании строился граф зависимостей между ключевыми словами для текстов из области описания бизнес-процессов.

В дополнение, в последние годы большое внимание уделяется автоматическому построению таксономии по набору документов. Построение таксономии с помощью ключевых слов и словосочетаний даёт возможность лучше понимать тематическую структуру коллекции. Также таксономия может использоваться для изучения пользовательских запросов к поисковому двигателю — иерархия запросов позволяет понять, как лучше всего выстроить иерархию документов и повысить точность выдаваемых результатов. Спрос на автоматизацию построения таксономии объясняется ещё и тем, что создание таксономии вручную является довольно сложной и длительной работой, при этом со временем таксономия должна развиваться (в связи с появлением новых технологий и методов), а поддержка изменений тоже требует дополнительных ресурсов.

Бикластеры ключевых словосочетаний по нашим представлениям могут служить хорошей отправной точкой для автоматического построения как графов зависимостей между терминами, так и таксономии. Это связано с тем, что бикластеры можно интерпретировать как тематические блоки тесно связанных между собой понятий, при этом в бикластере проявляется чёткая зависимость одного множества объектов — словосочетаний — от другого (по построению), что позволяет естественным образом строить графы зависимостей.

Традиционным подходом к автоматическому построению таксономии является иерархическая кластеризация данных — ключевых словосочетаний. Иерархическая кластеризация, как следует из названия, выстраивает иерархию кластеров, то есть дерево, где корень дерева — это всё множество объектов, а чем ниже уровень, тем меньшей гранулярность обладают кластеры на этом уровне. Таким образом, родительские узлы в этом дереве представляют собой объединение всех дочерних кластеров, а листья — это кластеры наименьшей гранулярности. Можно видеть, что такая модель очень хорошо сочетается с концепцией таксономии, которая, как правило, является иерархической по структуре.

Использование бикластеров ключевых фраз позволяет посмотреть на задачу построения таксономии с другой стороны: бикластеры по своей структуре представляют нам уже сформированные связи между дочерними и родительскими узлами. Основной проблемой, при этом, является соединение таких связей в единое дерево.

Всё же, исследование задачи построения таксономии выходит за рамки данной работы, но мы исследуем другую похожую задачу: построение направленных графов связей между ключевыми словосочетаниями (произвольных графов — не только деревьев). Такие графы, как и таксономия, могут позволить изучить внутреннее тематическое устройство коллекции текстов.

Показать весь текст
Заполнить форму текущей работой