Помощь в написании студенческих работ
Антистрессовый сервис

Кластеризация информации. 
Методы подготовки персонализированного контента

РефератПомощь в написанииУзнать стоимостьмоей работы

Обладает линейно зависимыми требованиями к месту хранения данных и временную сложность для данных высокой размерности. Подходы на основе систем искусственного интеллекта. Наиболее известным представителем является алгоритм C-means. Глобального критерия оптимизации на основе максимизации градиента высоты гистограммы кластера; Нечеткость при определении объекта в кластер позволяет классифицировать… Читать ещё >

Кластеризация информации. Методы подготовки персонализированного контента (реферат, курсовая, диплом, контрольная)

Кластеризация (или кластерный анализ) — это задача разбиения множества объектов на группы, называемые кластерами[2]. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных групп должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

Кластеризация информации. Методы подготовки персонализированного контента.
Кластеризация информации. Методы подготовки персонализированного контента.
Кластеризация информации. Методы подготовки персонализированного контента.
Кластеризация информации. Методы подготовки персонализированного контента.
Кластеризация информации. Методы подготовки персонализированного контента.
Кластеризация информации. Методы подготовки персонализированного контента.

Формально задача кластеризации звучит следующим образом[5]. Пусть — множество объектов, — множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами. Имеется конечная обучающая выборка объектов. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике, а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается номер кластера .

Кластеризация информации. Методы подготовки персонализированного контента.

Применение кластерного анализа в общем виде сводится к следующим этапам:

  • 1. Определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости — нормализация значений переменных.
  • 2. Вычисление значений меры сходства между объектами.
  • 3. Применение метода кластерного анализа для создания групп сходных объектов (кластеров).

Алгоритмы кластеризации можно классифицировать по методам следующим образом[5]:

  • — Иерархический подход (направление «снизу-вверх» или «сверху-вниз»). Результатом работы иерархического алгоритма является дендограмма (иерархия), позволяющая разбить исходное множество объектов на любое число кластеров. Два наиболее популярных алгоритма строят разбиение «снизу-вверх»: Single-link на каждом шаге объединяет два кластера с наименьшим расстоянием между двумя любыми представителями, а Complete-link — между двумя наиболее удалёнными представителями. Самым популярным иерархическим алгоритмом с направлением «сверху-вниз» является алгоритм минимального покрывающего дерева, который в свою очередь является представителем семейства алгоритмов поиска кратчайшего пути в графе.
  • — Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k классов. Наиболее известным представителем является алгоритм k-means.
  • — Подходы на основе систем искусственного интеллекта. Наиболее известным представителем является алгоритм C-means.

Всего существует девять наиболее распространённых алгоритмов кластеризации информации[6]: CURE, BIRCH, MST, k-means, PAM, CLOPE, HCM, Fuzzy C-means, WaveCluster. Достоинства и недостатки этих алгоритмов приведены в таблице 1.

Таблица 1.

Метод.

Достоинства.

Недостатки.

CURE.

  • — кластеризация высокого уровня даже при наличии выбросов;
  • — выделение кластеров сложной формы и различных размеров;
  • — работает только с числовыми данными;
  • — необходимость в задании пороговых значений и количества кластеров.

— обладает линейно зависимыми требованиями к месту хранения данных и временную сложность для данных высокой размерности.

BIRCH.

  • — двухступенчатая кластеризация;
  • — кластеризация больших объемов данных;
  • — работает на ограниченном объеме памяти;
  • — является локальным алгоритмом;
  • — может работать при одном сканировании входного набора данных;
  • — данные могут быть неодинаково распределены по пространству;
  • — обрабатывает области с большой плотностью как единый кластер.
  • — работает только с числовыми данными;
  • — хорошо выделяет только кластеры выпуклой или сферической формы;
  • — необходимость в задании пороговых значений.

MST.

— работает с большими.

— чувствителен к.

наборами произвольных данных;

  • — выделяет кластеры произвольной формы (выпуклой и вогнутой форм);
  • — выбирает из нескольких оптимальных решений лучшее.

выбросам.

k-means

— простота использования;

— чувствителен к выбросам;

  • — скорость работы;
  • — понятность и прозрачность алгоритма.
  • — медленная работа на больших объёмах;
  • — необходимо задавать количество кластеров;
  • — невозможность применения на данных, где есть пересекающиеся кластеры;
  • — не гарантируется достижение глобального минимума;
  • — работа алгоритма сильно зависит от выбранных начальных центров кластеров,

оптимальное значение которых не может быть известно заранее.

PAM.

  • — простота использования;
  • — скорость работы;
  • — понятность и прозрачность алгоритма;
  • — менее чувствителен к выбросам в сравнении с k-means.
  • — необходимо задавать количество кластеров;
  • — медленная работа на больших базах данных.

CLOPE.

  • — кластеризация огромных наборов категорийных данных;
  • — масштабируемость;
  • — скорость работы;
  • — качество кластеризации, что достигается использованием

глобального критерия оптимизации на основе максимизации градиента высоты гистограммы кластера;

  • — легко рассчитывается и интерпретируется;
  • — малый объём

ресурсов;

  • — автоматически подбирает количество кластеров;
  • — регулируется одним параметром — коэффициентом отталкивания.

HCM.

  • — легкость реализации;
  • — вычислительная простота.
  • — задание количества кластеров;
  • — отсутствие гарантии в нахождении оптимального решения.

Fuzzy C-means.

— нечеткость при определении объекта в кластер позволяет классифицировать пограничные объекты.

  • — вычислительная сложность;
  • — задание количества кластеров;
  • — неопределённость с выбросами.

WaveCluster.

  • — может обнаруживать кластеры произвольных форм;
  • — не чувствителен к шумам.
  • — сложность реализации;
  • — применим только к данным низкой размерности.

Так как в настоящее время наиболее востребованными являются вероятностные подходы и подходы на основе нейронных сетей[7][8], далее будут рассмотрены алгоритмы k-means и C-means.

Показать весь текст
Заполнить форму текущей работой