Помощь в написании студенческих работ
Антистрессовый сервис

Сеточные алгоритмы. 
Актуальные проблемы кластерного анализа

РефератПомощь в написанииУзнать стоимостьмоей работы

Может обнаруживать кластеры произвольных форм. Автоматически подбирает количество кластеров. Применим только к данным низкой размерности. Необходимость в задании пороговых значений. Необходимо задавать количество кластеров; Необходимо задавать количество кластеров. Медленная работа на больших базах данных. Легко рассчитывается и интерпретируется. Работает на ограниченном объеме памяти. Понятность… Читать ещё >

Сеточные алгоритмы. Актуальные проблемы кластерного анализа (реферат, курсовая, диплом, контрольная)

Алгоритм WaveCluster.

Данные алгоритм относится к группе сеточных алгоритмов (Grid-based).

В основе алгоритма лежит метод волновых преобразований. На первом шаге работы, алгоритм обобщает данные, накладывая на пространство данных многомерную решетку. Последующие шаги анализируют уже не конкретные точки, а их обобщённые характеристики в каждой ячейке. После этого алгоритм применяет волновые преобразования к обобщённым данным.

Среди сеточных алгоритмов так же выделяют STING, OptiGrid, GRIDCLUS, GDILC.

Ниже, я хотел бы провести сравнительных анализ некоторых методов кластеризации, о которых ранее упоминалось.

Метод.

Достоинства.

Недостатки.

CURE.

  • — Кластеризация высокого уровня даже при наличии выбросов
  • — Выделение кластеров сложной формы и различных размеров
  • — Обладает линейно зависимыми требованиями к месту хранения данных и временную сложность для данных высокой размерности

— Необходимость в задании пороговых значений и количества кластеров.

BIRCH.

  • — Двухступенчатая кластеризация, кластеризация больших объемов данных
  • — Работает на ограниченном объеме памяти
  • — Является локальным алгоритмом
  • — Может работать при одном сканировании входного набора данных
  • — Данные могут быть неодинаково распределены по пространству
  • — Обрабатывает области с большой плотностью как единый кластер
  • — Работает только с числовыми данными
  • — Хорошо выделяет только кластеры выпуклой или сферической формы
  • — Необходимость в задании пороговых значений

MST.

  • — выделяет кластеры произвольной формы (выпуклой и вогнутой форм)
  • — выбирает из нескольких оптимальных решений самое оптимальное

— чувствителен к выбросам.

k-средних.

  • — Простота использования
  • — Скорость работы
  • — Понятность и прозрачность алгоритма
  • — Чувствителен к выбросам
  • — Медленная работа на больших объёмах
  • — Необходимо задавать количество кластеров
  • — Невозможность применения алгоритма на данных, где имеются пересекающиеся кластеры
  • — Не гарантируется достижение глобального минимума
  • — Работа алгоритма сильно зависит от выбранных начальных центров кластеров, оптимальное значение которых не может быть известно заоанее

PAM.

  • — Простота использования
  • — Скорость работы
  • — Понятность и прозрачность алгоритма
  • — Менее чувствителен к выбросам в сравнении с k-means
  • — необходимо задавать количество кластеров;
  • — медленная работа на больших базах данных

CLOPE.

  • — масштабируемость
  • — скорость работы
  • — качество кластеризации, что достигается использованием глобального критерия оптимизации на основе максимизации градиента высоты гистограммы кластера.
  • — легко рассчитывается и интерпретируется
  • — малый объём ресурсов
  • — автоматически подбирает количество кластеров
  • — регулируется одним единственным параметром — коэффициентом отталкивания.

Алгоритм HCM.

  • — Легкость реализации
  • — Вычислительная простота
  • — задание количества кластеров
  • — отсутствие гарантии в нахождении оптимального решения

Fuzzy.

C-means.

— Нечеткость при определении объекта в кластер позволяет классифицировать пограничные объекты.

  • — Вычислительная сложность
  • — Задание количества кластеров
  • — Неопределённость с выбросами

WaveCluster.

  • — Может обнаруживать кластеры произвольных форм
  • — Не чувствителен к шумам
  • — Сложность реализации
  • — Применим только к данным низкой размерности

На первый взгляд, кажется, что результаты, полученные в результате кластеризации не имеют статистического обоснования. С другой стороны, при большом разнообразии вариантов понятия кластера, нестатическая интерпретация полученных результатов даёт возможность получить оценку, которая при использовании других методов бывает затруднительна.

Показать весь текст
Заполнить форму текущей работой