Помощь в написании студенческих работ
Антистрессовый сервис

Параллельный эвристический алгоритм k-эталонов

РефератПомощь в написанииУзнать стоимостьмоей работы

Если данные описаны не полностью (шум велик), то выбирается еще одно направление — перпендикулярное к первому, так чтобы описать оставшееся изменение в данных и т. д. Метод главных компонент применяется к данным, записанным в виде матрицы X — прямоугольной таблицы чисел размерностью I строк и J столбцов. Поставим в соответствие объекту Оi код из k двоичных символов еi = (еi1, еi2, …, еik), где… Читать ещё >

Параллельный эвристический алгоритм k-эталонов (реферат, курсовая, диплом, контрольная)

Пусть для классификации имеется выборка O1, O2,…, On, причем i-ый объект характеризуется вектором признаков Хi = (x1, x2, …, xp). Рассмотрим р-мерное признаковое пространство вместе с функцией d (Xi, Xl), задающей в Rp расстояние (либо степень близости).

I) Выберем k эталонов X1*, X2*,…, Xk* и порог d0.

II) Поставим в соответствие объекту Оi код из k двоичных символов еi = (еi1, еi2, …, еik), где еil = 1, если d (Xi, Xl)? d0, и еil = 0 в противном случае.

Разобьем выборку на классы, отнесся к одному из классов объекты с одинаковым кодом. В зависимости от порога d0 и геометрии выборки число классов может варьироваться от 1 до 2k. После анализа разбиения выборки на классы исследователь может уточнить выбор эталонов и перейти к следующей итерации алгоритма. Набор эталонов можно составлять из случайно выбранных точек.

Метод главных компонент: аппроксимация данных линейными многообразиями

Метод главных компонент применяется к данным, записанным в виде матрицы X — прямоугольной таблицы чисел размерностью I строк и J столбцов.

Матрица данных.

Рис. 2. Матрица данных

Традиционно строки этой матрицы называются образцами. Они нумеруются индексом i, меняющимся от 1 до I. Столбцы называются переменными, и они нумеруются индексом j= 1, …, J.

Цель МГК — извлечение из этих данных нужной информации. Что является информацией, зависит от сути решаемой задачи. Данные могут содержать нужную нам информацию, они даже могут быть избыточными. Однако, в некоторых случаях, информации в данных может не быть совсем.

Размерность данных — число образцов и переменных — имеет большое значение для успешной добычи информации. Лишних данных не бывает — лучше, когда их много, чем мало.

Передадим суть метода главных компонент, используя интуитивно-понятную геометрическую интерпретацию. Начнем с простейшего случая, когда имеются только две переменные x1 и x2. Такие данные легко изобразить на плоскости.

Графическое представление двумерных данных.

Рис. 3. Графическое представление двумерных данных

Каждой строке исходной таблицы (т.е. образцу) соответствует точка на плоскости с соответствующими координатами. Они обозначены пустыми кружками на Рис. 3. Проведем через них прямую, так, чтобы вдоль нее происходило максимальное изменение данных. На рисунке эта прямая выделена синим цветом; она называется первой главной компонентой. Затем спроецируем все исходные точки на эту ось. Получившиеся точки закрашены красным цветом. Теперь можно сделать предположение, что на самом деле все экспериментальные точки и должны были лежать на этой новой оси. Просто какие-то неведомые силы отклонили их от правильного, идеального положения. Тогда все отклонения от новой оси можно считать шумом, т. е. ненужной нам информацией. Проверить шум ли это, или все еще важная часть данных, можно поступив с этими остатками так же, как поступили с исходными данными — найти в них ось максимальных изменений. Она называется второй главной компонентой. И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т. е. случайным хаотическим набором величин.

В общем, многомерном случае, процесс выделения главных компонент происходит так:

  • 1. Ищется центр облака данных, и туда переносится новое начало координат — это нулевая главная компонента (синяя точка на рис.4).
  • 2. Выбирается направление максимального изменения данных — это первая главная компонента.
  • 3. Если данные описаны не полностью (шум велик), то выбирается еще одно направление — перпендикулярное к первому, так чтобы описать оставшееся изменение в данных и т. д.
Графическое представление метода главных компонент.

Рис. 4. Графическое представление метода главных компонент

Параллельный эвристический алгоритм k-эталонов.

МГК начинался с задачи наилучшей аппроксимации конечного множества точек прямыми и плоскостями. Пусть дано конечное множество векторов x1, x2,…, xm Rn. Для каждого k = 0, 1, …, n — 1 среди всех k-мерных линейных многообразий в Rn найти такое Lk Rn, что сумма квадратов уклонений xI от Lk минимальна:

Параллельный эвристический алгоритм k-эталонов.
Параллельный эвристический алгоритм k-эталонов.
Параллельный эвристический алгоритм k-эталонов.
Параллельный эвристический алгоритм k-эталонов.

где — евклидово расстояние от точки до линейного многообразия. Всякое k-мерное линейное многообразие в Rn может быть задано множеством линейных комбинаций Lk =, где bi пробегают вещественную прямую R, a0 Rn , — ортонормированный набор векторов. В координатной форме:

Параллельный эвристический алгоритм k-эталонов.
Параллельный эвристический алгоритм k-эталонов.
Параллельный эвристический алгоритм k-эталонов.

Решение задачи аппроксимации для k = 0,1, …, n — 1 даётся набором вложенных линейных многообразий L0 L1 L2 … Ln-1. Эти линейные многообразия определяются ортонормированным набором векторов (векторами главных компонент) и вектором a0:

Параллельный эвристический алгоритм k-эталонов.
Параллельный эвристический алгоритм k-эталонов.

Это выборочное среднее:. Векторы главных компонент могут быть найдены как решения однотипных задач оптимизации:

Параллельный эвристический алгоритм k-эталонов.

1) централизуем данные:. Теперь ;

Параллельный эвристический алгоритм k-эталонов.

2) находим первую главную компоненту как решение задачи:

Параллельный эвристический алгоритм k-эталонов.

Если решение не единственно, то выбираем одно из них.

3) Вычитаем из данных проекцию на первую главную компоненту:

Параллельный эвристический алгоритм k-эталонов.

;

4) Находим вторую главную компоненту как решение задачи:

Параллельный эвристический алгоритм k-эталонов.

Если решение не единственно, то выбираем одно из них.

2k-1) Вычитаем проекцию на (k-1)-ую главную компоненту:

Параллельный эвристический алгоритм k-эталонов.

;

2k) находим k-ую главную компоненту:

Параллельный эвристический алгоритм k-эталонов.

геометрический зерно пшеница кластеризация Если решение не единственно, то выбирается одно из них.

Показать весь текст
Заполнить форму текущей работой