Введение в многомерную статистику: кластер-анализ

РефератПомощь в написанииУзнать стоимостьмоей работы

Кластер представляет собой группу близких объектов в многомерном (в общем случае) пространстве. Кластер-анализ представляет собой набор алгоритмов разбиения совокупности объектов на кластеры. Такая операция называется кластеризацией. Обратите внимание на отличие кластеризации от классификации. В последнем случае мы также разбиваем объекты на несколько групп. Но содержательное основание такого… Читать ещё >

Введение в многомерную статистику: кластер-анализ (реферат, курсовая, диплом, контрольная)

До сих пор в фокусе нашего внимания находились статистические связи между переменными: мы выясняли, как одна или несколько независимых переменных влияют на зависимый признак. Однако существует и другой важный класс задач, связанных с выявлением пространственной структуры данных. Эти задачи решаются с помощью многомерных статистических методов, которые также называют пространственно-статистическими.

Основные принципы кластер-анализа

Еще в начале курса мы договорились, что структура — это совокупность отношений между объектами (глава 2). Когда мы говорим о пространстве, речь идет об одном определенном классе отношений — о расстояниях. Способ измерения расстояния между объектами в математике называется метрической функцией или метрикой.

Немного формальных определений (они пригодятся нам для того, чтобы суметь отличить расстояние от других отношений). Расстоянием (метрикой) р между точками А и В, принадлежащими одному и тому же множеству X (Ае Х, ВеХ), является такая вещественная числовая функция, которая удовлетворяет следующим условиям:

1) р (А, В) > 0. Расстояние неотрицательно.
2) р (А, В) = 0 тогда и только тогда, когда А = В. Расстояние равно нулю тогда и только тогда, когда А и В тождественны между собой, т. е. представляют один и тот же элемент множества X.
3) р (А, В) = р (В, А). Расстояние от А до В равно расстоянию от В до А.
4) р (А, В) + р (В, Q > р (А, С). Сумма расстояний от А до В и от В до С всегда больше или равна расстоянию от А до С.

Является ли метрикой, например, коэффициент корреляции? Нет, не является, поскольку не выполняются как минимум первые две аксиомы. Расстояние неотрицательно, а коэффициент корреляции может принимать отрицательные значения. Кроме того, в соответствии со второй аксиомой расстояние между тождественными объектами равно нулю, тогда как корреляция между идентичными переменными равна единице. При этом коэффициент корреляции может быть превращен в метрику — до смешного простым способом, который мы покажем ниже.

Таблица //. I

	X	У	Z
А
В
С	— 1.	— 2.	— 3.

Наиболее простой и широко распространенной метрической функцией является изучаемое уже в школьном курсе математики евклидово расстояние. Пусть даны три точки А, В, С со следующими координатами (см. табл. 11.1).

В евклидовой метрике расстояние между любой парой точек (например, А и В) будет рассчитываться по формуле.

Введение в многомерную статистику: кластер-анализ.

Для имеющихся данных это расстояние составит:

Легко убедиться, что евклидово расстояние соответствует всем аксиомам метрической функции.

Итак, формально пространство понимается как множество с определенной на нем метрической функцией. Проше говоря, массив данных превращается в пространство, как только мы решили, каким образом измерять расстояния между объектами. Что имеется в виду под «объектами»? Рассмотрим данные уже привычного вида, в которых зафиксированы результаты парламентских выборов 2011 г. в нескольких российских регионах (см. табл. 11.2).

Первое естественное предположение состоит в том, что объектами пространственного анализа являются регионы. С точки зрения многомерного анализа, в нашем примере каждый регион представляет собой точку с семью координатами — по числу политических партий. Определив способ.

	Справедливая Россия.	ЛДПР.	Патриоты России.	КПРФ.	Яблоко.	Единая Россия.	Правое дело.
Астраханская область.	14,6.	8,3.	0,7.	13,3.	1,0.	60,2.	0,3.
Республика Башкортостан.	5,5.	5,2.	0,5.	15,6.	1,2.	70,5.	0,4.
Республика Дагестан.	0,2.	0,0.	0,1.	7,9.	0,0.	91,4.	0,1.
Ивановская область.	15,6.	14,8.	1,2.	22,5.	3,5.	40,1.	0,8.
Липецкая область.	16,7.	14,4.	1,0.	22,9.	2,5.	40,1.	0,5.
Республика Мордовия.	1,3.	1,5.	0,1.	4,5.	0,3.	91,6.	0.1.
г. Москва.	12.1.	9,4.	1,3.	19,4.	8,6.	46,6.	0,8.
Мурманская область.	19,7.	18,1.	1,2.	21,8.	4,8.	32,0.	0,6.
г. Санкт-Петербург.	23,7.	10,3.	1,2.	15,3.	11,6.	35,4.	0,9.
Республика Северная Осетия.	6,0.	2,2.	0,4.	21,7.	0,3.	67,9.	0,3.
Республика Татарстан.	5,3.	3,5.	0,4.	10,6.	1.1.	77,8.	0,4.
Ямало-Ненецкий АО.	4.7.	13,6.	0.7.	6,6.	1,2.	71,7.	0,4.
Ярославская область.	22,6.	15,5.	1,8.	24,0.	4,8.	29,0.	0,7.

измерения расстояния между этими точками, мы получим регионы в пространстве политических партий. Политические партии становятся координатными осями — аналогами обычных OX, OY и OZ, только теперь их существенно больше (именно поэтому такое пространство и является многомерным). Рассчитав расстояния между регионами, мы поймем, какие из них близки друг к другу в электоральном пространстве рассматриваемых выборов, какие — удалены на большие дистанции.

Однако с таким же успехом мы можем рассматривать и политические партии в качестве объектов, а регионы — в качестве пространственных измерений. В этом случае табл. 11.2 будет представлять политические партии в пространстве регионов, и мы сможем определить близость (удаленность) партий друг от друга в этом пространстве.

В целом, пространственной статистике свойственно предположение, что геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических» (или «политических») состояний соответствующих объектов, их однородность. Аналогичным образом удаленность точек интерпретируется как их несхожесть, неоднородность.

Кластер представляет собой группу близких объектов в многомерном (в общем случае) пространстве. Кластер-анализ представляет собой набор алгоритмов разбиения совокупности объектов на кластеры. Такая операция называется кластеризацией. Обратите внимание на отличие кластеризации от классификации. В последнем случае мы также разбиваем объекты на несколько групп. Но содержательное основание такого разбиения при классификации известно нам заранее, а при кластеризации — нет. Лишь получив разбиение, основанное исключительно на расстояниях между объектами в многомерном пространстве, мы пытаемся ответить на вопрос: а почему именно эти объекты вошли в один кластер? Другими словами, в классификации выделение группирующих признаков предшествует работе с эмпирическими данными, а в кластеризации — наоборот.

Кластер-анализ — одно из наиболее мощных средств компактного описания и анализа пространственных отношений в больших массивах данных. К примеру, в парламентских выборах 17 декабря 1995 г. приняли участие 43 избирательных объединения, выборы проводились во всех 89 регионах России. Наша задача — разбить субъекты Федерации на несколько групп по признаку близости политических предпочтений избирателей, выявленных в ходе голосования за избирательные объединения и блоки. Исходные данные в этом случае составят таблицу с 89 столбцами и 43 строками, всего 3287 (43×89) наблюдений. Даже если мы проведем предварительное «сжатие» данных с помощью группировки или типологизации, — к примеру, объединим партии в несколько идеологически близких групп, — все равно решить поставленную задачу будет чрезвычайно трудно. Если, конечно, не применять кластер-анализ, который как раз и предназначен для решения подобного рода проблем.

Другим примером задачи, решаемой с помощью кластеранализа, является выделение стран мира, сходных по показателям социально-экономического развития: и стран, и показателей десятки и даже сотни. В целом, этот метод может помочь всегда, когда имеется набор объектов в многомерном пространстве, которые нужно упорядочить по признакам сходства или различия.

Как было отмечено выше, кластер-анализ объединяет несколько различных алгоритмов классификации. Наиболее распространены три алгоритма: иерархический кластеранализ (tree clustering, hierarchical clustering), метод A-средних (К-means) и двухходовое объединение (two-way joining). Мы рассмотрим первые два алгоритма, как более активно используемые в политическом анализе.

Показать весь текст

Заполнить форму текущей работой