Помощь в написании студенческих работ
Антистрессовый сервис

Функционалы качества разбиения

РефератПомощь в написанииУзнать стоимостьмоей работы

Применение метода «ближнего соседа» позволило разделить страны мира на три кластера, причем два из них состоят из одного элемента, что не позволяет признать это разбиение оптимальным. Использование остальных методов привело к разбиению стран мира на два кластера. В табл. 6.3 представлено сравнение полученных результатов с использованием функционала качества разбиения. В предыдущем подпараграфе… Читать ещё >

Функционалы качества разбиения (реферат, курсовая, диплом, контрольная)

В предыдущем подпараграфе мы разобрали различные способы разбиения совокупности объектов на классы (кластеры). Поэтому представляет интерес задача сравнительного анализа качества этих способов разбиения, определенного на множестве всех возможных разбиений. Для этих целей используют функционалы качества разбиения, которые мы обозначим через Q (S).

Пусть выбрана метрика d в пространстве X и пусть S = (5, S2,…, Sp) — некоторое фиксированное разбиение наблюдений X, …, Х" на заданное число р классов б), б2,…, Sp. Под наилучшим разбиением S' понимаем такое разбиение, при котором достигается экстремум выбранного функционала качества.

Рассмотрим некоторые наиболее распространенные функционалы качества разбиения.

Взвешенная сумма мер внутриклассовых дисперсий (разброса наблюдений) определяется по формуле.

Функционалы качества разбиения.

где Функционалы качества разбиения. — вектор средних (центр тяжести) для группы 5/.

На рис. 6.10 показано расстояние между точкой х и центром тяжести класса / в разбиении S.

Расчет функционала качества.

Рис. 6.10. Расчет функционала качества.

Сумма квадратов попарных внутриклассовых расстояний между элементами определяется по формуле.

Функционалы качества разбиения.

или Функционалы качества разбиения.

Отметим, что существуют и другие функционалы качества разбиения. Выбор конкретной формы функционала Q (S) опирается на профессиональные, эмпирические соображения исследователя, а не на строго формализованную схему.

Пример 6.2

В табл. 6.2 представлены значения шести показателей, характеризующих условия жизни населения в 27 странах:

X, — потребление мяса и мясопродуктов на душу населения, кг;

Х-2 — потребление масла животного на душу населения, кг;

Х:! — оценка валового внутреннего продукта по паритету покупательной способности в некотором году на душу населения, % к США;

Л', расходы на здравоохранение, % от ВВП;

Xs — потребление фруктов и ягод на душу населения, кг;

X(i — потребление хлебных продуктов на душу населения, кг.

Таблица 6.2

Макроэкономические показатели уровня жизни населения для примера 6.2.

Страна.

Функционалы качества разбиения.

Функционалы качества разбиения.

Функционалы качества разбиения.

Функционалы качества разбиения.

Функционалы качества разбиения.

Функционалы качества разбиения.

Россия.

3,9.

20,4.

3,2.

Австралия.

2,6.

71,4.

8,5.

Австрия.

5,3.

78,7.

9,2.

Азербайджан.

4,1.

12.1.

3,3.

Армения.

3.7.

10.9.

3,2.

Белоруссия.

3,6.

20,4.

5,4.

Бельгия.

6.9.

79.7.

8,3.

Болгария.

3.0.

17,3.

5.4.

Великобритания.

3,5.

69,7.

7.1.

Венгрия.

1.7.

24,5.

6.0.

Германия.

6.8.

76,2.

8.6.

Греция.

1.0.

44,4.

5,7.

Грузия.

3.8.

11,3.

3.5.

Дания.

5.0.

79,2.

6.7.

Ирландия.

3.3.

57,0.

6.7.

Испания.

0.4.

54,8.

7,3.

Италия.

2,2.

72,1.

8.5.

Казахстан.

4.2.

13,4.

3,3.

Канада.

3,1.

79,9.

10.2.

Киргизия.

4,1.

11.2.

3.4.

Нидерланды.

3,4.

72,4.

8,7.

Португалия.

3,2.

48,6.

7,3.

США.

1.9.

100,0.

14,1.

Финляндия.

5,8.

63.9.

8.8.

Франция.

8.8.

77,5.

9.8.

Чехия.

8,2.

34.7.

1,9.

Япония.

— 10.

0.7.

83,5.

7.3.

Требуется провести классификацию стран по уровню жизни населения с использованием иерархических кластерных процедур, обосновать выбор лучшего разбиения с использованием функционала качества.

Решение

Для решения задачи объединения объектов в кластеры используем евклидову метрику, а также методы «ближнего соседа», «дальнего соседа», «средней связи» и центра тяжести.

Дендограммы для каждого метода приведены на рис. 6.11.

Применение метода «ближнего соседа» позволило разделить страны мира на три кластера, причем два из них состоят из одного элемента, что не позволяет признать это разбиение оптимальным. Использование остальных методов привело к разбиению стран мира на два кластера. В табл. 6.3 представлено сравнение полученных результатов с использованием функционала качества разбиения.

Таблица 6.3

Сравнение результатов классификации с использованием функционала качества разбиения Qi (взвешенная сумма мер внутриклассовых дисперсий).

Тип расстояния между группами объектов.

Значение функционала качества для заданного количества кластеров (Р = 2).

Метод «ближнего соседа» .

5608,2.

Метод «дальнего соседа» .

5709,1.

Метод центра тяжести.

4733,5.

Метод «средней связи» .

5657,1.

Сопоставление значений функционала качества позволяет сделать вывод о том, что лучшим является разбиение, полученное с использованием метода центра тяжести, когда было выделено два кластера. Первый кластер включает страны Западной и Центральной Европы, Северной Америки и Австралию, а второй кластер — Восточную Европу, Киргизию и Японию. Странам первого кластера соответствуют высокий уровень ВВП надушу населения, высокие расходы на здравоохранение, преобладание в рационе мясных изделий и фруктов. Страны второго кластера характеризуются низким значением ВПП на душу населения, невысокими расходами на здравоохранение и преобладанием в рационе хлебобулочных изделий.

Заметим, что остальные методы (методы «ближнего соседа», «дальнего соседа», «средней связи») имеют одинаковый состав кластеров, отличаясь от оптимального разбиения (с использованием принципа центра тяжести) только одним наблюдением — Японией. Причина заключается в том, что Япония, с одной стороны, имеет высокие уровень ВВП на душу населения и расходы на здравоохранение (что соответствует странам первого кластера), а с другой стороны, в рационе населения преобладают хлебобулочные изделия при низком потреблении мяса (что соответствует странам второго кластера).

Дендрограммы объединения объектов в кластеры.

Рис. 6.11. Дендрограммы объединения объектов в кластеры.

Рис. 6.11. Дендрограммы объединения объектов в кластеры.

Необходимо отметить, что согласно расчету функционалов качества разбиения Япония должна быть отнесена ко второму кластеру (функционал качества имеет минимальное значение), однако если выбирать наиболее устойчивый вариант разбиения, то Япония попадает в первый кластер (получено тремя способами), поэтому окончательный вариант решения этой задачи зависит от выбора исследователя, который должен исходить из цели и задач исследования и опираться на свое (экспертное) понимание сути процесса.

Показать весь текст
Заполнить форму текущей работой