Интеллектуальная версия метода К-средних
Многократно примененный к нормализованным на размах признаков данным о прибрежных городах, алгоритм выделения аномальной группы получил в конце концов 12 групп, из которых 5 — одиночки. Эти одиночки — не артефакт метода, они действительно имеют довольно странные комбинации значений признаков. Например, объект 19 (Лискерд, 7044 жителей) имеет неожиданно большое количество гостиниц (6) и служб… Читать ещё >
Интеллектуальная версия метода К-средних (реферат, курсовая, диплом, контрольная)
П4.6.2. Аномальные группы и интеллектуальный метод К-средних
Поскольку критерий метода /С-средних включает в себя требование поиска разбиения, которое состояло бы из больших аномальных кластеров, метод аномальной группы может быть использован для автоматического определения и количества кластеров, и начальных центров в методе /С-средних. Для этого будем последовательно применять его, сначала ко всему множеству, потом к множествам объектов, остающихся после удаления полученных аномальных групп. Главное — это не менять положения 0 после таких удалений. Затем — взять центры самых больших аномальных групп. Мы называем метод iC-срсдних, предваренный этим дополнением, «интеллектуальным» методом-средних, или иК-средних, потому что он освобождает пользователя от необходимости участия в инициализации.
В методе иК-средних пользователю предлагается задать числовой порог разрешения? с тем, чтобы отбросить все те аномальные группы, число элементов в которых равно или меньше t. Ничего не отбрасывается только при t = 0. При t- 1 все аномальные группы, состоящие только из одного объекта, одиночки, рассматриваются как не заслуживающие внимания и отправляются обратно в набор данных. Если t = 10, все группы, состоящие из 10 или менее объектов, отбрасываются, так как являются слишком маленькими и нс заслуживающими внимания при данном уровне разрешения; на больших данных нужны более крупные детали.
Часто при анализе данных аномальные группы-одиночки возникают из-за ошибок в данных, как, скажем, когда человеку приписан возраст 5000 лет. Выделение аномальных групп при этом может служить полезным средством контроля данных.
Рабочий пример 4.7. Итерации метода аномальных групп по данным о прибрежных городах
Многократно примененный к нормализованным на размах признаков данным о прибрежных городах, алгоритм выделения аномальной группы получил в конце концов 12 групп, из которых 5 — одиночки. Эти одиночки — не артефакт метода, они действительно имеют довольно странные комбинации значений признаков. Например, объект 19 (Лискерд, 7044 жителей) имеет неожиданно большое количество гостиниц (6) и служб такси (2). Список семи неодиночных кластеров представлен в табл. 4.17, в порядке их отделения алгоритмом выделения аномальной группы.
Данная структура кластеров нс сильно изменится, если согласно алгоритму иК-средних будет применен метод К-средних, инициализированный семью центрами нетривиальных аномальных групп (пять одиночек отправлены обратно в данные). Более того, похожие результаты были получены и при кластеризации набора всех 1300 «фермерских» английских городов, описанных 18 характеристиками их развития: неодиночные кластеры имеют вполне похожие центры.
Вопрос 4.13. Почему в табл. 4.16 вклад аномальной группы 4, равный 18,6%, больше, чем вклад предыдущей группы 3, 10,0%?
Ответ. Из-за гораздо большего количества объектов, 18 в группе 4 против б в группе 3. Даже если центр группы 3 значительно дальше от 0, чем центр группы 4 (а именно это причина того, что группа 3 получена раньше, чем группа 4), вклад рассчитывается с учетом количества объектов (см. формулу (4.12)).
Таблица 4.16
Группы, полученные итеративным применением алгоритма выделения аномальной группы на данных о прибрежных городах.
Номер группы. | Размер | Содержимое. | Вклад в разброс, %. |
4, 9, 25, 26, 29, 35,41,44. | 35,1. | ||
5,8, 12, 16,21,43. | 10,0. | ||
2, 6, 7, 10,13, 14, 17, 22, 23, 24, 27, 30, 31, 33, 34, 37, 38, 40. | 18,6. | ||
3,32. | 2,4. | ||
1,11. | 1,6. | ||
39, 42. | 1,7. | ||
И. | 20,45. | 1,2. |
Самостоятельная работа
4.6.3. Примените метод аномальных групп к стандартизованным данным об ирисах (см. табл. 1.2) в итеративном режиме.