Помощь в написании студенческих работ
Антистрессовый сервис

Интеллектуальная версия метода К-средних

РефератПомощь в написанииУзнать стоимостьмоей работы

Многократно примененный к нормализованным на размах признаков данным о прибрежных городах, алгоритм выделения аномальной группы получил в конце концов 12 групп, из которых 5 — одиночки. Эти одиночки — не артефакт метода, они действительно имеют довольно странные комбинации значений признаков. Например, объект 19 (Лискерд, 7044 жителей) имеет неожиданно большое количество гостиниц (6) и служб… Читать ещё >

Интеллектуальная версия метода К-средних (реферат, курсовая, диплом, контрольная)

П4.6.2. Аномальные группы и интеллектуальный метод К-средних

Поскольку критерий метода /С-средних включает в себя требование поиска разбиения, которое состояло бы из больших аномальных кластеров, метод аномальной группы может быть использован для автоматического определения и количества кластеров, и начальных центров в методе /С-средних. Для этого будем последовательно применять его, сначала ко всему множеству, потом к множествам объектов, остающихся после удаления полученных аномальных групп. Главное — это не менять положения 0 после таких удалений. Затем — взять центры самых больших аномальных групп. Мы называем метод iC-срсдних, предваренный этим дополнением, «интеллектуальным» методом-средних, или иК-средних, потому что он освобождает пользователя от необходимости участия в инициализации.

В методе иК-средних пользователю предлагается задать числовой порог разрешения? с тем, чтобы отбросить все те аномальные группы, число элементов в которых равно или меньше t. Ничего не отбрасывается только при t = 0. При t- 1 все аномальные группы, состоящие только из одного объекта, одиночки, рассматриваются как не заслуживающие внимания и отправляются обратно в набор данных. Если t = 10, все группы, состоящие из 10 или менее объектов, отбрасываются, так как являются слишком маленькими и нс заслуживающими внимания при данном уровне разрешения; на больших данных нужны более крупные детали.

Часто при анализе данных аномальные группы-одиночки возникают из-за ошибок в данных, как, скажем, когда человеку приписан возраст 5000 лет. Выделение аномальных групп при этом может служить полезным средством контроля данных.

Рабочий пример 4.7. Итерации метода аномальных групп по данным о прибрежных городах

Многократно примененный к нормализованным на размах признаков данным о прибрежных городах, алгоритм выделения аномальной группы получил в конце концов 12 групп, из которых 5 — одиночки. Эти одиночки — не артефакт метода, они действительно имеют довольно странные комбинации значений признаков. Например, объект 19 (Лискерд, 7044 жителей) имеет неожиданно большое количество гостиниц (6) и служб такси (2). Список семи неодиночных кластеров представлен в табл. 4.17, в порядке их отделения алгоритмом выделения аномальной группы.

Данная структура кластеров нс сильно изменится, если согласно алгоритму иК-средних будет применен метод К-средних, инициализированный семью центрами нетривиальных аномальных групп (пять одиночек отправлены обратно в данные). Более того, похожие результаты были получены и при кластеризации набора всех 1300 «фермерских» английских городов, описанных 18 характеристиками их развития: неодиночные кластеры имеют вполне похожие центры.

Вопрос 4.13. Почему в табл. 4.16 вклад аномальной группы 4, равный 18,6%, больше, чем вклад предыдущей группы 3, 10,0%?

Ответ. Из-за гораздо большего количества объектов, 18 в группе 4 против б в группе 3. Даже если центр группы 3 значительно дальше от 0, чем центр группы 4 (а именно это причина того, что группа 3 получена раньше, чем группа 4), вклад рассчитывается с учетом количества объектов (см. формулу (4.12)).

Таблица 4.16

Группы, полученные итеративным применением алгоритма выделения аномальной группы на данных о прибрежных городах.

Номер группы.

Размер

Содержимое.

Вклад в разброс, %.

4, 9, 25, 26, 29, 35,41,44.

35,1.

5,8, 12, 16,21,43.

10,0.

2, 6, 7, 10,13, 14, 17, 22, 23, 24, 27, 30, 31, 33, 34, 37, 38, 40.

18,6.

3,32.

2,4.

1,11.

1,6.

39, 42.

1,7.

И.

20,45.

1,2.

Самостоятельная работа

4.6.3. Примените метод аномальных групп к стандартизованным данным об ирисах (см. табл. 1.2) в итеративном режиме.

Показать весь текст
Заполнить форму текущей работой