Методы кластеризации на основе элементов интеллектуального анализа данных
В целях формирования критериев попадания университетов в различные кластеры эффективно использование подхода па основе построения «дерева решений» па базе одного из самых известных и широко используемых алгоритмов построения деревьев классификации С4.5, разработанного Джоном Квинланом. Алгоритм С4.5 является модификацией алгоритма ID3 (Iterative Dichotomiser3). В табл. 18.2.3 представлены номера… Читать ещё >
Методы кластеризации на основе элементов интеллектуального анализа данных (реферат, курсовая, диплом, контрольная)
Самоорганизующиеся карты Кохонена и их применение для анализа данных экономической природы.
Основной принцип действия карт Кохонсна — это преобразование поступающих векторов-сигналов в дискретную карту. Нейроны помещаются в узлах решетки и в ходе конкурентного процесса избирательно настраиваются на различные входные сигналы. Положения настроенных нейронов упорядочиваются по отношению к друг другу так, что на решетке создается значимая система координат.
Основной итерационный алгоритм Кохонена:
1) выбор нейрона-победителя (нейрона, который расположен ближе всего к входному примеру). Нейрон-победитель (с индексом k* и весом wk.) выбирается так, что его вектор весов wt. находится ближе к данному входному вектору Xj, чем у всех остальных нейронов:
где а = у]а^ +а22 + … + а] — евклидова норма-мерного пространства;
2) корректировка весов нейронов проводится так, чтобы они стали «ближе» к входному примеру.
где q, q — 1 — текущая и предыдущая итерации алгоритма; р — темп обучения, который снижается в процессе обучения.
После выявления нейрона-победителя модифицируются веса не только этого нейрона, но и близких к нему векторов (расположенных пространственно близко в рамках решетки):
Аналогично выполняется перебор всех точек данных — для каждой находится ближайшая точка искусственной нейронной сети (ИНС) и часть нейронов сети подтягивается к этой точке. Чем дальше от победителя конкретный нейрон, тем меньше его смещение. Вся сеть, таким образом, смещается в сторону скопления точек и распределяется между ними, покрывая плоской картой многомерные данные.
Полученную классификацию можно делать более или менее подробной в зависимости от требований — регулируют число кластеров или задают порог близости отдельных групп, получая практически с любой степенью подробности многоуровневую классификацию.
Исследования фондовых рынков с помощью карт Кохонена демонстрируют существенные преимущества по сравнению с другими методами анализа. Данный метод является более точным и гибким в задачах кластеризации большого объема многомерных плохо структурированных данных, чем, например, метод ультрамстрических пространств, что показано А. А. Жеребцовым и Ю. А. Купериным в их статье «Исследования современных рынков»[1]. Результаты кластеризации индекса NASDAQ 100, полученные с помощью карт Кохонена, оказались более понятными и естественными, в отличие от результатов, полученных с помощью метода ультраметрических пространств, которые оказались с размытой структурой.
В рамках решения задачи кластеризации модели на основе ИНС позволяют получить кроме результатов в численной форме (в виде состояний нейронов выходного слоя) визуализацию результатов — построение самоорганизующихся карт Кохонена, которые схематично в виде двумерных картинок представляют итоговое состояние соответствующей обученной нейронной сети. Изучаемым образцам, представляющим собой многомерные векторы, сопоставляются определенные участки на полученных картах, при этом векторы, схожие в исходном многомерном пространстве, оказываются рядом и на картах. Для того чтобы отразить относительную величину того или иного компонента вектора, соответствующие участки карты окрашиваются в некоторый цвет в зависимости от выбранной цветовой схемы.
Пример 18.2.1.
Использование самоорганизующихся карт Кохонена для сегментации университетов различных стран на основе показателей деятельности, на основе информации из базы данных InCites о профилях университетов, представленной Thomson Reuters
Исходные данные: общее количество университетов, представленных в базе InCites. — 714.
Для проведения анализа были выбраны пять показателей (табл. 18.2.1), характеризующих различные направления деятельности университетов, 13 из которых используются при расчете рейтинга THE, девять — при расчете рейтинга RUR, три — отражают масштаб учебного заведения и абсолютные результаты его деятельности.
Показатели деятельности вузов.
Таблица 18.2.1
№ п/п. | Индикатор базы InCites | Рейтинг, в котором используется показатель. |
Acad, staff int/Acad. staff | THE/RUR | |
Inst, income/Stdnt | RUR | |
Papers | ||
Res. income/Acad, staff-norm | THE | |
Stdnt. int/Stdnt | THE/RUR |
Построение модели на основе самоорганизующейся карты Кохонена.
Цель: кластеризация университетов, но показателям деятельности с точки зрения их привлекательности для абитуриентов — выделение групп университетов, которые могут быть охарактеризованы как мировые лидеры; университеты, занимающие средние позиции; отстающие.
Используемые данные: данные по показателям 517 университетов, для которых имеется информация по всем пяти критериям за 2011 г.
В качестве входных переменных при кластеризации используются следующие показатели, которые отражают результаты деятельности университета:
- • Acad, staff int/Acad. staff (иностранный академический штат/акадсмический штат);
- • Inst, income/Stdnt (доходы уииверситета/количество обучающихся);
- • Papers (общее количество публикаций согласно базе данных научного цитирования Web of Science за год);
- • Res. income/Acad, staff-пот (доходы от научной деятельности/академический штат — нормализованный);
- • Stdnt. int/Stdnt (количество иностранных обучающихся/количество обучающихся).
Инструментальное средство: аналитическая платформа Deductor — программный продукт, разработанный российской компанией.
Параметры модели: подобраны эвристическим путем с учетом рекомендаций по выбору оптимальной архитектуры нейронной сети и необходимостью высокого качества визуализации и интерпретации результатов.
Размерность карты: 12×16 шестиугольных ячеек, узлы которой представлены искусственными нейронами.
Выбранное количество кластеров, позволяющее произвести анализ и интерпретацию результатов, — семь.
Качество обучения: 78% распознанных примеров на обучающем множестве, 42% — на тестовом.
На рис. 18.2.1 приведены результаты кластеризации для данных за 2011 г.
Puc. 18.2.1. Кластеризация университетов по показателям деятельности Результаты моделирования. Каждому из сформированных кластеров, можно дать обобщенное описание:
- • 1, 3 и 4-й кластеры с университетами-лидерами. Всего в перечисленные кластеры вошло 48 университетов. Например, 1-й кластер — расположен в правом нижнем углу каждой из кар г — характеризуется очень высоким показателем доходов в расчете на одного обучающегося (Inst, income/Stdnt). Это следует из анализа цветовой гаммы на верхней средней карте, на которой ячейки, отвечающие 1-му кластеру, окрашены в более светлый цвет, соответствующие высоким значениям показателя Inst, income/ Stdnt. Также университетам, сформировавшим 1-й кластер, свойственны высокое значение Res. income/Acad, staff-norm и значения выше среднего, но остальным трем выбранным показателям. В табл. 18.2.2 представлен перечень университетов, вошедших в 4-й кластер;
- • 6-й кластер — университеты, имеющие достаточно высокое значение показателя Res. income/Acad, staff-norm, что говорит о нацеленности университетов на исследовательскую деятельность, — 47 университетов;
Перечень университетов 4-го кластера.
Таблица 18.2.2
№ п/п. | Название университета (согласно базе InCites) |
Emory Univ | |
London Sch Hyg Trop Med | |
Juntendo Univ | |
MIT | |
Peking Univ | |
Princeton Univ | |
Stanford Univ | |
Univ Rochester | |
Vanderbilt Univ | |
Yale Univ |
- • 0-й кластер — университеты, занимающие позиции «выше среднего», — 86 университетов;
- • 2-й кластер — университеты, занимающие «средние» позиции, — 49 университетов;
- • 5-й кластер — университеты, занимающие позиции «ниже среднего». — 287 университетов.
В табл. 18.2.3 представлены номера кластеров, соответствующие российским университетам, откуда следует, что только два университета отнесены к кластерам, которые характеризуются достаточно высоким уровнем привлекательности, — МГУ и Первый Московский государственный медицинский университет им. И. М. Сеченова.
В целях формирования критериев попадания университетов в различные кластеры эффективно использование подхода па основе построения «дерева решений» па базе одного из самых известных и широко используемых алгоритмов построения деревьев классификации С4.5, разработанного Джоном Квинланом. Алгоритм С4.5 является модификацией алгоритма ID3 (Iterative Dichotomiser3).
Таблица 18.23
Распределение российских университетов по кластерам.
Название университета (согласно базе InCites) | Номер кластера. |
Bauman Moscow State Tech Univ | |
Lobachevsky State Univ Nizhni Novgorod | |
Novosibirsk State Univ | |
Siberian Fed Univ | |
St. Peteisburg State Univ | |
Tomsk Polytech Univ | |
Tomsk State Univ | |
Ural Fed Univ | |
Mordovian State Univ | |
Moscow Inst Steel & Alloys | |
Moscow Eng Phys Inst | |
Moscow Physics & Technics Inst | |
Lomonosov Moscow State UnivSechenov Moscozv | |
Med Acad |
и дополнительно обладает возможностями работы с атрибутами, представленными непрерывными величинами. Алгоритм реализует итерацию, в рамках которой производятся отсечения ветвей дерева, оказывающих наименьшее влияние на результаты классификации, что позволяет оптимизировать структуру итогового дерева решений. На рис. 18.2.2 представлены правила формирования кластеров, сформированные в результате использования алгоритма С4.5, отражающие значения показателей научной деятельности, которые необходимо достичь для попадания в группы лидирующих университетов.
Рис. 18.2.2. Правила формирования кластеров на основе построения.
дерева решений Основные критерии попадания в кластеры университетов, занимающих позиции «выше среднего» с точки зрения результатов научной деятельности, приведены ниже:
- 1) для попадания в 1-й кластер необходимо достижение очень высокого значения показателя Inst, income/Stdnt — доходы университета в расчете на одного обучающегося в год должны составлять более 176 тыс. долл, но состоянию на 2011 г.;
- 2) для попадания в 3-й кластер — достижение высокого значения показателя Acad, staff int/Acad. staff > 0,565, что соответствуют высокому уровню интернационализации университета;
- 3) для попадания в 4-й кластер — достижение одновременно значений показателей:
- • Acad, staff int/Acad. staff > 0,195,
- • Papers >3318, что соответствует высокому уровню публикационной активности.
- [1] URL: http://www.vestnikmanagement.spbu.ru/archive/pdty22.pdf