Помощь в написании студенческих работ
Антистрессовый сервис

Методы кластеризации на основе элементов интеллектуального анализа данных

РефератПомощь в написанииУзнать стоимостьмоей работы

В целях формирования критериев попадания университетов в различные кластеры эффективно использование подхода па основе построения «дерева решений» па базе одного из самых известных и широко используемых алгоритмов построения деревьев классификации С4.5, разработанного Джоном Квинланом. Алгоритм С4.5 является модификацией алгоритма ID3 (Iterative Dichotomiser3). В табл. 18.2.3 представлены номера… Читать ещё >

Методы кластеризации на основе элементов интеллектуального анализа данных (реферат, курсовая, диплом, контрольная)

Самоорганизующиеся карты Кохонена и их применение для анализа данных экономической природы.

Основной принцип действия карт Кохонсна — это преобразование поступающих векторов-сигналов в дискретную карту. Нейроны помещаются в узлах решетки и в ходе конкурентного процесса избирательно настраиваются на различные входные сигналы. Положения настроенных нейронов упорядочиваются по отношению к друг другу так, что на решетке создается значимая система координат.

Основной итерационный алгоритм Кохонена:

1) выбор нейрона-победителя (нейрона, который расположен ближе всего к входному примеру). Нейрон-победитель (с индексом k* и весом wk.) выбирается так, что его вектор весов wt. находится ближе к данному входному вектору Xj, чем у всех остальных нейронов:

Методы кластеризации на основе элементов интеллектуального анализа данных.

где а = у]а^ +а22 + … + а] — евклидова норма-мерного пространства;

2) корректировка весов нейронов проводится так, чтобы они стали «ближе» к входному примеру.

Методы кластеризации на основе элементов интеллектуального анализа данных.

где q, q — 1 — текущая и предыдущая итерации алгоритма; р — темп обучения, который снижается в процессе обучения.

После выявления нейрона-победителя модифицируются веса не только этого нейрона, но и близких к нему векторов (расположенных пространственно близко в рамках решетки):

Методы кластеризации на основе элементов интеллектуального анализа данных.

Аналогично выполняется перебор всех точек данных — для каждой находится ближайшая точка искусственной нейронной сети (ИНС) и часть нейронов сети подтягивается к этой точке. Чем дальше от победителя конкретный нейрон, тем меньше его смещение. Вся сеть, таким образом, смещается в сторону скопления точек и распределяется между ними, покрывая плоской картой многомерные данные.

Полученную классификацию можно делать более или менее подробной в зависимости от требований — регулируют число кластеров или задают порог близости отдельных групп, получая практически с любой степенью подробности многоуровневую классификацию.

Исследования фондовых рынков с помощью карт Кохонена демонстрируют существенные преимущества по сравнению с другими методами анализа. Данный метод является более точным и гибким в задачах кластеризации большого объема многомерных плохо структурированных данных, чем, например, метод ультрамстрических пространств, что показано А. А. Жеребцовым и Ю. А. Купериным в их статье «Исследования современных рынков»[1]. Результаты кластеризации индекса NASDAQ 100, полученные с помощью карт Кохонена, оказались более понятными и естественными, в отличие от результатов, полученных с помощью метода ультраметрических пространств, которые оказались с размытой структурой.

В рамках решения задачи кластеризации модели на основе ИНС позволяют получить кроме результатов в численной форме (в виде состояний нейронов выходного слоя) визуализацию результатов — построение самоорганизующихся карт Кохонена, которые схематично в виде двумерных картинок представляют итоговое состояние соответствующей обученной нейронной сети. Изучаемым образцам, представляющим собой многомерные векторы, сопоставляются определенные участки на полученных картах, при этом векторы, схожие в исходном многомерном пространстве, оказываются рядом и на картах. Для того чтобы отразить относительную величину того или иного компонента вектора, соответствующие участки карты окрашиваются в некоторый цвет в зависимости от выбранной цветовой схемы.

Пример 18.2.1.

Использование самоорганизующихся карт Кохонена для сегментации университетов различных стран на основе показателей деятельности, на основе информации из базы данных InCites о профилях университетов, представленной Thomson Reuters

Исходные данные: общее количество университетов, представленных в базе InCites. — 714.

Для проведения анализа были выбраны пять показателей (табл. 18.2.1), характеризующих различные направления деятельности университетов, 13 из которых используются при расчете рейтинга THE, девять — при расчете рейтинга RUR, три — отражают масштаб учебного заведения и абсолютные результаты его деятельности.

Показатели деятельности вузов.

Таблица 18.2.1

№ п/п.

Индикатор базы InCites

Рейтинг, в котором используется показатель.

Acad, staff int/Acad. staff

THE/RUR

Inst, income/Stdnt

RUR

Papers

Res. income/Acad, staff-norm

THE

Stdnt. int/Stdnt

THE/RUR

Построение модели на основе самоорганизующейся карты Кохонена.

Цель: кластеризация университетов, но показателям деятельности с точки зрения их привлекательности для абитуриентов — выделение групп университетов, которые могут быть охарактеризованы как мировые лидеры; университеты, занимающие средние позиции; отстающие.

Используемые данные: данные по показателям 517 университетов, для которых имеется информация по всем пяти критериям за 2011 г.

В качестве входных переменных при кластеризации используются следующие показатели, которые отражают результаты деятельности университета:

  • Acad, staff int/Acad. staff (иностранный академический штат/акадсмический штат);
  • Inst, income/Stdnt (доходы уииверситета/количество обучающихся);
  • Papers (общее количество публикаций согласно базе данных научного цитирования Web of Science за год);
  • Res. income/Acad, staff-пот (доходы от научной деятельности/академический штат — нормализованный);
  • Stdnt. int/Stdnt (количество иностранных обучающихся/количество обучающихся).

Инструментальное средство: аналитическая платформа Deductor — программный продукт, разработанный российской компанией.

Параметры модели: подобраны эвристическим путем с учетом рекомендаций по выбору оптимальной архитектуры нейронной сети и необходимостью высокого качества визуализации и интерпретации результатов.

Размерность карты: 12×16 шестиугольных ячеек, узлы которой представлены искусственными нейронами.

Выбранное количество кластеров, позволяющее произвести анализ и интерпретацию результатов, — семь.

Качество обучения: 78% распознанных примеров на обучающем множестве, 42% — на тестовом.

На рис. 18.2.1 приведены результаты кластеризации для данных за 2011 г.

Puc. 18.2.1. Кластеризация университетов по показателям деятельности Результаты моделирования. Каждому из сформированных кластеров, можно дать обобщенное описание:

Puc. 18.2.1. Кластеризация университетов по показателям деятельности Результаты моделирования. Каждому из сформированных кластеров, можно дать обобщенное описание:

  • 1, 3 и 4-й кластеры с университетами-лидерами. Всего в перечисленные кластеры вошло 48 университетов. Например, 1-й кластер — расположен в правом нижнем углу каждой из кар г — характеризуется очень высоким показателем доходов в расчете на одного обучающегося (Inst, income/Stdnt). Это следует из анализа цветовой гаммы на верхней средней карте, на которой ячейки, отвечающие 1-му кластеру, окрашены в более светлый цвет, соответствующие высоким значениям показателя Inst, income/ Stdnt. Также университетам, сформировавшим 1-й кластер, свойственны высокое значение Res. income/Acad, staff-norm и значения выше среднего, но остальным трем выбранным показателям. В табл. 18.2.2 представлен перечень университетов, вошедших в 4-й кластер;
  • 6-й кластер университеты, имеющие достаточно высокое значение показателя Res. income/Acad, staff-norm, что говорит о нацеленности университетов на исследовательскую деятельность, — 47 университетов;

Перечень университетов 4-го кластера.

Таблица 18.2.2

№ п/п.

Название университета (согласно базе InCites)

Emory Univ

London Sch Hyg Trop Med

Juntendo Univ

MIT

Peking Univ

Princeton Univ

Stanford Univ

Univ Rochester

Vanderbilt Univ

Yale Univ

  • 0-й кластер — университеты, занимающие позиции «выше среднего», — 86 университетов;
  • 2-й кластер — университеты, занимающие «средние» позиции, — 49 университетов;
  • 5-й кластер — университеты, занимающие позиции «ниже среднего». — 287 университетов.

В табл. 18.2.3 представлены номера кластеров, соответствующие российским университетам, откуда следует, что только два университета отнесены к кластерам, которые характеризуются достаточно высоким уровнем привлекательности, — МГУ и Первый Московский государственный медицинский университет им. И. М. Сеченова.

В целях формирования критериев попадания университетов в различные кластеры эффективно использование подхода па основе построения «дерева решений» па базе одного из самых известных и широко используемых алгоритмов построения деревьев классификации С4.5, разработанного Джоном Квинланом. Алгоритм С4.5 является модификацией алгоритма ID3 (Iterative Dichotomiser3).

Таблица 18.23

Распределение российских университетов по кластерам.

Название университета (согласно базе InCites)

Номер кластера.

Bauman Moscow State Tech Univ

Lobachevsky State Univ Nizhni Novgorod

Novosibirsk State Univ

Siberian Fed Univ

St. Peteisburg State Univ

Tomsk Polytech Univ

Tomsk State Univ

Ural Fed Univ

Mordovian State Univ

Moscow Inst Steel & Alloys

Moscow Eng Phys Inst

Moscow Physics & Technics Inst

Lomonosov Moscow State UnivSechenov Moscozv

Med Acad

и дополнительно обладает возможностями работы с атрибутами, представленными непрерывными величинами. Алгоритм реализует итерацию, в рамках которой производятся отсечения ветвей дерева, оказывающих наименьшее влияние на результаты классификации, что позволяет оптимизировать структуру итогового дерева решений. На рис. 18.2.2 представлены правила формирования кластеров, сформированные в результате использования алгоритма С4.5, отражающие значения показателей научной деятельности, которые необходимо достичь для попадания в группы лидирующих университетов.

Правила формирования кластеров на основе построения.

Рис. 18.2.2. Правила формирования кластеров на основе построения.

дерева решений Основные критерии попадания в кластеры университетов, занимающих позиции «выше среднего» с точки зрения результатов научной деятельности, приведены ниже:

  • 1) для попадания в 1-й кластер необходимо достижение очень высокого значения показателя Inst, income/Stdnt доходы университета в расчете на одного обучающегося в год должны составлять более 176 тыс. долл, но состоянию на 2011 г.;
  • 2) для попадания в 3-й кластер достижение высокого значения показателя Acad, staff int/Acad. staff > 0,565, что соответствуют высокому уровню интернационализации университета;
  • 3) для попадания в 4-й кластер — достижение одновременно значений показателей:
    • Acad, staff int/Acad. staff > 0,195,
    • Papers >3318, что соответствует высокому уровню публикационной активности.
  • [1] URL: http://www.vestnikmanagement.spbu.ru/archive/pdty22.pdf
Показать весь текст
Заполнить форму текущей работой