Помощь в написании студенческих работ
Антистрессовый сервис

Результаты формализации предметной области

РефератПомощь в написанииУзнать стоимостьмоей работы

Основной вывод, который, по мнению авторов можно обоснованно сделать по материалам данной статьи, состоит в том, что, не смотря на существование огромного количества различных методов кластеризации, в этой области существует ряд нерешенных проблем, ждущих своего решения. Анализ этих проблем позволяет высказать гипотезу, что для их решения необходимо выйти за пределы понятийного поля чисто… Читать ещё >

Результаты формализации предметной области (реферат, курсовая, диплом, контрольная)

В результате работы программного интерфейса _152 автоматически формируются классификационные и описательные шкалы и градации и с их использованием кодируются исходные данные, в результат чего формируется обучающая выборка (таблицы 6 — 9):

Таблица 6 Справочник классов (классификационных шкал и градаций).

KOD.

NAME.

Состав следует на ВОСТОК.

Состав следует на ЗАПАД.

Состав-01.

Состав-02.

Состав-03.

Состав-04.

Состав-05.

Состав-06.

Состав-07.

Состав-08.

Состав-09.

Состав-10.

В таблице 1, по сути, приведены исходные кластеры, первые два из которых являются составными или «полиобъектными» (решение о принадлежности объектов к тому или иному составному классу принималось экспертом — учителем), а последующие 10 — «монообъетными». Первый полиобъектный класс состоит из объектов с кодами 3−7, а второй — 8−12, монообъектные классы состоят из объектов с кодами от 3 до 12.

Таблица 7 Справочник признаков (описательных шкал и градаций).

Код.

Наименование.

Ед.изм.

Тип шкалы.

КОЛИЧЕСТВО ВАГОНОВ-2.

Шт.

Порядковая (целочисленная).

КОЛИЧЕСТВО ВАГОНОВ-3.

КОЛИЧЕСТВО ВАГОНОВ-4.

СУММАРНЫЙ ВЕС ГРУЗА: 1/5-{11.00, 21.00}.

Тонны.

Числовая (в интервальных значениях).

СУММАРНЫЙ ВЕС ГРУЗА: 2/5-{21.00, 31.00}.

СУММАРНЫЙ ВЕС ГРУЗА: 3/5-{31.00, 41.00}.

СУММАРНЫЙ ВЕС ГРУЗА: 4/5-{41.00, 51.00}.

СУММАРНЫЙ ВЕС ГРУЗА: 5/5-{51.00, 61.00}.

ФОРМА ВАГОНА-U-образная.

Текстовая (номинальная).

ФОРМА ВАГОНА-V-образная.

ФОРМА ВАГОНА-Овальная.

ФОРМА ВАГОНА-Прямоугольная.

ФОРМА ВАГОНА-Ромбовидная.

ДЛИНА ВАГОНА-Длинный.

Порядковая (целочисленная).

ДЛИНА ВАГОНА-Короткий.

КОЛИЧЕСТВО ОСЕЙ ВАГОНА-2.

Шт.

Порядковая (целочисленная).

КОЛИЧЕСТВО ОСЕЙ ВАГОНА-3.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 1/5-{30.00, 40.00}.

Тонны.

Числовая (в интервальных значениях).

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 2/5-{40.00, 50.00}.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 3/5-{50.00, 60.00}.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 4/5-{60.00, 70.00}.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 5/5-{70.00, 80.00}.

ВИД СТЕНОК ВАГОНА-Двойные.

Шт.

Порядковая (целочисленная).

ВИД СТЕНОК ВАГОНА-Одинарные.

ВИД КРЫШИ ВАГОНА-Гофрированная.

Текстовая (номинальная).

ВИД КРЫШИ ВАГОНА-Овальная.

ВИД КРЫШИ ВАГОНА-Отсутствует.

ВИД КРЫШИ ВАГОНА-Прямая.

ВИД КРЫШИ ВАГОНА-Треугольная.

ГРУЗ-ОТСУТСТВУЕТ-0001.

Текстовая (номинальная).

ГРУЗ-ТРЕУГОЛЬНИК_ПРЯМОЙ-0001.

ГРУЗ-ТРЕУГОЛЬНИК_ПЕРЕВЕРНУТЫЙ-0001.

ГРУЗ-РОМБ-0001.

ГРУЗ-ОВАЛ-0001.

ГРУЗ-ОВАЛ-0002.

ГРУЗ-ОВАЛ-0003.

ГРУЗ-КВАДРАТ-0001.

ГРУЗ-КВАДРАТ-0003.

ГРУЗ-ПРЯМОУГОЛЬНИК_КОРОТКИЙ-0001.

ГРУЗ-ПРЯМОУГОЛЬНИК_КОРОТКИЙ-0002.

ГРУЗ-ПРЯМОУГОЛЬНИК_ДЛИННЫЙ-0001.

Отметим, что эти признаки объектов формализуются в текстовых (номинальных), порядковых (целочисленных) и числовых (со знаками после запятой) шкалах и измеряются в разных единицах измерения, которые можно ввести только для числовых и порядковых шкал.

Соответственно и исходные данные (исследуемая выборка) представлены в форме переменных с количественными и качественными значениями, измеряемыми в различных единицах измерения и формализуемыми в шкалах различного типа. Но в исходных данных есть информация не только о признаках объектов, но и об их принадлежности к тем или иным классам (полиобъектным или монообъектным). Вся эта информация представлена в обучающей выборке, стоящей из двух баз данных, базы заголовков и базы признаков, связанных отношением «один ко многим» по полю «Код объекта» (таблицы 8 и 9):

Таблица 8 Обучающая выборка (база заголовков).

Код объекта.

Наименование объекта.

Коды классов.

ВОСТОК.

ЗАПАД.

Состав-01.

Состав-02.

Состав-03.

Состав-04.

Состав-05.

Состав-06.

Состав-07.

Состав-08.

Состав-09.

Состав-10.

Таблица 9 Обучающая выборка (база признаков).

Код объекта

Коды признаков.

В системе «Эйдос» есть режим _25, экранная форма которого приведена на рисунке 7, обеспечивающий как расчет всех четырех типов моделей (СИМ-1 — СИМ-4), отличающихся видом частных критериев (таблица 3), так и измерение их достоверности с двумя видами интегральных критериев: сверткой и корреляцией.

Рисунок 7Экранная форма режима _25 системы «Эйдос».

В результате работы режима _25 формируется матрица абсолютных частот (таблица 10) и матрицы знаний четырех моделей (таблицы 11 — 14):

Таблица 10 Матрица абсолютных частот.

Код.

Наименование.

Классы.

Сумма.

КОЛИЧЕСТВО ВАГОНОВ-2.

КОЛИЧЕСТВО ВАГОНОВ-3.

КОЛИЧЕСТВО ВАГОНОВ-4.

СУММАРНЫЙ ВЕС ГРУЗА: 1/5-{11.00, 21.00}.

СУММАРНЫЙ ВЕС ГРУЗА: 2/5-{21.00, 31.00}.

СУММАРНЫЙ ВЕС ГРУЗА: 3/5-{31.00, 41.00}.

СУММАРНЫЙ ВЕС ГРУЗА: 4/5-{41.00, 51.00}.

СУММАРНЫЙ ВЕС ГРУЗА: 5/5-{51.00, 61.00}.

ФОРМА ВАГОНА-U-образная.

ФОРМА ВАГОНА-V-образная.

ФОРМА ВАГОНА-Овальная.

ФОРМА ВАГОНА-Прямоугольная.

ФОРМА ВАГОНА-Ромбовидная.

ДЛИНА ВАГОНА-Длинный.

ДЛИНА ВАГОНА-Короткий.

КОЛИЧЕСТВО ОСЕЙ ВАГОНА-2.

КОЛИЧЕСТВО ОСЕЙ ВАГОНА-3.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 1/5-{30.00, 40.00}.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 2/5-{40.00, 50.00}.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 3/5-{50.00, 60.00}.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 4/5-{60.00, 70.00}.

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА…

Числовые шкалы преобразуются в интервальные значения, после чего градации всех типов шкал обрабатываются единообразно (см. п.3).

4.

Проблема 3.1 доказательства гипотезы о нормальности исходных данных.

Нет необходимости, т.к. предлагаемые частные и интегральные критерии не предполагают нормальности исходных данных.

5.

Проблема 3.2 нормализации исходных данных.

Реализованы режимы ремонта или взвешивания исходных данных.

6.

Проблема 3.3 применения непараметрических методов кластеризации, корректно работающих с ненормализованными данными.

Предлагаемые методы являются непараметрическими и корректно работают с ненормализованными данными.

7.

Проблема 4 разработки такого метода кластерного анализа, математическая модель и алгоритм и которого органично включали бы фильтр, подавляющий шум в исходных данных, в результате чего данный метод кластеризации корректно работал бы при наличии шума в исходных данных.

Предлагаемый метод включает фильтр подавления шума на уровне формирования матрицы абсолютных частот и самой математической форме интегрального критерия. Кроме того, реализованы режимы удаления или корректной обработки артефактов, выбросов (нетипичных объектов) и малопредставленных данных, по которым нет достаточной статистики в исходных данных.

8.

Проблема 5 разработки метода кластерного анализа, математическая модель и алгоритм и которого обеспечивали бы выявление «выбросов» (артефактов) в исходных данных и позволяли либо вообще не показывать их в дендрограммах, либо показывать, но так, чтобы было наглядно видно, что это артефакты.

Поддерживается исключение выбросов и артефактов из дендрограмм, либо их отображение специальным для них образом.

Отметим, что в АСК-анализе и системе «Эйдос» реализованы и другие методы кластеризации, также основанные на знаниях:

  • — дивизивная кластеризация (см., например: [23, 24]);
  • — кластерно-конструктивный анализ классов и признаков [9].

Дивизивная (разделительная, в отличие от агломартивной, т. е. объединяющей) кластеризация используется в системе «Эйдос» для того разделять классы на типичную и нетипичную части. Предполагается, что если объекты не были отнесены к классу, к которому они на самом деле относятся, то они являются нетипичными для него (исключениями), и это является достаточным основанием для того, чтобы создать для них новый класс с тем же наименованием и добавлением номера итерации. Такой подход приводит к резкому уменьшению ошибок неидентификации при примерно том же уровне ошибок ложной идентификации, что приводит к существенному улучшению достоверности модели (рисунок 11).

Конструкты представляют собой понятия, имеющие противоположные смысловые полюса, в качестве которых у нас выступают наиболее непохожие кластеры, а также спектр промежуточных по смыслу классов. Конструкты принадлежат к наивысшему иерархическому уровню процесса познания, выше которого только парадигма реальности (рисунок 1) и их можно рассматривать как оси координат нашего когнитивного пространства [9]. Система «Эйдос» формирует конструкты на основе исследования модели предметной области. Роль конструктов невозможно переоценить, т.к. когда мы познаем мы применяем уже имеющиеся у нас конструкты, уточняем или расширяем область их применения и создаем новые конструкты (таблица 18).

Рисунок 12 Дендрограмма дивизивной кластеризации, полученная в режиме _34 системы «Эйдос» на рассматриваемом численном примере Таблица 19 Конструкт: «запад-восток».

Код класса.

Наименование класса.

Уровень сходства.

СОСТАВ СЛЕДУЕТ НА-ЗАПАД.

100,00.

НАЗВАНИЕ СОСТАВА-Состав-10.

50,12.

НАЗВАНИЕ СОСТАВА-Состав-07.

42,73.

НАЗВАНИЕ СОСТАВА-Состав-06.

37,65.

НАЗВАНИЕ СОСТАВА-Состав-09.

34,55.

НАЗВАНИЕ СОСТАВА-Состав-08.

8,70.

НАЗВАНИЕ СОСТАВА-Состав-02.

— 2,23.

НАЗВАНИЕ СОСТАВА-Состав-04.

— 15,79.

НАЗВАНИЕ СОСТАВА-Состав-01.

— 19,88.

НАЗВАНИЕ СОСТАВА-Состав-03.

— 34,99.

НАЗВАНИЕ СОСТАВА-Состав-05.

— 44,68.

СОСТАВ СЛЕДУЕТ НА-ВОСТОК.

— 54,69.

Таким образом, в данной статье на небольшом численном примере рассматриваются новые алгоритмы и результаты агломеративной кластеризации, основные отличия которых от ранее известных стоят в том, что:

  • а) в них параметры обобщенного образа кластера не вычисляются как средние от исходных объектов (классов) или центры тяжести, а определяются с помощью той же самой базовой когнитивной операции АСК-анализа, которая применяется и для формирования обобщенных образов классов на основе примеров объектов и которая действительно обеспечивает обобщение;
  • б) в качестве критерия сходства используется не евклидово расстояние или его варианты, а интегральный критерий неметрической природы: «суммарное количество информации», применение которого теоретически корректно и дает хорошие результаты в неортонормированных пространствах, которые обычно и встречаются на практике;
  • в) кластерный анализ проводится не на основе исходных переменных или матрицы сопряженности, зависящих от единиц измерения по осям, а в когнитивном пространстве, в котором по всем осям (описательным шкалам) используется одна единица измерения: количество информации, и поэтому результаты кластеризации не зависят от исходных единиц измерения признаков объектов.

Имеется и ряд других менее существенных отличий. Все это позволяет получить результаты кластеризации, понятные специалистам и поддающиеся содержательной интерпретации, хорошо согласующиеся с оценками экспертов, их опытом и интуитивными ожиданиями, что часто представляет собой проблему для классических методов кластеризации. Описанные методы теоретически обоснованы в системно-когнитивном анализе (СК-анализ) и реализованы в его программном инструментарии — интеллектуальной системе «Эйдос»,.

Основной вывод, который, по мнению авторов можно обоснованно сделать по материалам данной статьи, состоит в том, что, не смотря на существование огромного количества различных методов кластеризации, в этой области существует ряд нерешенных проблем, ждущих своего решения. Анализ этих проблем позволяет высказать гипотезу, что для их решения необходимо выйти за пределы понятийного поля чисто математических рассуждений и привлечь представления из области искусственного интеллекта, в частности основываться на четкой дефиниции содержания таких основополагающих понятий, как данные, информация и знания [8]. Данная статья и содержит описание авторского варианта реализации этой идеи. Здесь же хотелось бы отметить, что кластеризация классическим методом матрицы знаний, полученной вне статистической системы, реализующий кластерный анализ, не дает желаемых результатов, т.к. только 1-я итерация получается соответствующей предлагаемому подходу, а последующие дают ошибочные результаты, т.к. в статистических системах не реализовано операции обобщения и добавление объекта к кластеру или объединение классов в кластер осуществляется иначе, чем формирование самих классов в исходной матрице знаний.

Предлагаемый метод когнитивной кластеризации не лишен и некоторых недостатков и ограничений, преодоление которых является одним из перспективных направлений развития этого метода.

Из недостатков следует прежде всего указать большие затраты вычислительных ресурсов и машинного времени на решение задачи кластеризации, чем у классических методов, обусловленные значительным объемом и более высокой сложностью вычислений. Другим недостатком является нежесткое ограничения текущей версии системы «Эйдос» на размерности модели, которые планируется преодолеть и которые постепенно преодолеваются. Версия системы «Эйдос» весны 2011 года обеспечивала объем обучающей выборки не более 100 000 объектов, в текущей версии это ограничение снято и теперь система может работать с миллионами и даже десятками объектов. Но осталось ограничение на размерность баз знаний: не более 4000 классов и 4000 градаций факторов. Это ограничение также в перспективе планируется снять.

В качестве перспективы авторы рассматривают разработку режимов, обеспечивающих:

  • — когнитивную кластеризацию признаков;
  • — двухвходовую кластеризацию (одновременно и классов, и признаков), что оправдано тем, что при кластеризации классов изменяется и смысл признаков;
  • — моделей, основанных на новых частных критериях знаний (в частности, СИМ-5).

Материалы данной статьи могут быть использованы при разработке интеллектуальных систем, а также при проведении лабораторных работ по дисциплинам: «Интеллектуальные информационные системы» для специальности: 80 801.65 — Прикладная информатика (по областям) и «Представление знаний в информационных системах» для специальности: 230 201.65 — Информационные системы и технологии.

Показать весь текст
Заполнить форму текущей работой