Классификация.
Системы поддержки принятия решений

РефератПомощь в написанииУзнать стоимостьмоей работы

Существуют несколько методов построения деревьев решений. Например, для определения варианта разделения можно использовать различные формулы. Допускается как бинарная форма дерева (в этом случае каждый узел имеет двух потомков), так и небинарная. Максимальная длина ветви {глубина дерева) может быть ограничена предварительно заданным числом, но можно построить дерево с полной глубиной, а затем… Читать ещё >

Классификация. Системы поддержки принятия решений (реферат, курсовая, диплом, контрольная)

Классификация — установление зависимости дискретной выходной переменной от входных переменных.

Классом называется переменная дискретного вида, которая присутствует на выходе в задаче классификации.

Решение задачи классификации сводится к определению объекта по его входным характеристикам, при этом множество классов, к которым может быть отнесен объект, известно заранее.

Рассмотрим один из наиболее популярных методов и, соответственно, технологий классификации, входящих в Data Mining, — метод деревьев решений (decision trees). Деревья решений основаны на машинном обучении, в их основе лежат решающие правила вида «если, то…», которые могут быть сформулированы на естественном языке. В основе метода лежит процесс рекурсивного разделения (разбиения) исходного множества наблюдений или объектов на подмножества таким способом, чтобы значения зависимой переменной в каждом из них были как можно более однородными. На каждом шаге разбиение производится только по одной независимой переменной, а именно по такой, которая делает его наилучшим. Разделение производится с помощью решающих правил, в которых осуществляется проверка значений атрибутов по заданному условию. Решающие правила образуют иерархическую древовидную структуру, позволяющую выполнять классификацию объектов и наблюдений. Эта структура и называется деревом решений. Каждый путь от вершины до листа дерева (конечного узла) образует правило. В режиме предсказания новый объект «прогоняется» сквозь дерево правил и «оседает» в каком-либо листе, т. е. в терминальном узле.

Существуют несколько методов построения деревьев решений. Например, для определения варианта разделения можно использовать различные формулы. Допускается как бинарная форма дерева (в этом случае каждый узел имеет двух потомков), так и небинарная. Максимальная длина ветви {глубина дерева) может быть ограничена предварительно заданным числом, но можно построить дерево с полной глубиной, а затем отсечь часть его узлов.

Для эффективного построения дерева решений должны выполняться следующие условия:

• описание атрибутов. Анализируемые данные должны быть представлены в виде структурированного набора, в котором вся информация об объекте или наблюдении должна быть выражена совокупностью атрибутов;
• предварительное определение классов. Категории, к которым относятся наблюдения (метки классов), должны быть заданы предварительно, т. е. имеет место обучение с учителем;
• различимость классов. Должна обеспечиваться принципиальная возможность установления факта принадлежности или непринадлежности примера к определенному классу. При этом число примеров должно быть намного больше числа классов;
• полнота данных. Обучающее множество должно содержать достаточно большое количество различных примеров. Необходимая численность зависит от таких факторов, как количество признаков и классов, сложность классификационной модели и т. д.

Структура деревьев решений проста и в целом аналогична древовидным иерархическим структурам, используемым в других областях анализа данных. В состав деревьев решений входят два вида объектов — узлы и листья. В узлах содержатся правила, с помощью которых проводится проверка атрибутов, и множество объектов в данном узле разбивается на подмножества. Листья — конечные узлы дерева, в которых содержатся подмножества, ассоциированные с классами. Основное отличие листа от узла состоит в том, что в листе не производится проверка, разбивающая ассоциированное с ним подмножество и соответственно нет ветвления. В принципе листом может быть объявлен любой узел, если принято решение, что множество в узле достаточно однородно в плане классовой принадлежности объектов и дальнейшее разбиение не имеет смысла, поскольку не приведет к значимому увеличению точности классификации, а только усложнит дерево.

Начальный узел дерева является входным: через него проходят все объекты, предъявляемые дереву. Обычно входной узел называют корневым узлом. Следовательно, дерево растет сверху вниз. Узлы и листья, подчиненные узлу более высокого иерархического уровня, называются потомками, или дочерними узлами, а тот узел по отношению к ним — предком, или родительским узлом (рис. 10.7).

Рис. 10.7. Дерево решений.

Для каждого подмножества создается дочерний узел, с которым оно ассоциируется. Затем процесс ветвления повторяется для каждого дочернего узла до тех пор, пока не будет выполнено одно из условий остановки алгоритма, что позволяет упрощать структуру дерева. Упрощение структуры дерева заключается в том, что после его построения удаляются те ветви, правила в которых имеют низкую ценность, поскольку относятся к небольшому числу примеров.

Мерой оценки возможного разбиения является так называемая чистота, под которой понимается отсутствие примесей. Низкая чистота означает, что в подмножестве представлены объекты, относящиеся к различным классам. Высокая чистота свидетельствует о том, что члены отдельного класса доминируют. Наилучшим разделением можно считать то, которое дает наибольшее увеличение чистоты дочерних узлов относительно родительского. Кроме того, хорошее разбиение должно создавать узлы примерно одинакового размера или, как минимум, не создавать узлов, содержащих мало (одну-две) записей.

В процессе построения дерева решений формируются решающие правила, для каждого такого правила создается узел. Для каждого узла нужно выбрать атрибут, по которому будет производиться проверка правила. Его принято называть атрибутом ветвления, или атрибутом разбиения. И от того, насколько удачно он выбран, зависит классифицирующая сила правила. Метод, в соответствии с которым осуществляется выбор атрибута ветвления на каждом шаге, называется алгоритмом построения дерева решений. Общая цель, которая преследуется при выборе атрибута ветвления — очередной выбранный атрибут должен обеспечивать наилучшее разбиение в узле. Наилучшим разделением считается то, которое позволяет классифицировать наибольшее число примеров и создавать максимально чистые подмножества, в которых примесь объектов другого класса (т.е. нс ассоциированного с данным узлом или листом) будет минимальной.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Агентное моделирование и его бизнес-приложения

Поведение системы описывается на индивидуальном уровне, глобальное поведение рассматривается как результат совокупной деятельности агентов, существующих в общей среде, каждый из которых действует по своим правилам. Поведение сложной системы формируется как результат взаимодействия агентов в среде, в которой они осуществляют свое поведение, что позволяет наблюдать и изучать закономерности…

Реферат

Подробнее...

Введение. Характеристика и структура экспертных систем

Следует обратить внимание на то, что некоторые специалисты (как правило, специалисты в программировании, а не в ИИ) продолжают утверждать, что ЭС и СИИ не оправдали возлагавшихся на них ожиданий и умерли. Причины таких заблуждений состоят в том, что эти авторы рассматривали ЭС как альтернативу традиционному программированию, т. е. они исходили из того, что ЭС в одиночестве (в изоляции от других…

Реферат

Подробнее...

Экономическое обоснование проекта

Социальная эффективность (косвенная эффективность) имеет скрытую форму проявления и складывается из социальной полезности и социального ущерба. Показателями такой эффективности являются: качественные изменения при автоматизации операций, выполнявшихся вручную, степень улучшения условий труда, повышение качества обработки данных. Для расчета показателей социальной эффективности применяют такие…

Реферат

Подробнее...

Сортировка записей списка

Сортировкой записей таблицы называется упорядочение строк таблицы по какому-либо признаку, например упорядочение списка фамилий по алфавиту, цехов — по их номерам и т. д. Признак сортировки: фамилия, номер цеха — называется ключом сортировки. Как правило, выполняется стандартная сортировка в соответствии с возрастанием (убыванием) кодов символов ключей сортировки. В некоторых случаях необходимо…

Реферат

Подробнее...

Алгоритмы кластерного анализа

Этот метод — один из самых используемых в прикладных задачах, существует немало модификаций, позволяющих учесть тонкие настройки оптимизации или формы кластеров. Он крайне чувствителен к начальным приближениям центров кластеров вплоть до того, что разные стартовые позиции могут привести к разным локальным минимумам функционала качества. С этой проблемой есть разные способы борьбы, один…

Реферат

Подробнее...

Обзор существующих ИС в сфере занятости населения

Предусмотрена функция сканирования и хранения цифрового образа фотографических изображений и прочих документов. Т. е. программа позволяет сопроводить анкету работника фотографией, а также «прицепить» к анкете копии документов, затребованных работодателем и необходимых для участия в конкурсе (копия диплома, аттестаты и пр.). Анкета может быть выведена на принтер. Кроме предопределенных печатных…

Реферат

Подробнее...

Проектирование приложений для обработки массивов данных. Проектирование приложений в условиях файловой организации данных

Пусть имеется три спортивных общества. Запишем названия этих обществ в массив строк. Количество фигуристов N зададим константой. Информация о каждом фигуристе содержит данные разного типа, в том числе массив из 10 оценок, поэтому нужно создать структурный пользовательский тип данных, содержащий несколько полей: имя, название спортивного общества, массив оценок, средний балл. Информацию…

Контрольная

Подробнее...

Расчет количества воды, прошедшей через трубу трапециевидного сечения

В настоящее время не существует единого комплекса программ, специально предназначенных для проектирования систем водоотведения. При необходимости пользователь может и сам программировать. Программа raschet позволяет рассчитать гидравлические характеристики потока, такие как расход Q и средняя по сечению скорость потока V, а также наглядно увидеть их зависимость от глубины h. Открытые каналы…

Курсовая

Подробнее...

Многоуровневая архитектура. Информационная система паспортного контроля на границе

ERwin не ориентирован на какую-то конкретную СУБД и поддерживает более 20 типов СУБД, включая СУБД всех ведущих производителей серверов баз данных (Oracle, Sybase, Microsoft, IBM, Informix), а также все популярные форматы настольных СУБД (включая dBase, Clipper, FoxPro, Access, Paradox), кроме, возможно, самых последних версий. Дело в том, что новые версии ERwin не выпускались уже довольно…

Реферат

Подробнее...

Моделирование угрозы. Защита информации: основы теории

Через 510 обозначено объединенное состояние присутствия в системе как минимум одной уязвимости первого типа, уязвимости второго типа в системе отсутствуют, одна (один обслуживающий прибор) уязвимость первого типа устраняется. Через 501 обозначено объединенное состояние присутствия в системе, но крайней мере одной уязвимости второго типа, уязвимости первого типа в системе отсутствуют, одна…

Реферат

Подробнее...

Вибрационные каналы. Современные угрозы компьютерной безопасности и каналы утечки информации

Электроакустические каналы утечки информации обычно образуются за счет электроакустических преобразований акустических сигналов в электрические по двум основным направлениям: путем «высокочастотного навязывания» и путем перехвата через дополнительные технические средства и системы. Технический канал утечки информации путем высокочастотного навязывания образуется путем несанкционированного…

Реферат

Подробнее...

История создания Интернета

Это решение было успешным, но настала пора, когда сеть уже более не справлялась с возросшими потребностями. Совместное использование суперкомпьютеров позволяло подключенным общинам использовать и множество других вещей, не относящихся к суперкомпьютерам. Неожиданно университеты, школы и другие организации осознали, что заимели под рукой море данных и мир пользователей. Поток сообщений в сети…

Реферат

Подробнее...

История развития системных представлений

Осознание системности мира и модельности мышления всегда отставало от эмпирической системности человеческой практики. Первым в явной форме поставил вопрос о научном подходе к управлению сложными системами Андре-Мари Ампер (1775−1836). При построении классификации всевозможных, в т. ч. и несуществующих наук (1834 г.) он выделил специальную науку об управлении государством и назвал ее кибернетикой…

Реферат

Подробнее...

Улучшенная модель синхронизации (FlexTime)

Традиционная модель синхронизации MPEG-4 первоначально была сконструирована для широковещательных приложений, где синхронизация между блоками доступа осуществляется через «жесткие» временные метки и эталонные часы. В то время как этот механизм предоставляет точную синхронизацию внутри потока, он терпит неудачу при синхронизации потоков, приходящих из разных источников (и возможно с разными…

Реферат

Подробнее...