Применение аналитической платформы Deductor Studio
Ассоциативное правило имеет вид: «Из события A следует событие B». В результате анализа наборов товаров устанавливаем закономерность следующего вида: «Если в транзакции встретился набор товаров (или набор элементов) A, то можно сделать вывод, что в этой же транзакции должен появиться набор элементов B)» Установление таких закономерностей дает нам возможность находить очень простые и понятные… Читать ещё >
Применение аналитической платформы Deductor Studio (реферат, курсовая, диплом, контрольная)
Решение задачи поиска ассоциативных правил
Data Mining — это процесс обнаружения в данных скрытых закономерностей, ранее неизвестных, неочевидных, объективных и полезных на практике, а также необходимых для принятия решений в различных сферах человеческой деятельности.
Транзакция — это множество событий, которые произошли одновременно (набор товаров, купленных покупателем за один визит).
Регистрируя все бизнес-операции в течение всего времени своей деятельности, торговые компании накапливают огромные собрания транзакций. Полученные в результате анализа шаблоны включают перечень товаров и число транзакций, которые содержат данные наборы.
Транзакционная или операционная база данных (Transaction database) представляет собой двумерную таблицу, которая состоит из номера транзакции (TID) и перечня покупок, приобретенных во время этой транзакции. TID — уникальный идентификатор, определяющий каждую сделку или транзакцию.
Ассоциативное правило имеет вид: «Из события A следует событие B». В результате анализа наборов товаров устанавливаем закономерность следующего вида: «Если в транзакции встретился набор товаров (или набор элементов) A, то можно сделать вывод, что в этой же транзакции должен появиться набор элементов B)» Установление таких закономерностей дает нам возможность находить очень простые и понятные правила, называемые ассоциативными.
Основными характеристиками ассоциативного правила являются поддержка и достоверность правила.
Поддержкой называют количество или процент транзакций, содержащих определенный набор данных. Правило имеет поддержку s, если s% транзакций из всего набора содержат одновременно наборы элементов A и B или, другими словами, содержат оба товара.
Таким образом, набор представляет интерес, если его поддержка выше определенного пользователем минимального значения (min support). Эти наборы называют часто встречающимися (frequent).
Достоверность правила показывает, какова вероятность того, что из события A следует событие B. Правило «Из A следует B» справедливо с достоверностью с, если c% транзакций из всего множества, содержащих набор элементов A, также содержат набор элементов B.
Рыночная корзина — это набор товаров, приобретенных покупателем в рамках одной отдельно взятой транзакции.
Нам была дана транзакционная база данных, мы нашли наиболее часто встречающиеся наборы товаров и набор ассоциативных правил с определенными границами значений поддержки и доверия.
Таблича1-Правила.
Правила в данном визуализаторе размещены в виде списка. Каждое правило, представленное как «условие-следствие», характеризуется значением поддержки в абсолютном и процентном выражении, а также достоверностью. Таким образом, мы видим поведение покупателей, описанное в виде набора правил. Например, первое правило говорит о том, что если покупатель купил вафли, то с достоверностью или вероятностью 71% он купит также сухари. Эта информация полезна с различных точек зрения. Она, например, помогает решить задачу расположения товаров в магазине.
Таблица 2- Популярные наборы.
№. | Множество. | ? Поддержка. | |
%. | Кол-во. | ||
МАКАРОННЫЕ ИЗДЕЛИЯ. | 54,55. | ||
КЕТЧУПЫ, СОУСЫ, АДЖИКА. | 52,27. | ||
МЕД. | 50,00. | ||
КЕТЧУПЫ, СОУСЫ, АДЖИКА И МАКАРОННЫЕ ИЗДЕЛИЯ. | 45,45. | ||
СЫРЫ. | 43,18. | ||
СУХАРИ. | 31,82. | ||
ВАФЛИ. | 31,82. | ||
МАКАРОННЫЕ ИЗДЕЛИЯ И СЫРЫ. | 22,73. | ||
МАКАРОННЫЕ ИЗДЕЛИЯ И МЕД. | 22,73. | ||
КЕТЧУПЫ, СОУСЫ, АДЖИКА И СЫРЫ. | 22,73. | ||
ВАФЛИ И СУХАРИ. | 22,73. | ||
КЕТЧУПЫ, СОУСЫ, АДЖИКА И МАКАРОННЫЕ ИЗДЕЛИЯ И СЫРЫ. | 20,45. | ||
КЕТЧУПЫ, СОУСЫ, АДЖИКА И МЕД. | 20,45. |
Из данной таблицы видно, что часто встречающимися наборами являются: макаронные изделия; кетчупы, соусы, аджика; мед.
При большом количестве найденных правил и широком ассортименте товаров анализировать полученные правила достаточно сложно. Для удобства анализа таких наборов правил предлагаются визуализаторы «Дерево правил» и «Что-если» .
Таблица 3-дерево правил.
Визуализатор «что-если» удобен, если нам необходимо ответить на вопрос, какие следствия могут получиться из данного условия. Например, выбрав условие «Макаронные изделия», то получаем два следствия «Мед»; «Кетчупы, соусы, аджика», для которых указаны уровень поддержки и достоверности.
Таблица 4- Что-если.
Рассмотренный пример поиска ассоциативных правил является типичной иллюстрацией задачи анализа покупательской корзины. В результате ее решения определяются часто встречающиеся наборы товаров, а также наборы товаров, совместно приобретаемые покупателями. Найденные правила могут быть использованы для решения различных задач, в частности для размещения товаров на прилавках магазинов, предоставления скидок на пары товаров для повышения объема продаж и, следовательно, прибыли и других задач.
Решение задачи выдачи кредита.
Основные задачи Data Mining, решаемые с помощью нейронных сетей:
Классификация (обучение с учителем).
Прогнозирование.
Кластеризация (обучение без учителя).
Классификация — упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.
Под задачей классификации будем понимать отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
Искусственная нейронная сеть представляет собой многослойную совокупность нейронов. В каждом слое нейроны между собой никак не связаны, но связаны с каждым из нейронов предыдущего и следующего слоев. Информация поступает с первого на второй слой, со второго — на третий и т. д.
Нейронная сеть может быть представлена направленным графом с взвешенными связями, в котором искусственные нейроны являются вершинами, а синоптические связи — дугами.
Перед использованием нейронной сети ее необходимо обучить. Процесс обучения нейронной сети осуществляется на обучающей выборке и заключается в подстройке ее внутренних параметров (синаптических весов) под конкретную задачу.
Обучающая выборка включает входные значения и соответствующие им выходные значения набора данных. В ходе обучения нейронная сеть находит некие зависимости выходных полей от входных.
Ошибка обучения для построенной нейронной сети вычисляется путем сравнения выходных и целевых (желаемых) значений. Из полученных разностей формируется функция ошибок.
Функция ошибок — это целевая функция, требующая минимизации в процессе управляемого обучения нейронной сети.
Метод обратного распространения ошибки (Back propagation) — алгоритм обучения многослойных персептронов, основанный на вычислении градиента функции ошибок. В процессе обучения веса нейронов каждого слоя нейросети корректируются с учетом сигналов, поступивших с предыдущего слоя, и невязки каждого слоя, которая вычисляется рекурсивно в обратном направлении от последнего слоя к первому.
Мы выполнили данное задание и получили графики:
График 1 — Сигмоида.
График 2 -Гипертангенс.
График 3 — Арктангенс.
Диаграмма рассеивания (разброса, поле корреляции) — инструмент позволяющий выявить вид и степень зависимости (корреляцию) между парами переменных x, y.
График 4 — Диаграмма рассеяния.
Применение самоорганизующихся карт
Карты Кохонена позволяют упростить многомерную структуру, их можно считать одним из методов проецирования многомерного пространства в пространство с более низкой размерностью. Интенсивность цвета в определенной точке карты определяется данными, которые туда попали: ячейки с минимальными значениями изображаются темно-синим цветом, ячейки с максимальными значениями — красным.
После выполнения данного задания, мы получили карты Кохонена.
Рисунок 1 — Карта Кохонена.
В результате применения самоорганизующихся карт многомерное пространство входных факторов было представлено в двухмерном виде, в котором достаточно удобно анализировать конкретные характеристики, исходя из раскраски соответствующих показателей.