Аналитическая платформа Deductor
В деловых организациях часто хранятся большие объемы информации, но она плохо структурирована, не согласована, разрозненна, не всегда достоверна, так что практически невозможно получить необходимые сведения в едином формате. Для устранения этого противоречия, когда при фактическом наличии и даже избытке данных невозможно провести их анализ, и создается ХД. Deductor Warehouse позволяет по заранее… Читать ещё >
Аналитическая платформа Deductor (реферат, курсовая, диплом, контрольная)
Deductor — аналитическая платформа класса KDD и Data Mining, предназначенная для создания законченных прикладных решений в области анализа данных[1].
Архитектура и принципы функционирования платформы Deductor
Имеющиеся в Deductor средства позволяют на базе единой архитектуры реализовать все этапы построения аналитической системы — от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов (в виде кубов OLAP, таблиц, диаграмм, гистограмм, карт, графов и т. д.). Данная платформа состоит из грех компонент: многомерного хранилища данных — Deductor Warehouse', аналитического приложения — Deductor Studur, средства тиражирования знаний — Deductor Viewer (рис. 10.8).
Deductor Warehouse — многомерное хранилище данных (ХД), аккумулирующее из разных источников всю необходимую информацию для анализа какой-либо предметной области, ориентированное на решение задач анализа данных и поддержки принятия решений, обеспечивающее максимально быстрый и удобный доступ к информации.
Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и необходимую поддержку процесса их анализа. Платформа оптимизирована для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным.
Рис. 10.8. Компоненты платформы Deductor.
Deductor Studio — программа, предназначенная для анализа информации, полученной из различных источников.
Программа реализует функции импорта, обработки, визуализации и экспорта данных. В нее включен полный набор механизмов, позволяющий выбрать информацию из произвольного источника, провести весь цикл ее обработки (очистку, трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, диаграммы, деревья) и экспортировать их во внешнее приложение. Программа может функционировать и без ХД, но оптимальным решением будет ее совместное использование с Deductor Warehouse.
Deductor Viewer представляет собой облегченную версию Deductor Studio, предназначенную для отображения построенных в данной программе отчетов.
Она не содержит средств создания сценариев, но обладает полноценными возможностями их выполнения и визуализации результатов. Viewer позволяет тиражировать знания для конечных пользователей, которых не интересуют способы и механизм их получения.
Для образовательных целей компанией-разработчиком выпущена академическая версия Deductor Academic, в ней разрешен импорт данных только из собственного хранилища и текстовых файлов. Программу можно загрузить с сайта www.basegroup.rn. Все практические занятия рекомендуется проводить на ее основе.
Вся работа в Deductor сводится к использованию нескольких мастеров — подключений, импорта, обработки, визуализации и экспорта. Платформа не имеет собственных средств ввода-вывода информации, но мастера импорта и экспорта обеспечивают взаимодействие с произвольными источниками и приемниками данных, для которых существуют стандартные механизмы доступа.
Обработка и визуализация в Deductor допускают любые манипуляции над набором данных — от самых простых — таких, как сортировка, до весьма сложных (например, построение модели нейронной сети). Обработчик можно представить в виде «черного ящика», на вход которого подается исходный набор данных, а на выходе формируется преобразованный набор. Реализованные в Deductor обработчики позволяют осуществлять как анализ данных, так и различные операции с ними (очистка, слияние, объединение, фильтрация — рис. 10.9).
Рис. 10.9. Схема обработки и визуализации данных.
Сценарий в Deductor представляет собой иерархическую последовательность (дерево) операций, но обработке и визуализации наборов данных.
Сценарий состоит из ряда узлов (рис. 10.10) и реализует встроенный язык визуального моделирования. Сценарий всегда начинается с импорта набора данных из произвольного источника, за которым следует произвольное число обработчиков любой степени глубины и вложенности. Каждой операции обработки соответствует отдельный узел дерева (объект сценария); набор данных служит механизмом, соединяющим все эти объекты.
С точки зрения аналитика, сценарии — наиболее естественный способ представления этапов разработки моделей. Они позволяют быстро создавать модели, обладающие большой гибкостью и расширяемостью, а также сравнивать несколько моделей. Непосредственно для работы со сценариями существуют мастера импорта, обработки, визуализации и экспорта. Первый позволяет получать данные из внешних источников (сначала в нем открывается список всех предусмотренных в системе типов источников данных). Число шагов мастера импорта, а также набор настраиваемых параметров зависят от типа источника. Мастер обработки настраивает параметры выбранного узла-обработчика, мастер визуализации позволяет в пошаговом режиме выбрать наиболее удобный способ представления данных. В зависимости от узла, из которого исходит ветвь сценария, список доступных для него видов отображений будет различным. Например, после построения деревьев решений их можно отобразить с помощью визуализаторов «Деревья решений» и «Правила», недоступных для других обработчиков. Мастер экспорта позволяет в пошаговом режиме выполнить экспорт данных в файлы и БД наиболее распространенных форматов (в том числе в Deductor Warehouse).
Рис. 10.10. Пример сценария в Deductor.
Для настройки подключений к внешним источникам и приемникам данных используется мастер подключений.
В деловых организациях часто хранятся большие объемы информации, но она плохо структурирована, не согласована, разрозненна, не всегда достоверна, так что практически невозможно получить необходимые сведения в едином формате. Для устранения этого противоречия, когда при фактическом наличии и даже избытке данных невозможно провести их анализ, и создается ХД. Deductor Warehouse позволяет по заранее установленному регламенту (например, один раз в сутки) выгружать данные из одной или нескольких учетных систем (1 С-бухгалтерия, специальные регистры оперативного учета и др.), тем самым обеспечивая сбор и консолидацию информации, необходимой для анализа. Подробнее см. на сайте www.basegroup.ru-, дополнительную информацию можно также найти в электронной библиотеке «Издательства» как приложение к работе Моделирование систем и процессов: практикум (под ред. В. Н. Волковой., 2016).
- [1] Паклин II. Б., Орешков В. И. Указ. соч.