On-Line Analytical Processing

РефератПомощь в написанииУзнать стоимостьмоей работы

On-Line Analytical Processing (реферат, курсовая, диплом, контрольная)

Для построения систем отчетности можно применять различные подходы, но самый распространенный на сегодня — это механизм OLAP. Основной идеей является представление информации в виде гиперкубов (многомерных кубов), где оси представляют собой измерения, а в ячейках помещаются меры (показатели). Пользователь манипулирует измерениями и получает, необходимую для решения конкретных задач, информацию [2].

Благодаря лёгкости понимания OLAP получил обширное распространение в качестве механизма анализа данных, но следует понимать, что его возможности в разделе более глубокого анализа, например, классификации, очень ограничены. Главной проблемой при решении, задач глубокого анализа является вовсе не возможность извлечения необходимых данных в виде таблиц, графиков и диаграмм, а построение адекватной модели. На вход существующей модели подается новая информация, проходит через нее, а результат и есть классифицированные объекты. Однако построение модели является крайне сложной задачей. Конечно, можно задать в системе несколько готовых и не сложных моделей, например, логистическую регрессию или аналогичную, зачастую именно так и происходит, но это не решает поставленный вопрос, и реальные задачи практически всегда выходят за рамки таких тривиальных моделей. Таким образом, подобная модель будет обнаруживать лишь видимые зависимости, ценность обнаружения которых второстепенна, т. е. то, что и так хорошо известно, или будет строить излишне грубые сценарии, что тоже совершенно неинтересно [7].

Аналитику часто приходится рассматривать процессы, которые оказываются слишком запутанными и не поддающимися точному анализу с помощью строгих аналитических методов. Но можно все же получить представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы [20].

Верным подходом к генерации моделей является их пошаговое усовершенствование. Начав с пробной, полученной на основе исследований и опыта эксперта, сравнительно грубой модели, необходимо по мере накапливания новых данных и использования модели на практике улучшать ее. В конечном счёте задача классификации выходит за границы механизмов систем отчетности, поэтому не стоит ждать положительных результатов в этом направлении при применении OLAP-технологии. Для решения задач более сложного анализа применяется совсем иной набор технологий — KDD.

Knowledge Discovery in Databases KDD — это процесс преобразования данных в знания. KDD занимается вопросами подготовки данных, очистки данных, выбора информативных признаков, применения методов Data Mining (DM), постобработки данных, интерпретирование извлечённых результатов.

Прелесть этого подхода состоит в том, что вне зависимости от предметной области выполняются одни и те же операции:

1. Подготовка данных
1.1. Вникание в предметную область. Инициирующий процесс, в рамках которого необходимо выстроить чёткое понимание предметной области, целей проведения этой работы, то, для каких нужд и кем будут использоваться результаты. На основании этого, можно сделать множество решений, по поводу трансформации данных, используемых алгоритмах и способах выдачи результатов [21].
1.2. Подготовка исходных данных. Цель данного этапа — создать набор данных, состоящий из различных источников, а также разделение этого набора на обучающую и тестирующую выборки. Для использования бизнес понятий, а не технических терминов, необходимо наличие семантического слоя и поддержка работы с хранилищем данных.
2. Отчистка данных или предобработка данных. Необходимо проверить исходные данные на наличие аномальных значений, пустых значений, шумов и при необходимости исправить эти данные. Также на этом этапе могут применяться различные алгоритмы понижения размерности данных.
3. Трансформация данных. Трансформация данных позволяет привести исходные данные к корректному, для используемого метода DM виду. Это может быть сделано путём квантования, приведения типов, приведения к «скользящему окну» и т. д.
4. Data Mining:
4.1. Выбор типа используемых методов DM. На этом этапе выбирается тип методов DM, которые в дальнейшем будут использоваться, например, классификация, регрессия или кластеризация. В большей степени это зависит от целей KDD, а так же от предыдущих этапов. DM используется для двух основных целей: прогнозирование и описание. Большая часть методов DM основывается на индуктивном обучении, т. е. модель строится косвенно либо на прямую, путём обобщения множеств обучающих выборок. Возможность применения полученной модели в будущих анализах является основополагающим допущением индуктивной модели обучения.
4.2. Выбор алгоритма DM. На этом этапе происходит выбор конкретных методов анализа для анализируемой модели. Например, в сравнении точности и простоты интерпретации, первое легче достичь, используя нейронные сети, в то время как последнее, используя деревья решений. Каждый алгоритм имеет различные параметры и способы обучения. На основе этого необходимо понять, какой алгоритм наиболее подходящий для решения поставленной задачи [21].
4.3. Применение DM алгоритма. На этом этапе необходимо применить выбранный алгоритм несколько раз, до получения удовлетворяющих результатов, например, изменяя параметры алгоритмов, таких как минимальное количество сущностей в одной ветке дерева решений.
4.4. Оценивание. На этом этапе необходимо оценить и интерпретировать основные параметры полученной модели (правила, надёжность), относительно поставленных целей, определённых на первом шаге. Также необходимо оценить предшествующие этапы на предмет их воздействия на результаты DM алгоритма. На этом этапе основное внимание уделяется доступности для понимания и полезности построенной модели, а так же проводится её документация.
5. Постобработка данных. На данном этапе производится интерпретация результатов и применение полученных знаний. Успешность применения полученных результатов является определяющим фактором эффективности всего процесса KDD [21].

Интерпретация результатов обработки данных возлагается на человека (ЛПР). Результаты, полученные после такого анализа, в самом обычном варианте — это таблицы, графики и диаграммы, а в усложнённом — правила и модели. Целиком избежать участия человека невозможно. Любой результат не будет иметь никакой стоимости, пока он не будет использован к определённой предметной области.

Решение любой из перечисленных задач, может состоять из разнообразных методик, от статистических методов и до самообучающихся алгоритмов. Практические задачи почти всегда разрешимы перечисленным списком методов или их комбинацией, т. е. практически любая задача решается путём приспосабливания этих методов. Таким образом, система, решающая приведённый список задач, позволяет ЛПР решить большинство задач бизнес анализа.

Показать весь текст

Заполнить форму текущей работой