Введение.
Способы аналитической обработки данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Введение. Способы аналитической обработки данных (реферат, курсовая, диплом, контрольная)

К настоящему времени во многих организациях накоплены колоссальные объемы данных, на основе которых можно решать самые разнообразные аналитические и управленческие задачи в любой сфере деятельности. Проблемы хранения и обработки аналитической информации становятся все более актуальными и привлекают внимание специалистов и фирм, работающих в области информационных технологий.

В идеале работа аналитиков и руководителей различных уровней должна быть организована так, чтобы они могли.

— иметь доступ ко всей интересующей их информации
— пользоваться удобными и простыми средствами представления и работы с этой информацией.

Именно на достижение этих целей и направлены информационные технологии, объединяющиеся под общим названием хранилища данных.

Для предоставления необходимой для принятия решений информации обычно приходится собирать данные из нескольких транзакционных баз данных различной структуры и содержания. Основная проблема при этом состоит в несогласованности и противоречивости этих баз-источников, отсутствии единого логического взгляда на корпоративные данные. Решением этой проблемы является хранилище данных. В основе концепции хранилищ данных лежит важная идея интеграции ранее разъединенных детализированных данных, содержащихся в исторических архивах, накапливаемых в традиционных системах транзакционной обработки, поступающих из внешних источников, в единую базу данных, их предварительное согласование и, возможно, агрегация.

Автор концепции хранилищ данных (Data Warehouse) является Б. Инмон, который определил хранилища данных, как: «предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления», призванные выступать в роли «единого и единственного источника истины», обеспечивающего руководителей и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

Кроме возможности работать с единым источником информации, руководители и аналитики должны иметь удобные средства визуализации данных, агрегирования, поиска тенденций, прогнозирования. Несмотря на многообразие аналитической деятельности можно выделить типовые технологии анализа данных, каждой из которых соответствует определенный набор инструментальных средств. Вместе с хранилищем данных эти средства обеспечивают полное решение для автоматизации аналитической деятельности и создания корпоративной информационно-аналитической системы.

Полномасштабная информационно-аналитическая система должна выполнять сложные и разнообразные функции, включающие сбор данных из различных источников, их согласование, преобразование и загрузку в хранилище, хранение аналитической информации, регламентную отчетность, поддержку произвольных запросов, многомерный анализ и др. Обычно для выполнения этих функций используются различные продукты, что приводит к усложненной архитектуре системы, необходимости интегрировать разнородные инструментальные среды, дополнительным затратам на администрирование, проблемам согласования данных и метаданных на различных серверах.

Можно считать, что хранилище данных расположено в центре всех ориентированных на приложения систем организации. Хранилище регулярно получает данные из этих систем и формирует сводное представление. Данные могут быть простой копией транзакционных данных (в этом случае их называют атомарными) или же подвергаться на пути от источника к пункту назначения (хранилищу) трансформации либо агрегированию. При этом в хранилище может помещаться только какое-то их подмножество, или же данные могут подвергаться конвертированию для того, чтобы обеспечить их совместимость с данными из других источников. Для обозначения процесса отсечения и извлечения данных обычно используются термины расслоение (slicing) и расщепление (dicing). Внутренняя структура хранилища данных построена так, чтобы запросы можно было легко создавать и эффективно выполнять.

Почти для всех успешно работающих приложений хранилищ данных используются выделенные серверы.

Необходимо наличие мощных инструментальных средств, при помощи которых пользователи, не знающие языка SQL, могут создавать запросы и выполнять многомерный анализ данных (главным образом анализ возможных ситуаций). Должна быть обеспечена возможность постановки таких, например, запросов: «Как изменится объем продаж, если наш главный конкурент уйдет с рынка?» Для формирования таких прогнозов и содействия пользователям в поиске в базе данных с последующей детализацией разработано новое поколение инструментальных средств, ориентированных на конечных пользователей и известных как средства оперативной аналитической обработки данных (OLAP-средства). OLAP (англ. online analytical processing, аналитическая обработка в реальном времени) — технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу.

Рисунок 1.

Как видно на рисунке 1, систем-источников данных может быть много, причем разных; данные переносятся из них в загрузочную секцию, оттуда они поступают на трансформацию и интеграцию, а затем загружаются в хранилище. Попав в хранилище, данные становятся доступными пользователям, выполняющим исследование данных с помощью OLAP-приложений.

Загрузочная секция на рисунке 1 представляет собой логический объект, при помощи которого обозначено место, где входящие данные содержатся в необработанном формате до передачи их в хранилище. Данные загрузочной секции физически могут храниться отдельно как двумерные ASCII-файлы или в базе данных в виде временных промежуточных таблиц, которые могут быть снимками или реплицированными из других источников таблицами. Данные загрузочной секции могут храниться даже во внутреннем формате системы, обеспечивающей пересылку данных. Пока данные находятся в загрузочной секции, для анализа они не доступны, поскольку еще не попали в хранилище.

Свойства хранилища данных Уильям Инмон дал классическое определение хранилища данных в 1990 году. Он охарактеризовал его как специальным образом администрируемую базу данных, содержимое которой имеет следующие свойства:

· Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
· Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
· Некорректируемость. Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.
· Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Предметная ориентация. В отличие от традиционной схемы реализации информационной системы, где источником данных для средств анализа являются ОБД, в которых данные ориентированы на обработку и функциональность систем сбора информации, данные в хранилище данных ориентированы на решение задач анализа и представления данных. Предметная ориентация является фундаментальным отличием ОБД от хранилища данных. Именно это свойство позволяет конечному пользователю работать с данными, охватывающими деятельность организации в целом. Разные приложения ОБД могут описывать одну и ту же предметную область с разных точек зрения и решение, принятое на основе данных, отражающих только одну сторону вопроса, могут быть неэффективными, а порой и просто неверными.

Следует отметить, что предметная ориентация позволяет также существенно ускорить доступ к данным за счет предварительной переструктуризации данных в момент загрузки.

Предметная ориентация позволяет также хранить в хранилище данных только те данные, которые необходимы для средств анализа, что существенно сокращает затраты на носители информации и повышает безопасность доступа к данным.

Поскольку в технологии ХД объекты данных выходят на первый план, то особые требования предъявляются к структурам БД, используемым для создания информационных хранилищ. Принципиально отличаются и структуры баз данных для OLTP-систем и систем ХД. Во втором случае в них помещается только та информация, которая может быть полезной для работы систем поддержки принятия решений (СППР).

OLTP (Online Transaction Processing), транзакционная система — обработка транзакций в реальном времени. Способ организации БД, при котором система работает с небольшими по размерам транзакциями, но идущими большим потоком, и при этом клиенту требуется от системы минимальное время отклика.

Интегрированность данных. Данные в информационное хранилище поступают из различных источников, где они могут иметь разные имена, атрибуты, единицы измерения и способы кодировки. После загрузки в ХД данные очищаются от индивидуальных признаков. С этого момента они представляются пользователю в виде единого информационного пространства.

В качестве примера можно привести обработку данных о поле человека. Если в четырех разных приложениях пол клиента кодировался различными способами (женский, мужской, жен., муж., ж, м, Ж, М), то в информационном хранилище будет использована единая для всех данных схема кодировки (например, жен., муж.).

Инвариантность во времени. В OLTP-системах истинность данных гарантирована только в момент чтения, поскольку уже в следующее мгновение они могут измениться в результате очередной транзакции. Важным отличием ХД от OLTP-систем является сохранение истинности данных в любой момент процесса чтения. В OLTP-системах информация часто модифицируется как результат выполнения каких-либо транзакций. Временная инвариантность данных в ХД достигается за счет введения полей с атрибутом «время» (день, неделя, месяц) в ключи таблиц. В результате записи в таблицах ХД никогда не изменяются, представляя собой «моментальные снимки» данных, сделанные в определенные отрезки времени. Каждый элемент в своем ключе явно или косвенно хранит временной параметр, например, день, месяц или год.

Неразрушаемость — стабильность информации. В OLTP-системах записи могут регулярно добавляться, удаляться и редактироваться. В системах ХД, как следует из требования временной инвариантности, однажды загруженные данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ).

Интеграция. Различные ОБД разрабатываются различными коллективами разработчиков, зачастую в разное время и различными средствами разработки. Это приводит к тому, что объекты, отражающие одну сущность, имеют различные наименования и единицы измерения. Обязательная интеграция данных в ХД позволяет решить эту проблему.

Минимизация избыточности информации. В ХД информация загружается из ОБД или OLTP-систем, при этом избыточность оказывается минимальной (около 1%), что объясняется следующими причинами:

— при загрузке информации из OLTP-cистем в ХД данные фильтруются. Многие из них вообще не попадают в хранилище данных, поскольку лишены смысла с точки зрения использования в системах поддержки принятия решений;
— в ХД хранится некая итоговая информация, которая в базах данных OLTP-систем вообще отсутствует;
— во время загрузки в ХД записи сортируются, очищаются от ненужной информации и приводят к единому формату. После такой обработки это уже совсем другие данные.

Классификация данных в хранилище данных. Все данные в хранилище данных делятся на три основных категории:

— метаданные;
— детальные (текущие) данные;
— агрегированные данные.

В отличие от ОБД ХД имеет хорошо развитую структуру метаданных (или данных о данных). Метаданные играют роль справочника, содержащего сведения об источниках первичных данных, алгоритмах обработки, которым исходные данные были подвергнуты и т. д. Наличие метаданных позволяет осуществлять быструю и удобную навигацию по различным уровням данных, а также сильно упрощает реализацию и использование средств анализа.

Детальные (текущие) данные в ХД являются денормализованными, по сравнению с нормализованными данными в большинстве ОБД. Это свойство ХД позволяет существенно повысить скорость доступа к необходимым данным, хотя и требует большей емкости носителей информации.

Наличие хорошо развитой иерархии агрегированных данных по уровням агрегации является отличительной чертой хранилища данных. Проведенные исследования показали, что большинство конечных пользователей не работают с детальными данными, а обращаются в основном к агрегированным показателям. Структура ХД отражает эту ситуацию и позволяет конечному пользователю быстро и удобно получать интересующую его агрегированную информацию с последующей навигацией по всем уровням агрегирования.

В процессе эксплуатации необходимость в ряде детальных данных может сильно упасть, что является причиной подразделения детальных данных на текущие и старые (рис. 2.). В то время как текущие данные регулярно используются и поэтому хранятся на накопителях с быстрым доступом (в основном на жестких дисках), старые детальные данные могут храниться на более емких накопителях с более медленным доступом (например, на оптических дисках или магнитных лентах).

Рисунок 2.

При создании хранилища данных крайне нежелательно использование оптимизированных структур (многомерных, звездообразных и др.), ввиду свойственной им негибкости. Использование реляционной, нормализованной модели в качестве основы хранилища данных максимально облегчит дальнейшее развитие такого хранилища. Если при этом, запросы пользователя поступают только в витрины данных, то от хранилища данных потребуется вместо необходимости поддерживать специализированные запросы, лишь периодически создавать выборки для витрин данных.

Способы аналитической обработки данных Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, т. е. он должен иметь развитые инструменты доступа к данным хранилища и их обработки.

Очень часто информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются Информационными системами руководителя (ИСР), или Executive Information Systems (EIS). Они содержат в себе множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения, которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо.

Оперативная аналитическая обработка. Или On-Line Analytical Processing, OLAP — это ключевой компонент организации хранилищ данных. Концепция OLAP была описана в 1993 г. Эдгаром Коддом и имеет следующие требования к приложениям для многомерного анализа:

— многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий (ключевое требование OLAP);
— предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с), пусть даже ценой менее детального анализа;
— возможность осуществления любого логического и статистического анализа, характерного для данного приложения, и его сохранения в доступном для конечного пользователя виде;
— многопользовательский доступ к данным с поддержкой соответствующих механизмов блокировок и средств авторизованного доступа;
— возможность обращаться к любой нужной информации независимо от ее объема и места хранения.

OLAP-система состоит из множества компонент. На самом высоком уровне представления система включает в себя источник данных, многомерную базу данных (МБД), предоставляющая возможность реализации механизма составления отчетов на основе технологии OLAP, OLAP-сервер и клиента. Система построена по принципу клиент-сервер и обеспечивает удаленный и многопользовательский доступ к серверу МБД.

Показать весь текст

Заполнить форму текущей работой