Помощь в написании студенческих работ
Антистрессовый сервис

Хранилища данных. 
Информационные системы управления производственной компанией

РефератПомощь в написанииУзнать стоимостьмоей работы

В основе построения хранилища данных лежит принцип многомерного представления данных, при котором в структуре экономической информации выделяются измерения и факты. Под измерениями понимаются категориальные (дискретные) атрибуты, наименования и свойства объектов, участвующих в бизнес-процессе, например, наименования клиентов, названия товаров, регионов, магазинов. Факты — это количественные… Читать ещё >

Хранилища данных. Информационные системы управления производственной компанией (реферат, курсовая, диплом, контрольная)

Проблемы разрозненности хранения данных в рамках одного предприятия, необходимость привлечения технических специалистов для извлечения из баз данных нужной для принятия решений информации привели в 1980;е гг. к идее централизованного хранения данных, необходимых для последующего анализа. Возник термин «хранилище данных».

Хранилища данных представляют собой специализированные базы данных, обладающие следующими свойствами:

  • предметная ориентированность. В хранилище содержатся данные, всесторонне описывающие определенную предметную область;
  • интегрированность. Данные собираются из множества различных источников, обобщаются и хранятся в едином корпоративном хранилище;
  • обеспечение непротиворечивости данных. Данные из разных источников могут содержать дублирующие, противоречивые сведения, поэтому перед их загрузкой в хранилище они проходят процедуры проверки, согласования, дополнения, обобщения;
  • неизменяемость. В отличие от баз данных транзакционных систем, в которых оперативные данные могут редактироваться пользователями, данные в хранилище используются исключительно в режиме чтения и недоступны для корректировки;
  • поддержка хронологии. Поскольку для целей анализа и прогнозирования развития предметной области необходимо видеть ее показатели в динамике, данные хранятся в привязке в дате и за максимально возможный временной период;
  • оптимизация под выполнение сложных аналитических запросов. Хранилище проектируется таким образом, чтобы минимизировать время на формирование аналитической отчетности, необходимой для поддержки принятия решений для руководителей и менеджеров.

Если в базах данных транзакционных систем данные поступают в процессе бизнес-деятельности (продажи товаров фиксируются в системе по факту продажи, товары, поступившие на склад, учитываются по факту поступления на склад и т. п.), то для пополнения данных в хранилище требуется их периодическая выгрузка из источников. Процесс размещения информации в хранилищах предусматривает периодический сбор, очистку и интеграцию разрозненных данных с последующим их преобразованием в статичные, постоянные структуры.

В качестве источников данных для информационного хранилища, как правило, используются данные из разрозненных ИС, основанных на различных реляционных СУБД, обслуживающие повседневную деятельность предприятия. Источниками могут быть и данные, получаемые от внешних организаций — информационных агентств, консалтинговых компаний, средств массовой информации, сайтов Интернета.

В зависимости от степени детализации и времени хранения в хранилище выделяются текущие детальные данные, архивные данные, агрегированные (суммарные, обобщенные) данные, метаданные (репозиторий).

В отличие от баз данных транзакционных систем, где агрегированные данные не хранятся, а каждый раз вычисляются заново, хранилище содержит и детальные, и агрегированные данные. Это обусловлено необходимостью обеспечения быстрого выполнения запросов пользователей: в хранилище содержится такое большое количество данных, что вычисление суммарных показателей «на лету» занимало бы значительное количество времени.

В хранилище содержится информация из различных источников, которая может иметь различную периодичность обновления, различную структуру, степень достоверности, владельцев данных — сведения об этих характеристиках информации называются метаданными и хранятся в репозитории хранилища. В репозитории могут также храниться бизнес-термины, правила и алгоритмы вычисления показателей, которые определены для рассматриваемого бизнеса. Физически репозиторий представляет собой отдельную базу данных или набор таблиц в рамках базы данных хранилища.

Хранилище может быть реализовано в виде виртуального хранилища данных, витрин данных и глобального хранилища данных.

Под виртуальным хранилищем данных понимают специальные средства доступа к данным транзакционных систем, обеспечивающие работу с этими данными как с хранилищем данных. Этими средствами доступа могут быть как «представления» в базе данных, так и отдельные программные продукты. Достоинствами виртуального хранилища являются простота и малая стоимость реализации, единая платформа с источником информации, отсутствие необходимости перегрузки данных из источников информации в хранилище данных. К недостаткам такого подхода относятся проблемы производительности, трансформации данных, интеграции данных с другими источниками, отсутствие поддержки хронологии, проверки корректности данных, зависимость от доступности и структуры основной базы данных.

Реализация хранилища данных на основе витрин данных предполагает функционирование двух уровней: уровня источников данных и уровня витрин данных, которые строятся на основе принципов проектирования хранилищ данных и содержат данные о конкретной узкой предметной области. В рамках одного предприятия витрин данных может быть несколько: витрина данных, но поставщикам, витрина данных по производимым товарам, витрина данных, но доходам и расходам для бухгалтерии и др. Единое центральное хранилище данных при этом не создается. Достоинствами витрин данных являются простота и малая стоимость реализации по сравнению с созданием централизованного хранилища данных, высокая производительность за счет физического разделения регистрирующих и аналитических систем, выделения загрузки и трансформации данных в отдельный процесс, оптимизированный под анализ структуры хранения данных. Витрины данных также позволяют поддерживать хронологию данных, описывать структуру данных в виде метаданных. К недостатку витрин данных можно отнести то, что они не дают единого источника информации обо всем предприятии. Впоследствии интегрировать витрины в единое централизованное хранилище может оказаться проблематичным из-за различающихся форматов и структур хранения данных. Кроме того, разные витрины могут использовать частично повторяющиеся данные, которые нужно извлекать из источника для каждой витрины отдельно, что требует дополнительных затрат на обслуживание.

Глобальное хранилище данных предполагает реализацию трехуровневой архитектуры системы. На первом уровне располагаются источники данных — внутренние транзакционные системы, внешние источники (данные информационных агентств, консалтинговых компаний и т. п.). Второй уровень содержит центральное хранилище, в которое загружается информация из источников данных. При различном регламенте поступления данных из источников в качестве промежуточного звена может использоваться оперативный склад данных, в котором данные подготавливаются, преобразуются, проверяются для их последующей загрузки в центральное хранилище. Описания загруженных данных помещаются в репозиторий. Третий уровень представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.

Концептуально организацию хранилища данных можно представить в виде схемы на рис. 3.2.

В основе построения хранилища данных лежит принцип многомерного представления данных, при котором в структуре экономической информации выделяются измерения и факты. Под измерениями понимаются категориальные (дискретные) атрибуты, наименования и свойства объектов, участвующих в бизнес-процессе, например, наименования клиентов, названия товаров, регионов, магазинов. Факты — это количественные значения показателей, описывающих бизнес-процесс. Примерами фактов могут быть цены на товары, объем продаж, объем доходов, объем расходов, рентабельность, доля на рынке.

Схема организации хранилища данных.

Рис. 3.2. Схема организации хранилища данных.

В соответствии с принципом многомерного представления данных в базе данных хранилища выделяются таблицы фактов, таблицы измерений и консольные таблицы. В таблицах фактов содержатся количественные значения экономических показателей со ссылками на значения измерений, к которым они относятся. В таблицах измерений (справочников) хранятся все возможные значения измерений. Консольные таблицы могут использоваться для хранения более сложных измерений с вложенностью и иерархией. Например, если в хранилище должны содержаться данные о продажах разных товаров, в разных магазинах, то наименования товаров и магазинов будут храниться в соответствующих таблицах измерений «Товары» и «Магазины», а количественные значения продаж — в таблице фактов «Продажи». Если при этом магазины находятся в разных регионах и это необходимо учитывать при анализе продаж, то наименования регионов могут быть помещены в консольную таблицу «Регионы», которая будет связана с таблицей измерений «Магазины».

В зависимости от сложности предметной области таблицы базы данных хранилища могут быть связаны по схеме «звезда», «снежинка» или «созвездие» (рис. 3.3).

Схемы построения хранилищ данных.

Рис. 33. Схемы построения хранилищ данных:

а — «звезда»; б — «снежинка»; в — «созвездие»

При схеме «звезда» одна таблица фактов связывается с несколькими таблицами измерений. Схема «снежинка» предполагает дополнительные связи таблиц измерений с консольными таблицами. Если в хранилище присутствует несколько таблиц фактов, которые используют общие таблицы измерений и консольные таблицы, то хранилище построено по схеме «созвездие».

Технологически хранилища данных тесно связаны со средствами оперативной аналитической обработки данных (OLAP-технологиями), позволяющими аналитикам, управленцам и руководителям высшего звена изучать большие объемы взаимосвязанных данных с помощью быстрого интерактивного отображения информации на разных уровнях детализации.

Показать весь текст
Заполнить форму текущей работой