Хранилища информации.
Информационные системы в экономике

РефератПомощь в написанииУзнать стоимостьмоей работы

Хранилища информации. Информационные системы в экономике (реферат, курсовая, диплом, контрольная)

Понятие «хранилища данных» (ХД) (data warehouse) появилось сравнительно недавно. Потребность в этом термине возникает, в основном, тогда, когда требуется интеграция тематической, текстовой информации и данных, необходимых для принятия решений. Изначально такие совокупности получили название «хранилища информации» (information warehouse), что представляется более верным, поскольку текстовые документы (книги, статьи, диссертации, документы вторичной информации — реферативная, обзорная, экспресс-информация и т. п.) нельзя считать данными, и в органах, занимающихся регистрацией, хранением и обработкой информации, приняты термины «информационные массивы», а места хранения так и называют — «хранилища». Однако позднее, в 1990;е гг. Б. Инмоном^[1] в ряде опубликованных им работ был использован термин «хранилища данных». Нередко этот термин используют для всех видов информации.

Обычные БД предназначены для того, чтобы помочь пользователям выполнять повседневную работу, в то время как ХД предназначены для принятия решений. В отличие от базы данных хранилище является основой для извлечения значимой информации из оперативной базы данных.

В основе концепции ХД лежат следующие положения [30]:

1) интеграция и согласование данных из различных источников — обычные системы оперативной обработки базы данных, учетные системы, офисные документы, электронные архивы, внутренние и внешние документы;
2) разделение наборов данных на данные, используемые для обработки транзакций^[2], т. е. для обработки повседневной, текущей информации, поступающей из цехов, складов, банков, от поставщиков и т. д., обеспечиваемой системами OLTP, и данных для систем поддержки принятия решений (СПИР), т. е. для анализа динамики продаж за несколько лет, позволяющего планирование работ с поставщиками и т. п.

Принципы организации хранилища определяются в разных источниках по-разному. По всей видимости, это связано с тем, что они определялись на основе опыта создания хранилищ для информационных систем разного вида и назначения.

По определению, сформулированному автором термина Б. Ипмоном, хранилище данных — это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений. С учетом этого, отличительными особенностями ХД по сравнению с обычными БД считаются:

• проблемно-предметная ориентация — данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют;
• интегрированность — данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса;
• некорректируемость — данные в ХД не создаются, т. е. поступают из внешних источников, не корректируются и не удаляются;
• зависимость от времени — данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Для обновления данных предусмотрено два варианта:

1) полное обновление данных в хранилище. Сначала старые данные удаляются, потом происходит загрузка новых данных. Процесс происходит с определенной периодичностью;
2) инкрементальное обновление — обновляются только те данные, которые изменились в OLTP-системе.

Хранилище относительно стабильно: данные в нем обычно обновляются согласно расписанию (например, еженедельно, ежедневно или ежечасно в зависимости от потребностей). В идеале процесс пополнения представляет собой просто добавление новых данных за определенный период времени без изменения прежней информации, уже находящейся в хранилище.

Обычные БД являются источником данных, попадающих в хранилище. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов.

Основными требованиями к хранилищам данных являются:

• поддержка высокой скорости получения данных из хранилища;
• поддержка внутренней непротиворечивости данных;
• возможность получения и сравнения так называемых срезов данных;
• наличие удобных утилит просмотра данных в хранилище;
• полнота и достоверность хранимых данных;
• поддержка качественного процесса пополнения данных.

Удовлетворять всем перечисленным требованиям в рамках одного и того же программного (или программно-аппаратного) продукта удается не всегда, поэтому для реализации хранилищ данных обычно применяются несколько программных продуктов, одни их которых представляют собой собственно средства хранения данных, другие — средства их извлечения и просмотра, третьи — средства их пополнения и т. д.

Логическая структура хранилища данных существенно отличается от структуры источников данных. Основным отличительным элементом хранилища является семантический слой, позволяющий оперировать данными посредством бизнес-терминов предметной области. Технология должна обеспечить интеграцию и согласование данных, поступающих из различных источников, разделение наборов данных с учетом целей их использования для обеспечения транзакций в OLTP и задач, решаемых в СППР.

Системы поддержки принятия решений обладают средствами предоставления пользователю агрегатных данных для различных выборок из исходного набора в удобном для восприятия и анализа виде. С точки зрения пользователя в процессе извлечения знаний из хранилища должны решаться следующие преобразования: данные —" информация —" знания —" —" полученные решения.

Помимо извлечения данных из хранилищ, для принятия решений используется процесс извлечения знаний в соответствии с информационными потребностями пользователя, осуществляемый с использованием технологий Business Intelligence, OLAP, ETL, Data Mining, являющимися составной частью СППР.

Первоначально в СППР использовался термин «business intelligence» («бизнес-аналитика» (BI)), который впервые появился в 1958 г. в статье X. П. Луна, который определил этот термин, как «возможность понимания связей между представленными фактами»^[3].

Технология BI — это методы и инструменты для перевода больших объемов неструктурированных данных информации в осмысленную, удобную форму, чтобы найти оперативные решения или стратегические возможности для бизнеса.

В 1989 г. Г. Дреснер определил «business intelligence» как общий термин, описывающий «концепции и методы для улучшения принятия бизнесрешений с использованием систем на основе бизнес-данных». В последуюгцсм возникает концепция Business Analytics^[4], одной из основных технологий которой является OLAP.

Технология комплексного многомерного анализа данных OLAP (On-Line Analytical Processing — аналитическая обработка в реальном времени) определяет способ организации хранилищ данных. Концепция OLAP была предложена в 1993 г. Э. Коддом^[5], а в 1995 г. на основе изложенных им требований был сформулирован так называемый тест FASMI (fast analysis of shared multidimensional information — быстрый анализ разделяемой многомерной информации), основными требованиями которого являются:

• предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с), пусть даже ценой менее детального анализа;
• возможность осуществления логического и статистического анализа, характерного для данного приложения, и его сохранения в доступном для пользователя виде;
• многомерное представление данных (концептуальное требование OLAP);
• возможность обращаться к любой необходимой информации независимо от ее объема и места хранения.

Будучи средством поддержки принятия решений, OLAP работает не с оперативными базами данных, а с ретроспективными архивами, хранящими данные за значительный период времени. Это позволяет вычислить промежуточные данные, которые ускоряют анализ гигантских объемов хранящейся информации. Используется многомерная модель данных в виде гиперкуба (см. параграф 3.3). Оси гиперкуба содержат параметры, а ячейки включают зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации. Благодаря такой модели данных пользователи могут формулировать сложные запросы, генерировать отчеты, получать подмножества данных.

Существуют три типа моделей OLAP:

• многомерная;
• реляционная;
• гибридная.

Развитием технологии извлечения знаний явилась технология ETL — один из основных процессов в управлении хранилищами данных, который включает в себя:

• извлечение данных из внешних источников;
• их трансформацию и очистку, чтобы они соответствовали нуждам бизнес-модели;
• загрузку их в хранилище данных.

С точки зрения процесса ETL, архитектуру хранилища данных можно представить в виде трех компонентов:

• источник данных — содержит структурированные данные в виде таблиц, совокупности таблиц или просто файла (данные в котором разделены символами-разделителями);
• промежуточная область — содержит вспомогательные таблицы, создаваемые временно и исключительно для организации процесса выгрузки;
• получатель данных — хранилище данных или база данных, в которую должны быть помещены извлеченные данные.

Перемещение данных от источника к получателю называют потоком данных. Требования к организации потока данных описываются аналитиком. Технологию ETL следует рассматривать не только как процесс переноса данных из одного приложения в другое, но и как инструмент подготовки данных к анализу.

Начальным этапом процесса ETL является процедура извлечения записи из источников данных и подготовка их к процессу преобразования. При разработке процедуры извлечения данных в первую очередь необходимо определить частоту выгрузки данных из OLTP-систем или отдельных источников. Выгрузка данных занимает определенное время, которое называется окном выгрузки. После извлечения данные помещаются в так называемую «промежуточную область», где для каждого источника данных создается своя таблица, или отдельный файл, или и то, и другое.

Цель этого этапа — подготовка данных к размещению в хранилище данных и приведение их к виду, более удобному для последующего анализа. При этом должны учитываться некоторые выдвигаемые аналитиком требования, в частности к уровню качества данных. Поэтому в процессе преобразования может быть задействован самый разнообразный инструментарий, начиная с простейших средств ручного редактирования данных и заканчивая системами, реализующими сложные методы обработки и очистки данных. В процессе преобразования данных в рамках ETL чаще всего выполняются следующие операции: преобразование структуры данных; агрегирование данных; перевод значений; создание новых данных; очистка данных.

С развитием технических средств и технологий визуализации возник новый вид ИТ — витрина данных — срез хранилища данных, представляющий собой массив тематической узконаправленной информации, ориентированный, например, на пользователей одной рабочей группы или департамента.

Концепция витрин данных была предложена компанией Forrester Research еще в 1991 г. По замыслу авторов, витрины данных — множество тематических БД, содержащих информацию, относящуюся к отдельным аспектам деятельности организации.

В 1994 г. М. Демарест предложил объединить две концепции — хранилищ данных и витрин данных — и использовать хранилище данных в качестве единого интегрированного источника данных для витрин данных.

Для извлечения значимой информации из баз знаний используются специальные методы (Data Mining или Knowledge Discovery), основанные на применении либо многомерных статистических таблиц, либо индуктивных методов построения деревьев решений, либо нейронных сетей. Формулирование запроса осуществляется в результате применения интеллектуального интерфейса, позволяющего в диалоге гибко определять значимые признаки анализа. Разработкой и распространением информационных хранилищ в настоящее время занимаются такие компьютерные фирмы, как IBM (Intelligent Miner), Silicon Graphics (MineSet), Intersolv (DataDirect, SmartData), Oracle (Express), SAS Institute (SAS/Assist), система Crystal Info компании Seagate Software и др.

С развитием интернет-технологий возникли новые технологии хранения данных — виртуальные хранилища и облачные платформы.

Виртуальное хранилище данных — это система, представляющая интерфейсы и методы доступа к регистрирующей системе, которые позволяют работать с данными в этой системе как с хранилищем данных. Виртуальное хранилище данных можно организовать на основе технологии баз данных, либо применив специальные средства доступа, например продукты класса Desktop OLAP, к которым относятся BusinessObjects, Brio Enterprise и др.^[6]

Облачные технологии — информационно-технологическая концепция, подразумевающая обеспечение удобного сетевого доступа по требованию к общим вычислительным ресурсам, в составе которых могут быть не только собственно данные и устройства хранения данных, но и, например, сети передачи данных, серверы, программные приложения, которые могут быть оперативно предоставлены и освобождены с минимальными эксплуатационными затратами или обращениями к провайдеру [1]. Поэтому в последнее время используют термины «облачные платформы» и «облачные вычисления» (англ, cloud computing). Термин «cloud computing» произошел от условного изображения Интернета в виде облака, которое является образом сложной инфраструктуры, скрывающим технические детали ее реализации.

Платформа как услуга (PaaS, Platform-as-a-Service) — модель, когда потребителю предоставляется возможность использования облачной инфраструктуры для размещения базового ПО для последующего размещения на нем новых или существующих приложений (собственных, разработанных на заказ или приобретенных). В состав таких платформ входят инструментальные средства создания, тестирования и выполнения прикладного ПО — СУБД, связующее ПО, языки программирования.

Контроль и управление основной физической и виртуальной инфраструктурой облака, в том числе сети, серверов, ОС, хранения, осуществляется облачным провайдером, за исключением разработанных или установленных приложений, а также, по возможности, параметров конфигурации среды (платформы). Облачные технологии получили широкое распространение примерно с 2006 г. Однако ранние концепции использования вычислительных ресурсов по принципу системы «коммунального хозяйства» относят к 1960;м гг.^[7]

Следующими шагами к концептуализации облачных вычислений считаются появление CRM-системы (customer relationship management — управления взаимоотношениями с клиентами), которую стали предоставлять по подписке в виде веб-сайта (1999), и начало предоставления услуг по доступу к вычислительным ресурсам через Интернет книжным магазином Amazon.com (2002).

Развитие сервисов Amazon, фактически превратившейся благодаря этим услугам в технологическую компанию, привело к формулировке идеи и запуску в августе 2006 г. проекта под названием «Elastic Computing Cloud» (Amazon EC2). Практически одновременно с запуском ЕСС термины «cloud» и «cloud computing» прозвучали в одном из выступлений главы Google Э. Шмидта^[8]. Начиная с этого времени, встречаются многочисленные упоминания облачных вычислений в СМИ, в публикациях специалистов по информационным технологиям.

Запуск в 2009 г. приложений Google Apps отмечается как следующий важный шаг к популяризации и осмыслению облачных вычислений. В 2009—2011 гг. было сформулировано несколько важных обобщенных представлений об облачных вычислениях: например, выдвинута модель частных облачных вычислений, актуальная для применения внутри организаций, выделены различные модели обслуживания (SaaS, PaaS, IaaS). В 2011 г. Национальный институт стандартов и технологий сформировал определение, которое структурировало и зафиксировало все возникшие к этому времени трактовки и вариации относительно облачных вычислений в едином понятии^[9].

Главный принцип облачных вычислений заключается в том, что для пользователя не имеет значения, где и каким образом осуществляются обработка и предоставление необходимых ему ресурсов. В основе организации облачных технологий лежат принципы сервис-ориентированной архитектуры. Идея облачных вычислений состоит в том, что вес необходимые ИТ-ресурсы предоставляются пользователям как интернет-сервис.

В настоящее время концепция облачных технологий глубоко проникает в различные информационно-технологические сферы и занимает все более весомую роль в практике.

Национальным институтом стандартов и технологий США зафиксированы следующие обязательные характеристики облачных вычислений^[10]:

• самообслуживание по требованию (self service on demand) — потребитель самостоятельно определяет и изменяет вычислительные потребности: серверное время, скорости доступа и обработки данных, объем хранимых данных — без взаимодействия с представителем поставщика услуг;
• универсальный доступ по сети — услуги доступны потребителям по сети передачи данных вне зависимости от используемого терминального устройства;
• объединение ресурсов (resource pooling) — поставщик услуг объединяет ресурсы для обслуживания большого числа потребителей в единый пул для динамического перераспределения мощностей между потребителями в условиях постоянного изменения спроса на мощности; при этом потребители контролируют только основные параметры услуги (например, объем данных, скорость доступа), но фактическое распределение ресурсов, предоставляемых потребителю, осуществляет поставщик (в некоторых случаях потребители все-таки могут управлять некоторыми физическими параметрами перераспределения);
• эластичность — услуги могут быть предоставлены, расширены, сужены в любой момент времени, без дополнительных издержек на взаимодействие с поставщиком, как правило, в автоматическом режиме;
• учет потребления — поставщик услуг автоматически исчисляет используемые ресурсы на определенном уровне абстракции (например, объем хранимых данных, пропускная способность, количество пользователей, количество транзакций) и на основе этих данных оценивает объем предоставленных потребителям услуг.

С точки зрения поставщика, благодаря объединению ресурсов и непостоянному характеру потребления со стороны потребителей облачные вычисления позволяют экономить, использовать меньшие аппаратные ресурсы, чем требовались бы при выделенных аппаратных мощностях для каждого потребителя, а за счет автоматизации процедур модификации выделения ресурсов существенно снижаются затраты на абонентское обслуживание. С точки зрения потребителя эти характеристики позволяют получить услуги с высоким уровнем доступности и низкими рисками неработоспособности, обеспечить быстрое масштабирование вычислительной системы благодаря эластичности без необходимости создания, обслуживания и модернизации собственной аппаратной инфраструктуры.

Удобство и универсальность доступа обеспечивается широкой доступностью услуг и поддержкой различного класса терминальных устройств — персональных компьютеров, мобильных телефонов, планшетов.

Существуют различные модели облачных технологий:

• частное облако (private cloud) — инфраструктура, предназначенная для использования одной организацией;
• публичное облако {public cloud) — инфраструктура, предназначенная для свободного использования широкой публикой. Публичное облако может находиться в собственности, управлении и эксплуатации коммерческих, научных и правительственных организаций (или какой-либо их комбинации). Публичное облако физически существует в юрисдикции владельца — поставщика услуг;
• общественное облако (community cloud) — вид инфраструктуры, предназначенный для использования конкретным сообществом потребителей из организаций, имеющих общие задачи (например, миссии, требований безопасности, политики и соответствия различным требованиям). Общественное облако может находиться в кооперативной (совместной) собственности, управлении и эксплуатации одной или более организаций сообщества или третьей стороны (либо их комбинации) и может физически существовать как внутри, так и вне юрисдикции владельца;
• гибридное облако (hybrid cloud) — комбинация из двух или более различных облачных инфраструктур (частных, публичных или общественных), остающихся уникальными объектами, но связанных между собой стандартизованными или частными технологиями передачи данных и приложений (например, кратковременное использование ресурсов публичных облаков для балансировки нагрузки между облаками).

Для сглаживания неравномерности нагрузки на услуги применяется размещение слоя серверной виртуализации между слоем программных услуг и аппаратным обеспечением. В условиях виртуализации балансировка нагрузки может осуществляться посредством программного распределения виртуальных серверов по реальным.

[1] About Bill William Н. Inmon, «The Father of Data Warehousing». Inmon ConsultingServices 2007.
[2] Транзакция — это последовательность операций над БД, рассматриваемая СУБД какединое целое.
[3] Luhn II. Р. A Business Intelligence System // IBM Journal, 1958.
[4] Бизнес-аналитика: сегодня и завтра // Intelligent Enterprise. 2010. № 2 (212).
[5] Эдгар Кодд предложил в 1993 г. «12 законов аналитической обработки в реальном времени».
[6] URL: http://www.olapreport.eom/Architectures.htm#top.
[7] Arif М. A history of cloud computing (enOne of the first milestones for cloud computing wasthe arrival of Salesforce.com in 1999.
[8] ЧернякЛ. Интеграция — основа облака // Открытые системы. СУБД, 2011. № 07.
[9] NIST, 2011. Обзор на livebusiness.ru>tags/oblachnye_platformy/.
[10] NIST, 2011. Обзор на livebusiness.ru>tags/oblachnye_platformy, р. 6.

Показать весь текст

Заполнить форму текущей работой