Базы данных: понятия, модели, технологии
Можно ли считать записанные сведения на папирусах базой данных? Очевидно, учитывая востребованность сохранения данных, использования при необходимости, складирования в библиотеку, их можно отнести к базе данных. Но будет ли это базой данных в современном понимании? Однозначного ответа на данный вопрос, скорее всего, найти будет невозможно. Особенно, учитывая то, что современные базы данных… Читать ещё >
Базы данных: понятия, модели, технологии (реферат, курсовая, диплом, контрольная)
По итогам изучения материала данной главы студент должен: знать
- • терминологию, используемую при разработке информационных систем в рамках создания баз данных;
- • историю развития баз данных;
- • применяемые в информационных системах модели данных;
- • уровни представления моделей данных;
- • отличительные особенности различных моделей данных и уровней их представления;
- • место применения баз данных в информационных системах;
- • основные особенности использования реляционной алгебры при работе с данными;
уметь.
- • выбирать применяемую для реализации базы данных модель данных;
- • применять правила реляционной алгебры при работе с данными;
- • представлять данные в табличном виде; владеть
- • навыками использования правил реляционной алгебры в обработке данных;
- • методами табличного представления взаимосвязанных данных;
- • использования терминологии при рассмотрении различных уровней представления моделей данных.
Первая глава учебника рассматривает общие вопросы понятийного аппарата в области баз данных и технологий их реализации. Материал носит теоретический характер, и для его освоения требуются базовые знания о технологиях работы с информацией, построением графических структур и диаграмм с применением базовых средств, например, МБ %ю или аналогичных.
Основные понятия баз данных
Базы данных как сформировавшийся термин можно рассматривать с момента появления систем хранения информации. Понимая, что информацию люди пытались сохранить достаточно давно (например, учет финансовых средств государственной казны, узелковая письменность инков и т. д.), можно рассматривать периодом возникновения баз данных как средства хранения данных время задолго до наступления нашей эры (например, 4000 г. до н.э.).
Однако терминологически эго понятие не было сформировано в те времена. И только сейчас, когда существует четкое понимание сути баз данных, мы можем сказать, что в 4000 г. до н.э. тоже существовали базы данных, которые были ориентированы на сохранение важной информации для последующего использования при возникновении такой необходимости.
Такое понимание термина «базы данных», в широком смысле, вводит нас в некоторое заблуждение по поводу сущности этого термина и не формирует хорошего и правильного (современного) его понимания. Особенно это очевидно из определений различных терминов, которые даются в рамках теории баз данных и характеризующих определенные особенности представления и хранения данных. В широком смысле под термином «База данных» можно понимать систему хранения сведений о предметной области, предназначенных для удовлетворения информационных потребностей пользователей. Таким образом, любая система хранения данных, если она позволяет пользователям получать из нее необходимые сведения, может относиться к базам данных. Возьмем для примера запись информации в египетской письменности (рис. 1.1).
Рис. 1.1. Пример египетской записи данных. |
Можно ли считать записанные сведения на папирусах базой данных? Очевидно, учитывая востребованность сохранения данных, использования при необходимости, складирования в библиотеку, их можно отнести к базе данных. Но будет ли это базой данных в современном понимании? Однозначного ответа на данный вопрос, скорее всего, найти будет невозможно. Особенно, учитывая то, что современные базы данных ориентированы на автоматизированную обработку с помощью компьютерных средств, записи на папирусах будет очень сложно назвать базой данных. По сути, египетские записи на папирусах являются всего лишь сохраненными сведениями, представленными в неструктурированном виде с помощью соответствующей формы письменности.
Практически любое литературное произведение является таким же, как египетские папирусы, средством сохранения данных. Разве можно назвать книги Л. Н. Толстого «Война и мир» или В. О. Ключевского «Курс русской истории» базой данных? Практически любой специалист в области баз данных скажет, что таковой они не являются. Объясняется это тем, что для современного специалиста база данных определяется не только возможностью хранения данных и получения сведений по информационным потребностям, но и тем фактом, что база данных должна хранить структурированные сведения.
Ни одно литературное произведение, как сильно оно ни было бы структурировано, учитывая представление информации на естественном языке в неструктурированном виде, нельзя отнести к базе данных. Тем не менее, если мы соберем множество литературных произведений и разделим их по авторам, тематикам, жанрам и другим показателям, представив тем самым не сами тексты этих произведений в виде базы данных, а информацию об этих произведения, то постепенно такое представление станет формироваться в базу данных о литературных произведениях.
Теперь представим себе набор сведений финансового характера, которые сохраняются и обрабатываются бухгалтерами в организациях. Финансовые сведения, в силу их числового представления и набора сопутствующих характеристик, представляются в структурированном виде и формируют разветвленную структуру описания финансовой деятельности организации, позволяющей с высокой степенью удобства провести анализ деятельности организации, выполнить соответствующие запросы к сохраненным данным. Фактически такая организация данных позволяет не только хранить сведения о финансах организации, но и удовлетворять информационные потребности пользователей по решению различных задач: от получения отдельных данных до формирования сложных аналитических отчетов. Структурированность сведений предоставляет такие широкие возможности пользователям. Именно этот фактор, являясь одним из ключевых, позволяет такие сведения, представленные на каком-либо носителе информации, назвать базой данных. Таким образом, под термином «База данных» можно понимать систему хранения структурированных сведений о предметной области, предназначенных для удовлетворения информационных потребностей пользователей. Будет ли данное определение полным и отражать все аспекты, определяющие базу данных? Вполне очевидно, что для широкого современного понимания этого термина такое определение вполне достаточно. Оно позволяет не только понять, какие задачи выполняются с помощью базы данных, но и выделить ключевые характеристики, которыми база данных должна обладать: структурированность; сохранность сведений; предоставление сведений по информационным потребностям.
К. Дж. Дейт определяет термин «База данных» как некоторый набор перманентных (постоянно хранимых) данных, используемых прикладными системами какого-либо предприятия1.
Данное определение достаточно обобщенное и может применяться к любым системам хранения данных, но, при этом, ориентировано на использование сведений в интересах организаций (предприятий), что не совсем точно, поскольку базой данных можно назвать и набор постоянно хранимых данных о личной фильмотеке пользователя. Поэтому наиболее точным и полным определением будет такое, которое продемонстрирует все аспекты работы с данными.
В итоге под термином «База данных» в современных условиях стоит понимать технологию структурированного представления перманентных (постоянно хранимых) сведений о предметной области, используемых в прикладных системах для удовлетворения информационных потребностей пользователя.
Это определение, как и многие другие определения термина «База данных», содержит одну важную составляющую — структурированное представление данных. Такое представление данных определяется термином «Схема данных» .
Структурирование данных является достаточно сложной процедурой, предполагающей не только разделение элементов предметной области на наборы связанных атрибутов, но и организацию правильной связи между элементами, наложение ограничений на значения и процессы обработки хранимых данных, обеспечение целостности структуры и информационного наполнения базы данных.
Термин «Схема данных», как и в случае с термином «База данных» и многими другими, ие имеет жестко закрепленного определения, по, в отличие от термина «База данных», еще имеет различные определения в зависимости от точки зрения рассмотрения и применения данного термина. Как минимум, па текущее время, можно говорить о трех точках зрения применения данного термина: с точки зрения графического представления структуры данных, с точки зрения описания представления данных в формате XML, с точки зрения описания данных в системе управления базами данных (СУБД). Все три точки зрения относят схему данных к вариантам представления данных с целью определенного ее использования.
Говоря об уровне разработки базы данных, обычно рассматривается термин «Схема данных» с точки зрения ее графического представления. Обусловлено это несколькими причинами:
— графическое представление структуры данных позволяет лучше, на визуальном уровне, рассматривать и анализировать структуры данных и связи между ними, обеспечивая возможность эффективного моделирования базы данных;
взаимодействие разработчика базы данных с заказчиком информационной системы является достаточно сложной процедурой, зачастую не дающей должного эффекта, если не применяются графические представления, в том числе структур данных, и схема данных такую возможность предоставляет;
— каждая информационная система вообще и база данных в частности требуют документального сопровождения с целью дальнейшей поддержки и проведения, что частично решается с помощью графического представления схемы данных.
Таким образом, под термином " Схема данных" - можно понимать графическое представление структур данных, отражающих атрибутивный состав элементов данных в базе данных, связи между ними, правила взаимодействия экземпляров элементов данных (рис. 1.2).
Рис. 1.2. Пример схемы данных. |
Конечно, учитывая, что существует несколько уровней представления данных, схемы данных могут описывать не только элементы данных на логическом и концептуальном уровне, но и на уровне физическом, когда в качестве элемента представления выступают таблицы и поля (колонки). Такое представление визуально ничем не отличается от представления логического уровня, но использует правила отражения элементом схемы в терминологии и по правилам, применяемым в СУБД.
Поскольку в современных информационных системах обычно используются технологии реляционных баз данных, то и схемы данных подчиняются правилам отражения реляционных структур. Но наряду с этим могут применяться и другие технологии представления и работы с данными. Например, развитие интернет-технологий привело к возрождению иерархических (древовидных) структур, которые применяются при разметке web-страниц, а в случае необходимости оперативной работы с данными на web-странице и организации технологии передачи структурированных данных обеспечивают инструментами возможности структурированного хранения данных. Для решения этих задач применяется специализированный расширяемый язык разметки XML, схему представления данных для которого также представляют в графическом виде (рис. 1.3).
Рис. 1.3. Пример визуализации схемы XML[1]
Использование XML в качестве описания и обработки данных стало эффективной технологией работы с данными при необходимо их представления в интернет-системах и для передачи данных между информационными системами, став неписаным стандартом информационной коммуникации. Большинство данных представляется в иерархическом виде, логично представляемого соответствующей схемой[2], что было использовано в качестве технологии построения базы данных в 1968 г. компанией IBM в системе Information Management System (IMS) и Э. Коддом в 1970 г. в качестве модели, наиболее независимой от аппаратных средств компьютера.
С точки зрения представления данных в XML под термином «Схема данных» понимается иерархическое представление модели данных для описания структуры XML-документа. Широкое использование схемы данных XML обусловлено необходимостью представлять данные в иерархическом виде для публикации в интернет-системах. Это обстоятельство заставило разработчиков систем управления базами данных обеспечить возможности хранения и обработки данных в формате XML. Такие обработки в некоторых СУБД интегрированы с технологией реляционной обработки данных и существенно расширяют возможности работы с базами данных.
Термин «Схема данных» также применяется на уровне СУБД, что нашло отражение в двух ее представлениях: визуализация физической модели данных и структурирование таблиц данных. В первом случае, когда схема данных является объектом базы данных и направлена на визуализацию модели данных, в СУБД предоставляются инструменты работы с таблицами, связями, полями (колонками) и другими элементами. Во втором случае схема данных представляет собой каталогизированный элемент структуры базы данных, позволяющий выделить часть таблиц в отдельную, условно независимую, структуру, организуя более эффективные технологии управления структурами данных, такие как таблицы, умолчания, ограничения, ноля (колонки), ключи и т. д.
С точки зрения СУБД под термином «Схема данных» понимается объект базы данных, выделяющий отдельные структуры физического представления данных с целью повышения эффективности хранения и обработки сведений.
Результатом использования схемы данных в СУБД является создание словаря данных, который организует структурирование базы данных, обеспечивает возможность управления таблицами, полями (колонками), ключами, связями и другими объектами средствами самой СУБД, реализуя некоторые принципы построения реляционных баз данных, сформулированные Э. Коддом.
Важным элементом любой базы данных являются данные, но в области информатики есть несколько терминов, имеющих отношение к этому термину: данные, информация, сведения, знания и т. д. Правильная интерпретация этих понятий позволяет лучше понимать суть представляемых сведений в базе данных, в информационной системе, в рассматриваемой деятельности. Информатика рассматривает четыре основных состояния информации (рис. 1.4), каждое из которых имеет определенный смысл с точки зрения хранения, обработки и представления.
Рис. 1.4. Жизненный цикл информации. |
Данные являются первичным источником сведений, которые можно выделить в любом информационном потоке независимо от формы и способа представления. Сведения, находящиеся в таком состоянии, не несут явно выраженного смыслового значения, не могут определить особенности деятельности, описать задачи, функции, объекты предметной области. Например, в описании деятельности магазина используется артикул товара, который представляется символьно-числовой строкой из фиксированного количества символов.
Если представить список товаров только значениями артикулов (табл. 1.1) при отсутствии информации о принципах и правилах дешифровки, то невозможно выяснить, о каких товарах идет речь в этом списке. В таком виде перечень артикулов все лишь, данные о значениях артикулов, применяемых в предметной области. Из этих данных можно получить только сведения технического характера, описывающие правила представления и хранения: символьно-числовые сведения, содержание в значении символов, цифр и знаков «-», представление только заглавными символами, динамическая размерность (количество символов) и т. д.
Таблица 1.1.
Список артикулов.
|
Как только определяются правила обработки данных и их связи в некоторой структуре, они (данные) приобретают дополнительные свойства и переходят в состояние «Информация». Если для представленного ранее примера (см. табл. 1.1) определить способ интерпретации артикула товара, то представленные значения начинают приобретать смысл и становится понятно, о каком товаре идет речь в таблице.
Получив такое описание интерпретации артикула, можно сформировать информационные сведения о продаже товаров в магазине в виде банки с аккумулятором и световой головки фонаря. Теперь пользователь информации может понимать смысл указанного артикула и вырабатывать решение о необходимо приобретения соответствующего товара (табл. 1.2), т. е. артикул для пользователя преобразовался из данных в информацию.
Также представленные в табл. 1.2 сведения имеют определенную структуру представления в форме таблицы, по которой пользователь информации может однозначно понять, каким образом нужно читать соответствующий артикул товара, что также добавляет смысла в представляемые сведения.
Интерпретация артикулов Таблица 1.2.
|
Рассматривая базу данных в качестве хранилища сведений, нужно понимать, что сами сведения, хранимые в нолях (колонках) и записях базы данных являются данными, но при их использовании, представляя в определенной структуре, или рассмотрении в структуре таблицы базы данных они становятся информационными сведениями (информация) и для пользователя наполняются смыслом, в связи с чем он может их применить для решения стоящих перед ним задач.
Дальнейшее использование информации, направленное на понимание правил использования, получение каких-либо сводных сведений, на основе которых можно решить задачи не только представления, но и анализа, приводит к преобразованию информации в новое состояние — «Знание». Такое состояние сведений также применяется в базах данных, но сами базы данных тоже меняют свое состояние, преобразовываясь в базы знаний, которые используются в интеллектуальных информационных системах (например, экспертные системы).