Помощь в написании студенческих работ
Антистрессовый сервис

Создание структуры интеллектуального анализа данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Holdoutseed — целое число, которое используется как начальное значение при начале секционирования данных. Если оно равно 0, в качестве начального значения используется хэш идентификатора структуры интеллектуального анализа данных. Если надо гарантировать возможность повторного создания такого же разбиения (при условии, что исходные данные остались прежними), необходимо в скобках указать ненулевое… Читать ещё >

Создание структуры интеллектуального анализа данных (реферат, курсовая, диплом, контрольная)

Структура интеллектуального анализа данных может быть представлена как совокупность исходных данных и описания способов их обработки. Структура содержит модели, которые используются для анализа ее данных.

Рассмотрим конструкции языка DMX, позволяющие создавать структуры.

Для этого используется оператор CREATE MININGSTRUCTURE. В обобщенном виде его формат представлен ниже:

CREATE [SESSION] MINING STRUCTURE.

(.

[()].

).

[WITH HOLDOUT ([OR ])].

[REPEATABLE ()].

где.

:= PERCENT |.

CASES.

Приведённые в описании атрибуты имеют следующие значения:

  • · Structure — уникальное имя структуры;
  • · column definition list — cписок определений столбцов с разделителями-запятыми;
  • · holdout-maxpercent — целое число от 1 до 100, которое показывает процентную долю данных, выделяемых для проверки;
  • · holdout-maxcases — целое число, показывающее максимальное число вариантов, используемых для проверки. Если указанное значение больше числа входных вариантов, для проверки будут использованы все варианты и отобразится соответствующее предупреждение. В случае, если указаны как процентная доля, так и число вариантов, применяется меньшее из ограничений;
  • · holdoutseed — целое число, которое используется как начальное значение при начале секционирования данных. Если оно равно 0, в качестве начального значения используется хэш идентификатора структуры интеллектуального анализа данных. Если надо гарантировать возможность повторного создания такого же разбиения (при условии, что исходные данные остались прежними), необходимо в скобках указать ненулевое целое значение.

Необязательное ключевое слово SESSION показывает, что структура является временной и ее можно использовать только в течение текущего сеанса работы с SQL Server. После завершения сеанса структура и любые модели на ее основе удаляются. Чтобы создать временные структуры и модели интеллектуального анализа данных, необходимо сначала задать свойство базы данных Allow Session Mining Models. При использовании для анализа инструментов TableAnalysisTools из надстроек интеллектуального анализа данных для Microsoft Excel создаются именно такие структуры.

Для определения столбца используется следующий формат:

[] [] [].

где обязательно указываются — имя столбца, — тип данных, — тип содержимого.

Для определения столбца с вложенной таблицей используется следующий синтаксис:

TABLE ().

Флаг Distribution позволяет указать на распределение для столбца с числовым значением.

Флаги моделирования Modeling Flags можно использовать для указания дополнительных сведений о соответствующем атрибуте. Алгоритм может их использовать для создания более точной модели интеллектуального анализа данных. Некоторые флаги могут быть определены на уровне структуры, другие на уровне столбца модели интеллектуального анализа.

К любому определению столбца можно добавить предложение, описывающее связь между двумя столбцами (column relationship). Делается это с помощью ключевого слова RELATED TO, что показывает иерархию значений. Назначением столбца RELATED TO может быть ключевой столбец вложенной таблицы, столбец с дискретными значениями из строки вариантов или какой-либо другой столбец с предложением RELATED TO, указывающим на более глубокий уровень иерархии.

Создание модели интеллектуального анализа данных.

Создание модели интеллектуального анализа данных можно осуществить одним из следующих способов:

  • 1. после создания структуры интеллектуального анализа данных можно добавлять в нее модели с помощью инструкции ALTER MINING STRUCTURE;
  • 2. можно использовать инструкцию CREATE MINING MODEL, в результате выполнения которой создается модель и автоматически формируется лежащая в ее основе структура интеллектуального анализа данных. Имя структуры интеллектуального анализа данных формируется путем добавления строки" _structure" к имени модели.

Первый способ является более предпочтительным, особенно когда планируется создать на основе одной структуры несколько моделей (использующих разные наборы столбцов, алгоритмы и т. д.). Формат оператора представлен ниже.

ALTER MINING STRUCTURE.

ADD MINING MODEL.

(.

[() [WITH FILTER ()]].

).

USING [()].

[WITH DRILLTHROUGH].

[, FILTER ()] ,.

Таблица 4. Значения приведенных атрибутов.

Атрибут.

Описание.

structure.

имя структуры интеллектуального анализа данных, к которой будет добавлена модель;

model.

уникальное имя модели интеллектуального анализа данных;

column definition list.

список определений столбцов с разделителями-запятыми;

nestedcolumn definition list.

список с разделителями-запятыми столбцов вложенной таблицы, если применимо;

nested filter criteria.

определение фильтра, применяющегося к столбцам вложенной таблицы;

algorithm.

название используемого моделью алгоритма интеллектуального анализа данных;

parameter list.

список параметров алгоритма (через запятую);

filter criteria.

определение фильтра, применяющегося к столбцам таблицы вариантов.

Если структура интеллектуального анализа данных содержит составные ключи, то модель интеллектуального анализа данных должна включать в себя все ключевые столбцы, определенные в структуре.

Если модели не требуется прогнозируемый столбец (например, при кластеризации), то в инструкцию не нужно включать определение столбца.

В общем случае определение столбца выполняется в соответствии со следующим форматом:

[AS ] [] [].

Таблица 5. Значения приведенных атрибутов.

Атрибут.

Описание.

structure column name.

имя столбца в соответствии с определение структуры;

model column name.

псевдоним (необязательный параметр, позволяющий в модели использовать);

modeling flags.

флаги моделирования, о которых говорилось выше: значение REGRESSOR указывает, что алгоритм регрессии может использовать заданный столбец в формуле регрессии; значение MODEL_EXISTENCE_ONLY указывает, что само присутствие атрибута важнее, чем значения столбца атрибута;

prediction.

флаг прогнозирования (или флаг использования), указывающий, что данный столбец содержит прогнозируемую величину. Может принимать значение PREDICT (столбец является как входом, так и выходом) или PREDICT_ONLY (столбец является только выходом). Столбец без флага считается входом.

Если в определении модели стоит WITH DRILLTHROUGH, то пользователям разрешается проводить детализацию (т.е. просматривать не только параметры модели, но и данные вариантов в этой модели).

Определение фильтров позволяет использовать при обработке модели только варианты, соответствующие условиям фильтрации.

После определения структур и моделей, следующим шагом является обработка, включающая заполнение структуры интеллектуального анализа данными. Это делается с помощью инструкции INSERT INTO, формат которой приведен ниже:

INSERT INTO [MINING MODEL]|[MINING STRUCTURE] | ().

INSERT INTO [MINING MODEL]|[MINING STRUCTURE] |.COLUMN_VALUES ().

Таблица 6. Значения приведенных атрибутов.

Атрибут.

Описание.

model.

название модели;

structure.

название структуры;

mapped model columns.

список через запятую с названиями столбцов, в т. ч. вложенных таблиц с их столбцами;

source data query.

запрос, описывающий загружаемый набор исходных данных.

Если в операторе указана структура интеллектуального анализа данных, обрабатывается эта структура и все связанные с ней модели. Если задана модель, инструкция обрабатывает только эту модель. В случае, когда не указан аргумент MININGMODEL или MININGSTRUCTURE, службы AnalysisServices производят поиск типа объекта на основе имени, и затем обрабатывается корректный объект. Если сервер содержит структуру и модель интеллектуального анализа данных с одинаковыми именами, возвращается ошибка.

Форма INSERT INTO. COLUMN_VALUES, позволяет производить вставку данных непосредственно в столбцы модели без ее обучения. При использовании этого метода, данные столбцов поставляются модели в сжатом и упорядоченном виде, что полезно при работе с наборами данных, содержащими иерархии или упорядоченные столбцы.

Элементы списка представимы в виде:

| SKIP |.

(| SKIP)

Таблица 7. Значения приведенных атрибутов.

Атрибут.

Описание.

название столбца;

название вложенной таблицы;

Ключевое слово SKIP указывает на то, что соответствующий столбец исходного запроса (исходных данных) не будет использоваться для заполнения структуры или модели (т.е. пропускается).

Листинг.

Удалить данные, модель или структуру можно с помощью оператора DELETE. Его синтаксис приведен ниже:

DELETE FROM [MINING MODEL] [.CONTENT].

DELETE FROM [MINING STRUCTURE] [.CONTENT]|[.CASES].

Таблица 8. Значения приведенных атрибутов.

Атрибут.

Описание.

model.

имя модели;

structure.

имя структуры.

Если не указан аргумент MININGMODEL или MININGSTRUCTURE, Analysis Services производит поиск типа объекта на основе имени и затем обрабатывает корректный объект. Если сервер содержит структуру и модель интеллектуального анализа данных с одинаковыми именами, возвращается ошибка.

Инструкция DROP позволяет удалить модель или структуру интеллектуального анализа данных из базы данных. Синтаксис для того и другого случая соответственно приведен ниже.

DROP MINING MODEL.

DROP MINING STRUCTURE.

Таблица 9. Значения приведенных атрибутов.

Атрибут.

Описание.

model.

имя модели;

structure.

имя структуры.

Инструкции EXPORT и IMPORT позволяют соответственно сохранить модель или структуру интеллектуального анализа в файл резервной копии служб AnalysisServices (*.abf) и восстановить модель или структуру из файла. Синтаксис команд:

EXPORT [, ] [[,

IMPORT FROM.

Таблица 10. Значения приведенных атрибутов.

Атрибут.

Описание.

objecttype.

тип экспортируемого объекта (модель или структура интеллектуального анализа данных);

objectname.

имя экспортируемого объекта;

filename.

имя и расположение файла для экспорта (аргумент типа string, берется в одинарные кавычки).

Если инструкция указывает модель интеллектуального анализа данных, итоговый файл также содержит связанную структуру интеллектуального анализа данных. Если инструкция указывает WITH DEPENDENCIES, все объекты, необходимые для обработки объекта (например, источник данных и представление источника данных), включаются в ABF-файл. Чтобы экспортировать или импортировать объекты базы данных служб Microsoft SQLServer Службы AnalysisServices, необходимо иметь права администратора базы данных или сервера.

Работа с данными и построение прогнозов.

Следующая задача — это работа с данными и построение прогнозов. Для этого используется оператор SELECT.

При интеллектуальном анализе данных с помощью оператора SELECT можно решить следующие задачи:

  • · просмотр вариантов, загруженных в структуру интеллектуального анализа данных;
  • · просмотр содержимого существующей модели;
  • · создание прогнозов по существующей модели;
  • · создание копии существующей модели.

Для решения первых двух задач используется следующий формат записи оператора:

SELECT [FLATTENED] [TOP].

FROM [.aspect].

[WHERE ].

[ORDER BY [DESC|ASC]].

Инструкция FLATTENED указывает на необходимость преобразования, возвращаемых запросом SELECT результатов в «плоский» набор строк (т.е. преобразование к обычной таблице). Она используется, когда представление вариантов с вложенными таблицами в используемом по умолчанию иерархическом формате неприемлемо.

Инструкции ORDER BY и TOP позволяют упорядочить возвращаемый набор по указанному параметру и вернуть только первые n значений. Это может быть полезно в сценариях вроде целевых рассылок, где результаты нужно отправлять только наиболее вероятным получателям. Для этого можно упорядочить результаты прогнозирующего запроса целевой рассылки по вероятности, а затем вернуть только верхние n результатов.

В список выбора могут входить ссылки на скалярные столбцы, прогнозирующие функции и выражения. Доступные параметры зависят от алгоритма и следующих условий:

  • · выполняется запрос к структуре или модели интеллектуального анализа;
  • · запрос выполняется к содержимому или к вариантам;
  • · источник данных является реляционной таблицей или кубом;
  • · делается ли прогнозирование.

Если вместо списка выбора стоит символ «*», то будут выбраны все столбцы из модели или структуры.

Инструкция WHERE позволяет ограничить перечень возвращаемых результатов только теми, что соответствуют указанному логическому условию. Синтаксис будет следующий:

WHERE.

Детализация структуры.

Рассмотрим теперь инструкцию FROM. Если в ней стоит. CASES, где — имя структуры интеллектуального анализа, то будут возвращаться варианты, использованные для создания структуры. Если детализация для структуры не включена, выполнение данной инструкции завершится сбоем. Но по умолчанию детализация включена. Явное указание для работы со структурой — с помощью ключевых слов MINING STRUCTURE.

Детализация модели.

Аналогичным образом могут быть получены варианты из модели (проведена детализация модели). Формат оператора выглядит следующим образом:

SELECT [FLATTENED] [TOP ] FROM.CASES.

[WHERE ][ORDER BY [DESC|ASC]].

Если детализация для модели интеллектуального анализа данных не включена, выполнение данной инструкции завершится ошибкой. Для расширений интеллектуального анализа данных активировать детализацию можно только при создании модели (с помощью инструкции WITHDRILLTHROUGH). В среде BI DevStudio можно добавить детализацию и в существующую модель, но прежде чем будет можно просматривать варианты, необходимо выполнить повторную обработку модели.

Если детализация включена как для модели, так и для структуры интеллектуального анализа данных, пользователи, являющиеся членами роли с разрешением на детализацию модели и структуры, могут обращаться к столбцам в структуре интеллектуального анализа данных, которые не включены в модель.

Запрос значений столбца.

Ниже приведен синтаксис оператора, позволяющего получить значения указанных столбцов модели.

SELECT [FLATTENED] DISTINCT [TOP ] FROM.

[WHERE ][ORDER BY ].

реляционный гиперкуб кластеризация При этом для дискретного столбца будут введены все возможные значения, для непрерывного — среднее значение, для дискретизованного — среднее значение для каждого из определённых в процессе дискретизации интервалов.

Построение прогнозов.

Задача прогнозирования в языке DMX также решается с помощью оператора SELECT. При этом чаще всего используется конструкция прогнозирующего соединенияPREDICTION JOIN. С ее помощью шаблонам модели сопоставляется набор данных из внешнего источника, что позволяет определить значение для прогнозируемого столбца.

Для обработки модель получает входные данные из внешнего источника, определяет наиболее соответствующий шаблон и выдает результат.

Запрос с использованием функции OPENQUERY.

В том случае, когда требуется сделать прогноз для множества вариантов, которые берутся из таблицы базы данных, можно использовать функцию OPENQUERY, аналогично тому, как это делалось при заполнении структуры. При этом предварительно требуется создать представление источника данных (например, с помощью BI DevStudio).

Использование функции Predict.

Функция Predict возвращает спрогнозированное значение или набор значений для заданного столбца. Она является полиморфной и ее поведение зависит от того, подставляется ли скалярное значение (уровня вариантов) или ссылка на столбец страницы (т.е. вложенную таблицу). Синтаксис будет следующим:

Predict (, [option1], [option2], [option n], [INCLUDE_NODE_ID], n).

Predict (.

, [option1], [option2], [option n], [INCLUDE_NODE_ID], n)

В то же время просто выбор прогнозируемого столбца в заголовке SELECT аналогичен вызову функции PREDICT с параметрами по умолчанию.

Создание копии модели — оператор SELECT INTO.

Рассмотрим создание копии существующей модели интеллектуального анализа данных. Для этого используется синтаксис:

SELECT INTO.

USING [()] [WITH DRILLTHROUGH[,] [FILTER ()]].

FROM.

Таблица 11. Значения приведенных атрибутов.

Атрибут.

Описание.

newmodel.

имя для новой создаваемой модели;

algorithm.

название используемого новой моделью алгоритма интеллектуального анализа данных;

parameterlist.

cписок через запятую параметров алгоритма;

expression.

выражение, определяющее фильтр для значений, попадающих в новую модель;

existingmodel.

имя существующей модели для копирования.

Если существующая модель является обученной, новая модель автоматически обрабатывается при выполнении этой инструкции. В противном случае новая модель оставляется необработанной.

В данной главе описываются языковые средства, с помощью которых будут реализованы методы и алгоритмы, указанные в первой главе. Для оперативного анализа данных (OLAP) используется язык MDX, а для интеллектуального анализа данных (Data Mining) — DMX. Оба языка SQL-подобные, но отличия от стандартного языка для реляционных таблиц присутствуют.

Во второй части рассматриваются основные базовые понятия и выражения для языков, а также операторы и различные функции, чтобы проще понимать способ реализации практической части.

В следующей главе (практической части) будет рассмотрена непосредственно сама реализация поставленных задач в приложении. Будут использоваться вышенаписанные языковые конструкции для создания наглядного представления анализа данных.

Показать весь текст
Заполнить форму текущей работой