Создание структуры интеллектуального анализа данных
Holdoutseed — целое число, которое используется как начальное значение при начале секционирования данных. Если оно равно 0, в качестве начального значения используется хэш идентификатора структуры интеллектуального анализа данных. Если надо гарантировать возможность повторного создания такого же разбиения (при условии, что исходные данные остались прежними), необходимо в скобках указать ненулевое… Читать ещё >
Создание структуры интеллектуального анализа данных (реферат, курсовая, диплом, контрольная)
Структура интеллектуального анализа данных может быть представлена как совокупность исходных данных и описания способов их обработки. Структура содержит модели, которые используются для анализа ее данных.
Рассмотрим конструкции языка DMX, позволяющие создавать структуры.
Для этого используется оператор CREATE MININGSTRUCTURE. В обобщенном виде его формат представлен ниже:
CREATE [SESSION] MINING STRUCTURE.
(.
[()].
).
[WITH HOLDOUT ([OR ])].
[REPEATABLE ()].
где.
:= PERCENT |.
CASES.
Приведённые в описании атрибуты имеют следующие значения:
- · Structure — уникальное имя структуры;
- · column definition list — cписок определений столбцов с разделителями-запятыми;
- · holdout-maxpercent — целое число от 1 до 100, которое показывает процентную долю данных, выделяемых для проверки;
- · holdout-maxcases — целое число, показывающее максимальное число вариантов, используемых для проверки. Если указанное значение больше числа входных вариантов, для проверки будут использованы все варианты и отобразится соответствующее предупреждение. В случае, если указаны как процентная доля, так и число вариантов, применяется меньшее из ограничений;
- · holdoutseed — целое число, которое используется как начальное значение при начале секционирования данных. Если оно равно 0, в качестве начального значения используется хэш идентификатора структуры интеллектуального анализа данных. Если надо гарантировать возможность повторного создания такого же разбиения (при условии, что исходные данные остались прежними), необходимо в скобках указать ненулевое целое значение.
Необязательное ключевое слово SESSION показывает, что структура является временной и ее можно использовать только в течение текущего сеанса работы с SQL Server. После завершения сеанса структура и любые модели на ее основе удаляются. Чтобы создать временные структуры и модели интеллектуального анализа данных, необходимо сначала задать свойство базы данных Allow Session Mining Models. При использовании для анализа инструментов TableAnalysisTools из надстроек интеллектуального анализа данных для Microsoft Excel создаются именно такие структуры.
Для определения столбца используется следующий формат:
[] [] [].
где обязательно указываются — имя столбца, — тип данных, — тип содержимого.
Для определения столбца с вложенной таблицей используется следующий синтаксис:
TABLE ().
Флаг Distribution позволяет указать на распределение для столбца с числовым значением.
Флаги моделирования Modeling Flags можно использовать для указания дополнительных сведений о соответствующем атрибуте. Алгоритм может их использовать для создания более точной модели интеллектуального анализа данных. Некоторые флаги могут быть определены на уровне структуры, другие на уровне столбца модели интеллектуального анализа.
К любому определению столбца можно добавить предложение, описывающее связь между двумя столбцами (column relationship). Делается это с помощью ключевого слова RELATED TO, что показывает иерархию значений. Назначением столбца RELATED TO может быть ключевой столбец вложенной таблицы, столбец с дискретными значениями из строки вариантов или какой-либо другой столбец с предложением RELATED TO, указывающим на более глубокий уровень иерархии.
Создание модели интеллектуального анализа данных.
Создание модели интеллектуального анализа данных можно осуществить одним из следующих способов:
- 1. после создания структуры интеллектуального анализа данных можно добавлять в нее модели с помощью инструкции ALTER MINING STRUCTURE;
- 2. можно использовать инструкцию CREATE MINING MODEL, в результате выполнения которой создается модель и автоматически формируется лежащая в ее основе структура интеллектуального анализа данных. Имя структуры интеллектуального анализа данных формируется путем добавления строки" _structure" к имени модели.
Первый способ является более предпочтительным, особенно когда планируется создать на основе одной структуры несколько моделей (использующих разные наборы столбцов, алгоритмы и т. д.). Формат оператора представлен ниже.
ALTER MINING STRUCTURE.
ADD MINING MODEL.
(.
[() [WITH FILTER ()]].
).
USING [()].
[WITH DRILLTHROUGH].
[, FILTER ()] ,.
Таблица 4. Значения приведенных атрибутов.
Атрибут. | Описание. |
structure. | имя структуры интеллектуального анализа данных, к которой будет добавлена модель; |
model. | уникальное имя модели интеллектуального анализа данных; |
column definition list. | список определений столбцов с разделителями-запятыми; |
nestedcolumn definition list. | список с разделителями-запятыми столбцов вложенной таблицы, если применимо; |
nested filter criteria. | определение фильтра, применяющегося к столбцам вложенной таблицы; |
algorithm. | название используемого моделью алгоритма интеллектуального анализа данных; |
parameter list. | список параметров алгоритма (через запятую); |
filter criteria. | определение фильтра, применяющегося к столбцам таблицы вариантов. |
Если структура интеллектуального анализа данных содержит составные ключи, то модель интеллектуального анализа данных должна включать в себя все ключевые столбцы, определенные в структуре.
Если модели не требуется прогнозируемый столбец (например, при кластеризации), то в инструкцию не нужно включать определение столбца.
В общем случае определение столбца выполняется в соответствии со следующим форматом:
[AS ] [] [].
Таблица 5. Значения приведенных атрибутов.
Атрибут. | Описание. |
structure column name. | имя столбца в соответствии с определение структуры; |
model column name. | псевдоним (необязательный параметр, позволяющий в модели использовать); |
modeling flags. | флаги моделирования, о которых говорилось выше: значение REGRESSOR указывает, что алгоритм регрессии может использовать заданный столбец в формуле регрессии; значение MODEL_EXISTENCE_ONLY указывает, что само присутствие атрибута важнее, чем значения столбца атрибута; |
prediction. | флаг прогнозирования (или флаг использования), указывающий, что данный столбец содержит прогнозируемую величину. Может принимать значение PREDICT (столбец является как входом, так и выходом) или PREDICT_ONLY (столбец является только выходом). Столбец без флага считается входом. |
Если в определении модели стоит WITH DRILLTHROUGH, то пользователям разрешается проводить детализацию (т.е. просматривать не только параметры модели, но и данные вариантов в этой модели).
Определение фильтров позволяет использовать при обработке модели только варианты, соответствующие условиям фильтрации.
После определения структур и моделей, следующим шагом является обработка, включающая заполнение структуры интеллектуального анализа данными. Это делается с помощью инструкции INSERT INTO, формат которой приведен ниже:
INSERT INTO [MINING MODEL]|[MINING STRUCTURE] | ().
INSERT INTO [MINING MODEL]|[MINING STRUCTURE] |.COLUMN_VALUES ().
Таблица 6. Значения приведенных атрибутов.
Атрибут. | Описание. |
model. | название модели; |
structure. | название структуры; |
mapped model columns. | список через запятую с названиями столбцов, в т. ч. вложенных таблиц с их столбцами; |
source data query. | запрос, описывающий загружаемый набор исходных данных. |
Если в операторе указана структура интеллектуального анализа данных, обрабатывается эта структура и все связанные с ней модели. Если задана модель, инструкция обрабатывает только эту модель. В случае, когда не указан аргумент MININGMODEL или MININGSTRUCTURE, службы AnalysisServices производят поиск типа объекта на основе имени, и затем обрабатывается корректный объект. Если сервер содержит структуру и модель интеллектуального анализа данных с одинаковыми именами, возвращается ошибка.
Форма INSERT INTO. COLUMN_VALUES, позволяет производить вставку данных непосредственно в столбцы модели без ее обучения. При использовании этого метода, данные столбцов поставляются модели в сжатом и упорядоченном виде, что полезно при работе с наборами данных, содержащими иерархии или упорядоченные столбцы.
Элементы списка представимы в виде:
| SKIP |.
(| SKIP)Таблица 7. Значения приведенных атрибутов.
Атрибут. | Описание. |
название столбца; | |
название вложенной таблицы; |
Ключевое слово SKIP указывает на то, что соответствующий столбец исходного запроса (исходных данных) не будет использоваться для заполнения структуры или модели (т.е. пропускается).
Листинг.
Удалить данные, модель или структуру можно с помощью оператора DELETE. Его синтаксис приведен ниже:
DELETE FROM [MINING MODEL] [.CONTENT].
DELETE FROM [MINING STRUCTURE] [.CONTENT]|[.CASES].
Таблица 8. Значения приведенных атрибутов.
Атрибут. | Описание. |
model. | имя модели; |
structure. | имя структуры. |
Если не указан аргумент MININGMODEL или MININGSTRUCTURE, Analysis Services производит поиск типа объекта на основе имени и затем обрабатывает корректный объект. Если сервер содержит структуру и модель интеллектуального анализа данных с одинаковыми именами, возвращается ошибка.
Инструкция DROP позволяет удалить модель или структуру интеллектуального анализа данных из базы данных. Синтаксис для того и другого случая соответственно приведен ниже.
DROP MINING MODEL.
DROP MINING STRUCTURE.
Таблица 9. Значения приведенных атрибутов.
Атрибут. | Описание. |
model. | имя модели; |
structure. | имя структуры. |
Инструкции EXPORT и IMPORT позволяют соответственно сохранить модель или структуру интеллектуального анализа в файл резервной копии служб AnalysisServices (*.abf) и восстановить модель или структуру из файла. Синтаксис команд:
EXPORT [, ] [[,