Помощь в написании студенческих работ
Антистрессовый сервис

Классификация стадий Data Mining

РефератПомощь в написанииУзнать стоимостьмоей работы

Могут быть найдены, например, такие закономерности «Если возраст 700 условных единиц, то в 75% случаев соискатель ищет работу программиста» или «Если возраст >35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90% случаев соискатель ищет руководящую работу». Целевой переменной в описанных правилах выступает профессия. Здесь возможно два варианта. Первый из них — существует… Читать ещё >

Классификация стадий Data Mining (реферат, курсовая, диплом, контрольная)

Классификация стадий Data-mining

Стадия 1. Выявление закономерностей (свободный поиск).

На стадии свободного поиска осуществляется исследование набора данных с целью поиска скрытых закономерностей. Предварительные гипотезы относительно вида закономерностей здесь не определяются.

Закономерность — существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления, развития различных явлений или процессов.

Система Data Mining на этой стадии определяет шаблоны, для получения которых в системах OLAP, например, аналитику необходимо обдумывать и создавать множество запросов. Здесь же аналитик освобождается от такой работы — шаблоны ищет за него система. Особенно полезно применение данного подхода в сверхбольших базах данных, где уловить закономерность путем создания запросов достаточно сложно, для этого требуется перепробовать множество разнообразных вариантов.

Свободный поиск представлен такими действиями:

  • · выявление закономерностей условной логики (conditional logic);
  • · выявление закономерностей ассоциативной логики (associations and affinities);
  • · выявление трендов и колебаний (trends and variations).

ПРИМЕР: Допустим, имеется база данных кадрового агентства с данными о профессии, стаже, возрасте и желаемом уровне вознаграждения. В случае самостоятельного задания запросов аналитик может получить приблизительно такие результаты: средний желаемый уровень вознаграждения специалистов в возрасте от 25 до 35 лет равен 1200 условных единиц. В случае свободного поиска система сама ищет закономерности, необходимо лишь задать целевую переменную. В результате поиска закономерностей система сформирует набор логических правил «если …, то …» .

Могут быть найдены, например, такие закономерности «Если возраст 700 условных единиц, то в 75% случаев соискатель ищет работу программиста» или «Если возраст >35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90% случаев соискатель ищет руководящую работу». Целевой переменной в описанных правилах выступает профессия.

При задании другой целевой переменной, например, возраста, получаем такие правила: «Если соискатель ищет руководящую работу и его стаж > 15 лет, то возраст соискателя > 35 лет в 65% случаев» .

Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).

Вторая стадия Data Mining — прогностическое моделирование — использует результаты работы первой стадии. Здесь обнаруженныезакономерности используются непосредственно для прогнозирования. свободный поиск шаблон моделирование.

Прогностическое моделирование включает такие действия:

  • · предсказание неизвестных значений (outcome prediction);
  • · прогнозирование развития процессов (forecasting).

В процессе прогностического моделирования решаются задачи классификации и прогнозирования.

При решении задачи классификации результаты работы первой стадии (индукции правил) используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений.

При решении задачи прогнозирования результаты первой стадии (определение тренда или колебаний) используются для предсказания неизвестных (пропущенных или же будущих) значений целевой переменной (переменных).

Продолжая рассмотренный пример первой стадии, можем сделать следующий вывод.

Зная, что соискатель ищет руководящую работу и его стаж > 15 лет, на 65% можно быть уверенным в том, что возраст соискателя > 35 лет. Или же, если возраст соискателя > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, на 90% можно быть уверенным в том, что соискатель ищет руководящую работу.

Стадия 3. Анализ исключений — стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях.

На третьей стадии Data Mining анализируются исключения или аномалии, выявленные в найденных закономерностях.

Действие, выполняемое на этой стадии, — выявление отклонений (deviation detection). Для выявления отклонений необходимо определить норму, которая рассчитывается на стадии свободного поиска.

Вернемся к одному из примеров, рассмотренному выше.

Найдено правило «Если возраст > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90% случаев соискатель ищет руководящую работу». Возникает вопрос — к чему отнести оставшиеся 10% случаев?

Здесь возможно два варианта. Первый из них — существует некоторое логическое объяснение, которое также может быть оформлено в виде правила. Второй вариант для оставшихся 10% - это ошибки исходных данных. В этом случае стадия анализа исключенийможет быть использована в качестве очистки данных [12].

Показать весь текст
Заполнить форму текущей работой