Описание процесса разработки системы поддержки принятия решений в управлении персоналом

РефератПомощь в написанииУзнать стоимостьмоей работы

Результатом работы системы поддержки принятия решений, будет расчёт вероятности ухода каждого из работающих сотрудников, то, какие факторы в большей степени влияют на это желание, а так же возможные потери, которые при этом понесёт организация. Первый результат можно легко получить с использованием методов классификации, второй — в процессе классификации, а третий является составной частью… Читать ещё >

Описание процесса разработки системы поддержки принятия решений в управлении персоналом (реферат, курсовая, диплом, контрольная)

Перед началом работы над самой системой, необходимо определиться с используемым методом и алгоритмом, разработать схему базы данных, которая накапливать данные для последующего анализа. Затем определить модель получения знаний из накопленных данных с известной структурой.

Метод решения задачи классификации

Для определения метода решения задачи классификации необходимо определиться с входными данными и типами классов, на которые будут разделяться входные данные.

Для анализа будут использованы числовые и строковые типы входных данных, с помощью которых, будут описаны характеристики объектов. Необходимо заметить, что возможны случаи противоречащих примеров, т. е. один сотрудник, с определёнными характеристиками ушел из компании, в то время как другой, с точно такими же, продолжает работать.

В качестве выходных данных будут использованы нечёткие классы, т. е. будет определяться степень принадлежности объекта к каждому классу. В рамках работы, это вероятность, с которой конкретный сотрудник может покинуть организацию.

Методы, решающие задачу классификации:

1. байесовский классификатор;
2. нейронные сети;
3. деревья решений.

Построение Байесовского классификатора, как и деревьев решений, требует независимости всех переменных, т. е. чтобы по одной переменной было невозможно вычислить другую. Теорема Байеса позволяет переставить местами причину и следствие. Зная с какой вероятностью причина приводит к некоему событию, эта теорема позволяет рассчитать вероятность того что именно эта причина привела к наблюдаемому событию [30]. Цель классификации состоит в том, чтобы понять к какому классу принадлежит объект, поэтому здесь нужна не сама вероятность, а наиболее вероятный класс. Байесовский классификатор использует оценку апостериорного максимума для определения наиболее вероятного класса. Это именно то, что и требуется найти в данной работе.

Использование нейронных сетей, затрудняется тем, что, одно из правил входных данных для нейронных сетей не выполняется — в обучающей выборке не должно быть противоречащих примеров [7]. Кроме того, в качестве выхода, потребуются вероятностно разделимые классы, которые строятся только многослойными сетями, вычислительная сложность которых очень высока.

Большинство алгоритмов построения деревьев решений являются «жадными алгоритмами». Это значит, что если один раз переменная была выбрана, и по ней было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другую переменную, которая дала бы лучшее разбиение. Очень часто алгоритмы построения деревьев дают сложные деревья, в которых очень много ветвей. В таких деревьях трудно разобраться, к тому же, такие деревья разбивают обучающее множество на огромное количество подклассов, с маленьким количеством объектов входящих в них [7].

Таким образом, для решения поставленной задачи, больше всего подходит метод Байесовского классификатора.

Байесовские алгоритмы классификации

Байесовский подход основан на теореме, утверждающей, что если плотности распределения каждого из классов известны, то искомый алгоритм можно выписать в явном аналитическом виде. Более того, этот алгоритм оптимален, то есть обладает минимальной вероятностью ошибок [31].

В реальных задачах, обычно, плотности распределения классов не известны, поэтому байесовский алгоритм теряет свою оптимальность, т.к. невозможно получить плотность по выборке, без каких-либо значимых погрешностей.

Постановка задачи классификации звучит следующим образом: Имеется множество объектов X и конечное множество имён классов Y. Множество прецедентов X Ч Y является вероятностным пространством с известной плотностью распределения p (x, y) = P (y)p (x|y). Вероятности появления объектов каждого из классов P_y = P (y) известны и называются априорными вероятностями классов. Плотности распределения классов p_y(x) = p (x|y) также известны и называются функциями правдоподобия классов. Требуется построить алгоритм a (x), минимизирующий вероятность ошибочной классификации [31].

Согласно определению условной вероятности p (x, y) = p_y(x)P_y = P (y|x)p (x). Условная вероятность P (y|x) называется апостериорной вероятностью класса y для объекта x. Она может быть вычислена по формуле Байеса, если известны p_y(x) и P_y:

В данной работе, важно не просто отнести объект к определённому классу, но и определить вероятность P (y|x) принадлежности к каждому из классов y? Y.

К числу байесовских алгоритмов классификации относят:

1. квадратичный дискриминант;
2. линейный дискриминант Фишера;
3. EM-алгоритм;
4. наивный байесовский классификатор.

Квадратичный дискриминант, как и линейный дискриминант Фишера относятся к отдельному классу байесовских алгоритмов классификации — нормальный дискриминантный анализ. Это специальный случай байесовской классификации, когда предполагается, что плотности всех классов p_y(x), y? Y являются многомерными нормальными [32]. Эти методы позволяют относить объекты к тому либо иному классу, путём разделения пространства объектов многомерными плоскостями, но такой способ не даст оценку апостериорной вероятности.

EM (expectation-maximization) — алгоритм подразумевает уменьшение размерности анализируемых показателей, путём отсечения тех, что в наименьшей мере влияют на результаты классификации. Этот алгоритм обычно используется на больших объёмах данных, для упрощения классификации и упрощения интерпретации результатов. Поэтому применение этого алгоритма не подходит для данной работы, где производится анализ 11 показателей [33].

Наивный байесовский классификатор — основывается на предположении, что все параметры объектов независимы. Данное упрощение существенно облегчают задачу, так как оценить n одномерных плотностей гораздо проще, чем одну n-мерную плотность. Довольно простой алгоритм классификации, не зависящий от плотности распределения, хорошо подходит под требования в данной работе.

Наивный байесовский классификатор

Признаки f₁(x),…, f_n(x) являются независимыми случайными величинами. Следовательно, функция правдоподобия классов представима в виде:

y?Y.

где p_yj(о_j) — плотность распределения значений j-го признака для класса y.

Оценка вероятности принадлежности объекта x к классу y по j-ому признаку может определяться несколькими путями, в данной работе будет использован multinominal bayes model (7).

Может оказаться так, что на этапе классификации встретился объект со значением какого-либо параметра, которое не встречалось на этапе обучения, тогда числитель (7) будет равен нулю. Если классификация проводится по одному признаку, то такой объект невозможно будет классифицировать, т.к. P (y|x) будет равна нулю.

При анализе большого анализа данных, возможна проблема арифметического переполнения, которая решается свойством логарифма произведения. Так как логарифм функция монотонная, ее применение к обоим частям выражения изменит только его численное значение, но не параметры при которых достигается максимум. При этом, логарифм от числа близкого к нулю будет числом отрицательным, но в абсолютном значении существенно большим чем исходное число, что делает логарифмические значения вероятностей более удобными для анализа [30]. Используя формулу (7) с логарифмами, результатом будет не вероятность, а её оценка, и для перехода к вероятности, необходимо избавиться от логарифмов путём обратного перехода по формуле.

Показать весь текст

Заполнить форму текущей работой