Помощь в написании студенческих работ
Антистрессовый сервис

И методы кластеризации объектов

РефератПомощь в написанииУзнать стоимостьмоей работы

Одним из стандартных аппаратов решения проблем, подобных сформулированной в цели настоящего исследования, является дисперсионный анализ. Основная и популярная у исследователей часть этого аппарата базируется на гипотезах о нормальности распределений, однородности математических ожиданий и дисперсий, что очень проблематично в исследуемой предметной области. Как известно, множество полученных… Читать ещё >

И методы кластеризации объектов (реферат, курсовая, диплом, контрольная)

Одним из стандартных аппаратов решения проблем, подобных сформулированной в цели настоящего исследования, является дисперсионный анализ [6−10]. Основная и популярная у исследователей часть этого аппарата базируется на гипотезах о нормальности распределений, однородности математических ожиданий и дисперсий, что очень проблематично в исследуемой предметной области. Как известно, множество полученных отдельным студентом оценок подчиняется непараметрической статистике. В работах [2−3] рассмотрены проблемы, которые возникают при переходе от непараметрической статистики успеваемости каждого студента к параметрической статистике успеваемости в больших выборках студентов. В этих исследованиях под успеваемостью понималось среднее значение оценок (баллов), которые студент набрал за некоторый интервал времени обучения. Было обнаружено, что на границах допустимых значений оценок возникают функциональные зависимости между средней успеваемостью в локальном интервале и средней дисперсией, рассчитанной в том же интервале. При этом отмечалось влияние на данную зависимость процедуры пересдач неудовлетворительных оценок. В результате, средние успеваемости, полученные для больших выборок студентов, могут не подчиняться нормальному закону распределения случайной величины, даже если для данного распределения выполнился критерий Хи-квадрат.

В настоящем исследовании, в отличии от работ[2−4]:

  • 1. понятие успеваемости рассматривается только как доля студентов, получивших положительные оценки на конец сессии, к общему числу студентов, которые должны были сдавать экзамены;
  • 2. значение показателя успеваемости регистрируется на конец сессии, без учета пересдач;
  • 3. основным объектом исследования является не студент, а учебная группа. При этом, результатом измерения является успеваемость учебной группы, показанная по дисциплине на экзамене, проведенным в сессию (в соответствии с расписанием) некоторым преподавателем.

В общем случае на результат измерения успеваемости оказывают влияние: учебная группа, дисциплина, преподаватель, а, возможно, и расписание экзаменов [1]. Такое количество факторов значительно усложняет задачу анализа успеваемости. Воспользуемся аппаратом дисперсионного анализа средних, корректность которого доказана в [9], в том числе для случая неравенства дисперсий и неравных чисел измерений в ячейках. Нами предложено получать значения факторов, которые необходимы для реализации дисперсионного анализа средних, с помощью методов кластеризации. Для этого, из выделенных нами ранее основных типов объектов образуем три типа качественных факторов (группа, преподаватель, предмет), влияющих на число задолженностей в вузе по результатам сессии. Соответствующие факторам объекты могут распадаться на подмножества, влияющие близким образом на результаты экзаменов. Для оценки влияния основных факторов на среднюю успеваемость с помощью дисперсионного анализа формализуем механизм деления факторов (объектов) на классы, используя методы нечеткой кластеризации. Для этого, каждому объекту из типов: группа, преподаватель, предмет, поставим в соответствие количественное значение фактора. В качестве такого значения используем значение средней успеваемости. В нашем случае измерение значения средней успеваемости реализуется проведением экзаменов в соответствии с расписанием сессии. Так как, число студентов в учебных группах могут различаться, то в общем случае мы имеем дело с неравноточными измерениями. Тогда, под средней успеваемостью следует понимать средневзвешенную успеваемость [6−7]. Формула (10) является рациональным вариантом расчета средневзвешенной успеваемости, когда под весом понимается количество студентов, которые должны были сдавать экзамен. При этом, для одной группы формула (10) позволяет вычислить среднюю успеваемость, а для множеств групп, преподавателей или предметов — средневзвешенную успеваемость. В дальнейших рассуждениях под средней успеваемостью, вычисленную по формуле (10), будем понимать средневзвешенную успеваемость, как более общий ее вид. Очевидно, что полученные средние значения для соответствующих факторов (объектов) могут проявляться с той, или иной степенью стабильности. Для оценки стабильности средней успеваемости будем использовать средневзвешенную выборочную дисперсию [6]. Следовательно, каждый рассматриваемый объект можно описать двумерным вектором x:

где: — выборочная средняя успеваемость;

— выборочная средняя дисперсия успеваемости.

Как известно, декомпозиция объектов на классы должна обладать двум свойствами [4,5,11,12]:

  • · гомогенность объектов в классах, т. е. объекты в пределах одного и того же класса должны быть как можно более подобным друг другу;
  • · гетерогенность между классами, т. е. объекты, принадлежащие к разным группам, должны быть как можно сильнее отличаться друг от друга.

Каждый, рассматриваемый нами объект (фактор) представим вектором (17) в двумерном пространстве свойств объектов. В качестве меры подобия объектов используются различные метрики. Наиболее популярным способом измерения подобия объектов считается метрика Евклида. Одним из распространенных алгоритмов нечеткой кластеризации является алгоритм FCM (Fuzzy C-Means), который позволяет приписать одни и те же объекты к разным классам с соответствующими степенями принадлежности [5].

Показать весь текст
Заполнить форму текущей работой