Оценка качества обучения

РефератПомощь в написанииУзнать стоимостьмоей работы

Оценка качества обучения (реферат, курсовая, диплом, контрольная)

Кросс-валидацией называют методику оценки того, насколько результаты статистического анализа будут обобщаться на независимом наборе данных. Она используется главным образом в тех задачах, где целью является предсказание, но так же она используется для того, чтобы оценить, как точно модель прогнозирования будет работать на практике. Следует подчеркнуть, что в задаче прогнозирования, модель, обычно имеет набор известных данных с известными значениями (метками; обучающая выборка) и набор неизвестных данных (без меток; тестовая выборка). 6] Кросс-валидация или перекрестная проверка делается для того, чтобы минимизировать такие проблемы, как переобучение, дать представление о том, как модель будет вести себя на независимом наборе данных (т.е., на неизвестном наборе данных).

Первый шаг кросс-валидации включает в себя разбиение данных на два подмножества: обучающую и тестовую выборки. Чтобы уменьшить возможность ошибки, проводятся несколько этапов перекрестной проверки с использованием блоков данных разного размера, далее результаты проверки усредняются.

Предположим, что мы имеем модель с одним или несколькими неизвестными параметрами и набор данных, который нужно идентифицировать (натренировать). Если мы возьмем выборку независимых данных для валидации такую же, или почти такую же, что и в качестве данных для обучения, то, как правило, получается, что модель не подходит для проверки, так как нам уже все известно заранее, или почти все. Это называется переобучением Переобучение (переподгонка, перев значении «слишком», англ. overfitting) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но достаточно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки)., так происходит чаще, когда количество данных для обучения маленькое, или, когда число параметров в модели большое.

Разные типы кросс-валидации Кросс-валидация k-блоками.

В кросс-валидации этого типа, исходная выборка случайным образом разделеляется на k одинаковых по размеру подмножеств. Из k подмножеств, один блок сохраняется как данные для тестирования модели (тестовая выборка), а остальные k-1 блоков используются в качестве обучающей выборки. Процесс повторяется k раз, с каждым из k подможеств только один раз. Результаты из каждого блока могут быть усреднены для получения единой оценки. Обычно используется кросс-валидация 10-блоками, но в целом k остается подвижным параметром. 7][8].

Повторяющийся случайным образом выбор подможеств для валидации.

Этот метод случайным образом разбивает массив данных в обучающую и тестовую выборки. Для каждого такого разбиения, модель обучает тестовую выборку и выдает процент ошибки, и, затем, результат, усредненяются после выполнения всех процедур. Преимущество этого метода (над кросс-валидацией k-блоками) в том, что доля обучающей и тестовой выборок не зависит от количества итераций. Недостатком данного метода является то, что некоторые данные, могут быть никогда не выбраны в качестве обучающей выборки, в то время как другие могут быть выбраны более чем один раз.

Ограничений и неправильное использование Кросс-валидация дает значимые результаты только в том случае, если обучающая и тестовая выборки комплекта взяты из одной совокупности. В качестве примера, предположим, что модель прогнозирования разработана для определения индивидуального риска заболеть определенным заболеванием в течение следующего года. Если модель обучается, используя данные из исследования с участием только определенной группы населения (например, мужчины), а затем применяется к общей численности населения, результаты обучения могут значительно отличаться от реальных показателей прогноза.

Нельзя допускать того, что часть обучающей выборки будет включена и в тестовую, тогда результаты могут получиться неверными.

Следует отметить, что некоторые специалисты по статистике ставят под сомнение полезность кросс-валидации. 9].

Глава 4. Анализ и результаты Итак, перейдем к анализу и к результатам исследования. В начале хотелось бы отметить общее число файлов типов doc и pdf, которые хранятся на сайтах университетов в открытом доступе. Эта информация бралась с помощью поисковой системы Яндекс, в которой есть возможность находить количество документов по их типу, расположенных по конкретным интернет-адресам (реализовано, используя расширенный поиск).

Ниже приведены три таблицы, в которых отражена упомянутая информация по трем категориям университетов (выбор университетов рассказан в первой главе этой работы).

Первая категория («ведущие» учебные заведения России):


Университет.	Общее количество файлов (doc, docx, pdf).
МГУ.	63 000.
СпбГУ.	34 000.
МИФИ.	8 000.
МФТИ.	7 000.
НИУ-ВШЭ.	78 000.

Вторая категория («средние» учебные заведения России):


Университет.	Общее количество файлов (doc, docx, pdf).
Омский ГУ.	4 000.
Удмуртский ГУ.	14 000.
Иркутский ГУ.	8 000.
Новгородский ГУ.	14 000.
Самарский ГУ.	6 000.

Третья категория («отстающие» учебные заведения России):


Университет.	Общее количество файлов (doc, docx, pdf).
Северо-Осетинский ГУ.
Курский ГУ.	2 000.
Елецкий ГУ.
Калмыцкий ГУ.	2 000.
Камчатский ГУ.

Было решено взять для анализа исключительно файлы типов doc, docx и pdf, так как остальные основные типы такие, как xls (таблицы), ppt (презентации) и pptx (презентации), не являются показательными для нас. В таблицы и презентации никогда не записывают научную или учебную литературу.

Исходя из этих таблиц видно, что на всем фоне выделяются только три университета: МГУ, СпбГУ и НИУ-ВШЭ. Если оценивать только по этому критерию (число документов), то остальные два ВУЗа из первой категории (МИФИ и МФТИ) следует отнести во вторую. Но давайте рассмотрим эти файлы по их внутренним составляющим.

Следующий наш этап: скачать все файлы с сайтов университетов. Это было реализовано с помощью программы Teleport Pro, которая была описана во второй главе этой выпускной квалификационной работы. Но так как, к сожалению, крайне сложным является возможность скачать именно все файлы с сайтов, потому что это заняло бы времени чуть меньше, чем бесконечность, было решено скачать все файлы, которые находятся на глубине не больше 7 от главной страницы сайта каждого учебного заведения. Приведем опять же три таблицы, в которых будет показано количество файлов, расположенных на сайтах университетов (на глубине не больше семи), которые были скачены для дальнейшего анализа.

Первая категория:


Университеты.	Число файлов (pdf, doc, docx). Глубина поиска не больше 7.
МГУ.	2 290.
СпбГУ.	1 452.
МИФИ.
МФТИ.
НИУ-ВШЭ.

Вторая категория:


Университеты.	Число файлов (pdf, doc, docx). Глубина поиска не больше 7.
Омский ГУ.
Удмуртский ГУ.
Иркутский ГУ.
Новгородский ГУ.
Самарский ГУ.

Третья категория:


Университеты.	Число файлов (pdf, doc, docx). Глубина поиска не больше 7.
Северо-Осетинский ГУ.
Курский ГУ.
Елецкий ГУ.
Калмыцкий ГУ.
Камчатский ГУ.

Из этих таблиц видно, что университеты из первого эшелона в большей степени хранят свои файлы достаточно глубоко от главной страницы их сайтов. Поэтому скачалось только от 0,7% до 8,5% файлов из общего числа документов, хранящихся в открытом доступе.

Схожая ситуация и с ВУЗами второй категории: скачалось только от 2,7% до 16% из общего числа.

Совсем иную ситуацию мы можем наблюдать среди университетов третьей категории. Если не брать в расчет Северо-Осетинский ГУ и Камчатский ГУ, где хранится только один файл на два университета, то можно заметить, что сайты не очень глубокие и всего на глубине не больше 7 находятся от 35,6% до 53,6% файлов из общего числа документов, хранящихся в открытом доступе.

Далее случайным образом были выбраны 100 файлов, которые были просмотрены и прочитаны, и которым были присвоены метки:

· 0, если документ является административно-организационный
· 1, если документ является научным
· 2, если документ является учебным

То есть мы получили вектор из 100 элементов, в котором хранятся метки. Получилось, что из этих ста файлов: 52 — с меткой 0; 23 — с меткой 1; 25 — с меткой 2.

Далее все файлы, за исключением, административно-организационных были просмотрены более подробно на предмет нахождения слов, которые характеризуют каждую из категорий файлов. Сначала был собран словать из 60 слов, который характеризовал научную и учебную литературу (для каждого раздела были выбраны 30 слов). Затем, используя программу, которая ищет по ключевым словам отношение вхождения слов к длине файла, было замечено, что большинство слов не играют яркую роль в определении каждого из разделов документов (то есть их достаточно мало). Были отсеяны некоторые из них. Итого остались 24 слова, которые входили чаще остальных:


Научная литература.	Учебная литература.
показывает.	семинар
рассмотрим.	исследовать.
методы.	проанализировать.
анализ.	пример
проанализированы.	примеры.
оценка.	решить.
оценкам.	найти.
закон.	изучить.
знания.	оценить.
темы.	доказать.
задач.	привести.
вклад.	исследование.

Именно эти слова характеризуют эти два раздела документов, так как предполагается, что вся научная литература описывается одинаковым языком, то есть ключевые слова, которые отражают научные файлы, которые лежат на интернет-сайте МГУ, не отличаются от слов, которые характеризуют документы, хранящиеся на интернет-сайте, например, Новгородского Государственного Университета.

Затем, используя программу SPSS Statistics и метод кросс-валидация, необходимо оценить вероятную ошибку при получении итоговых результатов. Каждому из ста файлов был присвоен вектор, i-ый элемент которого отвечает отношению вхождения i-ого слова к длине файла.

Приведем три таблицы, в которых видно, каков процент возможной ошибки будет при выборе разного процента обучающей и тестовой выборок, а так же при выборе разного метода классификации: метод ближайшего соседа, метод 3-ближайших соседей, метод 5-ближайших соседей. Идея заключается в том, что случайным образом выбирается обучающая выборка, исходя из заданного процента, на этой выборке мы обучаем алгоритм, а на тестовой проверяем его. Имея метки для всех 100 файлов, мы в итоге находим то, на сколько ошибся алгоритм.

Сначала для метода ближайшего соседа:


Обучающая выборка (%).	Тестовая выборка (%).	Ошибка (%).

Для метода 3-длижайших соседей:


Обучающая выборка (%).	Тестовая выборка (%).	Ошибка (%).

Для метода 5-ближайших соседей:


Обучающая выборка (%).	Тестовая выборка (%).	Ошибка (%).

Видно, что с переобучением не столкнулись ни в одном из методов, это может быть объяснено тем, что сто файлов для данной операции, возможно, мало.

В результате мы усредняем ошибки в каждом методе и получаем процент, который характерезует каждый алгоритм:


Ближайшего соседа.	3-ближайших соседей.	5-ближайших соседей.
24,44%.	25,22%.	25,89%.

Из этой таблицы можно прийти к выводу, что метод ближайшего соседа на данной выборке работает лучше всего. Им и будем пользоваться.

После этого, получаем для каждого университета набор векторов и анализируем каждый набор в отдельности на нашем алгоритме. В результате получаем доли научной, учебной и административно-оргазнизационной литературы. Ниже представлены три таблицы с конечными результатами для каждой категории учебных заведений.

Первая категория:


Университет.	Научная.	Учебная.	Адм.-Орг.
МГУ.	745 (32,5%).	782 (34,1%).	763 (33,4%).
СпбГУ.	379 (26,1%).	411 (28,3%).	662 (45,6%).
МИФИ.	257 (37,7%).	152 (22,3%).	272 (40,0%).
МФТИ.	173 (36,5%).	124 (26,2%).	177 (37,3%).
НИУ-ВШЭ.	193 (33,8%).	178 (31,1%).	201 (35,1%).

Вторая категория:


Университет.	Научная.	Учебная.	Адм.-Орг.
Омский ГУ.	114 (17,8%).	146 (22,7%).	382 (59,5%).
Удмуртский ГУ.	86 (14,7%).	161 (27,5%).	338 (57,8%).
Иркутский ГУ.	77 (15,8%).	93 (19,0%).	318 (65,2%).
Новгородский ГУ.	52 (13,6).	128 (33,6%).	201 (52,8%).
Самарский ГУ.	109 (21,6%).	84 (16,6%).	312 (61,8%).

Третья категория:


Университет.	Научная.	Учебная.	Адм.-Орг.
Северо-Осетинский ГУ.	0(0%).	0 (0%).	1 (100%).
Курский ГУ.	154 (21,6%).	82 (11,5%).	476 (66,9%).
Елецкий ГУ.	53 (12,3%).	76 (17,8%).	300 (69,9%).
Калмыцкий ГУ.	47 (5,7%).	171 (20,7%).	610 (73,6%).
Камчатский ГУ.

Стоит отметить и особо «отличившихся»: Северо-Осетинский государственный университет и Камчатский государственный университет, у которых на двоих всего один файл.

В добавлении ко всему, отмечу, что все отсканированные документы или документы на других языкам автоматически попадали в класс с административно-организационными файлами.

Отбросив административно-организационные файлы, так как в сумме все компоненты составляют единицу (или 100%), получаем, что каждому университету ставится в соответствие вектор из двух элементов (доля научной литературы, доля учебной литературы). Следовательно, эти учебные заведения можно изобразить на плоскости.

рис. 1.

На рисунке 1 большими кругами обозначены «ведущие» университеты, средними — «средние», маленькими — «отстающие». Видно, что каждая из категорий, кроме третьей, находятся на плоскости довольно кучно и близко друг к другу. Три университета из третьей категории расположены довольно близко ко второй, но, если брать в среднем по всем пяти, то, конечно же, показатели резко снизятся. Все из-за оставшихся двух: Северо-Осетинского государственного университета и Камчатского государственного университета. Так же стоит отметить Новгородский государственный университет. У него доля учебного контента больше, чем у большинства университетов из первого эшелона.

Из таблиц и графика видно, что университеты из отдельных категорий схожи по долям научных и учебных документов, но, так же можно заметить, что имеются и выбросы (расхождения), что подтверждает теорию о том, что для того, чтобы верно оценивать учебные заведения по файлам, которые лежат в открытом доступе, следует оценивать не только количество документов, но в том числе и то, какие именно файлы лежат на веб-сайтах.

Проверим наши результаты в программе SPSS Statistics. Данный пакет имеет возможность кластеризации данных. Задав три кластера, проверим, правильно ли программа разбила анализируемые университеты на три группы. Убрав из входных данных два нулевых значения, получили, что двумя разными методами (метод k-средних и двухэтапный кластерный анализ) программа кластеризует наши данные неверно: получили, что в первом кластере пять университетов, во втором и третьем — по четыре. Если включить нулевые значения, то, используя метод k-средних, программа путается еще больше: в первом кластере восемь университетов, во втором — пять и в третьем — два. Однако, используя двухэтапный кластерный анализ, получаем более точные данные, но все же не совсем верные: в первом кластере семь университетов, во втором и третьем — по черыре.

Показать весь текст

Заполнить форму текущей работой