Вторая часть исследования заключалась в модификации алгоритма AddIntent для получения неполной решетки понятий, состоящей только из положительных гипотез и определяющей минимальные положительные гипотезы.
Результат работы алгоритма на исследуемых данных следующий:
- · Размер решетки: 700 000 понятий
- · Количество минимальных положительных гипотез: 32 000
Данный результат уже является применимым для решения поставленной задачи классификации. Однако, было принято решение сократить число минимальных положительных гипотез для демонстрации данного результата врачам-специалистам. Для этого было решено использовать задачу о покрытии множества. Для оценки качества полученных гипотез использовалась процедура скользящего контроля (10-fold cross validation). Десять раз случайным образом выбиралось 10% объектов из набора положительных объектов, которые в дальнейшем использовались, как тестовая выборка. После расчета ошибок 1-го и 2-го рода для каждого классификатора была взята средняя по каждой ошибке.
В результате, качество классификатора описано в приведенной ниже таблице:
|
| Гипотеза H0 верна. | Гипотеза H1 верна. | |
Гипотеза H0 принята. | 91%. | Ошибка 2го рода: 20%. | |
Гипотеза H1 принята. | Ошибка 1го рода: 9%. | 80%. | |
|
Оценка precision: 82%.
Оценка recall: 91%.
Данный результат можно сравнить с классификатором, основанном на деревьях решений [11,12]. Нами использовалась реализация деревьев решений из [13]. На вход данному классификатору был подан весь набор объектов (86 положительных и отрицательных объектов). Для проверки надежности классификатора использовалась та же процедура скользящего контроля.
Результаты классификатора, основанного на деревьях решений приведены в таблице ниже:
|
| Гипотеза H0 верна. | Гипотеза H1 верна. | |
Гипотеза H0 принята. | 88,2%. | Ошибка 2го рода: 27%. | |
Гипотеза H1 принята. | Ошибка 1го рода: 11,8%. | 73%. | |
|
Классификатор, полученный на основе модифицированного алгоритма AddIntent работает эффективнее, чем классификатор, построенный на решающих деревьях.
Выводы по 3 главе
В данной главе были описаны основные шаги исследовательской части, проведенной в данной работе. Помимо этого, были приведены итоговые результаты исследования. В конце главы было проведено сравнение результатов полученного во время исследования классификатора с классификатором, основанном на деревьях решений.