Классификатор с интервальными предикатами
Относительная успешность импликаций, основанных на интервальных предикатах в примере 3.9, обусловлена высокой корреляцией между SH и Типом атаки. В ситуации, когда особой корреляции нет, как, например, у пары «Длина чашелистика — Таксон» для данных об ирисах, интервальные правила могут приводить к многим ошибкам. Рассмотрим, например, категорию с наибольшим вкладом Т1 в табл. 3.13. Диапазон длины… Читать ещё >
Классификатор с интервальными предикатами (реферат, курсовая, диплом, контрольная)
Другой, более удобный для человеческого восприятия, классификатор может быть построен с использованием интервалов количественного признака х. Для того чтобы спрогнозировать категорию k целевого признака, этот классификатор ссылается на интервальный предикат х (а (к), Ь (к)), значение которого «истина» тогда и только тогда, когда величина х лежит между а (к) и Ь (к). Далее строится решающее правило, которое будет справедливо в этой модели, если x (a (k), Ь (к)) => => к. Рассмотрим для примера атаку «Saint» в данных о компьютерных атаках: в табл. 1.4 на стр. 15−17 имеется 11 случаев атак такого типа и все, кроме одного, имеют значения признака SH, равные 482 или 483. Таким образом, правило интервального предиката SH (482,483) => Saint даст 10 корректных ответов из 11, т. е. лишь 9% ошибок.
Как узнать, какая из категорий наилучшим образом покрывается правилом интервального предиката? Одно из предложений заключается в использовании вкладов категорий в разброс х в уравнении (3.13), рк(х-хк)2, в обозначениях этого раздела, где рк — доля объектов в категории к, х — среднее количественного признака на всех объектах, а хк — среднее в категории к. Геометрическую иллюстрацию этого предложения можно увидеть на рис. 3.19 (вверху): чем дальше отдалено среднее в категории от общего среднего, тем больше шанс, что и все объекты категории отдалены, так что ее нетрудно описать интервальным признаком. Однако в некоторых случаях многие объекты категории могут находиться далеко от среднего по категории, что приведет к ошибкам «интервального» прогноза (см. рис. 3.19, нижняя часть).
Рис. 3.19. Группа белых кружков сильно удалена от остальных объектов на верхней картинке, но на нижней белые кружки уже перемешаны с остальными объектами; это отражается во взаиморасположении звездочек, представляющих
общее и групповое средние
Рабочий пример 3.9. Вклад категории как основа формирования решающих правил с использованием интервальных предикатов
Рассмотрим уже использовавшиеся признаки Att и SHCo из данных о компьютерных атаках (см. пример 3.8) и определим вклады отдельных категорий Att по формуле (3.13), pk(x-xk)2 (см. табл. 3.11).
С учетом табл. 3.11 попытаемся построить интервальные предикаты для категорий с наибольшими вкладами, Saint и Smurf. Мы уже отмечали, что правило SH (482, 483) => => Saint порождает 9%-ную ошибку типа ложное «против». Причина — значение SH = 510, которое соответствует Saint (90-я строка таблицы данных об атаках), но не удовлетворяет правилу. Аналогичный предикат SH (490, 512) => Smurf так же один раз не верен, причем на том же самом объекте — но на этот раз это ложное «за»: удовлетворяет посылке, но не Smurf. Следующая по величине вклада — категория Normal: в ней х меняется от 1 до 28, что частично покрывает интервал (16, 42), относящийся к категории Apache. Если ограничить область изменения до 15, взяв предикат SH (1, 15) => Normal, он оказывается истинным в 53 из 56 случаев; три ложных «против» составляют всего лишь около 5%. Правило SH (16, 42) => Apache неверно на тех же трех объектах, но теперь это ошибки типа ложных «за».
Таблица 3.11
Вклады категорий, но формуле (3.13).
Тип атаки. | Доля. | Среднее. | Вклад. |
Apache. | 0,23. | 33,61. | 1514,3. |
Saint. | 0,11. | 484,64. | 15 049,8. |
Smurf. | 0,10. | 508,40. | 15 496,0. |
Normal. | 0,56. | 5,13. | 6729,9. |
Всего. | 1,00. | 114,75. | 38 790,0. |
Вопрос 3.15. Постройте таблицу вкладов категорий подобную табл. 3.11 для признаков «Длина чашелистика» и Таксон по данным об ирисах.
Ответ. См. табл. 3.12.
Таблица 3.12
Вклады таксонов в длину чашелистика
Таксон. | Доля. | Среднее. | Квадрат рази. | Вклад. |
Т1. | 1/3. | 5,006. | 0,7011. | 0,2337. |
Т2. | 1/3. | 5,936. | 0,0086. | 0,0029. |
ТЗ. | 1/3. | 6,588. | 0,5545. | 0,1848. |
Все множество. | 1,00. | 5,843. |
Относительная успешность импликаций, основанных на интервальных предикатах в примере 3.9, обусловлена высокой корреляцией между SH и Типом атаки. В ситуации, когда особой корреляции нет, как, например, у пары «Длина чашелистика — Таксон» для данных об ирисах, интервальные правила могут приводить к многим ошибкам. Рассмотрим, например, категорию с наибольшим вкладом Т1 в табл. 3.13. Диапазон длины чашелистика в таксоне Т1 составляет от 4,3 до 5,8. Если взять весь этот интервал и сформулировать правило ДЧ (4,3, 5,8) => => Т1, оно не дает ни одного случая «ложного против», но вместе с тем приводит к очень многим «ложным за»: 24 объекта таксона Т2 и 6 объектов таксона ТЗ лежат в интервале (4,3, 5,8), что в сумме образует 30 ложных «за»! Можно попытаться сузить границы интервала, чтобы значительно уменьшить число ложных «за» ценой добавления немногих ложных «против». Рассмотрим, например, правило ВИ (4,3, 5,5) => Т1: теперь число ложных «за» — 12(11 Т2 и 1 ТЗ), тогда как число ложных «против» — 3, что в итоге дает 15 ошибок — вдвое меньше, чем 30, но все-таки немало. Тем не менее интервальные правила удобны для человека, так что иногда подобные правила могут быть приняты даже несмотря на высокие ошибки. Кроме того, эти правила можно уточнять, добавляя к ним интервальные предикаты, порожденные другими признаками.