Случай двух номинальных признаков
К сожалению, в табл. 3.14 сопряженности признаков «Ба» и «Фр» нулей нет, т. е. нет смысла говорить о концептуальной связи каких-либо категорий этих признаков. Однако некоторые значения в таблице близки к 0, что подвергает нас соблазну немного почистить данные. Ценой удаления из выборки только двух городов мы можем добиться того, что в строке «Да» табл. 3.14 два последних значения станут 0… Читать ещё >
Случай двух номинальных признаков (реферат, курсовая, диплом, контрольная)
П3.4. Анализ таблиц сопряженности: представление
ПЗ.4.1. Построение концептуальных связей по статистическим данным
Для анализа связи между двумя номинальными признаками составляют так называемые таблицы сопряженности. Строки таблицы сопряженности соответствуют категориям одного признака, а столбцы — категориям другого признака. Элемент на пересечении строки и столбца — количество объектов, обладающих соответствующими категориями и того и другого признаков.
Рабочий пример 3.10. Таблица сопряженности на малых городах
Чтобы создать перекрестную классификацию двух признаков торговых городов, «Банки» («Ба») и «Фермерский рынок» («Фр»), необходимо прежде всего категоризовать количественный признак «Банки». Рассмотрим, например, разбиение на четыре категории в табл. 3.13.
Таблица 3.13
Определение категорий «Ба» по данным о торговых городах.
Категория. | Определение. | Обозначение. |
Ба > 10. | 10+. | |
10 > Ба > 4. | 4+. | |
4 > Ба > 2. | 2+. | |
Ба = 0 or 1. | 1; |
Эти категории перекрестно классифицируются с категориями «Есть» и «Нет» признака «Фр» в таблице сопряженности (табл. 3.14). Кроме численностей объектов в категориях перекрестной классификации, в таблице содержатся и суммарные численности категорий — в последних, добавленных, строке и столбце таблицы — вот почему их называют маргинальными. Общее число объектов — в правом нижнем углу таблицы.
Таблица 3.14.
Перекрестная классификация категорий «Ба» и «Фр».
Категория «Фр». | Категория «Ба». | Итого. | |||
10+. | 4+. | 2+. | 1; | ||
Есть. | |||||
Нет. | |||||
Итого. |
Таблица 3.15
Относительные частоты для перекрестной классификации «Фр» / «Ба», %.
«Фр» / «Ба». | 10+. | 4+. | 2+. | 1; | Итого. |
Есть. | 4,44. | 11,11. | 2,22. | 2,22. | |
Нет. | 8,89. | 15,56. | 28,89. | 26,67. | |
Сумма. | 13,33. | 26,67. | 31,11. | 28,89. |
Те же значения сопряженности в относительных частотах (полученные делением на общее количество объектов) представлены в табл. 3.15.
Самостоятельная работа
- 3.10.1. Постройте таблицу сопряженности для признаков «Тип протокола» и «Тип атаки» по данным о компьютерных атаках (см. табл. 1.4) как в абсолютных численностях, так и в относительных частотах.
- 3.10.2. Разделите ирисы в табл. 1.2 на четыре группы по признаку «Длина чашелистика» и постройте таблицу сопряженности полученного номинального признака с разбиением по таксонам как в абсолютных численностях, так и в относительных частотах.
Таблица сопряженности может быть использована для исследования связи между отдельными категориями. Наибольшая связь — концептуальная (логическая) (рис. 3.20). Концептуальная связь усматривается тогда, когда в строке k все немаргинальные величины, кроме одной, скажем в столбце /, равны 0, что означает, что если объект имеет категорию к первого признака, он заведомо будет иметь категорию / второго признака. Это означает логическую импликацию, или концептуальную связь k => /.
Рис. 3.20. Нетривиальная импликация.
Вопрос 3.16. Постройте таблицу сопряженности для признаков «Тип протокола» и «Тип атаки» для данных о компьютерных атаках.
Ответ. См. табл. 3.16.
Таблица сопряженности на данных о компьютерных атаках.
Таблица 3.16
Категории. | Apache. | Saint. | Smurf. | Normal. | Итого. |
Тср | |||||
Udp. | |||||
Icmp. | |||||
Итого. |
Рабочий пример 3.11. Импликации и эквивалентности по таблице сопряженности
Рассмотрим таблицу сопряженности признаков «Тип протокола» и «Тип атаки» по данным о компьютерных атаках (см. табл. 3.16). В строках Udp и Icmp табл. 3.16 только один ненулевой элемент. Это значит, что таблица содержит логические импликации Udp=>Normal и Icmp=>Smurf. Более того, в столбце Smurf тоже только один ненулевой элемент! Это значит, что согласно таблице категории Icmp и Smurf эквивалентны, т. е. Icmp Smurf.
Самостоятельная работа
- 3.11.1. Рассмотрите таблицу сопряженности признаков «Сектор экономики» и «Использование Интернета» но данным табл. 1.1. Можно ли сделать вывод о наличии логических импликаций согласно этой таблице?
- 3.11.2. Сформируйте из признака «Нас» в табл. 1.5 данных о малых городах Англии категоризованный признак «Величина поселения» с категориями «Малая» (до 2400 жителей), «Средняя» (больше 2400, но меньше 8500 жителей) и «Большая» (более 8500 жителей). Рассмотрите таблицу сопряженности этого нового признака и признака «Фр». Можно ли сделать вывод (-ы) о наличии логических импликаций согласно этой таблице?
Задание 3.6. Чистка таблицы сопряженности: лучше не делать.
К сожалению, в табл. 3.14 сопряженности признаков «Ба» и «Фр» нулей нет, т. е. нет смысла говорить о концептуальной связи каких-либо категорий этих признаков. Однако некоторые значения в таблице близки к 0, что подвергает нас соблазну немного почистить данные. Ценой удаления из выборки только двух городов мы можем добиться того, что в строке «Да» табл. 3.14 два последних значения станут 0, а не 1. Такое преобразование будет означать, что фермерский рынок может появиться только в городе с четырьмя и более банками. То есть логическое правило «Если Ба > 4, то в городе есть фермерский рынок» справедливо согласно модифицированной таблице сопряженности.
Воспользуемся этим приемом для усиления подмеченной корреляции путем очищения таблицы от малых значений. Поправленная таким образом табл. 3.14 преобразуется в табл. 3.17: удалено всего 13 городов из выборки, зато как хорошо проявлена концептуальная связь: «В городе есть фермерский рынок тогда и только тогда, когда число банков в нем больше 4»! Но нс будем забывать, что цена этого — 13 удаленных городов. Они составляют почти 30% исходной выборки.
Таблица 3.17[1]
Очищенная перекрестная классификация «Ба» / «Фр» (удалено 13 городов).
«Ба». | |||||
Фр | 10+. | 4+. | 2+. | 1; | Итого. |
Да. | |||||
Нет. | |||||
Итого. |
Рис. 3.21. Нехарактерные объекты.
Схема концентрических овалов, образуемых столбиками Вудхенджа, неолитического памятника в Южной Англии; несколько столбиков находятся вне овалов — что они и зачем они, неизвестно1
Подобная поправка данных с удалением «нехарактерных» объектов, граничащая с мошенничеством, — одна из причин возникновения популярного парадоксального афоризма, приписываемого Б. Дизраэли, известному британскому политику XIX в.: «Есть три градации лжи: ложь, наглая ложь и статистика». Здесь мы касаемся проблемы, которая до сих пор не получила в анализе данных скольнибудь общего решения. Ясно, что в множестве данных может присутствовать некое, обычно не очень большое, число нехарактерных объектов, подчас «выбросов» по отношению к остальным данным, которые следует удалить до того, как анализировать эти данные (см., например, рис. 3.21). Но как их выявить? А если такие данные характеризуют вовсе не выбросы, а наоборот, новые возможности развития? Безотносительно к этой проблеме мы предпочитаем не очищать данные, а искать другие способы выявления концептуальных связей.
- [1] URL http://structuralarchaeology.blogspot.ru/2009/01/19-proper-study-of-mankind-is-postholes.html