Помощь в написании студенческих работ
Антистрессовый сервис

П3. 4. 3. Коэффициент хи-квадрат как индекс связи и визуализация его структуры

РефератПомощь в написанииУзнать стоимостьмоей работы

Вопрос 3.21. Рассмотрим следующую информацию, дополнительную к условиям В2.22. Среди покупателей в этом вопросе каждый, кто тратит на покупки ?60, это обязательно мужчина; каждый, кто тратит ?100, всегда женщина; а среди оставшихся 30 человек половина женщин и половина мужчин. Постройте таблицу сопряженности двух признаков: пол и расходы на покупки. Найдите и объясните величину коэффициента Кегле… Читать ещё >

П3. 4. 3. Коэффициент хи-квадрат как индекс связи и визуализация его структуры (реферат, курсовая, диплом, контрольная)

Относительно удачная визуализация таблицы сопряженности получается с помощью индексов Кетле, взвешенных вероятностями соответствующих ячеек таблицы, как объясняется в подпараграфе Ф3.4. Сумма этих величин приводит к одному из наиболее популярных понятий анализа таблиц сопряженности, так называемому коэффициенту сопряженности хи-квадрат. Этот коэффициент был предложен К. Пирсоном (1901) как мера отклонения наблюдаемого двумерного распределения в таблице сопряженности от условия статистической независимости признаков.

Два признака считаются статистически независимыми, если все возможные пары их категорий статистически независимы, т. е. вероятность/частота их совместного появления равна произведению вероятностей этих категорий по отдельности. К. Пирсон рассматривал ситуацию, когда два признака статистически независимы в популяции, но в рассматриваемой конкретной выборке независимость не выполняется из-за случайных отклонений выборки. Он предложил взять квадрат разности наблюденной частоты и величины, полученной при выполнении предположения независимости, и разделить его на «теоретическую» вероятность, истинную для популяции. Суммарный индекс носит название коэффициент Пирсона хи-квадрат (см. формулы (3.18)—(3.19)). Распределение суммарного коэффициента хи-квадрат, умноженного на численность выборки, при условии справедливости гипотезы независимости в популяции, сходится к так называемому распределению хи-квадрат, которое используется в статистике для проверки гипотезы независимости двух признаков. Статистики утверждают поэтому, что коэффициент может быть использован только для тестирования гипотезы независимости, но не как мера коррелированное™. Согласно этому мнению коэффициент хи-квадрат должен использоваться для различения только двух случаев: статистической независимости и ее отсутствия, так что его числовое значение само по себе не может использоваться как характеристика степени зависимости. Впрочем, практики часто не следуют этому указанию и используют хи-квадрат как меру связи между двумя категоризованными признаками. Как свидетельствует формула (3.19), в этом нет ничего плохого или некорректного. Коэффициент сопряженности хи-квадрат по своей сути нс что иное как усредненный индекс Кегле, и значит, характеризует среднюю степень связи между категориями двух признаков. Болес точно, усредненный индекс Кстле, а значит и коэффициент хи-квадрат, показывает, на сколько в среднем относительно увеличится вероятность категории одного признака при условии, что категория другого признака становится известной.

Рабочий пример 3.13. Визуализация таблицы сопряженности с использованием взвешенного индекса Кетле

Умножим коэффициенты Кетле из табл. 3.18 на частоты значений в соответствующих ячейках табл. 3.15. При этом следует выражать коэффициенты Кетле в табл. 3.18 в абсолютных величинах, а не в процентах. В результате получаем табл. 3.22, элементы которой суммируются к 0,152 — коэффициенту хи-квадрат Пирсона для табл. 3.14. Эта величина характеризует средний прирост вероятности категорий одного признака, когда значение второго признака становится известным: на 15,2%. Заметим, что значения в табл. 3.22 могут быть как положительными, так и отрицательными; те, чье значение по модулю больше удвоенного среднего, 2 • 0,152 / 8 = 0, 038, выделены жирным шрифтом — они сильно отклоняются от среднего. При этом столбец «4+» содержит как наибольший положительный, так и наибольший отрицательный вклады.

Таблица 3.22

Хи-квадрат для нары «Ба"/"Фр» и его разложение по уравнению (3.19)

«Фр».

10+.

4+.

2+.

1;

Итого.

Есть.

0,030.

0,120.

— 0,014.

— 0,014.

0,122.

Нет.

— 0,015.

— 0,042.

0,046.

0,041.

0,030.

Всего.

0,015.

0,078.

0,032.

0,027.

0,152.

Пара категорий считается статистически независимой, если вероятность (доля) совместного появления двух категорий равна произведению вероятностей этих категорий. Например, рассмотрим категорию «Есть» для Фермерского рынка и «4+» для числа банков «Ба» в табл. 3.15: вероятность их совместного появления равна 0,111. С другой стороны, вероятность того, что «Фр» = «Есть», равна 0,2, а вероятность того, что «Ба» = 4+, равна 0,267. Если бы две эти категории были независимы, то вместе их можно было бы наблюдать с частотой 0,2 • 0,267 = 0,053, примерно в 2 раза меньшей, чем в действительности, что говорит о том, что для этой пары говорить о статистической независимости не приходится.

Рабочий пример 3.14. Традиционное разложение коэффициента хи-квадрат

Рассмотрим общепринятый способ визуализации таблиц сопряженности, состоящий в том, что в ячейки таблицы сопряженности вписываются величины, которые удобно называть парными коэффициентами Пирсона. Коэффициент Пирсона для ячейки (k, /) это квадратный корень r (kt I) из величины, суммируемой в классической формуле (3.21) коэффициента хи-квадрат. Для рассматриваемых данных таблица коэффициентов Пирсона — в табл. 3.23. Эта таблица всегда показывает тот же паттерн отрицательных и положительных величин, что и разложение Кстлс. Однако здесь коэффициент хи-квадрат получается суммированием не самих элементов таблицы, а их квадратов. Тот факт, что суммарные значения в маргинальных полях табл. 3.22 и 3.23 одинаковы — не случайность: он объясняется математическим свойством, выраженным в уравнении (3.19).

Таблица 3.23

Квадратные корни из величин, суммируемых в традиционной формуле хи-квадрат Пирсона (NX2 =45 • 0,152 = 6,86); суммируемые значения указаны в скобках.

ФРыиок.

10+.

4+.

2+.

1;

Сумма.

Есть.

0,73 (0,53).

1,68 (2,82).

— 1,08(1,16).

— 0,99 (0,98).

(5,49).

Нет.

— 0,36 (0,13).

— 0,84 (0,70).

0,54 (0,29).

0,50 (0,25).

(1,37).

Сумма.

(0.67).

(3,52).

(1.45).

(1,23).

(6,86).

Вопрос 3.18. В табл. 3.23 все маргинальные значения, суммы строк и столбцов, положительны, даже несмотря на то что многие из элементов таблицы — отрицательные. Является ли это лишь особенностью этой таблицы или же проявлением общего свойства?

Ответ. Проявление общего свойства: суммы элементов q (l / k) в строке или в столбце должны быть положительны, см. уравнение (3.19).

Вопрос 3.19. Постройте аналогичное разложение коэффициента хи-квадрат для пары Таксон/Длина лепестка по данным об ирисах.

Подсказка. Прежде всего категоризуйте количественный признак «Длина лепестка»; для этого можно использовать бины одинакового размера или любой другой разумный способ.

Вопрос 3.20. Можно ли составить какое-либо логическое правило вывода, основываясь на данных в столбцах табл. 3.17?

Ответ. Да, обе атаки, и Apache, и Saint, могут возникнуть лишь в протоколе tcp.

Вопрос 3.21. Рассмотрим следующую информацию, дополнительную к условиям В2.22. Среди покупателей в этом вопросе каждый, кто тратит на покупки ?60, это обязательно мужчина; каждый, кто тратит ?100, всегда женщина; а среди оставшихся 30 человек половина женщин и половина мужчин. Постройте таблицу сопряженности двух признаков: пол и расходы на покупки. Найдите и объясните величину коэффициента Кегле для пары категорий «женщины, которые тратят по ?100 каждая».

Ответ. Таблица сопряженности (численности совместного появления событий):

Расходы, ?

Пол.

Итого.

Жен.

Муж.

Итого.

В данной таблице частоты совместного появления событий совпадают со своими процентными значениями, так как число покупателей равно 100.

Рассчитаем коэффициент Кстлс г/(Жен/?100) по формуле (3.16'):

П3.4.3. Коэффициент хи-квадрат как индекс связи и визуализация его структуры.

Это означает, что вероятность того, что индивид в данной категории расходов окажется женщиной, больше средней частоты женщин на 186%.

Показать весь текст
Заполнить форму текущей работой