Сравнение двух экспериментальных распределений в таблицах большей размерности, чем 2X2, с помощью критерия хи-квадрат
Задача 8.7. В двух школах района выяснялась успешность знания алгебры учащимися десятых классов. Для этого в обеих школах были случайным образом отобраны 50 учащихся и с ними проведены контрольные работы. Проверялось предположение о том, что существенной разницы в уровне знаний учащимися алгебры в двух школах не существует. Полученные различия попали в зону незначимое™. Т. е. следует принят… Читать ещё >
Сравнение двух экспериментальных распределений в таблицах большей размерности, чем 2X2, с помощью критерия хи-квадрат (реферат, курсовая, диплом, контрольная)
Теперь решим задачу, в которой сравниваются две выборки, имеющие по четыре значения каждая.
Задача 8.7. В двух школах района выяснялась успешность знания алгебры учащимися десятых классов. Для этого в обеих школах были случайным образом отобраны 50 учащихся и с ними проведены контрольные работы. Проверялось предположение о том, что существенной разницы в уровне знаний учащимися алгебры в двух школах не существует.
Решение. Результаты контрольных работ представим сразу в виде табл. 8.9.
Таблица 8.9
Школы | Оценки | Суммы | |||
Школа 1 | 0" — 3 | 012=19 | О II | о II ЧТ. О | |
Школа 2 | 021 — 9 | 022 = 24 | 023= 12 | Ом = 5 | |
Суммы | оп + о21 = = 12 | 02 + 022 = = 43 | Охз + 023 = = 30 | Оха + 024 = = 15 |
В табл. 8.9 О— число учащихся первой школы, получивших оценку 2 в контрольной работе по алгебре; 012 — число учащихся первой школы, получивших оценку 3 в контрольной работе по алгебре; Охз — число учащихся первой школы, получивших оценку 4 в контрольной работе по алгебре, и т. д.
«Визуальный» анализ данных таблицы показывает, что во второй школе число «двоечников» в три раза больше, чем в первой, и, наряду с этим, число «отличников» в два раза меньше, чем в первой школе. Казалось бы, можно сделать вывод о том, что вторая школа показывает существенно худшие результаты, чем первая. Однако подобные утверждения можно делать только на основе статистической обработки экспериментальных данных.
В общем случае для подобных задач подсчет эмпирического значения хи-квадрат осуществляется по формуле (8.6), являющейся модификацией формулы (8.2):
где Пх — число испытуемых в первой выборке; п2 — число испытуемых во второй выборке; Оц и 02, — частоты классов (в нашем случае число участников опроса, отметивших первую, вторую и т. д. альтернативы) первой и второй выборки.
Подставим данные задач в формулу (8.6), получим:
Число степеней свободы в данном случае равно По табл. 11 Приложения находим:
Строим «ось значимости»:
Полученные различия попали в зону незначимое™. Иными словами, следует принять нулевую гипотезу Н$ о сходстве или о том, что уровень знания учащимися алгебры в двух разных школах статистически значимо не отличается между собой. Выше, при простом визуальном анализе экспериментальных данных мы высказывали предположение, что во второй школе успеваемость учащихся по алгебре существенно хуже, чем в первой, однако критерий хи-квадрат показал, что это далеко не так.
Задачи, аналогичные рассмотренной выше, легко решаются с помощью формулы 8.6.
Решим задачу 8.7 в пакете STADIA. Последовательность действий описана выше. Напомним, что в панели (см. рис. 8.1) выбора вида второго распределения нужно выбрать цифру 1:
КРИТЕРИЙ ХИ-КВАДРАТ Переменные: xl, х2+.
Хи-квадрат=6,45, Значимость=0,0917, степ. своб=3.
Гипотеза 0:
Особо подчеркнем, что в пакетах STATISTICA и SPSS сравнение двух эмпирических распределений по критерию хи-квадрат не предусмотрено.
С помощью формулы (8.6) решим еще раз задачу 8.4, оставив ее старый номер.
Задача 8.4. Какова степень удовлетворенности работой на одном предприятии у двух неравных по численности групп?
Решение. Для решения этой задачи социолог провел на том же предприятии (как в задаче 8.3) опрос о степени удовлетворенности работой еще в одной группе, но уже из 80 респондентов. Теперь у социолога есть две выборки испытуемых: первая — 65 человек и вторая — 80 человек. Распределение испытуемых по альтернативам представлено в табл. 8.10. Полученные данные позволяют использовать критерий хи-квадрат по-другому, без вычисления теоретических частот.
Таблица 8.10
Альтернативы | /э. | 1,2 | Суммы |
Суммы. |
Для решения задачи следует использовать формулу 8.6. Подставим данные табл. 8.10 в формулу (8.6), получим:
Ответ оказался аналогичным ответу, полученному при решении задачи 8.4. При сопоставлении двух эмпирических распределений число степеней свободы определяется, но формуле: v = = (к — 1)(с — 1), где к — число строк в таблице эмпирических частот только для первой выборки (или только для второй); с — количество сравниваемых распределений.
В нашем случае к = 5, с = 2, следовательно.
По табл. 11 Приложения находим:
Строим «ось значимости»:
Полученные различия попали в зону незначимое™. Т. е. следует принят!, нулевую гипотезу //0 о сходстве. Иными словами, распределения двух выборок значимо не отличаются между собой, и, следовательно, у двух групп опрошенных респондентов отсутствуют предпочтения в выборе удовлетворенности или неудовлетворенности работой.
В двух следующих двух задачах сравниваются две выборки, в которых значений переменных достаточно много, настолько, что предыдущие способы сравнения оказываются трудновыполнимыми. Поэтому все экспериментальные данные в этих двух задачах разбиты на группы (интервалы).
Задача 8.8. Психолог сравнивает два эмпирических распределения, в каждом из которых было обследовано 200 человек по тесту интеллекта. Вопрос, различаются ли между собой эти два распределения?
Решение. Представим эмпирические данные в виде табл. 8.11, в которой приведены также предварительные расчеты, необходимые для получения Хами;
Таблица 8.11
Уровни интеллекта IQ. | Частоты. | /,/,. | /.+/2. | /i/i. /.+/2. | |
/. | к | ||||
0,50. | |||||
3,12. | |||||
12,04. | |||||
30,22. | |||||
31,01. | |||||
21,68. | |||||
5,88. | |||||
0,33. | |||||
0,00. | |||||
Суммы. | 104,78. |
Для случая равенства числа испытуемых в первой и второй выборках расчет производится по формуле (8.7):
где/1 — частоты первого распределения;/2 — частоты второго; N— число элементов в каждой выборке. В нашем случае в каждой из выборок оно равно 200.
Произведем расчет, но формуле (8.7), основываясь на данных из табл. 8.11:
В данном случае число степеней свободы v = (k — 1)(с — 1) = = (9 — 1)(2 — 1) = 8, где к — число интервалов разбиения, а с — число столбцов.
В соответствии с табл. 11 Приложения находим:
Строим «ось значимости»:
Полученные различия попали в зону неопределенности. Психолог может как принять, так и отклонить гипотезу Hq.
Рассмотрим еще одну аналогичную задачу, в которой число значений в каждой из выборок различно. В этом случае используют другую формулу расчета.
Задача 8.9. Психолог сравнивает два эмпирических распределения, в каждом из которых было обследовано по тесту интеллекта разное количество испытуемых. Вопрос — различаются ли между собой эти два распределения?
Решение. 11рсдставим эмпирические данные сразу в виде табл. 8.12, отметив при этом, что число градаций IQ увеличилось, в отличие от табл. 8.11, до 150.
Таблица 8.12
Уровни интеллекта IQ. | Частоты. | /.+/2. | /.+/2. | ||
/. | /2 | ||||
1,00. | |||||
8,00. | |||||
22,04. | |||||
21,95. | |||||
25,78. | |||||
5,54. | |||||
4,90. |
Окончание табл. 8.12
Уровни интеллекта IQ. | Частоты. | /i/i. | /1 + к | /<+/2 | |
/. | к | ||||
2,00. | |||||
0,50. | |||||
0,00. | |||||
Суммы. | 91,71. |
Здесь произведены предварительные расчеты, необходимые для вычисления критерия эмпирического значения хи-квадрат при условии разного числа испытуемых в первой и второй выборках. В этом случае расчет производится по формуле (8.8):
где — частоты первого распределения, а /2 — частоты второго; N — сумма числа элементов в первой (п j) и второй (г^) выборках. В нашем случае оно равно 177 = 124 + 53, а сумма уже подсчитана в нижней строчке последнего столбца табл. 8.12.
Осталось произвести расчет по формуле (8.8).
В данном случае число степеней свободы v = (k — 1)(с — 1) = = (10- 1)(2 — 1) = 9, где k — число интервалов разбиения, а с — число столбцов.
В соответствии с табл. 11 Приложения находим:
Строим «ось значимости»:
Полученная величина эмпирического значения хи-квадрат попала в зону значимости. Иными словами, следует принять гипотезу Н[ о том, что распределения уровней интеллекта в двух неравных по численности выборках статистически значимо отличаются между собой.
Задачи 8.8 и 8.9 очень легко могут быть решены только в пакете STADIA. Пример решения аналогичных задач в пакете STADIA приведен выше при решении задачи 8.7. В остальных пакетах решение задач по критерию хи-квадрат, в которых сравниваются два экспериментальных распределения, не предусмотрено. Исключение — задачи, решаемые с помощью четырехпольных таблиц сопряженности.