Корреляционное отношение.
Общее представление о внутригрупповом и межгрупповом разбросе
Заметим, что г2у/х * г2ф (о подобной перестановке признаков можно говорить только в случае, если оба признака измерены по интервальной шкале; хотя для измерения одного из означенных коэффициентов, скажем, Ц2у/Х, достаточно того, чтобы У был интервальным, Л' может быть и номинальным). Введем несколько новых понятий. Обозначим через Y среднее арифметическое значение зависимой переменной для… Читать ещё >
Корреляционное отношение. Общее представление о внутригрупповом и межгрупповом разбросе (реферат, курсовая, диплом, контрольная)
Сущность новой меры связи — корреляционного отношения — продемонстрируем на примере, заимствованном из уже упоминавшейся работы Гласса и Стэнли (с. 138—139).
Изучается зависимость результатов ответа респондента на вопросы некоторого теста (Y) от его возраста (X). Опрашивалось 28 человек. По возрасту они были разделены на 8 групп, каждая группа характеризуется средним возрастом попавших в нее респондентов (например, возраст 30 приписан всем людям, попавшим в возрастной интервал от 28 до 32 лет). Статистические данные представлены на рис. 13.3 и табл. 13.2.
На рис. 13.3 видно, что наблюдаемые точки довольно плотно расположены вокруг ломаной линии. Это наводит на мысль о том, что указанная ломаная линия отражает определенную тенденцию: с изменением возраста от 10 до 22 лет показатели людей порассматриваемому тесту растут, затем начинается спад. И говорить об этой тенденции мы можем только благодаря тому, что, во-первых, если для каждого рассматриваемого значения возраста вычислить среднее арифметическое значение зависимой переменной, ломаная линия пройдет через соответствующую точку; во-вторых, для каждой возрастной группы разброс значений теста вокруг упомянутой средней относительно небольшой. Это интуитивное соображение можно формализовать. Соответствующая формализация и лежит в основе рассматриваемого коэффициента связи.
Рис. 13.3. Пример данных для расчета корреляционного отношения: связь между возрастом и характеристикой 28 человек по вспомогательному тесту цифра-знак шкалы интеллекта взрослых Векслера (WAIS).
Введем несколько новых понятий. Обозначим через Y среднее арифметическое значение зависимой переменной для j-й группы (j — 1,…, J). Отметим, что точка перед индексом j в обозначении среднего арифметического означает, что по первому индексу величины Y. произошло суммирование.
Определение. Внутригрупповая сумма квадратов
Таблица 13.2. Ответы респондентов на заданный тест в зависимости от их возраста (данные для расчета корреляционного отношения).
Усредненные данные о группах. | Возраст. (середина того возрастного интервала, в который попал респондент). | |||||||
У" = 7. П, = 8, Y =9 1И П, = 9, у" = ю | П, = 9, У" — ю. | У" — 9 П,= ю. Г, = П. П.= 12 | К,4=11, г" =11. Км=12 | Г"-9. г"-ю,. 1"*Ч. | ^ = 8, ^ = 9. г.-9, У* =ю. | Х" = 7, К" = 9, К"=10 | У,.'8 | |
Средние возрастных групп. я _. j. | 8,60 | 9,50 | 10,50 | 11,50 | 10,00 | 9,00 | 8,67 | 8,0 |
Число членов группы (лу). | пГ 5 | Л! = 4. | нг=4. | л" = 4 | я.<�" 3 | л" = 4 | я7 = 3 | л*=1. |
Общее среднее всех значений у -^?"9,б1. |
Y. — значение зависимого признака для /-го респондента ву-й возрастной группе; i = I,…, я, где п. — число членову-й группы;у = I,… /, где J — количество выделенных групп (в данном случае J = 8).
В нашем примере эта сумма будет равна:
- (7−8,60)2 + (8−8,60)2 + (9−8,60)2 + (9−8,60)2 + (10−8,60)2 + …
- (для первой группы)
- (8−9,50)2 + (9−9,50)2 + (10 — 9,50)2 + (11−9,50)2 + …
- (для второй группы)
+ (8−8,00)2= 24, 87 (для восьмой группы).
Обозначим через К. среднее арифметическое всех значений независимого признака. Очевидно, что имеет место соотношение:
j.
где п = 2) = я, + +… + tij — объем выборки.
н
Определение. Общая сумма квадратов —.
Определение. Корреляционное отношение — разность В 1 _ (ss^/ss^j.
Для рассмотренного примера, что нетрудно проверить, имеют место соотношения
Поясним смысл корреляционного отношения. Суть любого коэффициента легче понять, если рассмотреть, при каких условиях он принимает максимальное (в данном случае — 1) и минимальное (0) значение. Ясно, что т2 . = 1, когда SS т = 0, т. е. когда в каждой вы;
у/х внутри деленной по признаку Xгруппе (в нашем случае — в каждой возрастной группе) значения признака Кодинаковы. В нашем примере это означает, что все точки лежат на выделенной ломаной линии, что действительно говорит о наличии криволинейной связи.
Что касается равенства у2 = 0, оно имеет место в том случае, когда S'5внутри = 55о6ш, т. е. когда фиксация признака X нисколько не уменьшает разброс признака У. Это говорит об отсутствии связи: получение информации об^не увеливает информацию об У. Здесь напрашивается аналогия с принципом построения коэффициентов связи, основанных на прогнозных моделях81.
Коэффициент г2у/х — мера степени предсказания УпоХс помощью «наилучшим образом подобранной» линии, либо прямой, либо кривой.
Заметим, что г2у/х * г2ф (о подобной перестановке признаков можно говорить только в случае, если оба признака измерены по интервальной шкале; хотя для измерения одного из означенных коэффициентов, скажем, Ц2у/Х, достаточно того, чтобы У был интервальным, Л' может быть и номинальным).
Поясним на примере: если человеку 10 лет, можно довольно уверенно предсказать, что результатом тестирования для него будет балл, равный 8,60. Однако если некий человек получил балл 8,60, то его возраст может быть с одинаковой вероятностью как малым (10 лет), так и большим (38 лет). Значит, можно довольно точно предсказать У по /V, но нельзя хорошо прогнозировать X по К Это неизбежно отражается на величинах х]2у/х и у]2^: г]2у/х =0,545, а ц2к/у близка к нулю. Нс будем ее вычислять, так как вычисление потребовало бы перегруппировки данных. Ячейки должны были бы быть организованы по результатам тестирования (скажем, можно было бы сформировать три ячейки — в первую включить респондентов, получивших баллы 7—8, во вторую — баллы 9—10, в третью — баллы 11 — 12). А в каче;
к| Толстова Ю.Н. Анализ социологических данных.
стве значений У выступал бы возраст респондентов, вошедших в ту или иную ячейку.
Приведем еще один пример.
Пример. Дана частотная таблица.
Возраст (X) | Зарплата (У) | ||
900−1100. | 500−700. | 700−900. | 900−1100. |
18−22. | |||
22−26. | |||
26−30. |
Рассчитать корреляционное отношение г2у/х.
Решение. Вспомним, что, разбив диапазон изменения признака на интервалы и составив частотную таблицу, мы потеряли исходную информацию и вынуждены считать, что респонденты, попавшие в один интервал, имеют одну и ту же зарплату, отвечающую середине этого интервала.
Расположим данные в более привычном (часто использующемся при нахождении корреляционного отношения) виде. Правда, не будем выписывать конкретные зарплаты (У) для людей, попавших в ту или иную возрастную группу (возраст — А), а укажем, сколько человек обладают тем или иным значением.
Интервал зарплата (К). | Середина интервала. | I группа (18−22). | II группа. (22−26). | III группа. (26−30). |
500−700. | ||||
700−900. | ||||
900−1100. |
Общее среднее по Y :У" — 600 (10 + 10 + 5) + 800 (5 + 10 + 20) + + 1000 (5+ 20+ 20)/100 = 880;
55об1ц = (600 — 880)2 (10 +10 + 5) + (800 — 880)2 (5+10+20) + (1000 — - 880)2 (5+ 20 + 20) = 2 832 000;
К, = (600×10 + 800×5 + 1000×5) / 20 = 750;
К 2 = (600×10 + 800×10 + 1000×20) / 40 = 850;
У з = (600×5 + 800×20 + 1000×20) /45 = 866,7;
^внутри = (600 — К, У х 10 + (800 — К,)2X 5 + (1000 — К,)2 х 5 + (600 — - К2)2 х 10 + (800 — У,2)2 х 10 + (1000 — У2)2 х 20 +(600 — Г 3)2 х 5 + + (800 — К 3)2х 20 + (1000 — К 3)2х 20 = 1502х 10 + 502х 5 + 2502 х 5 + + 2502 х 10+ 502 х 10 + 1502 х 20 + 2672 х 5 +672 х 20 + 1332 х 20 = =2 449 945;