Коэффициент корреляции.
Теория вероятностей и математическая статистика
Для практических расчетов наиболее удобна формула (12.35), так как по ней г находится непосредственно из данных наблюдений и на величине г не скажутся округления данных, связанные с расчетом средних и отклонений от них. Если данные не сгруппированы в виде корреляционной таблицы и представляют п пар чисел (xt, г/,), то для вычисления коэффициентов регрессии и корреляции в соответствующих формулах… Читать ещё >
Коэффициент корреляции. Теория вероятностей и математическая статистика (реферат, курсовая, диплом, контрольная)
Перейдем к о ц е н к е тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (12.16).
На первый взгляд подходящим измерителем тесноты связи Yот X является коэффициент регрессии Ьух, ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяется У, когда X увеличивается на одну единицу. Однако Ьух зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов X выразить не в млн руб., а в тыс. руб.
Очевидно, что для «исправления» Ьух как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.
Представим уравнение (12.16) в эквивалентном виде:
В этой системе величина.
показывает, на сколько величии s/y изменится в среднем Y, когда X увеличится на одно sx
Величина г является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
На рис. 12.3 приведены две корреляционные зависимости переменной Y по X. Очевидно, что в случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).
Рис. 12.3.
Нетрудно видеть, что /'совпадает по знаку с Ьух (а значит, и с Ьху). Если г > 0 (Ьух> 0, Ьху> 0), то корреляционная связь между переменными называется прямой, если г< 0 (Ьух< 0, Ъху< 0) — обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.
Учитывая равенство (12.17), формулу для /'представим в виде.
Отсюда видно, что формула для г симметрична относительно двух переменных, т. е. переменные X и Y можно менять местами. Тогда аналогично формуле (12.29) можно записать:
Найдя произведение обеих частей равенств (12.29) и (12.31), получим.
или.
т.е. коэффициент корреляции г переменных X и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак.
О Пример 12.3. Вычислить коэффициент корреляции между величиной основных производственных фондов X и суточной выработкой продукции У (по данным табл. 12.1).
Решение. Выше (см. примеры 12.1, 12.2) получили Ьух = 0,6762 и Ьху =.
= 0,8099. По формуле (12.33) г = +^0,6762−0,8099 = 0,740 (берем радикал со знаком «+», так как коэффициенты Ьух и Ьху положительны). Итак, связь между рассматриваемыми переменными прямая и достаточно тесная (ибо г близок к I)1. ?
t> Пример 12.4. При исследовании корреляционной зависимости между объемом валовой продукции У (млн руб.) и среднесуточной численностью работающих X (тыс. чел.) для ряда предприятий отрасли получено следующее уравнение регрессии X по У: ху = 0,2у — 2,5. Коэффициент корреляции между этими признаками оказался равным 0,8, а средний объем валовой продукции предприятий составил 40 млн руб. Найти: а) среднее значение среднесуточной численности работающих на предприятиях; б) уравнение регрессии У по X; в) средний объем валовой продукции на предприятиях со среднесуточной численностью работающих 4 тыс. чел.
Решение, а) Обе линии регрессии У по X и X по У пересекаются в точке (х, у), поэтому х найдем по заданному уравнению регрессии при у = у = 40, т. е. х = 0,2 • 40 — 2,5 = 5,5 (тыс. чел.).
б) Учитывая соотношение (12.32), вычислим коэффициент регрессии Ь'
г2 о, 82
b —— = —1— = 3,2. Теперь по формуле (12.16) получим уравнение регрес;
Ьху 0,2.
сии У по X: ух - 40 = 3,2(х — 5,5) или ух = 3,2 г + 22,4.
в) ух= 4 найдем по полученному уравнению регрессии У по X: Ух=4 - 3,2 • 4 + 22,4 = 35,2 (млн руб.). ?
Отметим другие модификации формулы г, полученные из равенства (12.30) с помощью формул (12.12)—(12.14), (12.8)! (12.22):
1 См. ниже свойство 1 коэффициента корреляции.
Для практических расчетов наиболее удобна формула (12.35), так как по ней г находится непосредственно из данных наблюдений и на величине г не скажутся округления данных, связанные с расчетом средних и отклонений от них.
Если данные не сгруппированы в виде корреляционной таблицы и представляют п пар чисел (xt, г/,), то для вычисления коэффициентов регрессии и корреляции в соответствующих формулах следует взять ni} — щ=rij = 1 , j = i, I т п
aSS заменить на Xi=i;=1 1=1.
1> Пример 12.5. Найти коэффициент корреляции между производительностью труда У (тыс. руб.) и энерговооруженностью труда X (кВт) (в расчете на одного работающего) для 14 предприятий региона по следующим данным (табл. 12.3).
Таблица 12.3.
Решение. Вычислим необходимые суммы:
X, | 2,8. | 2,2. | 3,0. | 3,5. | 3,2. | 3,7. | 4,0. | 4,8. | 6,0. | 5,4. | 5,2. | 5,4. | 6,0. | 9,0. |
Mi | 6,7. | 6,9. | 7,2. | 7,3. | 8,4. | 8,8. | 9,1. | 9,8. | 10,6. | 10,7. | 11,1. | 11,8. | 12,1. | 12,4. |
/ т п
По формуле (12.35), полагая п^= ni = rij = l, j = i и заменяя XX на получим.
что говорит о тесной связи между переменными1. ?
См. ниже свойство 1 коэффициента корреляции.
i'=l j= i=
Отметим основные свойства коэффициента корреляции (при достаточно большом объеме выборки п), аналогичные свойствам коэффициента корреляции двух случайных величин (параграф 5.6).
1. Коэффициент корреляции принимает значения на отрезке [-1; 1], т. е.
В зависимости от того, насколько I г I приближается к 1, различают связь слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную, т. е. чем ближе | г | к 1, тем теснее связь.
2. Если все значения переменных увеличить (.уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.
Рис. 12.4.
- 3. При г = ± 1 корреляционная связь представляет линейную функциональную зависимость. При этом линии регрессии Y по X и X по У совпадают и все наблюдаемые значения располагаются на общей прямой.
- ? Найдем tg (p между двумя прямыми регрессии (рис. 12.4) с угловыми коэффициентами k] = byx и k2 =
- 1
= -—, используя соответствующую.
Ьху
формулу аналитической геометрии:
откуда с учетом соотношений (12.29) и (12.31)
Из полученной формулы видно, что чем теснее связь и чем ближе | г | к 1, тем меньше угол ср между прямыми регрессии (уже образуемые ими «ножницы»), а при г = ±1 tg (p = (p = 0 и линии регрессии сливаются (рис. 12.5, а и б).
Рис. 12.5.
- 4. При г = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии У по X и X по У параллельны осям координат.
- ? Если г = 0, то коэффициент Ьух = Ьху = 0 и линии регрессии (12.16) и (12.20) имеют вид:ух= у их,у = % (рис. 12.6). I
Рис. 12.6.
Равенство г=0 говорит лишь об отсутствии линейной корреляционной зависимости {некоррелированности переменных), но не вообще об отсутствии корреляционной, а тем более статистической зависимости.
Так, например, для зависимостей, представленных на рис. 12.7, а и б, г=0 и линии регрессии У по X параллельны оси абсцисс. Однако по расположению точек корреляционного поля отчетливо просматривается взаимосвязь между переменными, отличная от линейной корреляционной. Так, в случае а — это нелинейная корреляционная (почти функциональная) зависимость; в случае б — статистическая зависимость, проявляющаяся в данном случае в том, что с изменением х групповые средние ух не меняются, а меняется лишь рассеяние точек поля относительно линии регрессии.
Рис. 12.7.
Выборочный коэффициент корреляции г является оценкой генерального коэффициента корреляции р (о котором речь пойдет дальше), тем более точной, чем больше объем выборки п. И указанные выше свойства, строго говоря, справедливы для р. Однако при достаточно большом п их можно распространить и на г.