Коэффициент корреляции.
Теория вероятностей и математическая статистика

РефератПомощь в написанииУзнать стоимостьмоей работы

Для практических расчетов наиболее удобна формула (12.35), так как по ней г находится непосредственно из данных наблюдений и на величине г не скажутся округления данных, связанные с расчетом средних и отклонений от них. Если данные не сгруппированы в виде корреляционной таблицы и представляют п пар чисел (xt, г/,), то для вычисления коэффициентов регрессии и корреляции в соответствующих формулах… Читать ещё >

Коэффициент корреляции. Теория вероятностей и математическая статистика (реферат, курсовая, диплом, контрольная)

Перейдем к о ц е н к е тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (12.16).

На первый взгляд подходящим измерителем тесноты связи Yот X является коэффициент регрессии Ь_ух, ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяется У, когда X увеличивается на одну единицу. Однако Ь_ух зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов X выразить не в млн руб., а в тыс. руб.

Очевидно, что для «исправления» Ь_ух как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.

Представим уравнение (12.16) в эквивалентном виде:

Коэффициент корреляции. Теория вероятностей и математическая статистика.

В этой системе величина.

показывает, на сколько величии s_/y изменится в среднем Y, когда X увеличится на одно s_x

Величина г является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

На рис. 12.3 приведены две корреляционные зависимости переменной Y по X. Очевидно, что в случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).

Рис. 12.3.

Нетрудно видеть, что /'совпадает по знаку с Ь_ух (а значит, и с Ь_ху). Если г > 0 (Ь_ух> 0, Ь_ху> 0), то корреляционная связь между переменными называется прямой, если г< 0 (Ь_ух< 0, Ъ_ху< 0) — обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.

Учитывая равенство (12.17), формулу для /'представим в виде.

Отсюда видно, что формула для г симметрична относительно двух переменных, т. е. переменные X и Y можно менять местами. Тогда аналогично формуле (12.29) можно записать:

Найдя произведение обеих частей равенств (12.29) и (12.31), получим.

или.

т.е. коэффициент корреляции г переменных X и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак.

О Пример 12.3. Вычислить коэффициент корреляции между величиной основных производственных фондов X и суточной выработкой продукции У (по данным табл. 12.1).

Решение. Выше (см. примеры 12.1, 12.2) получили Ь_ух = 0,6762 и Ь_ху =.

= 0,8099. По формуле (12.33) г = +^0,6762−0,8099 = 0,740 (берем радикал со знаком «+», так как коэффициенты Ь_ух и Ь_ху положительны). Итак, связь между рассматриваемыми переменными прямая и достаточно тесная (ибо г близок к I)¹. ?

t> Пример 12.4. При исследовании корреляционной зависимости между объемом валовой продукции У (млн руб.) и среднесуточной численностью работающих X (тыс. чел.) для ряда предприятий отрасли получено следующее уравнение регрессии X по У: х_у = 0,2у — 2,5. Коэффициент корреляции между этими признаками оказался равным 0,8, а средний объем валовой продукции предприятий составил 40 млн руб. Найти: а) среднее значение среднесуточной численности работающих на предприятиях; б) уравнение регрессии У по X; в) средний объем валовой продукции на предприятиях со среднесуточной численностью работающих 4 тыс. чел.

Решение, а) Обе линии регрессии У по X и X по У пересекаются в точке (х, у), поэтому х найдем по заданному уравнению регрессии при у = у = 40, т. е. х = 0,2 • 40 — 2,5 = 5,5 (тыс. чел.).

б) Учитывая соотношение (12.32), вычислим коэффициент регрессии Ь'

г2 о, 8²

b —— = —¹— = 3,2. Теперь по формуле (12.16) получим уравнение регрес;

Ь_ху 0,2.

сии У по X: у_х - 40 = 3,2(х — 5,5) или у_х = 3,2 г + 22,4.

в) у_х= ₄ найдем по полученному уравнению регрессии У по X: Ух=4 - 3,2 • 4 + 22,4 = 35,2 (млн руб.). ?

Отметим другие модификации формулы г, полученные из равенства (12.30) с помощью формул (12.12)—(12.14), (12.8)! (12.22):

¹ См. ниже свойство 1 коэффициента корреляции.

Если данные не сгруппированы в виде корреляционной таблицы и представляют п пар чисел (x_t, г/,), то для вычисления коэффициентов регрессии и корреляции в соответствующих формулах следует взять n_i} — щ=rij = 1 , j = i, I т п

aSS заменить на Xi=i;=1 1=1.

1> Пример 12.5. Найти коэффициент корреляции между производительностью труда У (тыс. руб.) и энерговооруженностью труда X (кВт) (в расчете на одного работающего) для 14 предприятий региона по следующим данным (табл. 12.3).

Таблица 12.3.

Решение. Вычислим необходимые суммы:

X,	2,8.	2,2.	3,0.	3,5.	3,2.	3,7.	4,0.	4,8.	6,0.	5,4.	5,2.	5,4.	6,0.	9,0.
Mi	6,7.	6,9.	7,2.	7,3.	8,4.	8,8.	9,1.	9,8.	10,6.	10,7.	11,1.	11,8.	12,1.	12,4.

/ т п

По формуле (12.35), полагая п^= n_i = rij = l, j = i и заменяя XX на получим.

что говорит о тесной связи между переменными¹. ?

См. ниже свойство 1 коэффициента корреляции.

i'=l j= i=

Отметим основные свойства коэффициента корреляции (при достаточно большом объеме выборки п), аналогичные свойствам коэффициента корреляции двух случайных величин (параграф 5.6).

1. Коэффициент корреляции принимает значения на отрезке [-1; 1], т. е.

В зависимости от того, насколько I г I приближается к 1, различают связь слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную, т. е. чем ближе | г | к 1, тем теснее связь.

2. Если все значения переменных увеличить (.уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.

Рис. 12.4.

3. При г = ± 1 корреляционная связь представляет линейную функциональную зависимость. При этом линии регрессии Y по X и X по У совпадают и все наблюдаемые значения располагаются на общей прямой.
? Найдем tg (p между двумя прямыми регрессии (рис. 12.4) с угловыми коэффициентами k_] = b_yx и k₂ =
1

= -—, используя соответствующую.

^Ьху

формулу аналитической геометрии:

откуда с учетом соотношений (12.29) и (12.31) Коэффициент корреляции. Теория вероятностей и математическая статистика.

Из полученной формулы видно, что чем теснее связь и чем ближе | г | к 1, тем меньше угол ср между прямыми регрессии (уже образуемые ими «ножницы»), а при г = ±1 tg (p = (p = 0 и линии регрессии сливаются (рис. 12.5, а и б).

Рис. 12.5.

4. При г = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии У по X и X по У параллельны осям координат.
? Если г = 0, то коэффициент Ь_ух = Ь_ху = 0 и линии регрессии (12.16) и (12.20) имеют вид:у_х= у их,_у = % (рис. 12.6). I

Рис. 12.6.

Равенство г=0 говорит лишь об отсутствии линейной корреляционной зависимости {некоррелированности переменных), но не вообще об отсутствии корреляционной, а тем более статистической зависимости.

Так, например, для зависимостей, представленных на рис. 12.7, а и б, г=0 и линии регрессии У по X параллельны оси абсцисс. Однако по расположению точек корреляционного поля отчетливо просматривается взаимосвязь между переменными, отличная от линейной корреляционной. Так, в случае а — это нелинейная корреляционная (почти функциональная) зависимость; в случае б — статистическая зависимость, проявляющаяся в данном случае в том, что с изменением х групповые средние у_х не меняются, а меняется лишь рассеяние точек поля относительно линии регрессии.

Рис. 12.7.

Выборочный коэффициент корреляции г является оценкой генерального коэффициента корреляции р (о котором речь пойдет дальше), тем более точной, чем больше объем выборки п. И указанные выше свойства, строго говоря, справедливы для р. Однако при достаточно большом п их можно распространить и на г.

Показать весь текст

Заполнить форму текущей работой