Линейная парная регрессия
Параметры уравнений регрессии (12.8) могут быть вычислены упрощенным способом (аналогично тому, как вычислялись числовые характеристики вариационного ряда в параграфе 8.4). С этой целью от значений. Решение. Возьмем постоянную к равной величине интервала по переменной X, т. е. к = 5, а постоянную с — равной середине серединного, третьего, интервала, т. е. с = 32,5. Аналогично по переменной F к… Читать ещё >
Линейная парная регрессия (реферат, курсовая, диплом, контрольная)
Данные о статистической зависимости удобно задавать в виде корреляционной таблицы.
Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов X (млн руб.) для совокупности 50 однотипных предприятий (табл. 12.1).
Таблица 12.1.
Величина ОПФ,. | Середины интервалов. | Суточная выработка продукции,. т (У) | Всего. Щ | Групповая средняя. | ||||
млн руб. (X) | 7−11. | 11−15. | 15−19. | 19−23. | 23−27. | У,. т | ||
У} | ||||||||
20−25. | 22,5. | —. | —. | —. | 10,3. | |||
25−30. | 27,5. | —. | —. | 13,3. | ||||
30−35. | 32,5. | —. | —. | 17,8. | ||||
35−40. | 37,5. | —. | 20,3. | |||||
40−45. | 42,5. | —. | —. | —. | 23,0. | |||
Всего nt | —. | |||||||
Групповая средняя х., млн руб. | 25,5. | 29,3. | 31,9. | 35,4. | 39,2. | —. | —. |
(В таблице через xi и г/; обозначены середины соответствующих интервалов, а через пх и п} — соответственно их частоты.).
Изобразим полученную зависимость графически точками координатной плоскости (рис. 12.2). Такое изображение статистической зависимости называется полем корреляции.
Для каждого значения xt(i = 1, 2, …, /), т. е. для каждой строки корреляционной таблицы, вычислим групповые средние.
Рис. 12.2.
т
где rijj — частоты пар {х, у}) и n-t = Yj nij> т ~ число интервалов по переменной Y. 1=1
Вычисленные групповые средние у{ поместим в последнем столбце корреляционной таблицы и изобразим графически в виде ломаной, называемой эмпирической линией регрессии V по X (см. рис. 12.2).
Аналогично для каждого значения у} (j = 1,2,…, т) по формуле.
вычислим групповые средние Xj (см. нижнюю строку корреляционной /.
таблицы)[1], где =? п{/, / — число интервалов, но переменной X.
i=1.
По виду ломаной можно предположить наличие линейной корреляционной зависимости Y но X между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки (число рассматриваемых предприятий) п:
Поэтому уравнение регрессии (12.3) будем искать в виде.
Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.
С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры Ь() и Ь] выбираются таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних yt, вычисленных по формуле (12.5), от значений ух., найденных по уравнению регрессии (12.8), была минимальной:
На основании необходимого условия экстремума функции двух переменных S = S (b0, b{) приравниваем к нулю ее частные производные, т. е.
откуда после преобразовании получим систему нормальных уравнении для определения параметров линейной регрессии:
Учитывая (12.5), преобразуем выражения:
Теперь с учетом (12.7), разделив обе части уравнений (12.10) на п, получим систему нормальных уравнений в виде.
где соответствующие средние определяются по формулам.
Подставляя значение
из первого уравнения системы (12.11) в уравнение регрессии (12.8), получим ух=уЬ{х + ЬХ, или.
Коэффициент Ь{ в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии) Y по X, будем обозначать символом Ьух. Теперь уравнение регрессии Y по X запишется так:
Коэффициент регрессии Y по X показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу.
Решая систему (12.11), найдем.
где s2 — выборочная дисперсия переменной X (см. формулу (8.10)):
р — выборочный корреляционный момент или выборочная ковариация[2]:
Рассуждая аналогично и полагая уравнение регрессии (12.4) линейным, можно привести его к виду
c6v (X, У), 4,.
где.
— выборочный коэффициент регрессии (или просто коэффициент регрессии) X по У, показывающий, па сколько единиц в среднем изменяется переменная X при увеличении переменной Y на одну единицу,
— выборочная дисперсия переменной У.
Так как числители в формулах (12.17) и (12.21) для Ьух и й совпадают, а знаменатели — положительные величины, то коэффициенты регрессии Ьух и Ьху имеют одинаковые знаки, определяемые знаком р. Из уравнений регрессии (12.16) и (12.20) следует, что коэффициенты Ьух и 1 /Ьху определяют угловые коэффициенты (тангенсы углов наклона) к оси Ох соответствующих линий регрессии, пересекающихся в точке (х, у) (см. рис. 12.4).
t> Пример 12.1. По данным табл. 12.1 найти уравнения регрессии У по X и X по У и пояснить их смысл.
Решение. Вычислим все необходимые суммы:
(обходим все заполненные клетки корреляционной таблицы).
Затем по формулам (12.12)—(12.22) находим выборочные характеристики и параметры уравнений регрессии:
Итак, уравнения регрессии
Из первого уравнения регрессии Y но X (его график показан на рис. 12.1) следует, что при увеличении основных производственных фондов (ОГ1Ф) X на 1 млн руб. суточная выработка продукции Y предприятия увеличивается в среднем на 0,6762 т. Второе уравнение регрессии X по Y показывает, что для увеличения суточной выработки продукции Y на 1 т необходимо в среднем увеличить ОПФ X на 0,8099 млн руб. (отметим, что свободные члены в уравнениях регрессии не имеют реального смысла). ?
Параметры уравнений регрессии (12.8) могут быть вычислены упрощенным способом[3] (аналогично тому, как вычислялись числовые характеристики вариационного ряда в параграфе 8.4). С этой целью от значений.
х- — с У i ~с'
переменных х. и и-. переходят к новым значениям и. =—— и гл =——, где 1 k[3] к
к и к' — величины интервалов, а с и с' — середины серединных интервалов соответственно по переменной X или Y. Тогда в соответствии с формулами (8.20) и (8.21).
В этом случае формула для ковариации р (12.19) примет вид.
[> Пример 12.2. По данным табл. 12.1 найти упрощенным способом уравнения регрессии Y по X и X по Y и пояснить их смысл.
Решение. Возьмем постоянную к равной величине интервала по переменной X, т. е. к = 5, а постоянную с — равной середине серединного, третьего, интервала, т. е. с = 32,5. Аналогично по переменной F к'- 4, с' -17.
Итак, щ = (Xj- 32,5)/5; Vj = (у} — 17)/4. Представим корреляционную табл.
12.1 в виде табл. 12.2.
Таблица 12.2.
",. (X). | ufrii | X UiVjflij j=1. | ||||||||
щ | — 2. | — 1. | ||||||||
22,5. | — 2. | 24 | Ь. | —. | —. | —. | — 6. | |||
27,5. | — 1. | ^2. | 6i. | 4о. | —. | —. | — 13. | |||
32,5. | —. | 30 | По. | 70 | —. | |||||
37,5. | —. | 1−1. | 20 | 61. | 22 | |||||
42,5. | —. | —. | —. | ь. | ||||||
пД). | — 4. | —. | ||||||||
т | — 10. | — 11. | — 1. | —. | —. | —. | ||||
vpj | И. | —. | —. | —. | ||||||
| —. | —. | —. |
Вычислим необходимые суммы:
Для упрощения вычислений расчеты указанных сумм целесообразно проводить непосредственно в таблице (см. соответственно два предпоследних столбца и две предпоследние строки со значениями необходимых сумм в итоговых строке и столбце).
5 5.
Для удобства вычисления суммы? ? uivjnij вначале рассчитываем upj
i=ij=
и проставляем эти значения под соответствующими частотами, а затем находим произведения (upj)n^ которые суммируем по строке и столбцу, и записываем полученные числа соответственно в последнем столбце и последней строке табл. 12.2. Например, на пересечении первой строки и первого столбца табл. 12.2 получим 24, т. е. частота пп = 2, u{vx = (-2)(-2) = 4, a (u{vx)nn = 4 • 2 = 8 и т. д. Итак, суммируя произведения ир}п^ в последнем столбце или в последней строке, получим в правом нижнем углу табл. 12.2.
tt ит= 37.
*=1.7=1.
Теперь по формулам (12.23)—(12.27) имеем:
Далее уравнения регрессии находятся и интерпретируются так же, как в примере 12.1. ?