Основы регрессионного анализа.
Парная линейная регрессия
Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика… Читать ещё >
Основы регрессионного анализа. Парная линейная регрессия (реферат, курсовая, диплом, контрольная)
Министерство образования и науки Российской Федерации Лабораторная работа по эконометрике на тему «Основы регрессионного анализа. Парная линейная регрессия»
Новосибирск 2010
Ситуация № 1. «Робинзон на охоте». Каждый раз, идя на охоту на уток, Робинзон берет с собой связку бумерангов и флягу с пивом собственного приготовления, поскольку в жарких условиях субтропиков ему необходимо утолять жажду. При этом он отмечает, какая была средняя температура в день охоты (в градусах Цельсия, Х3), какое количество уток он убил (в штуках, Х2) и сколько при этом выпил пива (в процентах от объема фляги, Х1).
Задание. Основы регрессионного анализа. Парная линейная регрессия.
Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии.
По результатам корреляционного анализа выбираем показатель Х1-колличество выпитого пива и показатель Х3-температура в день охоты, потому что они связаны между собой наиболее тесно, так как. Обозначим X3 как Х, а X1 как Y.
X | |||||||||||||
Y | |||||||||||||
Задание 1: Вычислить оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Дать содержательную интерпретацию результатов и выбрать для дальнейшего анализа одно из уравнений.
Для построения уравнения регрессии необходимо определить, какая из переменных является входной, а какая выходной. В данном случае очевидно, что количество выпитого пива зависит от средней температуры в день охоты, то есть экзогенной переменной является количество выпитого пива. Таким образом, получаем следующее уравнение парной регрессии:
Где xi — средняя температура в день охоты,
yi — количество выпитого пива,
i — случайная компонента,
0, 1 — неизвестные параметры.
С помощью МНК получаем следующую систему нормальных уравнений:
Найдем МНК-оценку параметра 1 по формуле:
:
1=7,452
Рассчитаем МНК-оценку параметра 0, используя формулу:
:
0= - 198,88
Дадим интерпретацию полученным результатам: 1=7,452
Положительное значение оценки параметра 1 свидетельствует о том, что связь между переменными прямая. Кроме того, если средняя температура увеличивается на 1 °C, количество выпитого Робинзоном пива возрастает в среднем на 1=7,452% от объема фляги.
0= - 198,88
Так как значение оценки параметра 0 отрицательно, то это позволяет сделать вывод о том, что изменение средней температуры в день охоты происходит быстрее изменения количества выпитого пива.
Задание 2: Проверить значимость всех параметров модели по критерию Стьюдента. Для значимых коэффициентов построить доверительные интервалы. Сформулировать выводы.
Проверим значимость всех параметров модели по критерию Стьюдента.
1) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
; tкр (0,05; 23) =2,069
Оценка дисперсии оценки вычисляется по формуле
;
S2 = = 146,078
= 25,239
= - 7,88
|t|кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 0 в данном уравнении регрессии является значимым.
2) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
tкр (0,05; 23) =2,069
;
S2 = = 146,078
= 0,779
= 9,947
|t|кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 1 в данном уравнении регрессии также является значимым.
Построим для данных параметров 95% -ные доверительные интервалы.
Для параметра 0 доверительный интервал будет выглядеть следующим образом:
[-198,88−2,069*25,239; - 198,88+2,069*25,239]
[-251,099; - 146,661]
Для параметра 1 доверительный интервал будет выглядеть следующим образом:
[7,452−2,069*0,779; 7,452+2,069*0,779]
[5,84; 9,06]
Таким образом, параметры составленного уравнения парной регрессии являются значимыми. То есть взаимосвязь между количеством выпитого пива и средней температурой в день охоты можно описать уравнением линейной регрессии, а незначительные отклонения возможных значений параметров от их МНК-оценок позволяют принять данные оценки в качестве хороших приближений к реальным параметрам.
Задание 3: Проверить значимость модели (уравнение регрессии) в целом с помощью критерия Фишера. Сформулировать выводы.
Для начала найдём коэффициент детерминации:
Где TSS = - полная сумма квадратов,
— общая сумма квадратов;
RSS = - сумма квадратов, обусловленная регрессией,
— объясненная сумма квадратов (сумма квадратов регрессии).
ESS = - остаточная сумма квадратов.
— остаточная сумма квадратов (сумма квадратов остатков)
= 15 504,60+3457,033=18 862,64
Так как RSS>>ESS, то остатки регрессии невелики.
Можно сделать предварительный вывод о том, что разброс значений относительно линии регрессии также невелик, и уравнение достаточно точно описывает наблюдаемые данные.
Коэффициент детерминации показывает, насколько модель объясняет исходные данные, следовательно, исходя из полученного коэффициента, можно отметить, что наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82%.
В данном случае нельзя точно утверждать, что такое значение коэффициента детерминации означает достаточную пригодность уравнения регрессии, поэтому проверим его на значимость по критерию Фишера на 5% -ном уровне значимости.
Проверим значимость модели в целом по F — критерию:
Чтобы проверить значимость модели, необходимо проверить гипотезу:
Найдем F-статистику по формуле:
Из таблицы находим значение:
Если, то гипотеза отвергается с вероятностью 0,95.
В нашем случае 102,495 > 4,28, значит, гипотеза отвергается с вероятностью 95%.
Из проведенного анализа можно сделать вывод, что наша модель значима, и связь между количеством выпитого пива и температурой воздуха можно описать уравнением:
Y= - 193,558+7,495x
Задание. Построить таблицу дисперсионного анализа.
Источник дисперсии | Число степеней свободы | Сумма квадратов | F-факт. | F-табл. | Значимость | Средняя сумма квадратов | |
Объясненная дисперсия | 15 405,60 | 102,495 | 4,279 344 | Да | 15 405,60 | ||
Остаточная дисперсия | 3457,033 | ; | ; | ; | 150,305 | ||
Общая дисперсия | 18 862,64 | ; | ; | ; | 785,94 | ||
Задание 5: Выбрать прогнозную точку Xп в стороне от основного массива исходных данных. Используя уравнение регрессии, выполнить точечный и интервальный прогнозы величины Y в точке Xп. Проанализировать полученные результаты.
Выберем в качестве прогнозной точки значение xп=42°С. Тогда прогнозируемое значение количества выпитого Робинзоном пива будет равно:
yп = - 193,558+7,495 *42= 121,23.
Это значит, что при температуре 420С Робинзон должен выпить 121,23% от объема фляги. Выполним интервальный прогноз.
Для оценки точности прогноза необходимо вычислить стандартную ошибку прогноза по формуле:
= 7,462; tкр (0,05; 23) =2,069
Границы доверительного интервала найдем по формуле:
Получим [121,23−2,069*7,462; 121,23+2,069*7,462].
доверительный интервал для Y: [105,79; 136,67]
То есть при температуре 420С количество выпитого пива с вероятностью 95% колеблется в пределах от 105,79% до 136,67%.
Точечное прогнозирование показывает, что если температура будет равна 42 градусам, то Робинзону может быть недостаточно одной целой фляги пива для утоления жажды, т.к. объём выпитого пива выходит за рамки 100%.
Задание: Построить 95% -ный доверительный интервал для уравнения регрессии на всем диапазоне исходных данных.
i | xi | |||||
— 6,182 905 484 | 6,56 203 037 | — 18,71 318 957 | 6,3 473 786 | |||
16,30 221 704 | 4,12 461 405 | 7,768 390 566 | 24,83 604 351 | |||
16,30 221 704 | 4,12 461 405 | 7,768 390 566 | 24,83 604 351 | |||
23,79 725 788 | 3,55 664 372 | 16,43 856 202 | 31,15 595 373 | |||
23,79 725 788 | 3,55 664 372 | 16,43 856 202 | 31,15 595 373 | |||
31,29 229 872 | 3,63 192 858 | 24,95 455 269 | 37,63 004 474 | |||
31,29 229 872 | 3,63 192 858 | 24,95 455 269 | 37,63 004 474 | |||
38,78 733 956 | 2,685 656 131 | 33,23 071 702 | 44,34 396 209 | |||
38,78 733 956 | 2,685 656 131 | 33,23 071 702 | 44,34 396 209 | |||
38,78 733 956 | 2,685 656 131 | 33,23 071 702 | 44,34 396 209 | |||
46,2 823 804 | 2,477 601 595 | 41,1 562 227 | 51,4 085 381 | |||
46,2 823 804 | 2,477 601 595 | 41,1 562 227 | 51,4 085 381 | |||
46,2 823 804 | 2,477 601 595 | 41,1 562 227 | 51,4 085 381 | |||
53,77 742 124 | 2,48 202 194 | 48,64 211 784 | 58,91 272 463 | |||
53,77 742 124 | 2,48 202 194 | 48,64 211 784 | 58,91 272 463 | |||
61,27 246 208 | 2,697 872 977 | 55,69 056 289 | 66,85 436 127 | |||
61,27 246 208 | 2,697 872 977 | 55,69 056 289 | 66,85 436 127 | |||
61,27 246 208 | 2,697 872 977 | 55,69 056 289 | 66,85 436 127 | |||
68,76 750 292 | 3,81 033 386 | 62,39 284 484 | 75,14 216 099 | |||
68,76 750 292 | 3,81 033 386 | 62,39 284 484 | 75,14 216 099 | |||
76,26 254 376 | 3,578 152 777 | 68,85 934 566 | 83,66 574 185 | |||
83,7 575 846 | 4,148 463 607 | 75,17 441 339 | 92,3 407 558 | |||
83,7 575 846 | 4,148 463 607 | 75,17 441 339 | 92,3 407 558 | |||
91,25 262 544 | 4,765 761 822 | 81,39 226 423 | 101,1 129 866 | |||
91,25 262 544 | 4,765 761 822 | 81,39 226 423 | 101,1 129 866 | |||
Задание: Изобразить в одной системе координат исходные данные, линию регрессии, 95% -ный доверительный интервал.
Задание: Сделать общие выводы, касающиеся проделанной работы и эконометрической интерпретации полученных результатов.
По результатам корреляционного анализа мы выбрали наиболее тесно связанные показатели Y (количество выпитого пива) и Х (температура).
Полагая, что связь между ними может быть описана линейной функцией, составили уравнение парной регрессии, используя для оценивания неизвестных параметров МНК, получили, что Y = - 193,558+7,495x.
С изменением регрессора (температуры) на 1 единицу, отклик (кол-во выпитого пива) в среднем изменяется на 7,495% от объема фляги).
Проведя анализ значимости параметров и самой модели, можно сделать вывод, что оба параметра (и0 и и1) значимы, и модель в целом также значима, то есть, верна. Следовательно, эту модель мы можем использовать для дальнейшего прогнозирования.
Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика, можно заметить, что, чем ближе значение температуры к среднему, тем выше степень точности наших прогнозов.
Следовательно, чтобы расходовать меньше пива и брать его с собой меньше, Робинзону лучше выходить на охоту, когда температура относительно невысока.