Изучение гетероскедастичности.
Линейная регрессия

КонтрольнаяПомощь в написанииУзнать стоимостьмоей работы

Анализ стандартизованных коэффициентов показывает, что на y наибольшее влияние из двух исследуемых факторов с учетом их колеблемости способен оказать фактор x1, так как ему соответствует наибольшее (по абсолютной величине) значение коэффициента. Следовательно, при изменении на одно среднеквадратичное отклонение x1 изменение y составит 0,192 своего среднеквадратичного отклонения, далее по степени… Читать ещё >

Изучение гетероскедастичности. Линейная регрессия (реферат, курсовая, диплом, контрольная)

Задание 1

Требование данного задания — исследовать парную линейную регрессию. В таб. 1 приведены исходные данные, основные и промежуточные результаты.

Решение Проведем полный регрессионный анализ исходных данных по формулам, приведенным в методических указаниях.

1) Определим параметры линейной регрессии и ее статистические оценки (см. таб. 2).

2) Рассчитаем значимость параметров регрессии и регрессии в целом. Коэффициент корреляции показывает тесноту линейной связи. Так как в нашем случае =0,867, то связь прямая и тесная. Коэффициент корреляции значим, если, что имеет место быть в нашем примере.

Коэффициент детерминации показывает долю вариации результативного признака, объясненную вариацией факторного признака., то есть доля вариации результата, объясненная вариацией фактора x, включенного в уравнение регрессии, равна 75,1%. Остальные 24,9% приходятся на долю прочих факторов, не учтенных в уравнении регрессии.

Стандартная ошибка регрессии служит для оценки качества уравнения регрессии.. В нашем примере можно говорить об удовлетворительном подборе уравнения регрессии к исходным данным.

Значимость коэффициента регрессии

Значение статистик,. То есть выполняется неравенство. Параметр — не случайно отличается от нуля и статистически значим.

Оценка значимости уравнения регрессии. Значения величин F=36,249 и, полученных в результате дисперсионного анализа показывают, что выполняется неравенство. Таким образом, гипотеза о случайности различий факторной и остаточной дисперсий (нулевая гипотеза) должна быть отклонена и с вероятностью 95% принимается альтернативная гипотеза о том, что эти различия существенны, статистически значимы, уравнение надежно, значимо, показатель тесноты связи надежен и отражает устойчивую зависимость y от x.

3) Покажем взаимное расположение доверительных интервалов относительно исходных данных и построенной линии регрессии (см. рис.1).

Рис. 1. Доверительные интервалы.

Таб. 1. Исходные данные, промежуточные и основные результаты


									Нижн. гр.	Верх. гр.		Нижн. гр.	Верх. гр.
	2,00	9,05	4,000	18,092	81,828	10,544	2,245	2,513	5,068	16,020	5,557	— 1,564	22,653
	2,80	12,60	7,840	35,273	158,700	12,523	0,006	2,241	7,640	17,405	5,439	0,671	24,374
	3,60	19,26	12,960	69,320	370,777	14,501	22,607	1,985	10,175	18,827	5,339	2,868	26,134
	4,40	19,74	19,360	86,870	389,790	16,479	10,652	1,792	12,574	20,385	5,271	4,996	27,963
	5,20	12,44	27,040	64,710	154,857	18,458	36,162	1,650	14,863	22,052	5,224	7,076	29,840
	6,00	10,61	36,000	63,676	112,630	20,436	96,497	1,513	17,139	23,733	5,182	9,145	31,727
	6,80	25,33	46,240	172,259	641,723	22,414	8,514	1,503	19,139	25,690	5,179	11,129	33,700
	7,60	24,11	57,760	183,208	581,112	24,393	0,082	1,576	20,959	27,827	5,201	13,061	35,725
	8,40	31,78	70,560	266,957	1010,010	26,371	29,262	1,724	22,615	30,128	5,248	14,937	37,805
	9,20	31,44	84,640	289,228	988,338	28,350	9,537	1,935	24,133	32,566	5,321	16,756	39,943
	10,00	32,79	100,000	327,887	1075,101	30,328	6,055	2,198	25,538	35,118	5,422	18,514	42,142
	10,80	36,44	116,640	393,564	1327,957	32,306	17,097	2,506	26,846	37,767	5,554	20,205	44,408
	11,60	26,87	134,560	311,723	722,142	34,285	54,938	2,860	28,053	40,516	5,722	21,817	46,753
	12,40	35,19	153,760	436,382	1238,484	36,263	1,147	3,272	29,135	43,392	5,939	23,323	49,203
Сумма	100,800	327,651	871,360	2719,150	8853,449		294,802
Ср.знач.	7,200	23,404	62,240	194,225	632,389

Таб. 2. Параметры регрессии и ее статистические оценки



2,473	5,598	24,567	4,956	1185,234	890,432	145,600	0,411	6,020	2,179	36,245	0,751	0,867	6,020

— выборочная остаточная дисперсия;

— общая сумма квадратов отклонений зависимой переменной от средней;

— сумма квадратов, обусловленных дисперсией;

— F статистика для отношений приведенных к степеням свободы сумм квадратов;

— квантиль F — распределения с 1 и n-2 — степенями свободы числителя и знаменателя соответственно;

— оценка стандартного отклонения ошибки параметра b1;

— фактическое значение t-критерия Стьюдента для коэффициента регрессии b1;

— критерий Стьюдента для заданного уровня значимости и числа степеней свободы n-2;

— коэффициент корреляции;

— t статистика для оценки значимости коэффициента корреляции;

— коэффициент детерминации.

Задание 2

В данном задании необходимо произвести расчет параметров множественной регрессии и дать оценку значимости регрессии и ее параметров.

Исходные данные:


Y_i	X1i	X2i
3,65	8,00	5,00
11,43	11,00	8,00
1,04	12,00	8,00
12,54	9,00	5,00
11,06	8,00	7,00
1,98	8,00	8,00
4,70	9,00	6,00
8,43	9,00	4,00
0,32	8,00	5,00
7,93	12,00	7,00

Решение

1) Получим матрицу X (10×3), у которой первый столбец состоит из единиц, остальные столбцы — x1 и x2:


	8,00	5,00
	11,00	8,00
	12,00	8,00
	9,00	5,00
	8,00	7,00
	8,00	8,00
	9,00	6,00
	9,00	4,00
	8,00	5,00
	12,00	7,00

2) Умножим. Результат:

3) Найдем обратную матрицу из п.2:

4) Определим. Результат:

5) Найдем матрицу

6) Рассчитаем регрессию


6,218	6,302	6,834	6,749	5,211	4,707	6,246	7,253	6,218	7,337

7) Определим сумму квадратов остатков

8) Получим ковариационную матрицу

где =25,760.

Рассчитаем по ней стандартные ошибки параметров регрессии:

9) Рассчитаем t-статистику :

Вычислим квантиль, при и n=10 =>. Оценим значимость параметров регрессии. Для этого сопоставим значения t-критерия с. Видим, что. Это говорит о том, что параметры b0, b1, b2 — не значимы.

Таким образом, x1 и x2 не оказывают существенного влияния на y.

Их влияние обусловлено случайностью, их следует исключить из модели и заменить более значимыми.

10) Построим корреляционную матрицу парных коэффициентов:

Данные коэффициенты характеризуют тесноту связи между двумя из рассматриваемых переменных. В нашем случае, между y и x1, а также между y и x2 — связь практически отсутствует, между x1 и x2 — сила связи слабая.

11) Определим частные корреляции:

Видим, что при условии комплексного взаимодействия факторов, связь между y и x1 — слабая, прямая, между y и x2 — слабая, обратная, а между x2 и x1 — умеренная, прямая.

линейный регрессия интервал параметр

12) Рассчитаем частные уравнения регрессии:

Здесь значение 6,30 — это среднеарифметическое от значений X2, а 9,40 среднеарифметическое от X1.

В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне.

13) Определим коэффициент детерминации Для этого рассчитаем совокупный коэффициент множественной корреляции:

Тогда, то есть вариация y на 3,3% обуславливается x1 и x2, и данные факторы незначительно влияют на y.

Рассчитаем скорректированный коэффициент детерминации при p=2,. Значительное изменение значения по сравнению с подтверждает наш вывод о плохом качестве регрессионной модели, и объясняющие переменные не оказывают существенного влияния на зависимую переменную.

14) Рассчитаем коэффициенты эластичности по каждому параметру:

Таким образом, при изменении x1 на 1%, y меняется на 0,792% при условии, что x2 — остается в фиксированном положении. А при изменении x2 на 1%, при фиксированном положении x1, y уменьшается на 0,503%.

Стандартизованные коэффициенты:

15) Рассчитаем F статистику:

В нашем примере n=10, p=2, — вычислено в п. 7, а, тогда .

Сравнивая с квантилем, при => То есть модель, в целом, незначима.

Таким образом, модель признается полностью неадекватной и на ее основе нельзя принимать решения и осуществлять прогнозы. Этот результат можно объяснить сравнительно невысокой теснотой выявленной зависимости и небольшим числом наблюдений.

Задание 3

Цель этого задания — изучение гетероскедастичности. Все исходные данные, промежуточные вычисления и итоговые результаты приведены в таб. 3.

Решение

1) Тест Голдфельда-Квандта После разделения выборки на три равные части, по 10 элементов в каждой, вычислим статистики регрессии для I и III части.

Статистики регрессии для I части. Статистики регрессии для III части.


3,519 178	0,749 847	— 0,21 883	17,55 089
1,283 955	3,795 818	3,212 742	22,24 462
0,484 286	2,332 419	0,58	5,836 236
7,512 476		0,464
40,86 922	43,52 144	0,15 803	272,4932

Суммы квадратов остатков:

Определим статистику .

Найдем квантиль F — распределения

Так как, то гипотеза об отсутствии гетероскедастичности регрессионной модели отвергается.

2) Тест Уайта Определим параметры линейной регрессии по всей выборке:


	1,382 961		7,586 846
	0,447 971		2,328 011
	0,253 942		4,247 461
	9,530 611
	171,9411		505,146

Построим столбцы значений и в таб. 3. Вычислим параметры регрессии, где в качестве y и x используем и соответственно.


	0,623 451		0,878
	0,211 293		6,762 444
	0,237 188		19,87 595
	8,706 273
	3439,444		11 061,5

Оценим значимость полученной регрессии по F критерию, путем сравнения с квантилем Так как, то гипотеза об отсутствии гетероскедастичности регрессионной модели отвергается.

3) По полученным в предыдущем пункте параметрам и, построим в таб. 3 столбец с регрессией остатков. Также построим столбцы с нормированными переменными и .

Для нормированных переменных рассчитаем регрессию:


	— 0,72 073		5,892 778
	0,93 927		0,27 935
	0,677 714		0,682 465
	58,87 939
	27,42 356		13,4 123

Теперь сопоставим этот результат с параметрами регрессии, полученной по первоначальной выборке и сделаем соответствующие выводы:

1. Значение коэффициента детерминации увеличилось с 0,237 188 до 0,677 714, что говорит об улучшении качества регрессионной модели. Теперь доля вариации результата, зависимая от вариации включенного в уравнение регрессии фактора x, равна 67,8%.

2. Значительно уменьшились стандартные ошибки параметров регрессии и .

3. Уменьшилась сумма квадратов, обусловленных регрессией, а также остаточная сумма квадратов таким образом уменьшилась и общая сумма квадратов отклонений зависимой переменной от средней. Важно что выросло отношение к, что привело к росту F статистики и увеличило меру, в какой уравнение регрессии лучше оценивает значение зависимой переменной по сравнению с ее средней.

4. Уменьшение выборочного стандартного отклонения указывает на повышение точности регрессионной модели.

Таб. 3. Исходные данные, промежуточные вычисления и итоговые результаты для задания 3



	7,278 322	10,35 277	9,452 216		2,49 468	4,608 121	0,931 683
2,2	10,1884	10,62 936	0,194 443	4,84	3,18 379	5,864 342	0,908 475
2,4	9,312 707	10,90 595	2,538 429	5,76	3,591 953	4,913 723	1,82 694
2,6	11,2	11,18 254	0,305	6,76	4,215 404	5,455 046	1,113 202
2,8	9,3	11,45 914	4,66 187	7,84	4,88 873	4,206 152	1,365 261
	12,3	11,73 573	0,318 402		5,611 933	5,19 217	1,316 579
3,2	8,446 038	12,1 232	12,71 837	10,24	6,385 011	3,342 506	1,750 306
3,4	11,39 511	12,28 891	0,798 887	11,56	7,207 966	4,244 359	1,650 338
3,6	11,7	12,56 551	0,749 099	12,96	8,80 797	4,115 843	1,774 488
3,8	18,43 405	12,8421	31,26 996	14,44	9,3 504	6,143 488	1,53 312
	11,19 122	13,11 869	3,71 515		9,976 086	3,543 213	2,125 012
4,2	12,69 901	13,39 528	0,484 789	17,64	10,99 855	3,82 915	2,146 338
4,4	12,49 718	13,67 187	1,379 909	19,36	12,7 088	3,597 017	2,319 965
4,6	14,66 701	13,94 847	0,516 302	21,16	13,19 309	4,38 018	2,289 147
4,8	20,68 463	14,22 506	41,72 612	23,04	14,36 518	5,457 482	2,54 684
	17,41 918	14,50 165	8,511 963		15,58 714	4,41 209	2,380 388
5,2	22,66 723	14,77 824	62,23 611	27,04	16,85 898	5,520 556	2,213 156
5,4	13,0706	15,5 484	3,937 196	29,16	18,1807	3,65 422	3,84 243
5,6	20,53 913	15,33 143	27,12 014	31,36	19,55 229	4,644 973	2,598 343
5,8	15,5014	15,60 802	0,11 368	33,64	20,97 375	3,384 798	3,152 547
	13,1523	15,88 461	7,465 516		22,4451	2,776 138	3,601 063
6,2	11,69 698	16,1612	19,92 931	38,44	23,96 632	2,389 313	4,11 023
6,4	23,1047	16,4378	44,44 767	40,96	25,53 741	4,572 061	2,993 119
6,6	16,16 832	16,71 439	0,298 195	43,56	27,15 838	3,102 508	3,747 033
6,8	24,18 926	16,99 098	51,81 521	46,24	28,82 923	4,505 117	3,20 373
	8,906 834	17,26 757	69,90 195		30,54 995	1,611 455	5,514 282
7,2	13,82 409	17,54 417	13,83 894	51,84	32,32 055	2,431 628	4,617 255
7,4	17,36 871	17,82 076	0,204 343	54,76	34,14 103	2,972 551	4,292 072
7,6	21,98 044	18,9 735	15,7 839	57,76	36,1 138	3,662 828	3,97 105
7,8	10,1 778	18,37 394	69,8254	60,84	37,93 161	1,626 563	6,115 882

Задание 4

В данном задании требуется оценить на идентификацию следующую структурную модель:

Решение:

Модель имеет три эндогенные (и четыре экзогенные (переменные.

Проверим каждое уравнение системы на необходимое (Н) и достаточное (Д) условия идентификации.

Первое уравнение Н: эндогенных переменных — 3 (,

Отсутствующих экзогенных — 2 (.

Выполняется необходимое равенство: 3=2+1, следовательно, уравнение точно идентифицируемо.

Д: в первом уравнение отсутствуют. Построим матрицу из коэффициентов при них в других уравнениях системы.


Уравнение	Отсутствующие переменные

Второе
Третье

Следовательно, достаточное условие идентификации не выполняется и первое уравнение нельзя считать идентифицируемым.

Второе уравнение Н: эндогенных переменных — 2 (, Отсутствующих экзогенных — 1 (.

Выполняется неравенство: 1+1=2, следовательно, уравнение идентифицируемо.

Д: во втором уравнении отсутствуют. Построим матрицу из коэффициентов при них в других уравнениях системы.


Уравнение	Отсутствующие переменные

Первое
Третье	— 1

Достаточное условие идентификации для второго уравнения выполняется, так как ранг матрицы равен числу эндогенных переменных модели минус 1, то есть 3−1=2. Итак, второе уравнение точно идентифицируемо.

Третье уравнение Н: эндогенных переменных — 3 (, Отсутствующих экзогенных 2 (.

Выполняется необходимое равенство: 3=2+1, следовательно, уравнение точно идентифицируемо.

Д: в третьем уравнение отсутствуют. Построим матрицу из коэффициентов при них в других уравнениях системы.


Уравнение	Отсутствующие переменные

Первое
Второе

Достаточное условие идентификации для третьего уравнения не выполняется. Уравнение неидентифицируемо.

Следовательно, рассматриваемая в целом структурная модель, идентифицируемая по счетному правилу, не может считаться идентифицируемой исходя из достаточного условия идентификации.

Задание 5

Цель задания — исследование регрессии по рядам динамики. Все исходные данные, промежуточные вычисления и итоговые результаты приведены в таб. 4.

Решение Предположим, что в двух рядах и, присутствует линейный тренд: для: , для: .

1) Методом аналитического выравнивания рассчитаем параметры линейного тренда в рядах и


2,803	44,373	2,978	42,152
0,615	8,790	0,505	7,222
0,486	20,860	0,612	17,141
20,771		34,707
9038,414	9573,419	10 197,565	6464,060

Оценим значимость полученных регрессий по F критерию, путем сравнения с квантилем .

Так как оба значения F критерия больше квантиля делаем вывод о значимости полученных уравнений регрессий. Используя полученные значения коэффициента детерминации, отметим, что доля вариации в большей степени обусловлена вариацией, чем, 61,2% и 48,6% соответственно.

2) С помощью полученных параметров построим столбцы Результат приведен в таб. 4.

3) Рассчитаем столбцы с отклонениями от тренда

и .

Результат приведен в таб. 4.

4) Коэффициент корреляции служит показателем тесноты связи. Вычислим коэффициент корреляции по исходным уровням рядов .

Полученное значение говорит о том, что связь между переменными и прямая и сильная. Чтобы исключить предположение, что мы получили ложную корреляцию ввиду наличия в каждом из рядов линейной или близкой к линейной тенденции, вычислим коэффициент корреляции по отклонениям от трендов.

Окончательный вывод: связь между и прямая и умеренная.

Определим значимость полученных коэффициентов корреляции с помощью t-критерия Стьюдента (число степеней свободы -, уровень значимости —).

Сначала оценим .

То есть коэффициент корреляции по исходным уровням рядов — значим при 5%-ном уровне.

Аналогично для :

То есть коэффициент корреляции по отклонениям от трендов — значим.

5) Рассчитаем модель регрессии по отклонения от тренда


	0,4 206 166
	0,1 504 978		3,57 856
	0,26 202		14,725 282
	7,8 111 064
	1693,713		4770,3466

Так как, следовательно, полученное уравнение регрессии значимо.

6) Используя другой путь учета тенденции — включение в модель фактора времени, рассчитаем параметры множественной линейной регрессии, приняв за аргументы столбцы, и таб. 4, то есть, используя исходные данные, но в качестве самостоятельного фактора включим время.


0,4 206 166	1,7 986 367	23,488 076
0,1 540 394	0,6 196 942	9,3 300 178
0,7 136 926	15,71 807
26,173 868
11 891,278	4770,3466

Так как полученное значение, то полученный результат согласуется с теорией.

Так как, следовательно, полученное уравнение регрессии значимо.

7) Определим столбец остатков, используя в качестве расчетного значения результата формулу, где параметры — из пункта 6, и. Результат занесем в таб. 4.

8) Рассчитаем статистику Дарбина-Уотсона

9) Сформулируем гипотезы:

— в остатках нет автокорреляции;

— в остатках есть положительная автокорреляция;

— в остатках есть отрицательная автокорреляция.

Принимая нижний и верхний уровни d статистики, отмечаем, что фактически найденное находится в пределах от (1,55<2,134<2,45). Следовательно, нет оснований отклонять гипотезу об отсутствии автокорреляции в остатках.

10) В результате вычислений были получены следующие результаты:

Уравнение регрессии по уровням временных рядов с включением фактора времени Полученные уравнения, как было рассчитано выше, значимы по F критерию.

Интерпретация параметров уравнения следующая:

— параметр характеризует, что при увеличении на единицу, возрастет в среднем на 0,421 в условиях существования неизменной тенденции;

— параметр означает, что воздействие всех факторов, кроме приведет к увеличению на 1,799.

Уравнение регрессии по уровням временных рядов с включением фактора времени может быть использовано для прогноза, так как в нем устранена автокорреляция в остатках, уравнение значимо по F критерию и высокое значение коэффициента детерминации дает основание говорит о хорошем качестве регрессионной модели и считать полученные результаты статистически значимыми.

Уравнение регрессии по отклонениям от тренда Это означает, что в среднем за период отклонение от тренда было положительно по знаку и составляло 0,421 отклонения от своего тренда.

Содержательная интерпретация модели регрессии по отклонениям от тренда затруднительна, однако, несмотря на то, что полученное уравнение значимо по F критерию, малое значение коэффициента детерминации не дает оснований использовать ее для прогнозирования, и может говорить о не включении важных факторов.

Рассмотрим причины, по которым в рядах динамики имеет смысл рассматривать не только коэффициент корреляции по исходным уровням рядов, но и коэффициент корреляции по отклонениям от трендов.

Основная сложность состоит в том, что при наличии тренда за достаточно длительный период большая часть суммы квадратов отклонений связано с трендом. Если два признака имеют тренды с одинаковым направлением изменения уровней, то между уровнями этих признаков будет наблюдаться положительная ковариация. Коэффициент корреляции уровней окажется положительным. При разной направленности трендов ковариация уровней и коэффициент корреляции окажутся отрицательными.

Но ведь одинаковая направленность трендов вовсе не означает причинной зависимости. Таким образом, не только возникает масса «ложных корреляций», за которыми нет причинной зависимости, но искажаются и те показатели корреляции, за которыми стоят реальные причинные зависимости.

Чтобы получить реальные показатели корреляции, необходимо абстрагироваться от искажающего влияния трендов: вычислить отклонения уровней рядов от трендов и измерить корреляцию не уровней, а колебаний двух признаков.

Таб. 4. Исходные данные, промежуточные вычисления и итоговые результаты для задания 5



47,17 667	45,13	7,823 333	— 17,13	— 20,4206	417,0019
49,98 014	48,10 783	8,19 855	8,892 174	5,51 889	30,45 815	672,8584
52,78 362	51,8 565	12,21 638	— 18,0857	— 23,2241	539,3571	826,1573
55,5871	54,6 348	9,412 899	25,93 652	21,9773	483,0017	2043,163
58,39 058	57,0413	— 1,39 058	12,9587	13,5436	183,429	71,12 737
61,19 406	60,1 913	11,80 594	3,98 087	— 0,98 491	0,970 038	211,0774
63,99 754	62,99 696	— 9,99 754	— 9,99 696	— 5,79 183	33,54 526	23,1065
66,80 101	65,97 478	16,19 899	28,2 522	21,21 166	449,9343	729,1881
69,60 449	68,95 261	— 9,60 449	1,47 391	5,0872	25,8796	259,9981
72,40 797	71,93 043	— 2,40 797	— 15,9304	— 14,9176	222,5349	400,1921
75,21 145	74,90 826	— 3,21 145	8,91 739	9,442 528	89,16 133	593,4159
78,1 493	77,88 609	9,985 072	— 2,88 609	— 7,8 597	50,21 102	273,1914
80,81 841	80,86 391	— 10,8184	— 12,8639	— 8,31 351	69,11 449	1,506 851
83,62 188	83,84 174	— 40,6219	— 9,84 174	7,244 498	52,48 275	242,0517
86,42 536	86,81 957	— 10,4254	2,180 435	6,565 515	43,10 598	0,461 018
89,22 884	89,79 739	— 34,2288	— 24,7974	— 10,4002	108,1636	287,8346
92,3 232	92,77 522	— 40,0323	— 14,7752	2,63 039	4,256 128	155,3317
94,8358	95,75 304	— 6,8358	— 17,753	— 14,8778	221,3488	286,9918
97,63 928	98,73 087	1,360 725	2,26 913	1,696 787	2,879 087	274,7167
100,4428	101,7087	13,55 725	23,2913	17,5889	309,3695	252,5593
103,2462	104,6865	33,75 377	28,31 348	14,11 608	199,2638	12,6 046
106,0497	107,6643	14,95 029	24,33 565	18,4 731	325,7055	15,45 455
108,8532	110,6422	45,14 681	— 9,64 217	— 28,6317	819,7725	2178,927
111,6567	113,62	— 14,6567	— 15,62	— 9,45 516	89,40 011	367,7384
					4770,347	10 179,11

Показать весь текст

Заполнить форму текущей работой