Упражнения с пояснениями

РефератПомощь в написанииУзнать стоимостьмоей работы

Применим два способа для решения проблемы гетероскедастичности. Первым способом является преобразование исходных переменных. Для этого создадим новые переменные. Получим 1,3 358 722. Поскольку значение тестовой статистики превышает критическое (при 5%-ном уровне значимости), то гипотеза о гомоскедастичности ошибок отвергается. Упражнение 10.1. С использованием статистического пакета Stata… Читать ещё >

Упражнения с пояснениями (реферат, курсовая, диплом, контрольная)

Упражнение 10.1. С использованием статистического пакета Stata по данным базы clothing о продажах одежды в 400 голландских магазинах мужской одежды выполним следующее.

1. Оценим коэффициенты уравнения регрессии.

sales = Р₀ + fi_{hoursi0 + р ₂size + г.

2. Проведем тесты Уайта, Бройша — Нагана, Голдфслда — Квандта, Глейзера на выявление гетероскедастичности ошибок.
3. Если гетероскедастичность будет выявлена, то проведем коррекцию.

Решение. 1. Открыв файл clothing. csv в статистическом пакете Stata, оценим необходимую регрессию с помощью команды.

reg sales hoursw size Получим.

Source 1.	SS.	df.	MS.		Number of obs F (2, 397) Prob > F R-squared Adj R-squared Root MSE.	= 400 = 114.49 = 0.0000 = 0.3658 = 0.3626 = 2985.4.
Model I Residual 1.	2.0409e+09 3.5382e+09.	2 397	1.0204e+09 8 912 441.27.
Total 1.	5.5791e+09.
sales 1.	Coef .	Std.	Err. t.	P> 111.	[957, Conf.	Interval].
hoursw 1 size 1 .cons 1.	37.52 842 -22.14 457 5133.59	2.83 722 13.23 1.625 067 -13.63 321.6934 15.96.		0.000 0.000 0.000	31.95 056 -25.33 939 4501.155	43.10 627 -18.94 976 5766.026

2. Для проведения теста Уайта после оценки регрессии необходимо набрать в командном окне.

I estat imtest, white.

Получим.

White’s test for Ho: homoskedasticity.

against Ha: unrestricted heteroskedasticity.

chi2(5) = 34.99.

Prob > chi2 = 0.0000.

Cameron & Trivedi’s decomposition of IM-test.

Source \|.	chi2.	df.	P.
Heteroskedasticity I.	34.99.		0.0000.
Skewness I.	10.83.		0.0045.
Kurtosis I.	3.01.		0.0826.
Total 1.	48.83.		0.0000.

Поскольку p-value тестовой статистики равно 0,0000, то гипотеза о гомоскедастичности ошибок отвергается.

Для проведения теста Бройша — Пагана необходимо набрать в командном окне || estat hettest, rhs mtest.

Получим.

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance.

Variable 1.	chi2.	df.	P.
hoursw 1.	24.85.		0.0000.
size 1.	0.21.		0.6492.
simultaneous 1.	41.41.		0.0000.

# unadjusted p-values.

Поскольку и для этого тестер-value равно 0,0000, то гипотеза о гомоскедастичности ошибок отвергается. Причем согласно выданной таблице следует тестировать зависимость дисперсии ошибок от переменной hoursw. Для проведения теста Глейзера сохраним остатки регрессии с помощью команды predict res, resid Создадим новые переменные е, у/hoursw,.

hoursw

с помощью команд.

gen modres = abs (res).

gen sqrthoursw = sqrt (hoursw).

gen invhoursw =1/hoursw.

Последовательно оценим коэффициенты трех регрессий | е | = а + fihoursw + г, | е = а + $ у/hoursw + е, | е | = а + -—-— + г.

hoursw

с помощью команд.

reg modres hoursw гeg modres sqrthoursw reg modres invhoursw.

Соответственно получим: для первой —.

Source.		SS.	df.	MS.			Number of obs F (1, 398) Prob > F R-squared Adj R-squared Root MSE.	= 400 = 7.48 = 0.0065 = 0.0185 = 0.0160 = 2079.7.
Model. Residual.	1 1	32 361 451 1.7215e+09.	1 398	32 361 451 4 325 307.87
Total.		1.7538e+09.		4 395 573.
modres.		Coef .	Std.	Err.	t.	P> 11 \|.	[957, Conf.	Interval].
hoursw. .cons.	1 1	4.419 808 1576.707	1.615 838 2 221.6458 7.		.74. 11.	0.007 0.000	1.243 163 1140.964	7.596 453 2012.449
для второй ;
Source.		SS.	df.	MS.			Number of obs F (1, 398) Prob > F R-squared Adj R-squared Root MSE.	= 400 = 5.60 = 0.0184 = 0.0139 = 0.0114 = 2084.6.
Model. Residual.	1 1	24 353 314.2 1.7295e+09.	1 398	24 353 314 4 345 428.	.2.
Total.		1.7538e+09.		4 395 573.

modres 1.	Coef .	Std.	Err.	t.	P> 111.	[957, Conf.	Interval].
sqrthoursw 1 _cons I.	93.59 095 1112.015	39.53 403 435.1214		2.37 2.56	0.018 0.011	15.86 932 256.5913	171.3126 1967.438
для третьей ;
Source I.	SS.	df.		MS.		Number of obs F (1, 398) Prob > F R-squared Adj R-squared Root MSE.	= 400 = 1.34 = 0.2475 = 0.0034 = 0.0009 = 2095.7.
Model \| Residual I.	5 891 778.04 1.7479e+09.	1 398	5 891 778.04 4 391 814.59
Total I.	1.7538e+09.		4 395 573.89.
modres 1.	Coef .	Std.	Err.	t.	P> 111.	[957, Conf.	Interval].
invhoursw \| _cons I.	-25 208.96 2372.225	21 764.75 247.8178		-1.16 9.57	0.247 0.000	-67 997.2 1885.029	17 579.29 2859.42

Поскольку коэффициент р в первой регрессии значим, то гипотеза о гомоскедастичности ошибок отвергается.

Для проведения теста Голдфслда — Квандта упорядочим наблюдения, но переменной hoursw с помощью команды.

11 sort hoursw

Для того чтобы оценить параметры уравнения регрессии по первой и последней трети (приблизительно) наблюдений, наберем в командном окне.

|| reg sales hoursw size in 1/133

Используя RSS в последних двух оцененных регрессиях, рассчитаем (вручную) тестовую статистику по формуле.

Критическое значение F-статистики можно найти с помощью команды display invFtail (130, 130, 0.05)

Получим 1,3 358 722. Поскольку значение тестовой статистики превышает критическое (при 5%-ном уровне значимости), то гипотеза о гомоскедастичности ошибок отвергается.

3. Применим два способа для решения проблемы гетероскедастичности. Первым способом является преобразование исходных переменных. Для этого создадим новые переменные.

gen sales_new = sales/hoursw gen cons_new =l/hoursw gen size_new = size/hoursw.

с помощью команд Оценим коэффициенты новой регрессии.

reg sales_new cons_new size_new Получим.

Source.		SS.	df.		MS.		Number of obs F (2, 397) Prob > F R-squared Adj R-squared Root MSE.	= 400.
Model. Residual.	1 1	220 716.179 347 528.557	2 397	110 358.089 875.386 795				= 0.0000 = 0.3884 = 0.3853 = 29.587.
Total.		568 244.736.			.17 227.			= 0.0000 = 0.3884 = 0.3853 = 29.587.
sales_new.		Coef .	Std.	Err .	t.	P>ltl.	[957. Conf.	Interval].
cons.new. size_new. .cons.	1 1	3814.137 -26.63 261 55.5931	309.6548 2.322 524 4.357 116		12.32 -11.47 12.76	0.000 0.000 0.000	3205.369 -31.1986 47.2 719	4422.905 -22.6 663 64.159

Нужно быть внимательным при интерпретации оценок коэффициентов новой регрессии! Оценки коэффициентов^ = 3814,137, у, = 55,59,у₂ = -26,63 будут эффективными оценками коэффициентов р₀, р, р₂ регрессии sales = р₀ + рJioursw + + р ₂size + е.

Вторым способом решения проблемы гетероскедастичности ошибок является использование оценок Уайта для дисперсий коэффициентов. Их можно рассчитать с помощью команды.

|| reg sales hoursw size, robust.

Получим.

Number of obs =.
F (2, 397) =.	44.86.
Prob > F =.	0.0000.
R-squared =.	0.3658.
Root MSE =.	2985.4.

Linear regression.

Robust.

sales I.	Coef .	Std. Err.	t.	P> 111.	[957. Conf .	Interval].
hoursw 1.	37.52 842.	4.122 108.	9.10.	0.000.	29.42 453.	45.63 231.
size I.	— 22.14 457.	2.800 518.	— 7.91.	0.000.	— 27.65 027.	— 16.63 887.
.cons 1.	5133.59.	387.7822.	13.24.	0.000.	4371.227.	5895.953.

Отметим, что хотя качественная картина при коррекции гетероскедастичности не изменилась (при увеличении размера магазина продажи в расчете на квадратный метр уменьшаются, при увеличении общего числа отработанных работниками часов — увеличиваются), оценки стандартных отклонений при использовании двух описанных выше методов корректировки изменились.

Упражнение 10.2. Используя данные базы flats, с помощью статистического пакета R оценим модель Inprice_metr_l = р_о + р, *1пlivesp_i + Р₂• Inkitsp_{ + Р₃— Indist_f + + Р₄ * In metrdist_i + e_it i = 1,…, n, где n — количество наблюдений, Inprice_metr — логарифм стоимости квадратного метра квартиры (описание остальных переменных приведено в приложении 1). Проведем тестирование гетероскедастичности ошибок для этой модели с помощью тестов Голдфелда — Кванта, Уайта и Бройша — Пагана.

Решение. Импортируем файл с данными flats. csv, как это делалось в предыдущих главах. Загрузим сразу пакеты Imtest и sandwich:

|| install. packages (с («Imtest», «sandwich»)) reg <- lra (ln_price_metr ~ 1 + ln_livesp + ln_kitsp + ln_dist + lnjnetrdist, data = data_flats).

Проведем тест Голдфелда — Квандта с помощью следующей команды:

I gqtest (reg, point = 0.5).

Получим

Goldfeld-Quandt test data: reg.

GQ = 1.753, dfl = 246, df2 = 245, p-value = 6.392e-06.

Тест Голдфелда — Квандта реализован в пакете Imtest в форме, немного отличной от той, которая рассказана в тексте главы. В данной версии теста сравниваются лишь две части выборки, а не три. Заинтересованный читатель может сам запрограммировать тест необходимым образом. Исходя из результатов теста гетероскедастичность в модели присутствует.

Теперь проведем тест Уайта. Поскольку данный тест отсутствует в пакетах, то запрограммируем его сами.

Сначала сохраним квадрат остатков оригинальной регрессии:

|| u_sq ^<_ reg$residuals~2.

Теперь оценим регрессию квадратов остатков на оригинальные переменные, их квадраты и их cross-terms (попарные произведения) и сохраним R² из этой модели:

R_sq <- summary (lm (u_sq ~ 1 + ln_livesp + ln_kitsp + ln_dist + lnjnetrdist + ln_livesp_sq + ln_kitsp_sq + ln_dist_sq + ln_metrdist_sq + ln_livesp * ln_kitsp + ln_livesp * ln_dist + ln_livesp * lnjnetrdist + ln_kitsp * ln_dist + ln_kitsp * lnjnetrdist + ln_dist * lnjnetrdist, data = data_flats))$r.squared.

Теперь рассчитаем p-value для этого теста с помощью следующих команд:

LM <- dim (data)[1]*R_sq p_value <- 1 — pchisq (LM, 14) p_value.

Получим

[1] 5.55 1115e-16.

Исходя из полученных результатов, можно заключить, что нулевая гипотеза

0 гомоскедастичности ошибок отвергается.

Проведем тест Бройша — Пагана, предположив, что остатки зависят от оригинальных регрессоров, с помощью команды

1 bptest (reg).

Получим

studentized Breusch-Pagan test data: reg.

BP = 69.195, df = 4, p-value = 3.357e-14.

Опять получилось, что в модели присутствует гетероскедастичность. Поскольку все три теста дали однозначный результат, что гетероскедастичность есть, то необходимо провести коррекцию. Для этого используем оценки стандартных отклонений в форме Уайта. Команда vcovHC из пакета sandwich позволяет оце-

нить робастную ковариационную матрицу (по умолчанию используется вариант НСЗ), а команда coeftest из пакета Imtest позволяет оценить значимость коэффициентов, используя робастную ковариационную матрицу.

Применив эти команды:

|| coeftest (reg, vcov = vcovHC (reg)).

получаем.

t test of coefficients:

	Estimate.	Std. Error.	t value.	PrOltl).
(Intercept).	13.513 481.	0.253 623.	53.2817 < 2.2e-16.		***.
ln_livesp.	— 0.211 379.	0.76 129.	— 2.7766.	0.5 701.	**.
ln_kitsp.	0.13 885.	0.29 957.	0.4635.	0.643 221.
ln_dist.	— 0.258 789.	0.23 006.	— 11.2488 < 2.2e-16.		***.
ln_metrdist.	— 0.82 927.	0.13 303.	— 6.2336 9.756e-10.		***.
Signif. codes: 0 '***.		' 0.001 '**.	* «—I. о о.	о о. сл.	¹ 0.1.

Теперь сопоставим полученные результаты с результатами оценки оригинальной регрессии с помощью команды.

|| summary (reg).

Получим.

Call:

lm (formula = ln_price_metr — 1 + ln_livesp + ln_kitsp + ln_dist + ln_metrdist, data = data).

Residuals:

Min IQ Median 3Q Max.

— 0.65 287 -0.8 929 0.854 0.9 527 0.60 461.

Coefficients :

Estimate Std. Error t value Pr (>ItI).

(Intercept) 13.51 348 ln_livesp -0.21 138 ln_kitsp 0.1 388 ln_dist -0.25 879 ln_metrdist -0.8 293.

* * * ***.

***.

0.17 326 77.996 < 2e-16 0.5 282 -4.002 7.25e-05 0.2 955 0.470 0.639 0.2 304 -11.230 < 2e-16 0.1 367 -6.068 2.58e-09.

Signif. codes:

0 '***' 0.001 '**' 0.01 0.05 0.1
1

Residual standard error: 0.1761 on 496 degrees of freedom Multiple R-squared: 0.2638, Adjusted R-squared: 0.2579 F-statistic: 44.43 on 4 and 496 DF, p-value: < 2.2e-16.

Можно заметить, что для двух моделей существует разница в оценках стандартных отклонений коэффициентов (хотя и в этом случае качественная картина не меняется, но так бывает не всегда).

Показать весь текст

Заполнить форму текущей работой