Помощь в написании студенческих работ
Антистрессовый сервис

Упражнения с пояснениями

РефератПомощь в написанииУзнать стоимостьмоей работы

Применим два способа для решения проблемы гетероскедастичности. Первым способом является преобразование исходных переменных. Для этого создадим новые переменные. Получим 1,3 358 722. Поскольку значение тестовой статистики превышает критическое (при 5%-ном уровне значимости), то гипотеза о гомоскедастичности ошибок отвергается. Упражнение 10.1. С использованием статистического пакета Stata… Читать ещё >

Упражнения с пояснениями (реферат, курсовая, диплом, контрольная)

Упражнение 10.1. С использованием статистического пакета Stata по данным базы clothing о продажах одежды в 400 голландских магазинах мужской одежды выполним следующее.

1. Оценим коэффициенты уравнения регрессии.

sales = Р0 + fi{hoursi0 + р 2size + г.

  • 2. Проведем тесты Уайта, Бройша — Нагана, Голдфслда — Квандта, Глейзера на выявление гетероскедастичности ошибок.
  • 3. Если гетероскедастичность будет выявлена, то проведем коррекцию.

Решение. 1. Открыв файл clothing. csv в статистическом пакете Stata, оценим необходимую регрессию с помощью команды.

reg sales hoursw size Получим.

Source 1.

SS.

df.

MS.

Number of obs F (2, 397) Prob > F R-squared Adj R-squared Root MSE.

= 400 = 114.49 = 0.0000 = 0.3658 = 0.3626 = 2985.4.

Model I Residual 1.

2.0409e+09 3.5382e+09.

  • 2
  • 397

1.0204e+09 8 912 441.27.

Total 1.

5.5791e+09.

sales 1.

Coef .

Std.

Err. t.

P> 111.

[957, Conf.

Interval].

hoursw 1 size 1 .cons 1.

  • 37.52 842
  • -22.14 457
  • 5133.59

2.83 722 13.23 1.625 067 -13.63 321.6934 15.96.

  • 0.000
  • 0.000
  • 0.000
  • 31.95 056
  • -25.33 939
  • 4501.155
  • 43.10 627
  • -18.94 976
  • 5766.026

2. Для проведения теста Уайта после оценки регрессии необходимо набрать в командном окне.

I estat imtest, white.

Получим.

White’s test for Ho: homoskedasticity.

against Ha: unrestricted heteroskedasticity.

chi2(5) = 34.99.

Prob > chi2 = 0.0000.

Cameron & Trivedi’s decomposition of IM-test.

Source |.

chi2.

df.

P.

Heteroskedasticity I.

34.99.

0.0000.

Skewness I.

10.83.

0.0045.

Kurtosis I.

3.01.

0.0826.

Total 1.

48.83.

0.0000.

Поскольку p-value тестовой статистики равно 0,0000, то гипотеза о гомоскедастичности ошибок отвергается.

Для проведения теста Бройша — Пагана необходимо набрать в командном окне || estat hettest, rhs mtest.

Получим.

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance.

Variable 1.

chi2.

df.

P.

hoursw 1.

24.85.

0.0000.

size 1.

0.21.

0.6492.

simultaneous 1.

41.41.

0.0000.

# unadjusted p-values.

Поскольку и для этого тестер-value равно 0,0000, то гипотеза о гомоскедастичности ошибок отвергается. Причем согласно выданной таблице следует тестировать зависимость дисперсии ошибок от переменной hoursw. Для проведения теста Глейзера сохраним остатки регрессии с помощью команды predict res, resid Создадим новые переменные е, у/hoursw,.

hoursw

с помощью команд.

gen modres = abs (res).

gen sqrthoursw = sqrt (hoursw).

gen invhoursw =1/hoursw.

Последовательно оценим коэффициенты трех регрессий | е | = а + fihoursw + г, | е = а + $ у/hoursw + е, | е | = а + -—-— + г.

hoursw

с помощью команд.

reg modres hoursw гeg modres sqrthoursw reg modres invhoursw.

Соответственно получим: для первой —.

Source.

SS.

df.

MS.

Number of obs F (1, 398) Prob > F R-squared Adj R-squared Root MSE.

= 400 = 7.48 = 0.0065 = 0.0185 = 0.0160 = 2079.7.

Model.

Residual.

  • 1
  • 1

32 361 451 1.7215e+09.

  • 1
  • 398
  • 32 361 451
  • 4 325 307.87

Total.

1.7538e+09.

4 395 573.

modres.

Coef .

Std.

Err.

t.

P> 11 |.

[957, Conf.

Interval].

hoursw.

.cons.

  • 1
  • 1
  • 4.419 808
  • 1576.707

1.615 838 2 221.6458 7.

.74. 11.

  • 0.007
  • 0.000
  • 1.243 163
  • 1140.964
  • 7.596 453
  • 2012.449

для второй ;

Source.

SS.

df.

MS.

Number of obs F (1, 398) Prob > F R-squared Adj R-squared Root MSE.

= 400 = 5.60 = 0.0184 = 0.0139 = 0.0114 = 2084.6.

Model.

Residual.

  • 1
  • 1

24 353 314.2 1.7295e+09.

  • 1
  • 398
  • 24 353 314
  • 4 345 428.

.2.

Total.

1.7538e+09.

4 395 573.

modres 1.

Coef .

Std.

Err.

t.

P> 111.

[957, Conf.

Interval].

sqrthoursw 1 _cons I.

  • 93.59 095
  • 1112.015
  • 39.53 403
  • 435.1214
  • 2.37
  • 2.56
  • 0.018
  • 0.011
  • 15.86 932
  • 256.5913
  • 171.3126
  • 1967.438

для третьей ;

Source I.

SS.

df.

MS.

Number of obs F (1, 398) Prob > F R-squared Adj R-squared Root MSE.

= 400 = 1.34 = 0.2475 = 0.0034 = 0.0009 = 2095.7.

Model | Residual I.

5 891 778.04 1.7479e+09.

  • 1
  • 398
  • 5 891 778.04
  • 4 391 814.59

Total I.

1.7538e+09.

4 395 573.89.

modres 1.

Coef .

Std.

Err.

t.

P> 111.

[957, Conf.

Interval].

invhoursw | _cons I.

  • -25 208.96
  • 2372.225
  • 21 764.75
  • 247.8178
  • -1.16
  • 9.57
  • 0.247
  • 0.000
  • -67 997.2
  • 1885.029
  • 17 579.29
  • 2859.42

Поскольку коэффициент р в первой регрессии значим, то гипотеза о гомоскедастичности ошибок отвергается.

Для проведения теста Голдфслда — Квандта упорядочим наблюдения, но переменной hoursw с помощью команды.

11 sort hoursw

Для того чтобы оценить параметры уравнения регрессии по первой и последней трети (приблизительно) наблюдений, наберем в командном окне.

|| reg sales hoursw size in 1/133

Используя RSS в последних двух оцененных регрессиях, рассчитаем (вручную) тестовую статистику по формуле.

Упражнения с пояснениями.

Критическое значение F-статистики можно найти с помощью команды display invFtail (130, 130, 0.05)

Получим 1,3 358 722. Поскольку значение тестовой статистики превышает критическое (при 5%-ном уровне значимости), то гипотеза о гомоскедастичности ошибок отвергается.

3. Применим два способа для решения проблемы гетероскедастичности. Первым способом является преобразование исходных переменных. Для этого создадим новые переменные.

gen sales_new = sales/hoursw gen cons_new =l/hoursw gen size_new = size/hoursw.

gen sales_new = sales/hoursw gen cons_new =l/hoursw gen size_new = size/hoursw.

с помощью команд Оценим коэффициенты новой регрессии.

Упражнения с пояснениями.

reg sales_new cons_new size_new Получим.

Source.

SS.

df.

MS.

Number of obs F (2, 397) Prob > F R-squared Adj R-squared Root MSE.

= 400.

Model.

Residual.

  • 1
  • 1
  • 220 716.179
  • 347 528.557
  • 2
  • 397
  • 110 358.089
  • 875.386 795

= 0.0000 = 0.3884 = 0.3853 = 29.587.

Total.

568 244.736.

.17 227.

sales_new.

Coef .

Std.

Err .

t.

P>ltl.

[957. Conf.

Interval].

cons.new.

size_new.

.cons.

  • 1
  • 1
  • 3814.137
  • -26.63 261
  • 55.5931
  • 309.6548
  • 2.322 524
  • 4.357 116
  • 12.32
  • -11.47
  • 12.76
  • 0.000
  • 0.000
  • 0.000
  • 3205.369
  • -31.1986
  • 47.2 719
  • 4422.905
  • -22.6 663
  • 64.159

Нужно быть внимательным при интерпретации оценок коэффициентов новой регрессии! Оценки коэффициентов^ = 3814,137, у, = 55,59,у2 = -26,63 будут эффективными оценками коэффициентов р0, р, р2 регрессии sales = р0 + рJioursw + + р 2size + е.

Вторым способом решения проблемы гетероскедастичности ошибок является использование оценок Уайта для дисперсий коэффициентов. Их можно рассчитать с помощью команды.

|| reg sales hoursw size, robust.

Получим.

Number of obs =.

F (2, 397) =.

44.86.

Prob > F =.

0.0000.

R-squared =.

0.3658.

Root MSE =.

2985.4.

Linear regression.

Robust.

sales I.

Coef .

Std. Err.

t.

P> 111.

[957. Conf .

Interval].

hoursw 1.

37.52 842.

4.122 108.

9.10.

0.000.

29.42 453.

45.63 231.

size I.

— 22.14 457.

2.800 518.

— 7.91.

0.000.

— 27.65 027.

— 16.63 887.

.cons 1.

5133.59.

387.7822.

13.24.

0.000.

4371.227.

5895.953.

Отметим, что хотя качественная картина при коррекции гетероскедастичности не изменилась (при увеличении размера магазина продажи в расчете на квадратный метр уменьшаются, при увеличении общего числа отработанных работниками часов — увеличиваются), оценки стандартных отклонений при использовании двух описанных выше методов корректировки изменились.

Упражнение 10.2. Используя данные базы flats, с помощью статистического пакета R оценим модель Inprice_metrl = ро + р, *1пlivespi + Р2• Inkitsp{ + Р3— Indistf + + Р4 * In metrdisti + eit i = 1,…, n, где n — количество наблюдений, Inprice_metr — логарифм стоимости квадратного метра квартиры (описание остальных переменных приведено в приложении 1). Проведем тестирование гетероскедастичности ошибок для этой модели с помощью тестов Голдфелда — Кванта, Уайта и Бройша — Пагана.

Решение. Импортируем файл с данными flats. csv, как это делалось в предыдущих главах. Загрузим сразу пакеты Imtest и sandwich:

|| install. packages (с («Imtest», «sandwich»)) reg <- lra (ln_price_metr ~ 1 + ln_livesp + ln_kitsp + ln_dist + lnjnetrdist, data = data_flats).

Проведем тест Голдфелда — Квандта с помощью следующей команды:

I gqtest (reg, point = 0.5).

Получим

Goldfeld-Quandt test data: reg.

GQ = 1.753, dfl = 246, df2 = 245, p-value = 6.392e-06.

Тест Голдфелда — Квандта реализован в пакете Imtest в форме, немного отличной от той, которая рассказана в тексте главы. В данной версии теста сравниваются лишь две части выборки, а не три. Заинтересованный читатель может сам запрограммировать тест необходимым образом. Исходя из результатов теста гетероскедастичность в модели присутствует.

Теперь проведем тест Уайта. Поскольку данный тест отсутствует в пакетах, то запрограммируем его сами.

Сначала сохраним квадрат остатков оригинальной регрессии:

|| u_sq <_ reg$residuals~2.

Теперь оценим регрессию квадратов остатков на оригинальные переменные, их квадраты и их cross-terms (попарные произведения) и сохраним R2 из этой модели:

R_sq <- summary (lm (u_sq ~ 1 + ln_livesp + ln_kitsp + ln_dist + lnjnetrdist + ln_livesp_sq + ln_kitsp_sq + ln_dist_sq + ln_metrdist_sq + ln_livesp * ln_kitsp + ln_livesp * ln_dist + ln_livesp * lnjnetrdist + ln_kitsp * ln_dist + ln_kitsp * lnjnetrdist + ln_dist * lnjnetrdist, data = data_flats))$r.squared.

Теперь рассчитаем p-value для этого теста с помощью следующих команд:

LM <- dim (data)[1]*R_sq p_value <- 1 — pchisq (LM, 14) p_value.

Получим

[1] 5.55 1115e-16.

Исходя из полученных результатов, можно заключить, что нулевая гипотеза

0 гомоскедастичности ошибок отвергается.

Проведем тест Бройша — Пагана, предположив, что остатки зависят от оригинальных регрессоров, с помощью команды

1 bptest (reg).

Получим

studentized Breusch-Pagan test data: reg.

BP = 69.195, df = 4, p-value = 3.357e-14.

Опять получилось, что в модели присутствует гетероскедастичность. Поскольку все три теста дали однозначный результат, что гетероскедастичность есть, то необходимо провести коррекцию. Для этого используем оценки стандартных отклонений в форме Уайта. Команда vcovHC из пакета sandwich позволяет оце-

нить робастную ковариационную матрицу (по умолчанию используется вариант НСЗ), а команда coeftest из пакета Imtest позволяет оценить значимость коэффициентов, используя робастную ковариационную матрицу.

Применив эти команды:

|| coeftest (reg, vcov = vcovHC (reg)).

получаем.

t test of coefficients:

Estimate.

Std. Error.

t value.

PrOltl).

(Intercept).

13.513 481.

0.253 623.

53.2817 < 2.2e-16.

***.

ln_livesp.

— 0.211 379.

0.76 129.

— 2.7766.

0.5 701.

**.

ln_kitsp.

0.13 885.

0.29 957.

0.4635.

0.643 221.

ln_dist.

— 0.258 789.

0.23 006.

— 11.2488 < 2.2e-16.

***.

ln_metrdist.

— 0.82 927.

0.13 303.

— 6.2336 9.756e-10.

***.

Signif. codes: 0 '***.

' 0.001 '**.

* «—I.

о о.

о о.

сл.

1 0.1.

Теперь сопоставим полученные результаты с результатами оценки оригинальной регрессии с помощью команды.

|| summary (reg).

Получим.

Call:

lm (formula = ln_price_metr — 1 + ln_livesp + ln_kitsp + ln_dist + ln_metrdist, data = data).

Residuals:

Min IQ Median 3Q Max.

— 0.65 287 -0.8 929 0.854 0.9 527 0.60 461.

Coefficients :

Estimate Std. Error t value Pr (>ItI).

(Intercept) 13.51 348 ln_livesp -0.21 138 ln_kitsp 0.1 388 ln_dist -0.25 879 ln_metrdist -0.8 293.

* * * ***.

***.

***.

0.17 326 77.996 < 2e-16 0.5 282 -4.002 7.25e-05 0.2 955 0.470 0.639 0.2 304 -11.230 < 2e-16 0.1 367 -6.068 2.58e-09.

Signif. codes:

  • 0 '***' 0.001 '**' 0.01 0.05 0.1
  • 1

Residual standard error: 0.1761 on 496 degrees of freedom Multiple R-squared: 0.2638, Adjusted R-squared: 0.2579 F-statistic: 44.43 on 4 and 496 DF, p-value: < 2.2e-16.

Можно заметить, что для двух моделей существует разница в оценках стандартных отклонений коэффициентов (хотя и в этом случае качественная картина не меняется, но так бывает не всегда).

Показать весь текст
Заполнить форму текущей работой