Построение модели множественной линейной регрессии

КурсоваяПомощь в написанииУзнать стоимостьмоей работы

Построение модели множественной линейной регрессии (реферат, курсовая, диплом, контрольная)

Задание Имеются данные о деятельности крупнейших компаний США — чистом доходе (Y, млрд. долл.), численности служащих (Х₁, тыс. чел.) и использованном капитале (Х₂, млрд. долл.):

Задание:

1. Оцените распределение переменной Х₁:

определите вид переменной по типу измерения;

постройте статистический ряд и гистограмму, опишите закон распределения переменной;

определите ожидаемое значение переменной и средний разброс ее значений;

сделайте вывод об ожидаемом значении данного показателя в генеральной совокупности с 95%-ной вероятностью;

определите, можно ли признать имеющийся набор данных нормально распределенным; укажите, как можно устранить существующие проблемы в наборе данных.

2. Исследуйте корреляционную зависимость между переменными У и Х₁ (переменная Y подчиняется нормальному распределению):

выберите и рассчитайте числовой показатель взаимосвязи между переменными, сделайте вывод о силе и направлении связи между ними;

проверьте сделанные выводы с помощью поля корреляции;

предложите одну или несколько математических функций, наиболее соответствующих зависимости между переменными.

3. Произведите моделирование взаимосвязи между переменными У и Х₁ с помощью линейной функции:

постройте с помощью метода наименьших квадратов линейное уравнение регрессии Y = b₀ + b₁ ? X₁;

приведите интерпретацию каждого из коэффициентов регрессии;

проверьте качество построенной модели при уровне значимости 0,05;

проверьте наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01;

проверьте наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1;

сделайте вывод, можно ли использовать линейную модель для прогнозирования. Совпадают ли ваши выводы с предположениями, сделанными в п. 2?

4. Произведите моделирование взаимосвязи между переменными с помощью множественной линейной регрессии Y = b₀ + b₁ Х₁ + b₂ Х₂.

5. Проверьте качество новой модели при том же уровне значимости, а также наличие автокорреляции остатков. Как можно объяснить изменения показателей?

6. Если необходима дальнейшая корректировка модели, внесите предложения по изменению спецификации.

7. Сравните качество построенных моделей. Какая из моделей, на ваш взгляд, предпочтительнее для выражения исследуемой зависимости и почему?

Рассчитайте 99%-ные доверительные интервалы для теоретических коэффициентов наилучшей регрессии. Сделайте выводы.

8. По наилучшей регрессионной модели рассчитайте точечный прогноз среднего значения чистого дохода при значениях численности служащих 100 тыс. чел. и стоимости использованного капитала 30 млрд долл.

1. Оценка распределения переменной Х1

2. Исследование корреляционной зависимости между переменными Х₁ и У

3. Моделирование взаимосвязи между переменными У и Х₁ с помощью линейной функции

4. Моделирование взаимосвязи между переменными с помощью множественной линейной регрессии

5. Проверка качества модели, построенной с помощью множественной регрессии

6. Сравнение качества моделей, построенных с помощью линейной регрессии и множественной регрессии

7. Расчет точечного прогноза по заданным значениям Список литературы Приложение

1. Оценка распределения переменной Х1

переменная линейный регрессия прогноз В набор данных в данной задаче входит две переменных Х1 (численность служащих, тыс. чел.) и Х2 (использованный капитал, млрд.руб.), поэтому данный набор данных является двумерным массивом. Так как последовательность записи наблюдаемых значений не важна, то набор данных является перекрестным набором. Переменные в наборе принимают числовые показатели, поэтому являются количественными дискретными переменными.

Для того чтобы найти закон распределения случайной величины и построить гистограмму, произведем группировку значений случайной величины по интервалам, найдем частоту попадания величин с эти интервалы, а далее — определим середину каждого из интервалов и вероятность попадания в указанные нами интервалы. Данные действия необходимы, так как при построении гистограммы по оси абсцисс откладываются средние значения в интервалах, по оси ординат — вероятности попадания в интервал. Построив график, мы найдем закон распределения переменной. Количество интервалов и их ширину подберем самостоятельно таким образом, чтобы построенная на основе закона распределения гистограмма была наглядной.

Исходные данные Упорядочим значения численности служащих (Х1, тыс.чел.) по возрастанию.

Из данных видно, что минимальное значение численности служащих равно 4,1 тыс.чел., максимальное — 745 тыс.чел. Ширина равных интервалов группировки рассчитывается по формуле:

(1)

где: X_max — максимальное значение переменной; X_min — минимальное значение переменной; n — число групп.

Количество интервалов примем равным 6. Границы интервалов определяются путем прибавления величины шага к значению предыдущей границы. Рассчитаем ширину равных интервалов группировки:

тыс.чел.

Частота попадания значений случайной величины в соответствующие интервалы определяется с помощью встроенной функции MS Excel ЧСТРОК, т.к. ее удобно использовать для подсчета частоты попадания значений в определенный интервал: ЧСТРОК (диапазон ячеек) Построим закон распределения случайной величины Х1 (численность служащих). Рассчитаем вероятность попадания каждого значения в интервал.

Для наглядности расчеты сведем в таблицу 1.

Таблица 1. Расчет вероятности попадания каждого значения в интервал.

Строим гистограмму с помощью Мастера диаграмм MS Excel (закон распределения случайной величины), при этом по оси абсцисс откладываем средние значения в интервале, по оси ординат — вероятность попадания в интервал (рис.1).

Рисунок 1 — Закон распределения случайной величины Определим ожидаемое значение переменной и средний разброс ее значений. Для определения ожидаемого значения переменной найдем ее математическое ожидание.

Математическое ожидание — некоторое число, которое характеризует типичное значение случайной величины. Оно рассчитывается по формуле:

(2)

Математическое ожидание можно рассчитать с помощью встроенной функции Excel — СРЗНАЧ (диапазон ячеек).

m= 115,4520 тыс.чел.

Для определения среднего разброса значения переменной найдем ее среднее квадратичное отклонение.

Среднее квадратичное отклонение — некоторое число, которое показывает, на сколько в среднем конкретные значения случайной величины отличаются от математического ожидания. Оно рассчитывается по формуле:

(3)

Среднее квадратичное отклонение можно рассчитать с помощью встроенной функции Excel — СТАНДОТКЛОН (диапазон ячеек).

у= 148,7732 тыс.чел.

Сделаем вывод о наиболее типичном значении данного показателя в генеральной совокупности с 95%-ной уверенностью.

Имея информацию о выборке, можно приблизительно оценить, чему может быть равна ошибка оценивания — разность между выборочным средним и математическим ожиданием генеральной совокупности. Такой оценкой является стандартная ошибка, которая рассчитывается по формуле:

(4)

где: S — выборочное среднее квадратичное отклонение; n — объем выборки.

Рассчитаем стандартную ошибку:

тыс.чел.

По таблице распределения Стьюдента определим значение критический точки. В таблице распределения Стьюдента используется величина б = 1 — г, которая называется уровнем значимости и показывает, каков процент ошибки, т. е. процент того, что значение параметра генеральной совокупности окажется за пределами доверительного интервала.

В нашем случае уровень значимости б=1−0,95=0,05 при н=n-1=25−1=24. Встроенная формула Excel для нахождения критической точки: =СТЬЮДРАСПОБР (0,05;24)

t_кр= 2,0639

Доверительный интервал — интервал вокруг математического ожидания случайной величины, имеющей нормальное распределение и ширину 4 средних квадратичных отклонения. Границы доверительного интервала находятся по формуле: от (m — tкр · S_х) до (m + tкр · S_х) (5)

Тогда нижняя граница доверительного интервала:

115,4520 — 2,0639 ^. 29,7546 = 54,0414 тыс.чел.

верхняя граница доверительного интервала:

115,4520 + 2,0639 ^. 29,7546 = 176,8626 тыс.чел.

Вывод: можно быть на 95% уверенными, что значение средней численности служащих лежит в пределах от 54,0414 тыс.чел. до 176,8626 тыс.чел.

Определим, можно ли признать имеющийся набор данных нормально распределенным. Построенная гистограмма не соответствует нормальному распределению, т.к. по определению нормальное распределение — это непрерывное распределение, имеющее графическое представление в виде симметричной колоколообразной кривой. Форма кривой нормального распределения зависит от значений числовых характеристик распределения — математического ожидания и среднего квадратичного отклонения.

Значение математического ожидания влияет на сдвиг кривой вдоль оси: вершина кривой всегда расположена над математическим ожиданием. Значение среднего квадратичного отклонения влияет на степень растяжения кривой вверх и в стороны. Наш набор данных имеет асимметрическое распределение. Чтобы привести данные к нормальному виду, можно применить логарифмирование или увеличить количество данных.

2. Исследование корреляционной зависимости между переменными Х₁ и У Так как переменная Х1 не подчиняется нормальному закону распределения, то для характеристики взаимосвязи будем использовать коэффициент ранговой корреляции. Построим поле корреляции.

Рисунок 2 — Поле корреляции

На поле корреляции заметна положительная корреляционная зависимость (с увеличением Х увеличивается Y). Точки на поле корреляции сгруппированы вокруг линии, направленной вверх и вправо, но имеют значительный разброс, следовательно, можно сделать предварительный вывод: между переменными Х и Y наблюдается слабая линейная зависимость.

Определим вид переменных Х и Y по типу измерения:

— численность служащих (Х) — количественная дискретная переменная;

— чистый доход (Y) — количественная дискретная переменная.

Так как обе переменные являются количественными, но одна из переменных (Х) не подчиняется нормальному распределению исходя из выводов, сделанных выше, для оценки силы корреляционной зависимости используем коэффициент ранговой корреляции Спирмена:

(6)

гдеd — разность между рангами значений переменных Х и Y;

n — объем выборки (число наблюдаемых пар значений в наборе данных).

Рангом ® называется порядковый номер, который присваивается каждому наблюдаемому значению переменной после упорядочивания. Расчеты сведем в таблицу 2.

Таблица 2. Расчет коэффициента ранговой корреляции

= 0,36 538 462

По таблице 3 дадим интерпретацию полученному коэффициенту ранговой корреляции.

Таблица 3 — Интерпретация коэффициента ранговой корреляции Коэффициент корреляции равен 0,365, что по таблице 3 можно интерпретировать следующим образом: прямая связь средней силы. Точки на поле корреляции сгруппированы вокруг прямой или кривой линии, направленной вверх и вправо, но имеют некоторый разброс, что соответствует выводу, сделанному по полу корреляции.

Для проверки гипотезы о значимости коэффициента ранговой корреляции используется критерий:

(7)

который подчинен распределению Стьюдента с числом степеней свободы = n-2.

По таблице распределения Стьюдента необходимо определим критическую точку для двустороннего уровня значимости б:

б = 0,05 = 10−2 = 23

t_кр(б ;) = t_кр(0,05; 23)= 2,6 866.

Так как Т=1,8825< t_кр=2,6 866, то критерий Т попадает область принятия гипотезы, значит, принимается нулевая гипотеза, т. е. коэффициент корреляции в генеральной совокупности незначим.

3. Моделирование взаимосвязи между переменными У и Х₁ с помощью линейной функции Произведем моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции.

Линейный регрессионный анализ позволяет предсказывать одну переменную на основании другой с использованием прямой линии, характеризующей взаимосвязь между этими переменными: Y = b₀ + b₁? X

Переменную, поведение которой прогнозируют, называют результирующей переменной (Y); переменную, которая используется для прогнозирования, — фактором (Х₁). Коэффициенты b₀ и b₁ называются коэффициентами регрессии.

Угловой коэффициент b₁ показывает наклон линии регрессии, или изменение результирующего показателя Y при изменении фактора Х на единицу. Свободный член b₀ показывает сдвиг линии регрессии по вертикальной оси, т. е. определяет значение результирующего показателя Y при нулевом значении фактора Х.

С помощью метода наименьших квадратов строится уравнение регрессии, которое характеризуется наименьшей суммой квадратов отклонений реальных точек наблюдений от линии регрессии.

Метод наименьших квадратов использует следующие формулы для расчета коэффициентов регрессии:

(6)

(7)

Все необходимые промежуточные расчеты сведем в таблицу 4.

Также для расчета коэффициентов уравнения линейной линейной регрессии и показателей его качества может использоваться режим работы «Регрессия». Результаты, полученные с помощью данного режима, представлены в приложении А.

Таблица 4. Промежуточные расчеты для вычисления коэффициентов регрессии


№ п/п	x	y	x*y	х²
		0,9	38,7
	64,7	1,7	109,99	4186,09
		0,7	16,8
	50,2	1,7	85,34	2520,04
		2,6	275,6
	96,6	1,3	125,58	9331,56
		4,1	1422,7
	85,6	1,6	136,96	7327,36
		6,9	5140,5
	4,1	0,4	1,64	16,81
	56,8	1,3	73,84	3226,24
	42,7	1,9	81,13	1823,29
	61,8	1,9	117,42	3819,24
		1,4	296,8
		0,4
	33,5	0,8	26,8	1122,25
		1,8	255,6
		0,9	86,4
		1,1
	59,3	1,9	112,67	3516,49
		— 0,9	— 117,9
	70,7	1,3	91,91	4998,49
	65,4		130,8	4277,16
	23,1	0,6	13,86	533,61
	80,8	0,7	56,56	6528,64
Среднее значение:	115,4520	1,56	351,028	34 577,2908
	148,7732	1,4393
	22 133,4751	2,0717

Тогда линейное уравнение регрессии будет иметь вид:

Y = 0,6313 + 0,804? X1

Приведем интерпретацию каждого из коэффициентов уравнения регрессии. Угловой коэффициент регрессии (коэффициент наклона) показывает, что если Х1 увеличивается на одну единицу, то У возрастает на 0,804 единицы, т. е. при возрастании численности служащих на 1 тыс.чел., чистый доход У увеличивается на 0,804 млрд долл.

Свободный член уравнения регрессии показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Свободный член регрессии дает прогнозируемое значение У, если Х1 равен 0. То есть при численности служащих в 0 чел., чистый доход составит 0,6313 млрд руб.

Проверим качество построенной модели при уровне значимости 0,05. Если существует значимая линейная взаимосвязь между фактором и результирующим показателем, построенное уравнение регрессии будет адекватно данным генеральной совокупности. Таким образом, проверка адекватности уравнения сводится к проверке значимости линейной взаимосвязи между переменными.

Проверить значимость линейной взаимосвязи можно несколькими способами:

1) проверить значимость углового коэффициента регрессии;

2) проверить значимость коэффициента детерминации.

Оба способа основаны на методе проверки статистических гипотез.

Для проверки углового коэффициента используется критерий Стьюдента:

(8)

гдеb₁ — эмпирический угловой коэффициент регрессии;

S_b₁ — стандартная ошибка углового коэффициента регрессии, которая определяется по формуле:

(9)

гдеSе² и Sе — остаточная дисперсия и стандартная ошибка регрессии соответственно;

Sх — среднее квадратичное отклонение переменной Х.

=0,112

Критерий t_b₁ имеет распределение Стьюдента с числом степеней свободы = n — 2 = 25 — 2 =23

7,1774

Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР (0,05;23)

2,6 866

= 7,1774 > 2,6 866,

то есть значение критерия t_b₁ попадает в одну из критических областей. Вывод:

1) угловой коэффициент признается значимым;

2) существует значимая линейная связь между фактором и результирующим показателем;

3) построенное уравнение адекватно данным генеральной совокупности.

Проверим значимость свободного члена регрессии.

(10)

где b₀ — эмпирический свободный член регрессии;

S_b₀ — стандартная ошибка свободного члена регрессии, которая определяется по формуле:

(11)

0,20 841

= 3,2 912 > 2,6 866, то есть значение критерия t_b₀ попадает в одну из критических областей, то есть значение свободного члена генеральной совокупности значимо.

Определим коэффициент детерминации по формуле:

(12)

где S_y² — дисперсия переменной Y. S_y² = 2,71 667

Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т. е. тем точнее осуществляется предсказание по уравнению регрессии. Промежуточные расчеты сведем в таблицу 5.

Таблица 5. Промежуточные расчеты для вычисления коэффициента детерминации


№	x	y		e=-y	е²
		0,9	0,97 701	0,7 701	0,593 054
	64,7	1,7	1,151 478	— 0,548 522	0,30 087 638
		0,7	0,82 425	0,12 425	0,1 543 806
	50,2	1,7	1,34 898	— 0,665 102	0,44 236 067
		2,6	1,48 353	— 1,11 647	1,24 650 526
	96,6	1,3	1,407 954	0,107 954	0,1 165 407
		4,1	3,42 117	— 0,67 883	0,46 081 017
	85,6	1,6	1,319 514	— 0,280 486	0,786 724
		6,9	6,62 109	— 0,27 891	0,7 779 079
	4,1	0,4	0,664 254	0,264 254	0,6 983 018
	56,8	1,3	1,87 962	— 0,212 038	0,4 496 011
	42,7	1,9	0,974 598	— 0,925 402	0,85 636 886
	61,8	1,9	1,128 162	— 0,771 838	0,5 957 339
		1,4	2,33 577	0,93 577	0,87 566 549
		0,4	1,47 549	1,7 549	1,15 667 874
	33,5	0,8	0,90 063	0,10 063	0,101 264
		1,8	1,77 297	— 0,2 703	0,73 062
		0,9	1,40 313	0,50 313	0,2 531 398
		1,1	1,75 689	0,65 689	0,43 150 447
	59,3	1,9	1,108 062	— 0,791 938	0,6 271 658
		— 0,9	1,68 453	2,58 453	6,67 979 532
	70,7	1,3	1,199 718	— 0,100 282	0,1 005 648
	65,4		1,157 106	— 0,842 894	0,7 104 703
	23,1	0,6	0,817 014	0,217 014	0,4 709 508
	80,8	0,7	1,280 922	0,580 922	0,33 747 037
				Сумма	15,3 468 302

Значение коэффициента детерминации R² = 0,69 134 показывает, что 69% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% - случайностью.

Проверим статистическую значимость уравнения с помощью критерия Фишера.

(13)

Табличное значение критерия рассчитаем как =FРАСПОБР (0,05;1;23).

>, значение критерия F попадает в критическую область, выводы оказываются следующими:

1) коэффициент детерминации признается значимым;

2) существует значимая линейная связь между фактором и результирующим показателем;

3) построенное уравнение адекватно данным генеральной совокупности.

Построим линию регрессии на поле корреляции (рис.4).

Рисунок 4 — Линия регрессии на поле корреляции

Проверим наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01.

Одной из предпосылок МНК является независимость между собой значений случайных отклонений. Если присутствует корреляция между ними, то говорят о наличии автокорреляции остатков. Автокорреляцией остатков называется зависимость между значениями случайных отклонений, упорядоченными по значениям фактора Х.

Наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) е_i и прогнозируемыми значениями результирующего показателя y_i.Значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя — по горизонтальной оси (рис.5).

При анализе диагностической диаграммы можно сделать следующий вывод: между точками на поле взаимосвязи не наблюдается, диаграмма представляет собой облако из точек, расположенных хаотично и неупорядоченно, следовательно, автокорреляция остатков отсутствует, значит, предпосылки МНК выполняются.

Рисунок 5 — Диагностическая диаграмма к определению автокорреляции.

Проверим наличие автокорреляции с помощью критерия Дарбина-Уотсона при уровне значимости 0,01. Упорядочим случайные отклонения по возрастанию значений фактора Х и составим вспомогательную таблицу 6.

Таблица 6. Промежуточные расчеты критерия Дарбина-Уотсона


x	y	y1	e_i	e_i²	e_i-1	e_i— e_i-1	(e_i — e_i-1)²
4,1	0,4	0,664 269	— 0,264 269	0,69 838 131
23,1	0,6	0,817 108	— 0,217 108	0,47 135 748	— 0,264 269	0,471 614	0,222 419
	0,7	0,824 347	— 0,124 347	0,15 462 279	— 0,2 171 077	0,927 603	0,860 447
33,5	0,8	0,900 767	— 0,100 767	0,10 153 934	— 0,1 243 474	0,235 807	0,55 605
42,7	1,9	0,974 773	0,925 227	0,856 045 353	— 0,1 007 667	1,259 939	1,5 266 353
	0,9	0,977 186	— 0,77 186	0,5 957 687	0,9 252 272	— 1,2 413	1,483 231
50,2	1,7	1,35 104	0,664 896	0,442 086 889	— 0,771 861	0,7 420 822	0,55 068 599
56,8	1,3	1,88 195	0,211 805	0,44 861 287	0,6 648 961	— 0,453 091	0,20 529 174
59,3	1,9	1,108 306	0,791 694	0,626 780 158	0,2 118 048	0,5 798 897	0,33 627 201
61,8	1,9	1,128 416	0,771 584	0,595 342 082	0,7 916 945	— 0,2 011	0,40 443
64,7	1,7	1,151 744	0,548 256	0,30 058 479	0,7 715 841	— 0,223 328	0,498 754
65,4		1,157 375	0,842 625	0,710 017 292	0,5 482 561	0,2 943 691	0,8 665 317
70,7	1,3	1,200 009	0,99 991	0,9 998 261	0,8 426 252	— 0,742 634	0,55 150 516
80,8	0,7	1,281 255	— 0,581 255	0,337 856 794	0,999 913	— 0,681 246	0,46 409 584
85,6	1,6	1,319 866	0,280 134	0,78 474 852	— 0,5 812 545	0,8 613 881	0,74 198 952
	0,9	1,403 525	— 0,503 525	0,253 537 839	0,2 801 336	— 0,783 659	0,6 141 215
96,6	1,3	1,408 352	— 0,108 352	0,11 740 133	— 0,5 035 254	0,3 951 735	0,15 616 211
	0,4	1,475 923	— 1,75 923	1,157 609 572	— 0,1 083 519	— 0,967 571	0,93 619 319
	2,6	1,483 967	1,116 033	1,245 530 105	— 1,759 227	2,1 919 559	4,8 046 705
	— 0,9	1,68 507	— 2,58 507	6,682 588 306	1,1 160 332	— 3,701 103	13,6 981 669
	1,1	1,757 468	— 0,657 468	0,432 263 541	— 2,5 850 703	1,9 276 028	3,71 565 236
	1,8	1,773 556	0,26 444	0,699 296	— 0,6 574 675	0,6 839 117	0,46 773 524
	1,4	2,336 646	— 0,936 646	0,877 304 827	0,264 442	— 0,96 309	0,92 754 181
	4,1	3,422 604	0,677 396	0,458 864 983	— 0,9 366 455	1,6 140 413	2,60 512 917
	6,9	6,624 172	0,275 828	0,76 081 345	0,6 773 957	— 0,401 567	0,16 125 627
				15,34 681 548			33,1 422 829

Критерий Дарбина — Уотсона рассчитывается по формуле:

(14)

Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости = 0,01, одной независимой переменной m=1, и числе наблюдений n=25, d_l = 1,033 и d_u = 1,211.

Так как d_u < DW < 4 — d_u (1,033 < 2,160 < 2,789), то можно сделать вывод, что автокорреляция отсутствует.

Проверим наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1 (рис.6).

На диагностической диаграмме заметно увеличение дисперсии при увеличении значений фактора, т. е. можно сделать вывод о наличии гетероскедастичности в построенной регрессионной модели.

Рисунок 6 — Диагностическая диаграмма к определению гетероскедастичности.

Проверим наличие гетероскедастичности в регрессионной модели с помощью теста ранговой корреляции Спирмена. Суть теста ранговой корреляции сводится к оценке коэффициента корреляции между рангами переменной Х и модуля случайных отклонений е.

Ранг — это место данного числового значения среди упорядоченных значений анализируемого показателя.

Коэффициент ранговой корреляции находится по формуле:

(15)

Вспомогательные расчеты оформим в виде таблицы 7.

Проверка правильности составления матрицы на основе исчисления контрольной суммы:

Сумма по столбцам матрицы равны между собой и контрольной суммы, значит, матрица составлена правильно.

Рассчитаем коэффициент ранговой корреляции:

Вывод: между фактором Х и случайными отклонениями е имеется взаимосвязь слабой силы.

Таблица 7. Вспомогательные расчеты к тесту ранговой корреляции


x	y	R (x_i)	e_i		R (e_i)	d_i	d_i²
	0,9		— 0,77 186	0,771 861
64,7	1,7		0,5 482 561	0,5 482 561		— 2
	0,7		— 0,124 347	0,1 243 474		— 3
50,2	1,7		0,6 648 961	0,6 648 961		— 9
	2,6		1,1 160 332	1,1 160 332		— 5
96,6	1,3		— 0,108 352	0,1 083 519
	4,1		0,6 773 957	0,6 773 957
85,6	1,6		0,2 801 336	0,2 801 336
	6,9		0,2 758 285	0,2 758 285
4,1	0,4		— 0,264 269	0,264 269		— 8
56,8	1,3		0,2 118 048	0,2 118 048
42,7	1,9		0,9 252 272	0,9 252 272		— 16
61,8	1,9		0,7 715 841	0,7 715 841		— 8
	1,4		— 0,936 646	0,9 366 455
	0,4		— 1,75 923	1,759 227		— 5
33,5	0,8		— 0,100 767	0,1 007 667
	1,8		0,264 442	0,264 442
	0,9		— 0,503 525	0,5 035 254
	1,1		— 0,657 468	0,6 574 675
59,3	1,9		0,7 916 945	0,7 916 945		— 10
	— 0,9		— 2,58 507	2,5 850 703		— 5
70,7	1,3		0,999 913	0,999 913
65,4			0,8 426 252	0,8 426 252		— 8
23,1	0,6		— 0,217 108	0,2 171 077		— 6
80,8	0,7		— 0,581 255	0,5 812 545

Проверим значимость коэффициента ранговой корреляции при уровне значимости 0,01:

Н₀: r_x_,_e = 0 — коэффициент ранговой корреляции незначим, Н₁: r_x_,_e? 0 — коэффициент ранговой корреляции значим.

Рассчитаем наблюдаемое значение критерия Стьюдента.

Критическое значение критерия Стьюдента при уровне значимости = 0,1 и числе степеней свободы н = n — 2 =25 — 2 =23, = 1,7139. Коэффициент ранговой корреляции признается незначимым, так как наблюдаемое значение Т = 1,5552 меньше чем критическое значение = 1,7139. Зависимость между фактором Х и случайными отклонениями е отсутствует, т. е. наблюдается гомоскедастичность.

4. Моделирование взаимосвязи между переменными с помощью множественной линейной регрессии Прогнозирование одной переменной Y на основании нескольких факторов Х₁, Х₂ и т. д. называется множественной регрессией. Уравнение множественной линейной регрессии для данной задачи выглядит следующим образом:

Y = b₀ + b₁? X₁ + b₂? X₂ (16)

Угловые коэффициенты b₁, b₂ для каждого фактора показывают изменение результирующего показателя Y при изменении данного фактора Х на единицу при условии, что все остальные факторы остаются неизменными. Свободный член b₀ показывает значение результирующего показателя Y при нулевых значениях всех факторов.

Чаще всего для определения коэффициентов уравнения регрессии используется метод наименьших квадратов, который минимизирует сумму квадратов отклонений реальных точек наблюдений от линии регрессии. Вычисление коэффициентов множественной регрессии произведем с помощью функции ЛИНЕЙН, которая дает параметры линейного приближения по методу наименьших квадратов.

ЛИНЕЙН (известные_значения_у; известные_значения_х; константа; статистика)

Результат:

Рассчитывает массив данных, описывающих уравнение линейной регрессии на основе метода наименьших квадратов.

Аргументы:

— известные_значения_у: диапазон значений результирующего показателя Y;

— известные_значения_х: диапазон значений факторов (одновременно выделяются все столбцы, содержащие значения факторов);

— константа: логическое значение: если оно равно 0, свободный член b₀ равен 0;

если оно равно 1, то b₀ вычисляется обычным образом.

— статистика: логическое значение:

если оно равно 0, то функция рассчитывает только коэффициенты регрессии;

если оно равно 1, то функция рассчитывает дополнительную регрессионную статистику.

Полученный результат представлен в таблице 8.

Таблица 8. Результат расчета с помощью функции ЛИНЕЙН


b₀	0,51 383 517	Sb₀	0,1 982 011
b₁	0,565 112	Sb₁	0,14 665
b₂	0,2 407 261	Sb₂	0,105 045
R²	0,75 081 808	Se	0,750 434
F	33,1 444 541	n
ssоб	37,3 306 747	ssост	12,389 325

Уравнение регрессии будет иметь вид:

Y = 0,51 384 + 0,565? X₁ + 0,2 407? X₂

Также для расчета коэффициентов уравнения множественной линейной регрессии и показателей его качества может использоваться режим работы «Регрессия». Результаты, полученные с помощью данного режима, представлены в приложении Б.

Дадим словесную интерпретацию коэффициентов уравнения регрессии. b₀ — свободный член. Показывает, что при нулевых значениях X₁ и X₂ значение результирующего показателя будет равно 0,51 384. Коэффициент b₁ показывает, что при увеличении численности на 1 тыс.чел. чистый доход увеличится на 1 млрд долл. при постоянном объеме использованного капитала, коэффициент b₂ показывает, что при увеличении использованного капитала на 1 млрд долл. чистый доход увеличится на 1 млрд долл. при постоянной численности служащих.

5. Проверка качества модели, построенной с помощью множественной регрессии Рассчитаем стандартную ошибку регрессии, которая для многомерных данных определяется следующим образом:

(17)

где m — число факторов Х.

Стандартная ошибка регрессии показывает величину, на которую в среднем отклоняются реальные наблюдаемые значения y_i от прогнозируемых по уравнению регрессии y_i. Чем меньше величина стандартной ошибки регрессии, тем более точными окажутся прогнозы, выполненные на основании уравнения регрессии.

= 0,75 043

Рассчитаем коэффициент детерминации. В случае множественной регрессии коэффициент детерминации показывает, какую долю разброса результирующего показателя Y можно объяснить с помощью используемых в уравнении регрессии m факторов. С увеличением коэффициента детерминации, точность прогнозирования по уравнению регрессии возрастает.

(18)

Это означает, что 75% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием факторов х1 и х2), а 25% - случайностью.

Выводы, сделанные на основе стандартной ошибки регрессии или коэффициента детерминации, относятся лишь к эмпирическим данным. Каким бы качественным не было построенное уравнение по отношению к эмпирическим данным, может оказаться, что в генеральной совокупности связь между переменными отсутствует вовсе, и выявленная сильная линейная связь — просто случайность, основанная на случайно отобранной выборке.

Проверка адекватности эмпирического уравнения регрессии данным генеральной совокупности осуществляется с помощью проверки значимости коэффициента детерминации. Цель этой проверки заключается в том, чтобы выяснить, объясняет ли совместное влияние всех m факторов значительную долю разброса переменной Y.

Нулевая и альтернативная гипотезы формулируются следующим образом:

Н₀: R² = 0 — значение коэффициента детерминации незначимо, совместное влияние m факторов объясняет незначительную долю разброса переменной Y.

Н₁: R² > 0 — значение коэффициента детерминации значимо, совместное влияние m факторов объясняет значительную долю разброса переменной Y.

Для проверки используется критерий Фишера:

(19)

Критерий F имеет распределение Фишера с числами степеней свободы ₁ = m=2 и ₂ = n-m-1=22.

Найдем табличное значение критерия Фишера. Для этого воспользуемся функцией =FРАСПОБР (0,05;2;22). F_табл = 3,4 433 568.

Так как F_расч = 33,1444 > F_табл = 3,4 433 568, то значение критерия попадает в критическую область, т. е. мы отказываемся от нулевой гипотезы и принимаем альтернативную. Отсюда следуют выводы:

1) коэффициент детерминации признается значимым;

2) существует значимая линейная связь между факторами и результирующими показателями;

3) построенное уравнение адекватно данным генеральной совокупности.

Поскольку регрессия оказалась значимой, то можно продолжить проверку качества уравнения регрессии, используя гипотезы о значимости коэффициентов регрессии.

Значимость коэффициента детерминации (значимость регрессии) показывает, что один или несколько (может быть и все) из используемых в уравнении m факторов вместе значимо влияют на результирующий показатель Y. При этом неизвестно, какие из факторов действительно влияют на результат, а какие нет.

Если выяснить, какие из используемых факторов не влияют на результат, их можно исключить из уравнения регрессии без снижения его качества. При этом уравнение может значительно упроститься, что существенно для его использования. Проверка значимости каждого из коэффициентов регрессии b_j показывает, насколько значимым является влияние соответствующего фактора Х_j на Y при условии, что все остальные факторы остаются неизменными.

Проверку значимости коэффициентов регрессии осуществим с помощью критерия Стьюдента. Проверка гипотезы о значимости любого из коэффициентов регрессии осуществляется следующим образом:

Н₀: _j = 0 — значение теоретического коэффициента регрессии незначимо, фактор X_j не влияет на результирующий показатель.

Н₁: _j? 0 — значение теоретического коэффициента регрессии значимо, фактор X_j влияет на результирующий показатель.

Для проверки используется критерий Стьюдента:

(20)

Критерий t_bj имеет распределение Стьюдента с числом степеней свободы = n-m-1.

1) свободный член регрессии b₀ = 0,51 383 517_. Стандартная ошибка регрессии Sb₀ = 0,1 982 011. Фактическое значение критерия Стьюдента Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР (0,05;22)

2,7 387

= 2,5925 > 2,7 387, то есть значение критерия попадает в одну из критических областей. Отсюда делаем вывод, что свободный член регрессии признается значимым.

2) коэффициент регрессии b₁ = 0,565. Стандартная ошибка регрессии Sb₁ = 0,147. Фактическое значение критерия Стьюдента

= 3,85 353 > 2,7 387, то есть значение критерия попадает в одну из критических областей. Отсюда делаем вывод, что коэффициент регрессии b₁ признается значимым.

3) коэффициент регрессии b₂ = 0,24 073. Стандартная ошибка регрессии Sb₂ = 0,10 504. Фактическое значение критерия Стьюдента

= 2,29 165 > 2,7 387, то есть значение критерия попадает в одну из критических областей. Отсюда делаем вывод, что коэффициент регрессии b₂ признается значимым.

Чтобы сравнить влияние различных факторов на результирующий показатель, следует сравнить коэффициенты корреляции между каждым из этих факторов и результирующим показателем r_Xj_,_Y. Для этого воспользуемся функцией =КОРРЕЛ (массив1;массив2).

Влияние фактора 1: коэффициент корреляции r_X_1,_Y = 0,8 314 657

Влияние фактора 2: коэффициент корреляции r_X_2,_Y = 0,7 695 045.

Для фактора Х1 коэффициент корреляции больше r_X_1,_Y = 0,8 314 657 > r_X_2,_Y = 0,7 695 045, поэтому фактор 1 (численность служащих) сильнее влияет на результирующий показатель (чистый доход).

Статистические выводы о качестве уравнения регрессии будут обоснованными только в том случае, если выполняются определенные условия относительно свойств случайного отклонения, называемые предпосылками метода наименьших квадратов (МНК). Если предпосылки МНК не выполняются, могут быть существенные проблемы с интерпретацией полученных выводов. Поэтому, построив уравнение регрессии, необходимо проверить выполнение этих условий.

Наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) е_i и прогнозируемыми значениями результирующего показателя y_i. Значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя — по горизонтальной оси (рис.7).

Возможные варианты интерпретации структуры диагностической диаграммы приведены в таблице 9.

Таблица 9. Интерпретация диагностической диаграммы


Структура диагностической диаграммы	Интерпретация
Явная взаимосвязь отсутствует	Никаких проблем не обнаружено
Заметна линейная или нелинейная взаимосвязь — присутствует автокорреляция остатков, при этом одно или несколько значений могут резко отклоняться	По-видимому, данные связаны нелинейной связью. Качество уравнения можно повысить, воспользовавшись нелинейной регрессией или добавив в уравнение новую переменную
Дисперсия случайных отклонений различается для разных значений y_i — присутствует гетероскедастичность	Прогнозы, сделанные на основании этого уравнения, недостаточно точны. Для улучшения качества уравнения необходимо устранить гетероскедастичность

Рисунок 7. Диагностическая диаграмма.

По виду диагностической диаграммы можно сделать вывод: точки расположены хаотично, явная взаимосвязь отсутствует, поэтому никаких проблем не обнаружено.

Критерий Дарбина — Уотсона рассчитывается по формуле:

(14)

Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости = 0,01, двух независимых переменных m=2, и числе наблюдений n=25, d_l = 0,981 и d_u = 1,303.

Так как d_u < DW < 4 — d_u (0,981 < 1,253 < 2,697), то можно сделать вывод, что автокорреляция отсутствует.

Таблица 10. Вспомогательные расчеты к вычислению критерия Дарбина-Уотсона


x1	х2	у		e_i	e_i²	e_i-1	e_i— e_i-1	(e_i — e_i-1)²
4,1	1,4	0,9	0,5 707 064	0,32 929 358	0,10 843 426
23,1	1,9	1,7	0,690 114	1,9 885 977	1,1 986 969	0,32 929 358	0,6 805 924	0,463 206
	18,5	0,7	1,948 054	— 0,39 480 536	0,15 587 127	1,988 598	— 1,404 691	1,973 158
33,5	3,2	1,7	0,7 801 801	0,919 819 925	0,8 460 687	— 0,3 948 054	1,3 146 253	1,72 824
42,7	18,9	2,6	1,2 101 104	1,389 889 633	1,93 179 319	0,91 981 993	0,4 700 697	0,220 966
	18,9	1,3	1,2 118 057	0,88 194 297	0,777 823	1,38 988 963	— 1,301 695	1,694 411
50,2	4,8	4,1	0,91 307	3,186 930 029	10,156 523	0,881 943	3,987 357	9,602 163
56,8		1,6	1,273 997	0,572 600 278	0,32 787 108	3,18 693 003	— 2,61 433	6,83 472
59,3	11,9	6,9	1,1 354 107	5,764 589 296	33,2 304 898	0,57 260 028	5,191 989	26,95 675
61,8	13,2	0,4	1,1 808 329	— 0,7 808 329	0,60 970 002	5,7 645 893	— 6,545 422	42,84 255
64,7	13,7	1,3	1,2 092 575	0,90 742 544	0,823 421	— 0,7 808 329	0,8 715 754	0,759 644
65,4	11,5	1,9	1,1 602 535	0,739 746 502	0,54 722 489	0,9 074 254	0,649 004	0,421 206
70,7	8,6	1,9	1,1 203 939	0,77 960 613	0,60 778 572	0,7 397 465	0,398 596	0,1 589
80,8	5,8	1,4	1,1 100 669	0,289 933 117	0,8 406 121	0,77 960 613	— 0,489 673	0,23 978
85,6	20,1	0,4	1,4 814 306	— 1,81 430 589	1,16 949 212	0,28 993 312	— 1,371 364	1,880 638
	6,9	0,8	1,2 224 438	— 0,422 443 793	0,17 845 876	— 1,814 306	0,6 589 868	0,434 264
96,6	5,8	1,8	1,1 993 546	0,600 645 405	0,3 607 749	— 0,4 224 438	1,230 892	1,46 712
	12,2	0,9	1,4 008 887	— 0,500 888 716	0,25 088 951	0,60 064 541	— 1,101 534	1,213 377
	21,8	1,1	1,6 376 369	— 0,537 636 894	0,28 905 343	— 0,5 008 887	— 0,36 748	0,135
	1,6	1,9	1,2 926 482	0,607 351 806	0,36 887 622	— 0,5 376 369	1,1 449 887	1,310 999
		— 0,9	1,6 660 813	— 2,566 081 258	6,58 477 302	0,60 735 181	— 3,173 433	10,7 068
		1,3	1,6 292 383	— 0,32 923 828	0,10 839 785	— 2,5 660 813	2,236 843	5,3 467
	12,6		2,151 877	— 0,15 187 705	0,23 067	— 0,3 292 383	0,3 140 506	0,98 628
		0,6	4,8 579 626	— 4,257 962 553	18,1 302 451	— 0,151 877	— 4,242 775	18,114
	60,6	0,7	6,1 827 205	— 5,482 720 473	30,602 238	— 4,2 579 626	— 1,224 758	1,500 032
					107,143 121			134,2997

6. Сравнение качества моделей, построенных с помощью линейной регрессии и множественной регрессии

Линейное уравнение регрессии имеет вид: Y = 0,6313 + 0,804? X1. Здесь не учитывается влияние на результирующий показатель фактора Х2. Путем проверки качества построенной модели можно сделать следующие выводы:

1) оба коэффициента уравнения регрессии значимы;

2) существует значимая линейная связь между фактором и результирующим показателем;

3) значение коэффициента детерминации признается значимым;

4) построенное уравнение адекватно данным генеральной совокупности;

5) в модели отсутствует автокорреляция остатков и присутствует гомоскедастичность.

6) Значение коэффициента детерминации R² = 0,69 134 показывает, что 69% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% - случайностью.

Уравнение множественной регрессии имеет вид:

Y = 0,51 384 + 0,565? X₁ +0,2 407? X₂

В данной модели учитывается влияние на результат обеих факторов.

Путем проверки качества построенной модели можно сделать следующие выводы:

1) все коэффициенты уравнения регрессии значимы;

2) значение коэффициента детерминации признается значимым;

3) построенное уравнение адекватно данным генеральной совокупности;

4) в модели отсутствует автокорреляция остатков.

5) Для фактора Х1 коэффициент корреляции больше r_X_1,_Y = 0,8 314 657 > r_X_2,_Y = 0,7 695 045, поэтому фактор 1 (численность служащих) сильнее влияет на результирующий показатель (чистый доход).

Значение коэффициента детерминации R² = 0,75 082 показывает, что 75% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием факторов х1 и х2), а 25% - случайностью.

Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т. е. тем точнее осуществляется предсказание по уравнению регрессии. Если сравнивать коэффициенты детерминации построенных моделей, то для модели множественной регрессии коэффициент детерминации больше.

R² _множ= 0,75 082 > R² _лин= 0,69 134,

поэтому точнее осуществляется предсказание результирующего показателя по уравнению множественной регрессии.

Рассчитаем 99%-ные доверительные интервалы для теоретических коэффициентов множественной регрессии.

Для любого из коэффициентов доверительный интервал строится следующим образом:

(b — tкр? S_b; b + tкр? S_b) (15)

гдеb — эмпирический коэффициент регрессии

S_b — стандартная ошибка соответствующего коэффициента;

tкр — критическое (табличное) значение коэффициента Стьюдента, рассчитанное при числе степеней свободы = n-2.

1) свободный член регрессии b₀ = 0,5138_. Стандартная ошибка регрессии Sb₀ = 0,1982. Найдем табличный критерий Стьюдента для уровня значимости 0,01. Для этого используем функцию =СТЬЮДРАСПОБР (0,01;22)

2,8073. Доверительный интервал нижняя граница 0,5138 — 2,8073? 0,1982=-0,4 258

верхняя граница 0,5138 + 2,8073? 0,1982=1,70 252

2) коэффициент регрессии b₁ = 0,565. Стандартная ошибка регрессии Sb₁ = 0,147. Доверительный интервал нижняя граница 0,565 — 2,8073? 0,147=0,1 534

верхняя граница 0,565 + 2,8073? 0,147=0,9 768

3) коэффициент регрессии b₂ = 0,2 407. Стандартная ошибка регрессии Sb₂ = 0,0105. Доверительный интервал нижняя граница 0,2 407 — 2,8073? 0,0105= -0,542

верхняя граница 0,2 407 + 2,8073? 0,0105= 0,53 562

7. Расчет точечного прогноза по заданным значениям По уравнению множественной регрессии

Y = 0,51 384 + 0,565? X₁ +0,2 407? X₂

как наилучшей модели, рассчитаем точечный прогноз среднего значения чистого дохода при значениях численности служащих 100 тыс. чел. и стоимости использованного капитала 30 млрд долл.

Y = 0,51 384 + 0,565? 100 +0,2 407? 30

Y = 1,8011 млрд долл.

1. Е. Д. Саяпина. Задания и методические указания по выполнению курсовой работы по курсу «Эконометрика», Новомосковск, 2013

2. Эконометрика. Книги 1 и 2. (Учебник) Носко В. П. (2011, 672с. и 576с.)

3. Эконометрика. (Учебник) Под ред. Уткина В. Б. (2012, 564с.)

4. Эконометрика. (Учебно-метод. пособие) Шалабанов А. К., Роганов Д. А. (КазГУ; 2008, 198с.)

5. Эконометрика в схемах и таблицах. (Учебное пособие) Под ред. Орехова С. А. (2008, 224с.)

6. Эконометрика. (Учебник) Кремер Н. Ш., Путко Б. А. (2010, 328с.)

Приложение, А Коэффициенты уравнения линейной регрессии и показателей его качества полученные с помощью режим работы «Регрессия»

Приложение Б Коэффициенты уравнения множественной регрессии и показателей его качества полученные с помощью режим работы «Регрессия»

Показать весь текст

Заполнить форму текущей работой