Метод наименьших квадратов для однофакторной линейной регрессии

КонтрольнаяПомощь в написанииУзнать стоимостьмоей работы

Уравнение вида Y = а + bx позволяет по заданным значениям фактора x иметь теоретические значения результативного признака, подставляя в него фактические значения фактора X. На графике теоретические значения представляют линию регрессии. Убыточность выращивания овощей в сельскохозяйственных предприятиях и уровни факторов (сбор овощей с 1 га, ц и затраты труда, человеко-часов на 1 ц… Читать ещё >

Метод наименьших квадратов для однофакторной линейной регрессии (реферат, курсовая, диплом, контрольная)

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ

КАФЕДРА ПРИКЛАДНОЙ МАТЕМАТИКИ

КОНТРОЛЬНАЯ РАБОТА

ПО ДИСЦИПЛИНЕ

«ЭКОНОМЕТРИКА»

Задания к контрольной работе:

1. Метод наименьших квадратов для однофакторной линейной регрессии

2. Найти коэффициент эластичности для указанной модели в заданной точке X. Сделать экономический анализ.

Модель: Y = (2/X) + 5; X = 0;

3. Убыточность выращивания овощей в сельскохозяйственных предприятиях и уровни факторов (сбор овощей с 1 га, ц и затраты труда, человеко-часов на 1 ц), ее формирующих, характеризуются следующими данными за год:


№ района	Фактор	Уровень убыточности, %
	Сбор овощей с 1 га, ц	Затраты труда, человеко-часов на 1 ц
	93,2	2,3	8,8
	65,9	26,8	39,4
	44,6	22,8	26,2
	18,7	56,6	78,8
	64,6	16,4
	25,6	26,5	47,6
	47,2		43,7
	48,2	12,4	23,6
	64,1		19,9
	30,3	41,7
	28,4	47,9	63,1
	47,8	32,4	44,2
	101,3	20,2	11,2
	31,4	39,6	52,8
	67,6	18,4	20,2

Нелинейную зависимость принять

1. Метод наименьших квадратов для однофакторной линейной регрессии

Линейная регрессия находит широкое применение в эконометрике в виде четкой эконометрической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида:

Y = а + bx или Y = a + bx + ?;

Рисунок 1 — Графическая оценка параметров линейной регрессии Построение линейной регрессии сводится к оценке ее параметров — а и b. Оценки параметров линейной регрессии могут быть найдены разными методами. Можно обратится к полю корреляции и, выбрав на графике две точки, провести через них прямую линию. Далее по графику можно определить значения параметров. Параметр a определим как точку пересечения линии регрессии с осью OY, а параметр b оценим, исходя из угла наклона линии регрессии, как dy/dx, где dy — приращение результата y, а dx — приращение фактора x, т. е. Y = а + bx.

Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака (y) от расчетных (теоретических) минимальна:

?(Y_i — Y _xi)² > min

Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной.

?_i = Y_i — Y _xi.

следовательно ??_i² > min

Рисунок 2 — Линия регрессии с минимальной дисперсией остатков Чтобы найти минимум функции, надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю.

Обозначим ??_i² через S, тогда

S =? (YY _xi₎² =?(Y-a-bx)²;

Дифференцируем данное выражение, решаем систему нормальных уравнений, получаем следующую формулу расчета оценки параметра b:

b = (ух — у*x)/(x²-x²).

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Например, если в функции издержек Y = 3000 + 2x (где x — количество единиц продукции, у — издержки, тыс. грн.) с увеличением объема продукции на 1 ед. издержки производства возрастают в среднем на 2 тыс. грн., т. е. дополнительный прирост продукции на ед. потребует увеличения затрат в среднем на 2 тыс. грн.

Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.

2. Найти коэффициент эластичности для указанной модели в заданной точке X. Сделать экономический анализ.

Модель: Y = (2/X) + 5; X = 0;

Известно, что коэффициент эластичности показывает, на сколько процентов изменится в среднем результат, если фактор изменится на 1%. Формула расчета коэффициента эластичности:

Э = f?(x) X/Y,

где f?(x) — первая производная, характеризующая соотношение прироста результата и фактора для соответствующей формы связи.

Y = (2/X) + 5,

f?(x) = -2/x²;

Следовательно получим следующее математическое выражение Э = =

При заданном значении X = 0 получим, что коэффициент эластичности равен Э = -1.

Допустим, что заданная функция Y = (2/X) + 5 определяет зависимость спроса от цены. В этом случае с ростом цены на 1% спрос снижается в среднем на 1%.


№ района	Фактор	Уровень убыточности, %
	Сбор овощей с 1 га, ц	Затраты труда, человеко-часов на 1 ц
	93,2	2,3	8,8
	65,9	26,8	39,4
	44,6	22,8	26,2
	18,7	56,6	78,8
	64,6	16,4
	25,6	26,5	47,6
	47,2		43,7
	48,2	12,4	23,6
	64,1		19,9
	30,3	41,7
	28,4	47,9	63,1
	47,8	32,4	44,2
	101,3	20,2	11,2
	31,4	39,6	52,8
	67,6	18,4	20,2

Нелинейную зависимость принять Задание № 1

Построим линейную зависимость показателя от первого фактора.

Обозначим: сбор овощей с 1 Га как X₁, а уровень убыточности как Y.


Сбор овощей с 1 га, ц	Уровень убыточности, %
X₁	Y
93,2	8,8
65,9	39,4
44,6	26,2
18,7	78,8
64,6
25,6	47,6
47,2	43,7
48,2	23,6
64,1	19,9
30,3
28,4	63,1
47,8	44,2
101,3	11,2
31,4	52,8
67,6	20,2

Найдем основные числовые характеристики.

1. Объем выборки n = 15 — суммарное число наблюдений.

2. Минимальное значение величины сбора овощей Х=18,7;

Максимальное значение сбора овощей Х=101,3;

Минимальное значение величины уровня убыточности Y=8,8;

Максимальное значение величины уровня убыточности Y=78,8;

3. Среднее значение:

X = ?x_i.

Среднее значение величины сбора овощей X = 778,9/15 = 51,926.

Среднее значение величины уровня убыточности Y = 563,5/15 = 37,566.

4. Дисперсия

D (X) =? (X_i — X)² = 588.35 D (Y) = ?(Y_i — Y)² = 385,57.

5. Среднеквадратическое отклонение:

?_x=v588.35 = 24.25, значит среднее сбора овощей в среднем от среднего значения составляет 24,25%.

?_y=v385.17 = 19.63, значит среднее уровня убыточности всей сельскохозяйственной продукции в среднем от среднего значения составляет 19,63%.

Для начала нужно определить, связаны ли X₁ и Y между собой, и, если да, то определить формулу связи. По таблице строим корреляционное поле (диаграмму рассеивания). Точка с координатами (X, Y) = (51,926; 37,566) называется центром рассеяния. По виде корреляционного поля можно предположить, что зависимость между X₁ и Y линейная (стр.). Для определения тесноты линейной связи найдем коэффициент корреляции:

?(X_i — X) (Y_i — Y)

r_xy = = 403.64 / 24.25×19,63 = 0,856;

Так как 0,6? r_xy <0,9 то линейная связь между X₁ и Y — достаточная. Попытаемся описать связь между X₁ и Y зависимостью Y=b₀+b₁X. Параметры b₀, b₁ найдем по МНК.

b₁ = r_xy ?_x ?_y ₌ -0,856×19,63. 24,25 = -0,696;

b₀ = y — b₁X = 37.566 + 0.696×51.92 = 73.70

Так как b₁ < 0, то зависимость между X₁ и Y обратная: с ростом сбора овощей уровень убыточности сельскохозяйственной продукции падает. Проверим значимость коэффициентов b₀, b₁.

Значимость коэффициентов b может быть проверена с помощью критерия Стьюдента:

t_набл = b₀/?_b₀ = 73.70/6.53 = 11.28;

Значимость t_набл равна 0,7, т. е. 0,7%. Так как это значение меньше 5%, то коэффициент b₀ статистически значим.

t_набл = b₁/?_b₁ = -0,696/0,1146 = -6,0716;

Значимость t_набл равна 0,39, т. е. 0,0039%. Так как это значение меньше 5%, то коэффициент b₁ статистически значим.

Получили модель связи сбора овощей и уровня убыточности сельскохозяйственной продукции:

Y = 73.70 — 0.6960X

После того, как была построена модель, необходимо проверить ее на адекватность.

Разброс данных, объясняемый регрессией SSR = ?(?-y)² = 3990,5;

Остатки, необъясненный разброс SSЕ = ?(?-y_i)² = 1407,25;

Общий разброс данных SSY = ?(y_i-y)² = 5397,85;

Для анализа общего качества оценной линейной регрессии найдем коэффициент детерминации: R² = SSR/SSY = 0.7192;

Разброс данных объясняется линейной моделью на 72% и на 28% - случайными ошибками.

Вывод: Качество модели хорошее Проверим с помощью критерия Фишера. Для проверки этой гипотезы сравниваются между собой величины:

MSR = SSR / K₁ = 3990.5946/ K₁ = 3990.5946. Отсюда K₁ = 1.

MSE = SSE / K₂ = 1407.25 / K₂ = 108.25. Отсюда K₂ = 13.

Находим наблюдаемое значение критерия Фишера F_набл= MSR/MSE.

Значимость этого значения? = 0,4, т. е. процент ошибки равен 0,004%. Так как это значение меньше 5%, то найденная модель считается адекватной.

Найдем прогноз на основании линейной регрессии. Выберем произвольную точку из области прогноза [18.7; 101.3]. Допустим это точка X₁ = 50.

Рассчитываем прогнозные значения по модели для всех точек выборки и для точки прогноза Y_{(х = 50)} = 73.7085 — 0.6960×50 = 38.9.

Найдем полуширину доверительного интервала в каждой точке выборки X_пр

Отсюда получим, что? = 23,22.

В приведенной формуле:

?_е = MSE = 108.25 = 10.40 — среднеквадратичное отклонение выборочных точек от линии регрессии.

t_y = 2,16 — критическая точка распределения Стъюдента для надежности? = 0,95 и K₂ = 13 при n = 15.

SX = ?(x_i-x)² или

SX = (n — 1) х D (X) = 14×588×39 = 8237,46;

Прогнозируемый доверительный интервал для любого X₁ такой (? — ?;? + ?).

Совокупность доверительных интервалов для всех X₁ из области прогнозов образует доверительную область, которая представляет область заключения между двумя гиперболами. Наиболее узкое место в точке X.

Прогноз для Х₁ составит от 15,7 до 62,1 с гарантией 95%. То есть можно сказать, что при сборе овощей 50 центнеров с 1 га уровень убыточности сельскохозяйственной продукции можно спрогнозировать на уровне 15,7% - 62,1%.

Найдем эластичность Y = 73.70 — 0.6960X.

В нашем случае (для линейной модели) E_x = -0.6960X/(73.70 — 0.6960X).

В численном выражении это составит:

E_х=50 = -0,6960?50 / (73.70 — 0.6960?50) = - 0,8946;

Коэффициент эластичности показывает, что при изменении величины Х₁ на 1% показатель Y уменьшается на 0,8946%.

Например, если Х₁ = 50,5 (т.е. увеличился на 1%), то Y = 38.9 + 38.9?(-0,8 946) = 38,5 520 006.

Проверим и Y_{х =50,5} = 73.70 — 0.6960X = 73.70 — 0.6960? 50,50 = 38,552.

Задание № 2

Построим нелинейную зависимость показателя от второго фактора.

Обозначим: затраты труда, человеко-часов на 1 ц — X₂, а уровень убыточности как Y.


Затраты труда, человеко-часов на 1 ц	Уровень убыточности
X2	Y
2,3	8,8
26,8	39,4
22,8	26,2
56,6	78,8
16,4
26,5	47,6
	43,7
12,4	23,6
	19,9
41,7
47,9	63,1
32,4	44,2
20,2	11,2
39,6	52,8
18,4	20,2

Найдем основные числовые характеристики.

6. Объем выборки n = 15 — суммарное число наблюдений.

7. Минимальное значение величины трудоемкости Х₂=2,3;

Максимальное значение трудоемкости Х₂=56,6;

Минимальное значение величины уровня убыточности Y=8,8;

Максимальное значение величины уровня убыточности Y=78,8;

8. Среднее значение:

X = ?x_i.

Среднее значение величины трудоемкости X₂ = 321,8/15 = 26,816.

Среднее значение величины уровня убыточности Y = 563,5/15 = 37,566.

9. Дисперсия

D (X) =? (X_i — X)² = 254,66 D (Y) = ?(Y_i — Y)² = 385,56

10. Среднеквадратическое отклонение:

?_x=v254,66 = 15,95 значит среднее трудоемкости в среднем от среднего значения составляет 15,95%.

Для начала нужно определить, связаны ли X₁ и Y между собой, и, если да, то определить формулу связи. По таблице строим корреляционное поле (диаграмму рассеивания). Точка с координатами (X, Y) = (26,816; 37,566) называется центром рассеяния. По виде корреляционного поля можно предположить, что зависимость между X₁ и Y нелинейная (стр.), а именно имеет зависимость .

Путем преобразования нелинейную зависимость приведем к линейной V = b₀ + b₁U.

Для начала заменим переменные U = x, а V = ln (Y).

Найдем конкретные значения V и U (стр.), затем строим корреляционное поле (стр.) и находим результаты регрессивной статистики.

Для определения тесноты линейной связи V = b₀ + b₁U найдем коэффициент корреляции:

?(U_i — U) (V_i — V)

r_vu = = 403.64 / 24.25×19,63 = 0,856;

b₁ = r_vu ?_v ?_u ₌ -0,856×19,63. 24,25 = -0,696;

b₀ = y — b₁X = 37.566 + 0.696×51.92 = 73.70

Значимость коэффициентов b может быть проверена с помощью критерия Стьюдента:

t_набл = b₀/?_b₀ = 73.70/6.53 = 11.28;

Значимость t_набл равна 0,7, т. е. 0,7%. Так как это значение меньше 5%, то коэффициент b₀ статистически значим.

t_набл = b₁/?_b₁ = -0,696/0,1146 = -6,0716;

Значимость t_набл равна 0,39, т. е. 0,0039%. Так как это значение меньше 5%, то коэффициент b₁ статистически значим.

Получили модель связи сбора овощей и уровня убыточности сельскохозяйственной продукции:

Y = 73.70 — 0.6960X

После того, как была построена модель, необходимо проверить ее на адекватность.

Разброс данных, объясняемый регрессией SSR = ?(?-y)² = 3990,5;

Остатки, необъясненный разброс SSЕ = ?(?-y_i)² = 1407,25;

Общий разброс данных SSY = ?(y_i-y)² = 5397,85;

Для анализа общего качества оценной линейной регрессии найдем коэффициент детерминации: R² = SSR/SSY = 0.7192;

Разброс данных объясняется линейной моделью на 72% и на 28% - случайными ошибками.

MSR = SSR / K₁ = 3990.5946/ K₁ = 3990.5946. Отсюда K₁ = 1.

MSE = SSE / K₂ = 1407.25 / K₂ = 108.25. Отсюда K₂ = 13.

Находим наблюдаемое значение критерия Фишера F_набл= MSR/MSE.

Найдем полуширину доверительного интервала в каждой точке выборки X_пр

Отсюда получим, что? = 23,20.

В приведенной формуле:

?_е = MSE = 108.25 = 10.40 — среднеквадратичное отклонение выборочных точек от линии регрессии.

t_y = 2,16 — критическая точка распределения Стъюдента для надежности? = 0,95 и K₂ = 13 при n = 15.

SX = ?(x_i-x)² или

SX = (n — 1) х D (X) = 14×588×39 = 8237,46;

Прогнозируемый доверительный интервал для любого X₁ такой (? — ?;? + ?).

Найдем эластичность Y = 73.70 — 0.6960X.

В нашем случае (для линейной модели) E_x = -0.6960X/(73.70 — 0.6960X).

В численном выражении это составит:

E_х=50 = -0,6960?50 / (73.70 — 0.6960?50) = - 0,8946;

Коэффициент эластичности показывает, что при изменении величины Х₁ на 1% показатель Y уменьшается на 0,8946%.

Например, если Х₁ = 50,5 (т.е. увеличился на 1%), то Y = 38.9 + 38.9?(-0,8 946) = 38,5 520 006.

Проверим и Y_{х =50,5} = 73.70 — 0.6960X = 73.70 — 0.6960? 50,50 = 38,552.

Задание № 3


Сбор овощей с 1 га, ц	Затраты труда, человеко-часов на 1 ц	Уровень убыточности
X1	X2	Y
93,2	2,3	8,8
65,9	26,8	39,4
44,6	22,8	26,2
18,7	56,6	78,8
64,6	16,4
25,6	26,5	47,6
47,2		43,7
48,2	12,4	23,6
64,1		19,9
30,3	41,7
28,4	47,9	63,1
47,8	32,4	44,2
101,3	20,2	11,2
31,4	39,6	52,8
67,6	18,4	20,2

Построим линейную зависимость показателя от двух факторов.

Обозначим: сбор овощей с 1 га как X₁, затраты труда, человеко-часов на 1 ц — X₂, а уровень убыточности как Y.

Найдем основные числовые характеристики.

1. Объем выборки n = 15 — суммарное число наблюдений

2. Минимальное значение величины сбора овощей Х₁=18,7;

Максимальное значение сбора овощей Х₁=101,3;

Минимальное значение величины трудоемкости Х₂=2,3;

Максимальное значение трудоемкости Х₂=56,6;

Минимальное значение величины уровня убыточности Y=8,8;

Максимальное значение величины уровня убыточности Y=78,8;

3. Среднее значение:

X = ?x_i.

Среднее значение величины сбора овощей X = 778,9/15 = 51,926.

Среднее значение величины трудоемкости X₂ = 321,8/15 = 26,816.

Среднее значение величины уровня убыточности Y = 563,5/15 = 37,566.

4. Дисперсия

D (X) =? (X_i — X)² = 254,66 D (Y) = ?(Y_i — Y)² = 385,56

5. Среднеквадратическое отклонение:

?_x=v254,66 = 15,95 значит среднее трудоемкости в среднем от среднего значения составляет 15,95%.

Для начала нужно определить, связаны ли X₁ и Y между собой, и, если да, то определить формулу связи. По таблице строим корреляционное поле (диаграмму рассеивания). Точка с координатами (X, Y) = (26,816; 37,566) называется центром рассеяния. По виде корреляционного поля можно предположить, что зависимость между X₁ и Y нелинейная (стр.), а именно имеет зависимость .

Путем преобразования нелинейную зависимость приведем к линейной V = b₀ + b₁U.

Для начала заменим переменные U = x, а V = ln (Y).

Для определения тесноты линейной связи V = b₀ + b₁U найдем коэффициент корреляции:

?(U_i — U) (V_i — V)

r_vu = = 403.64 / 24.25×19,63 = 0,856;

и₁ = к_чн ?_н_. ?_ч ₌ -0,856×19,63. 24,25 = -0,696;

b₀ = y — b₁X = 37.566 + 0.696×51.92 = 73.70

Значимость коэффициентов b может быть проверена с помощью критерия Стьюдента:

t_набл = b₀/?_b₀ = 73.70/6.53 = 11.28;

t_набл = b₁/?_b₁ = -0,696/0,1146 = -6,0716;

Значимость t_набл равна 0,39, т. е. 0,0039%. Так как это значение меньше 5%, то коэффициент b₁ статистически значим.

Получили модель связи сбора овощей и уровня убыточности сельскохозяйственной продукции:

Y = 73.70 — 0.6960X

После того, как была построена модель, необходимо проверить ее на адекватность.

Разброс данных, объясняемый регрессией SSR = ?(?-y)² = 3990,5;

Остатки, необъясненный разброс SSЕ = ?(?-y_i)² = 1407,25;

Общий разброс данных SSY = ?(y_i-y)² = 5397,85;

Для анализа общего качества оценной линейной регрессии найдем коэффициент детерминации: R² = SSR/SSY = 0.7192;

Разброс данных объясняется линейной моделью на 72% и на 28% - случайными ошибками.

MSR = SSR / K₁ = 3990.5946/ K₁ = 3990.5946. Отсюда K₁ = 1.

MSE = SSE / K₂ = 1407.25 / K₂ = 108.25. Отсюда K₂ = 13.

Находим наблюдаемое значение критерия Фишера F_набл= MSR/MSE.

Найдем полуширину доверительного интервала в каждой точке выборки X_пр

? = ?_е t_y 1 + + = 10.4? 2.016 1 + +

Отсюда получим, что? = 23,20.

В приведенной формуле:

?_е = MSE = 108.25 = 10.40 — среднеквадратичное отклонение выборочных точек от линии регрессии.

t_y = 2,16 — критическая точка распределения Стъюдента для надежности? = 0,95 и K₂ = 13 при n = 15.

SX = ?(x_i-x)² или

SX = (n — 1) х D (X) = 14×588×39 = 8237,46;

Прогнозируемый доверительный интервал для любого X₁ такой (? — ?;? + ?).

Найдем эластичность Y = 73.70 — 0.6960X.

В нашем случае (для линейной модели) E_x = -0.6960X/(73.70 — 0.6960X).

В численном выражении это составит:

E_х=50 = -0,6960?50 / (73.70 — 0.6960?50) = - 0,8946;

Коэффициент эластичности показывает, что при изменении величины Х₁ на 1% показатель Y уменьшается на 0,8946%.

Например, если Х₁ = 50,5 (т.е. увеличился на 1%), то Y = 38.9 + 38.9?(-0,8 946) = 38,5 520 006.

Проверим и Y_{х =50,5} = 73.70 — 0.6960X = 73.70 — 0.6960? 50,50 = 38,552.

Показать весь текст

Заполнить форму текущей работой