Расчет параметров парной линейной регрессии
Соотношение tтабл=2,26факт=18,67 означает, что тесная связь между у и х неслучайная. Масса зверка неслучайна зависит от возраста, если все другие факторы остается постоянным, то есть также будет соблюдаться все технологические нормативы. Теперь находим ta= 1,028/0.227=4,53, tb=1.39/0.048= 29,03, Полученные статистические оценки параметров уравнения регрессии позволяют утверждать что, они… Читать ещё >
Расчет параметров парной линейной регрессии (реферат, курсовая, диплом, контрольная)
Лабораторная работа 1. Расчет параметров парной линейной регрессии
Задание № 1 для ВСК 1 (макс. балл 35) — сдача на 5 неделе.
Выполнить соответствующий вариант согласно расчетам, приведенным в типовой задаче. (номер варианта и исходные данные в файле " Инд. задания для лаб.1-2" Все расчеты выполняются в EXCEL)
Пример 1. Ферма занимается выращиванием пушного зверька. На основе содержательного анализа установили, что на ферме все технологические нормативы по содержанию и кормлению соблюдаются. Тогда масса зверька в основном зависит от его возраста.
Определим количественную зависимость массы пушного зверька У (кг) от его возраста Х (в месяцах) (таблица 3).
Таблица 3 — Исходные данные
Хi-возраст, месяц | ||||||||||
Yi-масса, кг | 1.3 | 2.5 | 3.9 | 5.2 | 6.3 | 7.5 | 10.8 | 12,8 | ||
Задание:
Установить тесноту связи Построить уравнение парной регрессии у от х.
Определите параметры уравнения регрессии.
Проверить адекватность уравнения регрессии Оценить статистическую значимость параметров регрессии Определить доверительный интервал параметров регрессии Выполнить прогноз у при прогнозном значении х.
Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
Решение. Для удобства решения задачи все расчеты выполним в табличном процессоре EXCEL и представим в следующей форме.
Для установления тесноты связи находим значение коэффициента корреляции r, для этого используем итоговые значении граф 8, 9 и 10.
Тогда связь очень тесная, положительная. Коэффициент корреляции близок к 1. Определим коэффициент детерминации (r) 2= (0.99) 2=0,98. Вариация результата у на 98% объясняется вариацией фактора х, а 2% приходятся на неучтенные факторы. Если между выбранными факторами имеется тесная связь, то можно построить уравнение регрессии.
парная линейная регрессия интервал Таблица 4 — Расчеты парной регрессии
№ | Хi | Yi | Xi-Xcp | Yi-Ycp | (Xi-Xcp) (Yi-Ycp) | (Xi-Xcp) 2 | (Yi-Ycp) 2 | Xi2 | Xi*Yi | Y* | Ai | (Y-Y*) 2 | |
1,3 | — 4 | — 5,289 | 21,15 555 556 | 27,97 235 | 1,0289 | 0, 2085 | 0,0735 | ||||||
2,5 | — 3 | — 4,089 | 12,26 666 667 | 16,71 901 | 2,5 | 2,4189 | 0,0324 | 0,0066 | |||||
3,9 | — 2 | — 2,689 | 5,377 777 778 | 7,230 123 | 7,8 | 3,8089 | 0,0234 | 0,0083 | |||||
5,2 | — 1 | — 1,389 | 1,388 888 889 | 1,929 012 | 15,6 | 5, 1989 | 0,0002 | 1E-06 | |||||
6,3 | — 0,289 | 0,83 457 | 25,2 | 6,5889 | 0,0459 | 0,0835 | |||||||
7,5 | 0,9111 | 0,911 111 111 | 0,830 123 | 37,5 | 7,9789 | 0,0639 | 0,2293 | ||||||
2,4111 | 4,822 222 222 | 5,813 457 | 9,3689 | 0,041 | 0,1361 | ||||||||
10,8 | 4,2111 | 12,63 333 333 | 17,73 346 | 75,6 | 10,759 | 0,0038 | 0,0017 | ||||||
12,8 | 6,2111 | 24,84 444 444 | 38,5779 | 102,4 | 12,149 | 0,0509 | 0,4239 | ||||||
59,3 | 83,4 | 116,8889 | 320,6 | 59,3 | 0,4699 | 0,9629 | |||||||
cредн | 6,5889 | ||||||||||||
Параметр | а= | 1,0289 | в= | 1,39 | Аср= | 5,2215 | R= | 0.9959 | R2= | 0.9818 | |||
R2= | 0,9 917 624 | F= | 842,7577 | tr=29,3 029 | |
Для определение вида функции построим график зависимости у от х (рис. 3). Из рисунка видно, что точки располагаются вдоль прямой линии. Значит, выбираем линейную функцию, уравнение регрессии имеет вид у=а+в*х.
Рисунок 3 — График парной регрессии Для определения параметров а и в используем формулу (6).
(6)
Используя итоговые расчеты 2−5 граф таблицы, получим систему уравнений
9а+36в=59,3
36а+204в=320,6
отсюда а=1,028, в=1,39, тогда уравнение регрессии у=1,028+1,39х. С увеличением возраста зверка на 1 кг, масса увеличивается в среднем на 1,39 кг.
Лабораторная работа 2. Продолжение лабораторной работы № 1, т. е исходные данные из примера 1
Задание 2 для ВСК1 (макс. балл 35) — сдача на 13 неделе.)
Выполнить соответствующий вариант согласно расчетам, приведенным в типовой задаче. (номер варианта и исходные данные в файле " Инд. задания для лаб1−2" Все расчеты выполняются в EXCEL)
4. Адекватность уравнения регрессии проверяется через вычисления значений Аср, tr и F. Найдем величину средней аппроксимации, для этого используем графу 13
Аср = (еАi) /n = 46,99/9 =5,22
Полученное значение Аср остается на допустимом уровне, так как не превышает 8−10%. Оценку статистической значимости модели регрессии проведем с помощью критерия Фишера Fфак и t — статистик Стьюдента.
= 0.98/ (1−0.98) *7 = 0.98/0.02 *7=
= 842,7577 Fтабл=5,12факт=343,
гипотеза о случайности факторов отклоняется. Критерий t-Стьюдента вычисляем по формуле =29,03, значит tтабл= 2,26 < tфакт=18,5. Фактическое значение tr-критерия Стьюдента коэффициента корреляции определяется как =, здесь
==0,053
Соотношение tтабл=2,26факт=18,67 означает, что тесная связь между у и х неслучайная. Масса зверка неслучайна зависит от возраста, если все другие факторы остается постоянным, то есть также будет соблюдаться все технологические нормативы.
Отсюда уравнение регрессии является адекватным, т. е полученное уравнение достоверно описывает количественную зависимость факторов у и х.
5. Оценку статистической значимости параметров регрессии проведем по формулам:
tb=b/mb. tа=a/ma.
Случайные ошибки параметров линейной регрессии определяются по формулам:
ta = /ma,
tb = /mb.
Для вычисления m2a используем 4, 9 и 14 графы таблицы 3
m2a= (0,96*204) / (9*7*60) =195,84/3780= 0.052, отсюда ma= 0,227
?? m2b= 0,96/ (7* 60) = 0,96/420=0,0023, отсюда mb =0.4 788?
Теперь находим ta= 1,028/0.227=4,53, tb=1.39/0.048= 29,03, Полученные статистические оценки параметров уравнения регрессии позволяют утверждать что, они статистически значимы и отражают устойчивую зависимость массы зверка от его возраста.
6. Доверительный интервал параметров регрессии вычисляется по формулам
а ±?tкр*mа и b ±?tкр*mb
Для этого определяем предельную ошибку D для каждого параметра
Dа =tтабл ma= 2.26*0.227=0.513, Db=tтабл mb=2.26*0.048=0.108.
Формулы для расчета доверительных интервалов имеют следующий вид:
gа = а?±?Dа =1,028± 0,513, gаmin= a — ?Dа =1,028 — 0.513=0.515 ?
gаmax=a+?Dа=1,028+0.513=1.541,
Тогда параметр, а будет в интервале 0.515
Параметр в вычисляем также
gв = в?±?Dв=1,39±?0,108,gвmin= в — ?
Dв=1,39−0,108=1,282,???gвmax=в+?Dв=1,39+0,108=1,498.
Тогда параметр в будет в интервале 1,282<�в<1.498.
Если в границы доверительного интервала попадает ноль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
7. Выполнить прогноз У при прогнозном значении Х
После этого полученное уравнение регрессии можно использовать для прогноза. Прогнозное значение Упрог определяется путем подстановки в уравнение регрессии У=1,028+1,39*х соответствующего (прогнозное) значения Хпрог.
Сбор данных осуществлен по периодам времени, то прогнозное значение х будет следующий период. Например, Хпрог=10, то Упрог=1,028+1,39*10= 14,93, это означает, что через месяц масса зверка будет в среднем 14,93 кг. Через два месяца в среднем будет Упрог=1,028+1,39*11= 16,32 кг.
8. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
Средняя стандартная ошибка прогноза за 10 период вычисляется по формулам:
m2 (Yпрог) =?{е— (у-у*) 2/ (n-m-1) } {1+ 1/n + (xпрог-хср) 2/?е— (x-xср) 2}=
= (0,96/7) * (1+1/9+36/60) = 0,137*1,711=0,234, отсюда m (yпрог) = 0,484
и строим доверительный интервал прогноза
gу =упр?±?Dпр=упр?±tтабл my,
gуmin=упр?tтабл my =14.93−2.26*0.484=13.84
gуmax= упр?tтабл my=14.93+2.26*0.484=16.02.
Таким образом Упрогн будет в интервале [13,84; 16,02].
Регрессионный анализ на компьютере с помощью ППП Excel выполняется очень легко и быстро. Рассмотрим работу пакета для проведения регрессионного анализа. Для этого выполним следующие шаги:
Формируем таблицу исходных данных в среде Excel;
В главном меню выберите последовательно пункты
Сервис/Анализ данных/Корреляция/ОК;
Заполните диалоговое окно ввода данных и параметров вывода.
Входной интервал; выделите все столбцы, содержащие значения Х и У; В1; С10;
Выходной интервал; выделите область пустой ячейки для вывода результатов, например Д2; ОК.
Еxcel представит таблицу коэффициентов парной корреляции между У и Х.
Таблица 5 — Результаты решения задачи с помощью инструмента Корреляция
№ | х | y | |||||
1,30 | х | y | |||||
2,50 | х | ||||||
3,90 | y | 0,9959 | |||||
5, 20 | |||||||
6,30 | |||||||
7,50 | |||||||
9,00 | |||||||
10,80 | |||||||
12,80 | |||||||
Таблица 5. показывает коэффициент корреляции между у и х ryx=0,9959.
Для вычисления параметров уравнения регрессии используем инструмент анализа данных Регрессия.
Алгоритм действий следующий: Сервис/Анализ данных/Регрессия/ОК;
Входной интервал У; выделите столбец содержащие значения У (столбец С1: С10;
Входной интервал Х; выделите столбец содержащие значения Х (столбец В1: В10;
Выходной интервал: выделите область пустых ячеек для вывода результатов, например В12;
Остатки; установите флажок;
Excel представит решение в виде таблиц 5−7.
Таблица 6 называется регрессионной статистики. В таблице представлено:
Коэффициент корреляции R=0.9959;
Квадрат коэффициента корреляции R2=0.9918;
Стандартная ошибка — S= 0.3709;
Таблица 7-Регрессионная статистика
SUMMARY OUTPUT | ||||
Regression Statistics | ||||
Multiple R | 0,9959 | |||
R Square | 0,9918 | |||
Adjusted R Square | 0,9906 | |||
Standard Error | 0,3709 | |||
Observations | ||||
Таблица 7 - Дисперсионный анализ представляет:
df =1 — число степени свободы;
SS - сумма квадратов разностей:
Сумма квадратов регрессии с числом степеней свободы 1 SS1=115,926.
Сумма квадратов остатков с числом степей свободы п-2 — SS2 =0,963.
Cумма квадратов общая с числом степеней свободы п-1 — SS=116,889
MS - оценка дисперсий:
дисперсия регрессии — d2факт?=SS1/1=115,926;
дисперсия остаточная d2ост?=SS2/ (n-2) =0.138;
F — критерий Фишера: F=842,758.
Таблица 7-Дисперсионный анализ
ANOVA | |||||||
df | SS | MS | F | Significance F | |||
Regression | 115,926 | 115,926 | 842,758 | 0,000 | |||
Residual | 0,963 | 0,138 | |||||
Total | 116,889 | ||||||
Таблица 8 - Параметры уравнения регрессии
В ней представлено:
Графа 2 показывает значения коэффициентов а и в:
а=1,028, в=1,39.
Графа 3 — Стандартная ошибка; ma = 0,228 и mb=0,0479;
Графа 4 — t — статистика; ta =4,5135, tb=29,0303.
Графа 5−6-Доверительные интервалы. Интервальные оценки gаmin=0,4899, gаmax=1.5679. gвmin=1.2768, gвmax=1.5032 для параметров регрессии с доверительной вероятностью р=0,95.
Таблица 8
Coefficients | Standard Error | t Stat | P-value | Lower 95% | Upper 95% | ||
Intercept | 1,0289 | 0,2280 | 4,5135 | 0,0028 | 0,4899 | 1,5679 | |
х | 1,3900 | 0,0479 | 29,0303 | 0,0000 | 1,2768 | 1,5032 | |
По результатам запишем уравнение регрессии.
У=1,0289+1,39*х, Доверительные интервалы параметров регрессии