Методика выполнения регрессионного анализа в программной среде Microsoft Excel
Для проверки гипотезы H0: в0=0 рассчитали t-статистику. Находим критическое значение распределения Стьюдента с помощью статистической функции СТЮДРАСПОБР (0,05;8) = 2,306, где вероятность (уровень значимости) равна 0,05 и число степеней свободы n-2=10−2=8. В таблице 1.2 t-статистика параметра регрессии b1 меньше критического значения, следовательно, параметр регрессии статистически не значим… Читать ещё >
Методика выполнения регрессионного анализа в программной среде Microsoft Excel (реферат, курсовая, диплом, контрольная)
- 1. На основании данных о динамике прироста курса акций у за 10 месяцев, приведенных в таблице и предположения, что генеральное уравнение регрессии имеет вид у = 0+ 1х +, требуется:
- а) Найти оценку и проверить на 5% уровне значимости уравнения регрессии, то есть гипотезу Н0:1=0;
- б) Построить таблицу дисперсионного анализа для расчета F-критерия Фишера;
- в) Найти коэффициент детерминации R2;
- г) Найти интервальную оценку для прогноза при x=11;
Таблица 1.
х. | Задача 2у. |
Решение.
Расчеты проведем в программе Excel на листе 1 рабочей книги.
В столбец, А занесем данные задачи по переменной х (месяц). В столбец В — данные переменной у (прирост курса акций) (см. рис. 1.1).
Исходные данные будут записываться по столбцам. В частности, значения х будут располагаться в ячейках А2: А11, значения у — в ячейках В2: В11.
Рис. 1.1. Данные задачи
Для того чтобы проверить, существует ли зависимость между признаками, построим диаграмму рассеивания с помощью Мастера диаграмм (см. рис. 1.2).
По рисунку видно, что между признаками существует нелинейная взаимосвязь.
Проведем линеаризацию модели, прологарифмируем и получим:
lny = ln0 + 1 x+ln.
Таблица 2. Исходные данные.
x. | y. | ln (y). |
1,099. | ||
1,609. | ||
2,079. | ||
2,197. | ||
1,946. | ||
1,386. | ||
0,693. | ||
0,000. | ||
0,693. | ||
1,609. |
Построим уравнение регрессии по табл. 2, используя Анализ данных. Для этого необходимо провести преобразование переменной у на lny, используя Мастер функции fx.
Построим регрессию Сервис>Анализ данных >Регрессия. В качестве зависимой переменной следует указать переменную lny.
Таблица 3. Итоги регрессии.
Регрессионная статистика. | ||||||
Множественный R. | 0,449 261. | |||||
R-квадрат. | 0,201 835. | |||||
Нормированный R-квадрат. | 0,102 065. | |||||
Стандартная ошибка. | 0,669 008. | |||||
Наблюдения. | ||||||
Дисперсионный анализ. | ||||||
df. | SS. | MS. | F. | Значимость F. | ||
Регрессия. | 0,905 437. | 0,905 437. | 2,22 996. | 0,19 273. | ||
Остаток. | 3,580 577. | 0,447 572. | ||||
Итого. | 4,486 014. | |||||
Коэффиц. | Стандартная ошибка. | t-статистика. | P-Значение. | Нижние 95%. | Верхние 95%. | |
Y-пересечение. | 1,907 454. | 0,45 702. | 4,17 368. | 0,3 106. | 0,853 565. | 2,961 343. |
x. | — 0,10 476. | 0,73 655. | — 1,42 232. | 0,19 273. | — 0,27 461. | 0,65 088. |
Получили уравнение регрессии:
lgy = 1,907−0,105 x.
.
Само уравнение и коэффициенты регрессии значимо отличаются от нуля. Коэффициент при переменной x означает, что с каждым месяцем снижение курса акций составляет 0,105 д.ед.
Найдем прогнозные значения yпр. Для этого в уравнение регрессии вместо х подставляем значения месяцев. Сумма фактических и прогнозных значений у почти полностью совпала (разница за счет округления коэффициентов регрессии) (см. табл. 4).
Таблица 4. Нахождение прогнозных значений у.
x. | y. | ln (y). | упр |
1,099. | 6,733. | ||
1,609. | 6,260. | ||
2,079. | 5,999. | ||
2,197. | 5,821. | ||
1,946. | 5,686. | ||
1,386. | 5,578. | ||
0,693. | 5,489. | ||
0,000. | 5,412. | ||
0,693. | 5,346. | ||
1,609. | 5,287. |
Проведем анализ полученного уравнения. Найдем остатки, оценку остаточной дисперсии, стандартных ошибок коэффициентов.
Для оценки значимости уравнения регрессии и для нахождения значения F критерия, рассчитаем Qобщ, Qост и Qрегр, то есть рассчитаем таблицу дисперсионного анализа (табл. 5).
Таблица 5. Расчет таблицы однофакторного дисперсионного анализа.
x. | y. | ln (y). | упр | (у-упр)2. | (у-уср)2. | (уср-упр)2. |
1,099. | 6,733. | 13,934. | 2,560. | 4,549. | ||
1,609. | 6,260. | 1,588. | 0,160. | 2,756. | ||
2,079. | 5,999. | 4,003. | 11,560. | 1,958. | ||
2,197. | 5,821. | 10,107. | 19,360. | 1,490. | ||
1,946. | 5,686. | 1,727. | 5,760. | 1,179. | ||
1,386. | 5,578. | 2,491. | 0,360. | 0,957. | ||
0,693. | 5,489. | 12,171. | 6,760. | 0,790. | ||
0,000. | 5,412. | 19,468. | 12,960. | 0,660. | ||
0,693. | 5,346. | 11,194. | 6,760. | 0,556. | ||
1,609. | 5,287. | 0,082. | 0,160. | 0,472. | ||
13,313. | 57,611. | 76,764. | 66,400. | 15,367. | ||
Qост. | Qобщ. | Qрегр |
Для оценки значимости уравнения регрессии проверим гипотезу H0: в1=0.
По таблице F-распределения находят Fкр с числом степеней свободы н1=1, н2=n-2=10−2=8. Найдем его с помощью математических функций: определим критическое значение распределения Фишера:
Fкрит=FРАСПОБР (0,05;1;8) = 5,318.
Так как Fнабл = 2,023 < Fкр=5,318, то гипотеза не принимается и уравнение считается значимым (см. табл. 3).
Проверим значимость каждого коэффициента регрессии.
Для проверки гипотезы H0: в0=0 рассчитали t-статистику. Находим критическое значение распределения Стьюдента с помощью статистической функции СТЮДРАСПОБР (0,05;8) = 2,306, где вероятность (уровень значимости) равна 0,05 и число степеней свободы n-2=10−2=8. В таблице 1.2 t-статистика параметра регрессии b1 меньше критического значения, следовательно, параметр регрессии статистически не значим, а поправочный коэффициент регрессии b0 значим, поскольку его P-вероятность меньше 0,05.
Рассчитаем несмещенную оценку остаточной дисперсии и стандартные ошибки коэффициентов регрессии:
Стандартные ошибки коэффициентов b0 и b1 вычисляют по формулам:
дисперсионный однофакторный регрессия Найдем коэффициент детерминации:
Множественный коэффициент корреляции равен 0,449, что говорит о слабой обратной зависимости между признаками. Коэффициент детерминации показывает, что прирост курса акций на 15,6% обусловлен временем.
Найдем 95% доверительные интервалы для каждого коэффициента регрессии, а затем для прогнозного значения х=11.
Интервальная оценка для параметра в0:
Следовательно, коэффициент b0 изменяется в интервале от -2,972 до 6,786 (табл. 6).
Аналогично интервальная оценка для коэффициента в1:
в1=[-0,105±2,306*0,341].
В ячейках D22 — D25 Листа 1 рабочей книги приведены расчеты для нижней и верхней границ коэффициентов регрессии.
Таблица 6. Расчет доверительных интервалов.
Доверительный интервал. | ||
b0. | Верхняя граница. | 6,786. |
Нижняя граница. | — 2,972. | |
b1. | Верхняя граница. | 0,681. |
Нижняя граница. | — 0,891. | |
для х=11. | Верхняя граница. | 10,114. |
Нижняя граница. | 0,354. |
Интервальная оценка для прогноза yпрогноз при x=x0 находится следующим образом:
Интервальная оценка для уравнения регрессии у при х=11:
Получено, что доверительный интервал для прогноза прироста курсовой стоимости акций при приросте фондового индекса х=11 находится в пределах от 0,354 до 10,114 с 95% уровнем надежности.
Таким образом, по полученному уравнению регрессии:
.
можно сформулировать следующие выводы:
- — с каждым месяцем снижение курса акций составляет 0,105 д.ед.;
- — коэффициент детерминации показывает, что полученная модель слабо отражает зависимость между признаками;
- — уравнение регрессии не значимо, а, соответственно, его не следует применять при прогнозировании;
- — поправочный коэффициент регрессии статистически значим, а коэффициент b1 — не значим;
- — в 11 месяце прирост курса акций составит 5,234 д.ед.;
- — доверительный интервал для прогноза прироста курсовой стоимости акций при х=11 находится в пределах 0,354 до 10,114 с 95% уровнем надежности.
Построим в поле корреляции уравнение линейной регрессии (рис. 1.3).
Рис. 1.3. Полулогарифмическая регрессия
Таким образом, полученное уравнение регрессии неточно описывает реальные данные.
2. Обозначения и наименование показателей: У — производительность труда (тыс.руб./чел.); Х1 — коэффициент платежеспособности предприятия; Х2 — удельный вес рабочих в составе промышленно-производственного персонала (%); Х6 — удельный вес потерь от брака (%); Х7 — фондоотдача (тыс.р. на 1 р.); Х9 — коэффициент ликвидности.
Таблица 7. Исходные данные.
пп. | У1. | X1. | X2. | Х6. | Х7. | Х9. |
9,26. | 204,2. | 13,26. | 1,37. | 1,23. | 1,45. | |
9,38. | 209,6. | 10,16. | 1,49. | 1,04. | 1,30. | |
12,11. | 222,6. | 13,72. | 1,44. | 1,80. | 1,37. | |
10,81. | 236,7. | 12,85. | 1,42. | 0,43. | 1,65. | |
9,35. | 62,0. | 10,63. | 1,35. | 0,88. | 1,91. | |
9,87. | 53,1. | 9,12. | 1,39. | 0,57. | 1,68. | |
8,17. | 172,1. | 25,83. | 1,16. | 1,72. | 1,94. | |
9,12. | 56,5. | 23,39. | 1,27. | 1,70. | 1,89. | |
5,88. | 52,6. | 14,68. | 1,16. | 0,84. | 1,94. | |
6,30. | 46,6. | 10,05. | 1,25. | 0,60. | 2,06. | |
6,22. | 53,2. | 13,99. | 1,13. | 0,82. | 1,96. | |
5,49. | 30,1. | 9,68. | 1,10. | 0,84. | 1,02. | |
6,50. | 146,4. | 10,03. | 1,15. | 0,67. | 1,85. | |
6,61. | 18,1. | 9,13. | 1,23. | 1,04. | 0,88. | |
4,32. | 13,6. | 5,37. | 1,39. | 0,66. | 0,62. | |
7,37. | 89,8. | 9,86. | 1,38. | 0,86. | 1,09. | |
7,02. | 62,5. | 12,62. | 1,35. | 0,79. | 1,60. | |
8,25. | 46,3. | 5,02. | 1,42. | 0,34. | 1,53. | |
8,15. | 103,5. | 21,18. | 1,37. | 1,60. | 1,40. | |
8,72. | 73,3. | 25,17. | 1,41. | 1,46. | 2,22. | |
6,64. | 76,6. | 19,10. | 1,35. | 1,27. | 1,32. | |
8,10. | 73,01. | 21,01. | 1,48. | 1,58. | 1,48. | |
5,52. | 32,3. | 6,57. | 1,24. | 0,68. | 0,68. | |
9,37. | 199,6. | 14,19. | 1,40. | 0,86. | 2,30. | |
13,17. | 598,1. | 15,81. | 1,45. | 1,98. | 1,37. | |
6,67. | 71,2. | 5,23. | 1,40. | 0,33. | 1,51. | |
5,68. | 90,8. | 7,99. | 1,28. | 0,45. | 1,43. | |
5,22. | 82,1. | 17,50. | 1,33. | 0,74. | 1,82. | |
10,02. | 76,2. | 17,16. | 1,22. | 1,03. | 2,62. | |
8,16. | 119,5. | 14,54. | 1,28. | 0,99. | 1,75. | |
3,78. | 21,9. | 6,24. | 1,47. | 0,24. | 1,54. | |
6,48. | 48,4. | 12,08. | 1,27. | 0,57. | 2,25. | |
10,44. | 173,5. | 9,49. | 1,51. | 1,22. | 1,07. | |
7,65. | 74,1. | 9,28. | 1,46. | 0,68. | 1,44. | |
8,77. | 68,6. | 11,42. | 1,27. | 1,00. | 1,40. | |
7,00. | 60,8. | 10,31. | 1,43. | 0,81. | 1,31. | |
11,06. | 355,6. | 8,65. | 1,50. | 1,27. | 1,12. | |
9,02. | 264,8. | 10,94. | 1,35. | 1,14. | 1,16. | |
13,28. | 526,6. | 9,87. | 1,41. | 1,89. | 0,88. | |
9,27. | 118,6. | 6,14. | 1,47. | 0,67. | 1,07. | |
6,70. | 37,1. | 12,93. | 1,35. | 0,96. | 1,24. | |
6,69. | 57,7. | 9,78. | 1,40. | 0,67. | 1,49. | |
9,42. | 51,6. | 13,22. | 1,20. | 0,98. | 2,03. | |
7,24. | 64,7. | 17,29. | 1,15. | 1,16. | 1,84. | |
5,39. | 48,3. | 7,11. | 1,09. | 0,54. | 1,22. | |
5,61. | 15,0. | 22,49. | 1,26. | 1,23. | 1,72. | |
5,59. | 87,5. | 12,14. | 1,36. | 0,78. | 1,75. | |
6,57. | 108,4. | 15,25. | 1,15. | 1,16. | 1,46. | |
6,54. | 267,3. | 31,34. | 1,87. | 4,44. | 1,60. | |
4,23. | 34,2. | 11,56. | 2,17. | 1,06. | 1,47. | |
5,22. | 26,8. | 30,14. | 1,61. | 2,13. | 1,38. | |
18,00. | 43,6. | 19,71. | 1,34. | 1,21. | 1,41. | |
11,03. | 72,0. | 23,56. | 1,22. | 2,20. | 1,39. |
Решение Задачу построения модели множественной регрессии решим с помощью пакета «Анализ данных» в Excel (Рис. 2.1).
Рис. 2.1 Диалоговое окно «Регрессия»
При использовании инструмента «Регрессия» входным интервалом для Y будут ячейки B2: B54, для X — ячейки C2: G54. Результат регрессионного анализа представим в табл. 8.
Таблица 8. Вывод итогов регрессионного анализа.
Регрессионная статистика. | ||||||
Множественный R. | 0,571 621. | |||||
R-квадрат. | 0,326 751. | |||||
Нормированный R-квадрат. | 0,255 129. | |||||
Стандартная ошибка. | 2,252 779. | |||||
Наблюдения. | ||||||
Дисперсионный анализ. | ||||||
df. | SS. | MS. | F. | Значимость F. | ||
Регрессия. | 115,7646. | 23,15 293. | 4,562 143. | 0,1 793. | ||
Остаток. | 238,5256. | 5,75 012. | ||||
Итого. | 354,2902. | |||||
Коэффиц. | Стандартная ошибка. | t-статистика. | P-Значение. | Нижние 95%. | Верхние 95%. | |
Y-пересечение. | 7,796 727. | 2,913 582. | 2,675 993. | 0,10 224. | 1,935 356. | 13,6581. |
X1. | 0,13 452. | 0,3 359. | 4,4 703. | 0,22. | 0,6 694. | 0,20 209. |
X2. | 0,77 412. | 0,108 381. | 0,714 256. | 0,478 601. | — 0,14 062. | 0,295 446. |
Х6. | — 1,51 268. | 1,922 485. | — 0,78 683. | 0,435 329. | — 5,38 022. | 2,354 865. |
Х7. | — 0,38 708. | 1,88 867. | — 0,35 549. | 0,723 813. | — 2,5776. | 1,803 437. |
Х9. | 0,44 043. | 0,969 469. | 0,4 543. | 0,963 957. | — 1,90 628. | 1,994 363. |
В столбце «Коэффициенты» получены коэффициенты уравнения регрессии.
Таким образом, получили уравнение регрессии:
Параметры регрессии показывают, что при изменении коэффициент платежеспособности предприятия на 1 единицу производительность труда увеличивается на 13 руб./чел., при увеличении удельного веса рабочих в составе ППП на 1% производительность труда увеличивается на 0,077 тыс. руб./чел., при увеличении удельного веса потерь от брака на 1% производительность труда снижается на 1,513 тыс. руб./чел., при увеличении фондоотдачи на 1 тыс. руб./чел. производительность труда снижается на 0,387 тыс. руб./чел., а при увеличении коэффициента ликвидности на 1 единицу производительность труда увеличивается на 0,044 тыс. руб./чел.
Стандартные ошибки коэффициентов составляют соответствующую графу в таблице 9.
Для проверки значимости коэффициентов регрессии рассчитаны tстатистики. Находим критическое значение распределения Стьюдента для вероятности (уровня значимости) 0,05 и число степеней свободы:
н = n-k-1=53−5-1=47.
Критическое значение находим из таблиц распределения Стьюдента или с помощью статистической функции:
СТЮДРАСПОБР (0,05;47) = 2,012.
Для проверки гипотезы H0: вj=0 сравниваем полученные значения для всех коэффициентов tнабл с tкр=2,012. Получим, что все коэффициенты не значимы, кроме b0 и b1. То есть на производительность труда значимо оказывает влияние параметр «Коэффициент платежеспособности предприятия».
Для проверки значимости коэффициентов также можно использовать Р-значения.
По величине Р-значения возможно определять значимость коэффициентов, не находя критическое значение t-статистики. Если значение t-статистики велико, то соответствующее значение вероятности значимости мало — меньше 0,05, и можно считать, что коэффициент регрессии значим. И наоборот, если значение t-статистики мало, соответственно вероятность значимости больше 0,05 — коэффициент считается незначимым. Результат проверки коэффициентов на значимость будет одинаковым.
Далее представлены доверительные интервалы (нижняя и верхняя границы), которые показывают, в каких пределах лежат коэффициенты полученного уравнения регрессии с 95%-ой надежностью.
В разделе Регрессионная статистика получили:
- — множественный коэффициент корреляции (множественный R) равен 0,572, что говорит о заметной (по шкале Чеддока) степени связи между результативным и факторными признаками;
- — коэффициент детерминации R2=0,327 показывает, что модель достаточно описывает данные, то есть 32,7% вариации производительности труда описывается факторами, входящими в полученную модель;
- — скорректированный коэффициент детерминации имеет тот же смысл, что и R2, но считается, что он точнее отражает степень адекватности модели (его значение довольно низкое).
В Дисперсионном анализе вычисляются:
- — df — число степеней свободы;
- — SS — суммы квадратов разностей;
- — МS — оценки дисперсий;
- — F — вычисленное значение критерия Фишера;
- — Значимость F.
Сумма квадратов регрессии вычисляется по формуле:
Qрегр = SS1;
сумма квадратов остатков:
Qост = SS2;
общая сумма квадратов:
Qобщ=SS.
Выполняется условие:
SS1+SS2=SS.
То есть 115,7646+238,5256=354,2902. Число степеней свободы df для SS1 равно df1=5 (k — число независимых переменных или факторов), для SS2: df2 = n — k — 1= 53−5-1 =47, для SS: df = n — 1= 53 — 1 =52.
Получены оценки средних квадратов:
наблюдаемое значение F-критерия:
Fнабл=4,562.
Сравним полученное значение Fнабл с критическим. Так как Fкрит=2,413.
Значимость F — это вероятность значимости для F критерия. В нашем случае она равна 0,002, то есть гипотеза H0: в1=в2=0 отвергается и уравнение считается значимым.
Таким образом, можно сделать вывод, что полученное уравнение множественной регрессии значимо, но степень связи и его адекватность достаточно низкие, следовательно, рекомендацией является удаление статистически незначимых факторов с целью обеспечения точности и качества модели.