Многофакторный регрессионный анализ
В действительности на результативный признак влияет, как правило, не один фактор, а множество различных одновременно действующих факторных признаков. Так, себестоимость единицы продукции зависит от количества произведенной продукции, цены закупки сырья, заработной платы работников и производительности их труда, накладных расходов. Нс рекомендуется включать в круг объясняющих переменных признаки… Читать ещё >
Многофакторный регрессионный анализ (реферат, курсовая, диплом, контрольная)
В действительности на результативный признак влияет, как правило, не один фактор, а множество различных одновременно действующих факторных признаков. Так, себестоимость единицы продукции зависит от количества произведенной продукции, цены закупки сырья, заработной платы работников и производительности их труда, накладных расходов.
Количественно оценить влияние различных факторов на результат, определить форму и тесноту связи между результативным признаком у и факторными признаками xit х2,…"х* можно, используя многофакторный регрессионный анализ, который сводится к решению следующих задач:
- — построение уравнения множественной регрессии;
- — определение степени влияния каждого фактора на результативный признак;
- — количественная оценка тесноты связи между результативным признаком и факторами;
- — оценка надежности построенной регрессионной модели;
- — прогноз результативного признака.
Уравнение множественной регрессии характеризует среднее изменение у с изменением двух и более признаков-факторов: у = /(лгр xv xk).
При выборе признаков-факторов, включаемых в уравнение множественной регрессии, нужно прежде всего рассмотреть матрицы коэффициентов корреляции и выделить те переменные, для которых корреляция с результативной переменной превосходит корреляцию с другими факторами, т. е. для которых верно неравенство.
Не рекомендуется совместно включать во множественную регрессию объясняющие переменные, тесно связанные между собой: при г > 0,7.
У' j.
переменные и х} дублируют друг друга, и совместное включение их в уравнение регрессии не дает дополнительной информации для объяснения вариации у. Линейно связанные переменные называются коллинеарными.
Нс рекомендуется включать в круг объясняющих переменных признаки, представленные как абсолютные и как средние или относительные величины. Нельзя включать в регрессию признаки, функционально связанные с зависимой переменной у, например, те, которые являются составной частью у (скажем, суммарный доход и заработная плата).
Наиболее простым для построения и анализа является линейное уравнение множественной регрессии:
Интерпретация коэффициентов регрессии линейного уравнения множественной регрессии следующая: каждый из них показывает, на сколько единиц в среднем изменяется у при изменении .г, на свою единицу измерения и закреплении прочих введенных в уравнение объясняющих переменных на среднем уровне.
Так как все включенные переменные хх имеют свою размерность, то сравнивать коэффициенты регрессии Ь{ нельзя, т. е. по величине Ъх нельзя сделать вывод, что одна переменная влияет сильнее на г/, а другая слабее.
Параметры линейного уравнения множественной регрессии оцениваются методом наименьших квадратов (МНК). Условие МНК: или
Условие экстремума функции равенство нулю частных производных первого порядка данной функции:
Отсюда получаем систему нормальных уравнений, решение которой дает значения параметров уравнения множественной регрессии:
При записи системы уравнений можно руководствоваться следующим простым правилом: первое уравнение получается как сумма п уравнений регрессии; второе и последующее — как сумма п уравнений регрессии, все члены которой умножены на затем на х2 и т. д.
Параметры уравнения множественной регрессии получаем через отношение частных определителей к определителю системы:
Рассмотрим построение уравнения множественной регрессии на примере линейной двухфакторной модели:
Представим все переменные как центрированные и нормированные, т. е. выраженные как отклонения от средних величин, деленные на стандартное отклонение. Обозначим преобразованные таким образом переменные буквой t
Тогда уравнение множественной регрессии примет следующий вид:
где pt и р2 — стандартизированные коэффициенты регрессии (бс га-коэффициенты), определяющие, на какую часть своего среднеквадратического отклонения изменится у при изменении Xj на одно среднеквадратическое отклонение.
Уравнение регрессии (8.20) называется уравнением в стандартизованном масштабе (или стандартизированным уравнением регрессии). Оно не имеет свободного члена, поскольку все переменные выражены через отклонения от средних величин, а, как известно, а = у-Ь{хх -Ь2х2, или при k объясняющих переменных.
В отличие от коэффициентов регрессии в натуральном масштабе Ьр которые нельзя сравнивать, стандартизированные коэффициенты регрессии Р; можно сравнивать, делая вывод, влияние какого фактора на у более значительно.
Стандартизированные коэффициенты регрессии находятся также с помощью МНК:
Приравняем первые частные производные нулю получим систему нормальных уравнений.
Поскольку.
систему можно записать иначе:
Отсюда находим p-коэффициенты и сравниваем их. Если Р,>Р2, то фактор Xj сильнее влияет на результат, чем фактор х2.
От стандартизированной регрессии можно перейти к уравнению регрессии в натуральном масштабе, т. е. получить регрессию
Коэффициенты регрессии в натуральном масштабе находятся на основе-коэффициентов:
где
После этого вычисляется совокупный коэффициент детерминации:
который показывает долю вариации результативного признака под воздействием изучаемых факторных признаков. Важно знать вклад каждой объясняющей переменной. Он измеряется коэффициентом раздельной детерминации:
Влияние отдельных факторов в уравнении множественной регрессии может быть охарактеризовано с помощью частных коэффициентов эластичности. В случае двухфакторной линейной регрессии коэффициенты эластичности рассчитываются по формулам и измеряются в процентах:
Мы разобрали технику построения уравнения множественной регрессии. Очевидно, что оценки параметров уравнения регрессии можно получить, используя только микрокалькулятор. В современных условиях построение регрессии и расчет показателей корреляции производят с помощью ПК и пакетов прикладных программ, таких как Excel либо более специализированных: Statgraphics или Statistica и др.
Чтобы выполнить построения уравнения множественной регрессии с помощью Microsoft Office Excel, надо воспользоваться инструментом анализа данных Регрессия. Выполняются действия, аналогичные расчету параметров парной линейной регрессии, рассмотренные выше, только в отличие от парной регрессии при заполнении параметра входной интервал X в диалоговом окне следует указать все столбцы, содержащие значения факторных признаков.
Рассмотрим построение множественного уравнения регрессии при двух объясняющих переменных (двухфакторная модель). Продолжая пример, введем второй фактор время, затраченное студентом в течение недели с целью получения заработка, в часах. Данные представлены в табл. 8.5.
Расчетная таблица.
Таблица 8.5
Номер студента. | У | *1. | х2 | Ух | х2 | (уу)2 | У | (я - у)2 |
3,0625. | 2,172. | 0,030. | ||||||
0,5625. | 2,586. | 0,171. | ||||||
0,5625. | 3,690. | 0,476. | ||||||
0,0625. | 3,621. | 0,144. | ||||||
0,0625. | 4,104. | 0,011. | ||||||
0,0625. | 4,380. | 0,144. | ||||||
1,5625. | 4,725. | 0,076. | ||||||
1,5625. | 4,794. | 0,042. | ||||||
I. | 53 838. | 7,5. | 30,072. | 1,094. |
Таблица 8.6
Регрессионный анализ, выполненный для двухфакторной модели с помощью Microsoft Office Excel.
ВЫВОД итогов. | ||||||
Регрессионная статистика | ||||||
Множественный R | 0,954 676. | |||||
Я-квадрат. | 0,911 406. | |||||
Нормированный Я-квадрат. | 0,875 968. | |||||
Стандартная ошибка. | 0,364 542. | |||||
Наблюдения. | ||||||
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия. | 6,835 545. | 3,417 772. | 25,71 861. | 0,2 336. | ||
Остаток. | 0,664 455. | 0,132 891. | ||||
Итого. | 7,5. | |||||
Коэффициент ы | Стандартная ошибка | t-статистика | Р-значение | Нижние 95% | Верхние 95% | |
У-пересечение. | — 0,70 781. | 1,25 995. | — 0,68 988. | 0,520 976. | — 3,34 522. | 1,929 592. |
*1. | 0,58 364. | 0,11 522. | 5,65 398. | 0,3 882. | 0,28 746. | 0,87 983. |
*2. | — 0,2 631. | 0,14 646. | — 1,79 647. | 0,132 358. | — 0,6 396. | 0,11 338. |
- 1. Введем исходные данные в таблицу Excel, как было описано в параграфе 8.3.
- 2. Воспользуемся инструментом анализа данных Регрессия.
Полученные результаты представлены в табл. 8.6.
Как следует из итоговой табл. 8.6, уравнение регрессии имеет следующий вид:
F= 25; значимость F= 0,002, т. е. вероятность ошибки незначительна.
Согласно регрессии оценка на экзамене в среднем повысится на 0,058 балла при увеличении накопленных за семестр баллов на один балл при закреплении второй объясняющей переменной на среднем уровне; экзаменационная оценка снизится в среднем на 0,026 балла при увеличении времени, затраченного на заработок, на один час при закреплении фактора Х на среднем уровне.
3. Перейдем к уравнению в стандартизированном масштабе. Для этого определим 0-коэффициенты;
Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:
- 1) выберем Данные —> Анализ данных —> Корреляция;
- 2) заполним диалоговое окно ввода данных и параметров вывода.
Результаты вычислений показаны в табл. 8.7.
Таблица 8.7
Матрица коэффициентов парной корреляции.
У | *1. | х2 | |
У | |||
Х | 0,924 241. | ||
х2 | — 0,67 585. | — 0,50 846. |
Тогда.
Получили стандартизированное уравнение регрессии
Так как |Р,|>|Р21″ т0 фактор xi (сумма накопленных баллов за семестр) сильнее влияет на результат (экзаменационная оценка), чем фактор х2 (время, затраченное студентом в течение недели с целью получения заработка). Заметим, что связь между результатом у и фактором х2 обратная: чем больше времени студент тратит для получения заработка, тем ниже экзаменационная оценка.
- 4. Совокупный коэффициент детерминации определяется из Регрессионной статистики (табл. 8.6): R2 = 0,911, т. е. вариация возможной оценки на экзамене на 91,1% зависит от вариации накопленных за семестр текущих баллов и вариации времени, которое студент тратит в течение недели на заработок.
- 5. Найдем коэффициенты раздельной детерминации:
Таким образом, за счет вариации накопленных за семестр текущих баллов объясняется 72,3% вариации оценки на экзамене, а за счет времени, затраченного в течение недели на заработок, — 18,8%. Сумма коэффициентов раздельной детерминации равна R2.
6. Рассчитаем частные линейные коэффициенты эластичности:
Это означает, что при увеличении накопленных за семестр баллов на 1% их среднего уровня оценка за экзамен увеличивается на 10,97% своего среднего уровня, при увеличении времени на заработок на 1% его среднего значения результат снижается на 0,07%. Очевидно, что сила влияния фактора хх сильнее, чем фактора х2. Аналогичные выводы о силе связи мы получили, сравнивая Р-коэффициенты.
7. Расчитаем ожидаемую оценку, которую получит студент на экзамене, если сумма накопленных в течение семестра баллов (л,) равна 85, а время, затраченное студентом в течение недели для заработка (х2), составляет 5 ч. Воспользуемся полученным уравнением регрессии в натуральном масштабе:
или
Следовательно, ожидаемая экзаменационная оценка составляет четыре балла.