Многофакторный регрессионный анализ

РефератПомощь в написанииУзнать стоимостьмоей работы

В действительности на результативный признак влияет, как правило, не один фактор, а множество различных одновременно действующих факторных признаков. Так, себестоимость единицы продукции зависит от количества произведенной продукции, цены закупки сырья, заработной платы работников и производительности их труда, накладных расходов. Нс рекомендуется включать в круг объясняющих переменных признаки… Читать ещё >

Многофакторный регрессионный анализ (реферат, курсовая, диплом, контрольная)

Количественно оценить влияние различных факторов на результат, определить форму и тесноту связи между результативным признаком у и факторными признаками x_it х₂,…"х* можно, используя многофакторный регрессионный анализ, который сводится к решению следующих задач:

— построение уравнения множественной регрессии;
— определение степени влияния каждого фактора на результативный признак;
— количественная оценка тесноты связи между результативным признаком и факторами;
— оценка надежности построенной регрессионной модели;
— прогноз результативного признака.

Уравнение множественной регрессии характеризует среднее изменение у с изменением двух и более признаков-факторов: у = /(лг_р x_v x_k).

При выборе признаков-факторов, включаемых в уравнение множественной регрессии, нужно прежде всего рассмотреть матрицы коэффициентов корреляции и выделить те переменные, для которых корреляция с результативной переменной превосходит корреляцию с другими факторами, т. е. для которых верно неравенство.

Не рекомендуется совместно включать во множественную регрессию объясняющие переменные, тесно связанные между собой: при г > 0,7.

У' j.

переменные и х_} дублируют друг друга, и совместное включение их в уравнение регрессии не дает дополнительной информации для объяснения вариации у. Линейно связанные переменные называются коллинеарными.

Нс рекомендуется включать в круг объясняющих переменных признаки, представленные как абсолютные и как средние или относительные величины. Нельзя включать в регрессию признаки, функционально связанные с зависимой переменной у, например, те, которые являются составной частью у (скажем, суммарный доход и заработная плата).

Наиболее простым для построения и анализа является линейное уравнение множественной регрессии:

Интерпретация коэффициентов регрессии линейного уравнения множественной регрессии следующая: каждый из них показывает, на сколько единиц в среднем изменяется у при изменении .г, на свою единицу измерения и закреплении прочих введенных в уравнение объясняющих переменных на среднем уровне.

Так как все включенные переменные х_х имеют свою размерность, то сравнивать коэффициенты регрессии Ь_{ нельзя, т. е. по величине Ъ_х нельзя сделать вывод, что одна переменная влияет сильнее на г/, а другая слабее.

Параметры линейного уравнения множественной регрессии оцениваются методом наименьших квадратов (МНК). Условие МНК: или Многофакторный регрессионный анализ.

Условие экстремума функции равенство нулю частных производных первого порядка данной функции:

Отсюда получаем систему нормальных уравнений, решение которой дает значения параметров уравнения множественной регрессии:

При записи системы уравнений можно руководствоваться следующим простым правилом: первое уравнение получается как сумма п уравнений регрессии; второе и последующее — как сумма п уравнений регрессии, все члены которой умножены на затем на х₂ и т. д.

Параметры уравнения множественной регрессии получаем через отношение частных определителей к определителю системы:

Рассмотрим построение уравнения множественной регрессии на примере линейной двухфакторной модели:

Представим все переменные как центрированные и нормированные, т. е. выраженные как отклонения от средних величин, деленные на стандартное отклонение. Обозначим преобразованные таким образом переменные буквой t

Тогда уравнение множественной регрессии примет следующий вид: Многофакторный регрессионный анализ.

где p_t и р₂ — стандартизированные коэффициенты регрессии (бс га-коэффициенты), определяющие, на какую часть своего среднеквадратического отклонения изменится у при изменении Xj на одно среднеквадратическое отклонение.

Уравнение регрессии (8.20) называется уравнением в стандартизованном масштабе (или стандартизированным уравнением регрессии). Оно не имеет свободного члена, поскольку все переменные выражены через отклонения от средних величин, а, как известно, а = у-Ь_{х_х -Ь₂х₂, или при k объясняющих переменных.

В отличие от коэффициентов регрессии в натуральном масштабе Ьр которые нельзя сравнивать, стандартизированные коэффициенты регрессии Р_; можно сравнивать, делая вывод, влияние какого фактора на у более значительно.

Стандартизированные коэффициенты регрессии находятся также с помощью МНК:

aside class="viderzhka__img" itemscope itemtype="http://schema.org/ImageObject"> Многофакторный регрессионный анализ.

Приравняем первые частные производные нулю получим систему нормальных уравнений.

Поскольку.

систему можно записать иначе:

Отсюда находим p-коэффициенты и сравниваем их. Если Р,>Р₂, то фактор Xj сильнее влияет на результат, чем фактор х₂.

От стандартизированной регрессии можно перейти к уравнению регрессии в натуральном масштабе, т. е. получить регрессию Многофакторный регрессионный анализ.

Коэффициенты регрессии в натуральном масштабе находятся на основе^{-коэффициентов:} Многофакторный регрессионный анализ.

где Многофакторный регрессионный анализ.

После этого вычисляется совокупный коэффициент детерминации:

который показывает долю вариации результативного признака под воздействием изучаемых факторных признаков. Важно знать вклад каждой объясняющей переменной. Он измеряется коэффициентом раздельной детерминации: Многофакторный регрессионный анализ.

Влияние отдельных факторов в уравнении множественной регрессии может быть охарактеризовано с помощью частных коэффициентов эластичности. В случае двухфакторной линейной регрессии коэффициенты эластичности рассчитываются по формулам и измеряются в процентах:

Мы разобрали технику построения уравнения множественной регрессии. Очевидно, что оценки параметров уравнения регрессии можно получить, используя только микрокалькулятор. В современных условиях построение регрессии и расчет показателей корреляции производят с помощью ПК и пакетов прикладных программ, таких как Excel либо более специализированных: Statgraphics или Statistica и др.

Чтобы выполнить построения уравнения множественной регрессии с помощью Microsoft Office Excel, надо воспользоваться инструментом анализа данных Регрессия. Выполняются действия, аналогичные расчету параметров парной линейной регрессии, рассмотренные выше, только в отличие от парной регрессии при заполнении параметра входной интервал X в диалоговом окне следует указать все столбцы, содержащие значения факторных признаков.

Рассмотрим построение множественного уравнения регрессии при двух объясняющих переменных (двухфакторная модель). Продолжая пример, введем второй фактор время, затраченное студентом в течение недели с целью получения заработка, в часах. Данные представлены в табл. 8.5.

Расчетная таблица.

Таблица 8.5

Номер студента.	У	*1.	^х2	Ух	^х2	(уу)²	У	(я - у)²
						3,0625.	2,172.	0,030.
						0,5625.	2,586.	0,171.
						0,5625.	3,690.	0,476.
						0,0625.	3,621.	0,144.
						0,0625.	4,104.	0,011.
						0,0625.	4,380.	0,144.
						1,5625.	4,725.	0,076.
						1,5625.	4,794.	0,042.
I.					53 838.	7,5.	30,072.	1,094.

Таблица 8.6

Регрессионный анализ, выполненный для двухфакторной модели с помощью Microsoft Office Excel.

ВЫВОД итогов.
Регрессионная статистика
Множественный R	0,954 676.
Я-квадрат.	0,911 406.
Нормированный Я-квадрат.	0,875 968.
Стандартная ошибка.	0,364 542.
Наблюдения.
Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия.		6,835 545.	3,417 772.	25,71 861.	0,2 336.
Остаток.		0,664 455.	0,132 891.
Итого.		7,5.

	Коэффициент ы	Стандартная ошибка	t-статистика	Р-значение	Нижние 95%	Верхние 95%
У-пересечение.	— 0,70 781.	1,25 995.	— 0,68 988.	0,520 976.	— 3,34 522.	1,929 592.
*1.	0,58 364.	0,11 522.	5,65 398.	0,3 882.	0,28 746.	0,87 983.
*2.	— 0,2 631.	0,14 646.	— 1,79 647.	0,132 358.	— 0,6 396.	0,11 338.

1. Введем исходные данные в таблицу Excel, как было описано в параграфе 8.3.
2. Воспользуемся инструментом анализа данных Регрессия.

Полученные результаты представлены в табл. 8.6.

Как следует из итоговой табл. 8.6, уравнение регрессии имеет следующий вид:

F= 25; значимость F= 0,002, т. е. вероятность ошибки незначительна.

Согласно регрессии оценка на экзамене в среднем повысится на 0,058 балла при увеличении накопленных за семестр баллов на один балл при закреплении второй объясняющей переменной на среднем уровне; экзаменационная оценка снизится в среднем на 0,026 балла при увеличении времени, затраченного на заработок, на один час при закреплении фактора Х на среднем уровне.

3. Перейдем к уравнению в стандартизированном масштабе. Для этого определим 0-коэффициенты;

Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:

1) выберем Данные —> Анализ данных —> Корреляция;
2) заполним диалоговое окно ввода данных и параметров вывода.

Результаты вычислений показаны в табл. 8.7.

Таблица 8.7

Матрица коэффициентов парной корреляции.

	У	*1.	х₂
У
Х	0,924 241.
^х2	— 0,67 585.	— 0,50 846.

Тогда.

Получили стандартизированное уравнение регрессии Многофакторный регрессионный анализ.

Так как |Р,|>|Р₂1″ ^т0 фактор x_i (сумма накопленных баллов за семестр) сильнее влияет на результат (экзаменационная оценка), чем фактор х₂ (время, затраченное студентом в течение недели с целью получения заработка). Заметим, что связь между результатом у и фактором х₂ обратная: чем больше времени студент тратит для получения заработка, тем ниже экзаменационная оценка.

4. Совокупный коэффициент детерминации определяется из Регрессионной статистики (табл. 8.6): R² = 0,911, т. е. вариация возможной оценки на экзамене на 91,1% зависит от вариации накопленных за семестр текущих баллов и вариации времени, которое студент тратит в течение недели на заработок.
5. Найдем коэффициенты раздельной детерминации:

Таким образом, за счет вариации накопленных за семестр текущих баллов объясняется 72,3% вариации оценки на экзамене, а за счет времени, затраченного в течение недели на заработок, — 18,8%. Сумма коэффициентов раздельной детерминации равна R².

6. Рассчитаем частные линейные коэффициенты эластичности:

Это означает, что при увеличении накопленных за семестр баллов на 1% их среднего уровня оценка за экзамен увеличивается на 10,97% своего среднего уровня, при увеличении времени на заработок на 1% его среднего значения результат снижается на 0,07%. Очевидно, что сила влияния фактора х_х сильнее, чем фактора х₂. Аналогичные выводы о силе связи мы получили, сравнивая Р-коэффициенты.

7. Расчитаем ожидаемую оценку, которую получит студент на экзамене, если сумма накопленных в течение семестра баллов (л,) равна 85, а время, затраченное студентом в течение недели для заработка (х₂), составляет 5 ч. Воспользуемся полученным уравнением регрессии в натуральном масштабе:

или Многофакторный регрессионный анализ.

Следовательно, ожидаемая экзаменационная оценка составляет четыре балла.

Показать весь текст

Заполнить форму текущей работой