Линейные регрессионные модели с переменной структурой.
Фиктивные переменные
Следует отмстить не совсем удачный перевод на русский язык термина «dummy variables» как «фиктивная» переменная. Во-первых, в модели регрессионного анализа мы уже имеем фиктивную переменную X при коэффициенте Ро, всегда равную единице. Во-вторых, и это главное — все процедуры регрессионного анализа (оценка параметров регрессионной модели, проверка значимости ее коэффициентов и т. п.) проводятся… Читать ещё >
Линейные регрессионные модели с переменной структурой. Фиктивные переменные (реферат, курсовая, диплом, контрольная)
До сих пор мы рассматривали регрессионную модель, в которой в качестве объясняющих переменных (регрессоров) выступали количественные переменные (производительность труда, себестоимость продукции, доход и т. п.). Однако на практике достаточно часто возникает необходимость исследования влияния качественных признаков, имеющих два или несколько уровней (градаций). К числу таких признаков можно отнести: пол (мужской, женский), образование (начальное, среднее, высшее), фактор сезонности (зима, весна, лето, осень) и т. п.
Качественные признаки могут существенно влиять на структуру линейных связей между переменными и приводить к скачкообразному изменению параметров регрессионной модели. В этом случае говорят об исследовании регрессионных моделей с переменной структурой или построении регрессионных моделей по неоднородным данным.
Например, нам надо изучить зависимость размера заработной платы Y работников не только от количественных факторов Х> ХП9 но и от качественного признака Z (например, фактора «пол работника»).
В принципе можно было получить оценки регрессионной модели.
для каждого уровня качественного признака (т. е. выборочное уравнение регрессии отдельно для работников-мужчин и отдельно — для женщин), а затем изучать различия между ними (см. § 5.4).
Но есть и другой подход, позволяющий оценивать влияние значений количественных переменных и уровней качественных признаков с помощью одного уравнения регрессии. Этот подход связан с введением так называемых фиктивных (манекенных) переменныхЛ, или манекенов (dummy variables).
В качестве фиктивных переменных обычно используются дихотомические (бинарные, булевы) переменные, которые принимают всего два значения: «О» или «1» (например, значение такой переменной Z по фактору «пол»: Z= 0 для работников-женщин и Z=l — для мужчин).
В этом случае первоначальная регрессионная модель (5.1) заработной платы изменится и примет вид:
fl, если /-й работник мужского пола; где гц= «_.
[О если /-и работник женского пола.
Таким образом, принимая модель (5.2), мы считаем, что средняя заработная плата у мужчин на[1]
венность влияния фактора «пол» на размер заработной платы работника.
Следует отметить, что в принципе качественное различие можно формализовать с помощью любой переменной, принимающей два разных значения, нс обязательно «О» или «1». Однако в эконометрической практике почти всегда используются фиктивные переменные типа «0—1», так как при этом интерпретация полученных результатов выглядит наиболее просто. Так, если бы в модели (5.2) в качестве фиктивной выбрали переменную Z, принимающую значения гц=4 (для работников-мужчин) и z, —2=1 (для женщин), то коэффициент регрессии ai при этой переменной равнялся бы 1/(4—1), т. е. одной трети среднего изменения заработной платы у мужчин.
Если рассматриваемый качественный признак имеет несколько (к) уровней (градаций), то в принципе можно было ввести в регрессионную модель дискретную переменную, принимающую такое же количество значений (например, при исследовании зависимости заработной платы Y от уровня образования Z можно рассматривать к= 3 значения: z, i=l при наличии начального образования, za—2 — среднего и гд=3 при наличии высшего образования). Однако обычно так не поступают из-за трудности содержательной интерпретации соответствующих коэффициентов регрессии, а вводят (?—1) бинарных переменных.
В рассматриваемом примере для учета фактора образования можно было в регрессионную модель (5.2) ввести к — 1=3—1=2 бинарные переменные Zi и Z^'-
1, если /-Й работник имеет высшее образование;
где zq=<
(0 во всех остальных случаях;
fl, если /-Й работник имеет среднее образование;
Z/22= <
I о во всех остальных случаях.
Третьей бинарной переменной Х2з, очевидно, не требуется: если /-й работник имеет начальное образование, это будет отражено парой значений za — 0, zai= 0.
Более того, вводить третью бинарную переменную Z23 (со значениями z/13 = 1, если /-й работник имеет начальное образование; z, —2з=0 — в остальных случаях) нельзя, так как при этом для любого /-го работника 2д1+2д2+глз=1> т— е— ПРИ суммировании элементов столбцов общей матрицы плана, соответствующих фиктивным переменным Z21, Z22, Z23, мы получили бы столбец, состоящий из одних единиц. А так как в матрице плана такой столбец из единиц уже есть (напомним (§ 4.1), что это первый столбец, соответствующий свободному члену уравнения регрессии), то это означало бы линейную зависимость значений (столбцов) общей матрицы плана X, т. е. нарушило бы предпосылку 6 регрессионного анализа. Таким образом, мы оказались бы в условиях мульти коллинеарности в функциональной форме (§ 5.1) и как следствие — невозможности получения оценок методом наименьших квадратов.
Такая ситуация, когда сумма значений нескольких переменных, включенных в регрессию, равна постоянному числу (единице), получила название «dummy trap» или «ловушки». Чтобы избежать такие ловушки, число вводимых бинарных переменных должно быть на единицу меньше числа уровней (градаций) качественного признака.
Следует отмстить не совсем удачный перевод на русский язык термина «dummy variables» как «фиктивная» переменная. Во-первых, в модели регрессионного анализа мы уже имеем фиктивную переменную X при коэффициенте Ро, всегда равную единице. Во-вторых, и это главное — все процедуры регрессионного анализа (оценка параметров регрессионной модели, проверка значимости ее коэффициентов и т. п.) проводятся при включении фиктивных переменных так же, как и «обычных», количественных объясняющих переменных. «Фиктивность» же переменных Z, состоит только в том, что они количественным образом описывают качественный признак.
Рассматриваемые выше регрессионные модели (5.2) и (5.3) отражали влияние качественного признака (фиктивных переменных) только на значения переменной Y, т. е. на свободный член уравнения регрессии. В более сложных моделях может быть отражена также зависимость фиктивных переменных на сами параметры при переменных регрессионной модели. Например, при наличии в модели объясняющих переменных — количественной Х И фиктивных Z, Z12, Z21, Z22, из которых Z||, Z12 влияют только на значение коэффициента при Х, a Z21, Z22 — только на величину свободного члена уравнения, такая регрессионная модель примет вид:
Модели типа (5.4) используются, например, при исследовании зависимости объема потребления Y некоторого продукта от дохода потребителя X, когда одни качественные признаки (например, фактор сезонности) влияют лишь на количество потребляемого продукта (свободный член уравнения регрессии), а другие (например, уровень доходности домашнего хозяйства) — на параметр Pi при X, интерпретируемый как «склонность к потреблению».
? Пример 5.2. Необходимо исследовать зависимость между результатами письменных вступительных и курсовых (на I курсе) экзаменов по математике. Получены следующие данные о числе решенных задач на вступительных экзаменах X (задание — 10 задач) и курсовых экзаменах Y (задание — 7 задач) 12 студентов, а также распределение этих студентов по фактору «пол»:
№ студента | Число решенных задач | Пол сту- дента | № студента | Число решенных задач | Пол сту- дента | ||
х, | У/ | X; | у, — | ||||
муж. | жен. | ||||||
жен. | муж. | ||||||
муж. | муж. | ||||||
жен. | жен. | ||||||
жен. | муж. | ||||||
муж. | жен. |
Построить линейную регрессионную модель Y по X с использованием фиктивной переменной по фактору «пол». Можно ли считать, эта модель одна и та же для юношей и девушек?
Решение. Вначале рассчитаем уравнение парной регрессии К по X, используя формулы (3.7) — (3.15):
По формуле (3.47) коэффициент детерминации R;.x = 0,530, т. е. 53,0% вариации зависимой переменной Y обусловлено perрессией. Уравнение регрессии значимо по /^критерию, так как в соответствии с (3.48) /г=9,46>/го.о5;1;Ю = 4,96.
Однако полученное уравнение не учитывает влияние качественного признака — фактора «пол».
Для ее учета введем в регрессионную модель фиктивную (бинарную) переменную Z ,
[1, если /'-й студент мужского пола,
где z/i 1Л. ~.
[О если i — и студент женского пола.
Полагая, что фактор «пол» может сказаться только на числе решенных задач (свободном члене) регрессии, имеем модель1 типа
(5.2):
По формуле (4.8) найдем вектор оценок параметров регрессии ?=(—1,165; 0,743; 0,466)'.
Так что в соответствии с (4.9) выборочное уравнение множественной регрессии примет вид:
Коэффициент детерминации Щг3а = 0,549.
Уравнение регрессии значимо по /'-критерию на 5%-ном уровне, так как в соответствии с (4.35).
F— 5,48>/го, 05;2;9 — 4,26.
Из (5.8) следует, что при том же числе решенных задач на вступительных экзаменах X, на курсовых экзаменах юноши решают в среднем на 0,466 * 0,5 задачи больше. На рис. 5.2 показаны линии регрессии К по ^ для юношей (при z=l, т. е. у = -1,165+0,743х+0,466 • 1 или у = -0,699+0,743х) и для девушек (при zi=0, т. е. у = — 1,165+0,743х).
Эти уравнения отличаются только свободным членом, а соответствующие линии регрессии параллельны (см. рис. 5.2). Полученное уравнение множественной регрессии (5.8) попрежнему значимо по /'-критерию. Однако коэффициент регрессии а при фиктивной переменной Z незначим по /-критерию. _ 0,466, , _ _ _
- (ибо / =-= 1,15 и /</<sub>0 959 = 2,26), возможно, из-за недоста-
- 0,405
точного объема выборки либо в силу того, что гипотеза Hq: а = 0 верна).
Рис. 5.2.
В этом также легко убедиться, если вычислить по формуле (4.34) скорректированный коэффициент детерминации, который
уменьшился от значения Щх =0,483 для парной модели (5.5) до значения = 0,449 для множественной модели (5.6). Следовательно, по имеющимся данным влияние фактора «пол» оказалось несущественным, и у нас есть основания считать, что регрессионная модель результатов курсовых экзаменов по математике в зависимости от вступительных одна и та же для юношей и девушек. ?
Замечание. Если бы в регрессионной модели мы хотели учесть другие факторы с большим, чем две, числом к, градаций, то, как отмечено выше, следовало бы ввести в модель (кг 1) бинарных переменных. Например, если было бы необходимо изучить влияние на результаты курсового экзамена фактора Z^—"тип учебного заведения", оконченного студентом (школа, техникум, ПТУ), то в регрессионную модель (5.6) следовало ввести кх—1=3—1=2 бинарные переменные Zi и Zi2-
fl, если студент окончил школу; где Zj2—{
[О в остальных случаях;
[1, если студент окончил техникум;
zi22=) _.
[О в остальных случаях.
Но при этом, конечно, следовало увеличить объем выборки л, так как надежность статистических выводов существенно зависит от отношения объема выборки п к общему числу всех параметров регрессионной модели: чем больше величина отношения п/(р+1), тем точнее соответствующие оценки, тем надежнее статистические выводы.
- [1] В отечественной литературе используется также термин структурные переменные.
- [2] Здесь и далее в скобках под коэффициентами регрессии указываются их средние квадратические (стандартные) отклонения.
- [3] Общая матрица плана X включает все значения переменных, в том числе значения фиктивных переменных Z,