Помощь в написании студенческих работ
Антистрессовый сервис

Независимые факторы. 
Описательная статистика

РефератПомощь в написанииУзнать стоимостьмоей работы

На этом шаге строкам-ортам в 1-й матрице соответствуют включенные в регрессию факторы, на их месте в 1-й строке этой матрицы оказываются текущие оценки параметров регрессии при них. Строкам-ортам во 2-й матрице соответствуют невведенные факторы, на их месте в 1-й строке 1-й матрицы размещаются коэффициенты ковариации этих факторов с текущими остатками изучаемой переменной. На месте mxx… Читать ещё >

Независимые факторы. Описательная статистика (реферат, курсовая, диплом, контрольная)

Если не выполняется 2-я гипотеза, и некоторые из переменных z линейно зависят от других, то матрица M вырождена, и использование приведенного оператора оценивания невозможно.

Вообще говоря, предложить метод оценивания параметров регрессии в этом случае можно. Так, пусть множество независимых факторов разбито на две части (в этом фрагменте используются обозначения сокращенной формы уравнения регрессии):

Независимые факторы. Описательная статистика.

,.

Независимые факторы. Описательная статистика.
Независимые факторы. Описательная статистика.

и .

Тогда можно записать уравнение регрессии в форме.

+ e,.

Независимые факторы. Описательная статистика.

и оценить линейную комбинацию параметров (предполагая, что столбцы Z1 линейно независимы). Но чтобы оценить сами параметры, нужна априорная информация, например: .

Однако вводить в регрессию факторы, которые линейно зависят от уже введенных факторов, не имеет смысла, т.к. при этом не растет объясненная дисперсия (см. ниже).

На практике редко встречается ситуация, когда матрица M вырождена. Более распространен случай, когда она плохо обусловлена (между переменными Z существуют зависимости близкие к линейным). В этом случае имеет место мультиколлинеарность факторов. Поскольку гипотеза 2 в части отсутствия ошибок измерения, как правило, нарушается, получаемые (при мультиколлинеарности) оценки в значительной степени обусловлены этими ошибками измерения. В таком случае (если связь существует), обычно, факторы по отдельности оказываются незначимыми по t-критерию, а все вместе — существенными по F-критерию. Поэтому в регрессию стараются не вводить факторы сильно скоррелированные с остальными.

В общем случае доказывается, что.

Независимые факторы. Описательная статистика.

.

Независимые факторы. Описательная статистика.
Независимые факторы. Описательная статистика.

где и — дисперсии, объясненные факторами z1 и z2 по отдельности;

Независимые факторы. Описательная статистика.

— прирост объясненной дисперсии, вызванный добавлением в регрессии факторов z2 к факторам z1.

В соотношении для прироста объясненной дисперсии:

— левая часть выполняется как строгое равенство, если и только если.

Независимые факторы. Описательная статистика.

(коэффициент детерминации в регрессии по z1 уже равен единице), или вектор остатков в регрессии по z1 ортогонален факторам, т. е. имеет с ними нулевую корреляцию (возможное влияние факторов z2 уже «приняли» на себя факторы z1), или факторы линейно зависят от факторов ;

— правая часть выполняется как строгое равенство, если и только если факторы ортогональны факторам .

Если в множество линейно независимых факторов добавлять новые элементы, то коэффициент детерминации растет вплоть до единицы, после чего рост прекращается. Своего максимального значения он обязательно достигнет при n = N (возможно и раньше) — даже если вводимые факторы не влияют по-существу на изучаемую переменную. Поэтому сам по себе коэффициент детерминации не может служить статистическим критерием «качества» уравнения регрессии. Более приемлем в этой роли коэффициент детерминации, скорректированный на число степеней свободы:

.

который может и уменьшиться при введении нового фактора. Точную же статистическую оценку качества (в случае нормальности распределения остатков) дает F-критерий. Однако учитывая, что значения Fc оказываются несопоставимыми при изменении n (т.к. получают разное число степеней свободы), наиболее правильно эту роль возложить на уровень ошибки с для Fc.

В результате введения новых факторов в общем случае меняются оценки параметров при ранее введенных факторах:

Независимые факторы. Описательная статистика.

.

где — оценка параметров регрессии по z1 (до введения новых факторов);

A12 — матрица, столбцы которой являются оценками параметров регрессии переменных z2 по z1.

Независимые факторы. Описательная статистика.

«Старые» оценки параметров сохраняются (), если и только если.

— коэффициент детерминации в регрессии по z1 уже равен единице, или вектор остатков в регрессии по z1 ортогонален факторам (в этих двух случаях a2 = 0), или факторы ортогональны факторам (в этом случае A12 = 0).

Итак, возникает проблема определения истинного набора факторов, фигурирующих в гипотезе 1, который позволил бы найти оценки истинных параметров регрессии. Определение такого набора факторов есть спецификация модели. Формальный подход к решению этой проблемы заключается в поиске так называемого наилучшего уравнения регрессии, для чего используется процесс (метод) шаговой регрессии.

Пусть z — полный набор факторов, потенциально влияющих на x. Рассматривается процесс обращения матрицы ковариации переменных [x, z]. В паре матриц (n+1)(n+1)

Независимые факторы. Описательная статистика.

делаются одновременные преобразования их строк в орты. Известно, что, если 1-ю матрицу преобразовать в единичную, то на месте 2-й матрицы будет получена обратная к 1-й (исходной). Пусть этот процесс не завершен, и только несколько строк 1-й матрицы (но не ее 1-я строка) преобразованы в орты. Это — ситуация на текущем шаге процесса.

На этом шаге строкам-ортам в 1-й матрице соответствуют включенные в регрессию факторы, на их месте в 1-й строке этой матрицы оказываются текущие оценки параметров регрессии при них. Строкам-ортам во 2-й матрице соответствуют невведенные факторы, на их месте в 1-й строке 1-й матрицы размещаются коэффициенты ковариации этих факторов с текущими остатками изучаемой переменной. На месте mxx показывается текущее значение остаточной дисперсии.

На каждом шаге оцениваются последствия введения в регрессию каждого не включенного фактора (преобразованием в орты сответствующих строк 1-й матрицы) и исключения каждого введенного ранее фактора (преобразованием в орты соответствующих строк 2-й матрицы). Выбирается тот вариант, который дает минимальный уровень ошибки с для Fc. Процесс продолжается до тех пор, пока этот уровень сокращается.

Иногда в этом процессе используются более простые критерии. Например, задается определенный уровень t-статистики (правильнее — уровень ошибки с для tc), и фактор вводится в уравнение, если фактическое значение tc для него выше заданного уровня (ошибка с ниже ее заданного уровня), фактор исключается из уравнения в противном случае.

Такие процессы, как правило, исключают возможность введения в уравнение сильно скоррелированных факторов, т. е. решают проблему мультиколлинеарности.

Формальные подходы к спецификации модели должны сочетаться с теоретическими подходами, когда набор факторов и, часто, знаки параметров регрессии определяются из теории изучаемого явления.

Прогнозирование

Требуется определить наиболее приемлемое значения для xN+1 (прогноз), если известны значения независимых факторов (вектор-строка):

Независимые факторы. Описательная статистика.

.

— истинное значение искомой величины;

Независимые факторы. Описательная статистика.

— ожидаемое значение;

Независимые факторы. Описательная статистика.

— искомый МНК-прогноз.

Полученный прогноз не смещен относительно ожидаемого значения:

Независимые факторы. Описательная статистика.

.

Независимые факторы. Описательная статистика.

и его ошибка имеет нулевое матожидание:

E (d) = 0,.

Независимые факторы. Описательная статистика.

и дисперсию, которая минимальна в классе линейных оценок .

Оценка стандартной ошибки прогноза при n = 1 рассчитывается по формуле.

.

Показать весь текст
Заполнить форму текущей работой