Помощь в написании студенческих работ
Антистрессовый сервис

Исследование регрессии и корреляции

КонтрольнаяПомощь в написанииУзнать стоимостьмоей работы

Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами — на весьма тесную связь факторов с результатом. Получили, что (при), т. е. вероятность случайно… Читать ещё >

Исследование регрессии и корреляции (реферат, курсовая, диплом, контрольная)

1. Парная регрессия и корреляция

По территориям региона приводятся данные за 199X г.

Таблица 1

Номер региона

Среднедушевой прожиточный минимум в день одного трудоспособного, руб.,

Среднедневная заработная плата, руб.,

Требуется:

1. Построить линейное уравнение парной регрессии от .

2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции с помощьюкритерия Фишера икритерия Стьюдента.

4. Выполнить прогноз заработной платы при прогнозном значении среднедушевого прожиточного минимума, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике построить исходные данные и теоретическую прямую.

Решение

1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2.

Таблица 2

;

.

Получено уравнение регрессии: .

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,95 руб.

2. Тесноту линейной связи оценит коэффициент корреляции:

; .

Это означает, что 70% вариации заработной платы () объясняется вариацией фактора — среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

.

Качество построенной модели оценивается как хорошее, так как не превышает 8−10%.

3. Оценку значимости уравнения регрессии в целом проведем с помощьюкритерия Фишера. Фактическое значениекритерия:

.

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет. Так как, то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощьюстатистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Табличное значениекритерия для числа степеней свободы и составит .

Определим случайные ошибки, , :

;

.

Тогда

;

.

Фактические значениястатистики превосходят табличное значение:

поэтому параметры, и не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительные интервалы для параметров регрессии и. Для этого определим предельную ошибку для каждого показателя:

;

.

Доверительные интервалы Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и, находясь в указанных границах, не принимают нулевых значений, т. е. не являются статистически незначимыми и существенно отличны от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит: руб., тогда прогнозное значение заработной платы составит: руб.

5. Ошибка прогноза составит:

.

Предельная ошибка прогноза, которая в случаев не будет превышена, составит:

.

Доверительный интервал прогноза:

руб.;

руб.

Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 120,37 руб. до 161,99 руб.

6. В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую (рис. 1):

Рис. 1.

2. Множественная регрессия и корреляция

По предприятиям региона изучается зависимость выработки продукции на одного работника (тыс. руб.) от ввода в действие новых основных фондов (от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих ().

Номер предприятия

Номер предприятия

3,5

6,3

3,6

6,4

3,9

4,1

7,5

4,2

7,9

4,5

8,2

5,3

8,4

5,3

8,6

5,6

9,5

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощьюкритерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью частныхкритериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Решение

Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:

Найдем средние квадратические отклонения признаков:

;

;

.

1. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной регрессии необходимо решить следующую систему линейных уравнений относительно неизвестных параметров, , :

либо воспользоваться готовыми формулами:

; ;

.

Рассчитаем сначала парные коэффициенты корреляции:

;

;

.

Находим

;

;

.

Таким образом, получили следующее уравнение множественной регрессии:

.

Коэффициенты и стандартизованного уравнения регрессии находятся по формулам:

;

.

Т.е. уравнение будет выглядеть следующим образом:

.

Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

.

Вычисляем:

; .

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,83% или 0,035% соответственно. Таким образом, подтверждается большее влияние на результат фактора, чем фактора .

2. Коэффициенты парной корреляции мы уже нашли:

;; .

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы и явно коллинеарны, т. к.). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

;

.

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:

где

— определитель матрицы парных коэффициентов корреляции;

— определитель матрицы межфакторной корреляции.

;

.

Коэффициент множественной корреляции

.

Аналогичный результат получим при использовании других формул:

;

;

.

Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами — на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более) детерминированность результата в модели факторами и .

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи даеткритерий Фишера:

.

В нашем случае фактическое значениекритерия Фишера:

.

Получили, что (при), т. е. вероятность случайно получить такое значениекритерия не превышает допустимый уровень значимости. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т. е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .

5. С помощью частныхкритериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:

;

.

Найдем и .

;

.

Имеем

;

.

Получили, что. Следовательно, включение в модель фактора после того, как в модель включен фактор статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака оказывается незначительным, несущественным; фактор включать в уравнение после фактора не следует.

Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения после, то результат расчета частногокритерия для будет иным., т. е. вероятность его случайного формирования меньше принятого стандарта. Следовательно, значение частногокритерия для дополнительно включенного фактора не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора является существенным. Фактор должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора .

6. Общий вывод состоит в том, что множественная модель с факторами и с содержит неинформативный фактор. Если исключить фактор, то можно ограничиться уравнением парной регрессии:

.

3. Системы эконометрических уравнений

Дана система эконометрических уравнений.

Макроэкономическая модель (упрощенная версия модели Клейна):

где — потребление; - инвестиции; - доход; - налоги; - запас капитала; - текущий период; - предыдущий период.

Требуется

1. Применив необходимое и достаточное условие идентификации, определите, идентифицируемо ли каждое из уравнений модели.

2. Определите метод оценки параметров модели.

3. Запишите в общем виде приведенную форму модели.

Решение

Первое уравнение — функция потребления, второе уравнение — функция инвестиций, третье уравнение — тождество дохода.

Модель представляет собой систему одновременных уравнений. Проверим каждое ее уравнение на идентификацию.

Модель включает три эндогенные переменные и две предопределенные переменные (экзогенную переменную — и лаговую переменную —).

Проверим необходимое условие идентификации для каждого из уравнений модели.

Первое уравнение:. Это уравнение содержит две эндогенные переменные и и одну предопределенную переменную. Таким образом,, а, т. е. выполняется условие. Уравнение сверхидентифицируемо.

Второе уравнение:. Оно включает две эндогенные переменные и и одну экзогенную переменную. Выполняется условие. Уравнение сверхидентифицируемо.

Третье уравнение:. Оно представляет собой тождество, параметры которого известны. Необходимости в идентификации нет.

Проверим для каждого уравнения достаточное условие идентификации. Для этого составим матрицу коэффициентов при переменных модели.

I уравнение

— 1

II уравнение

— 1

Тождество

— 1

В соответствии с достаточным условием идентификации ранг матрицы коэффициентов при переменных, не входящих в исследуемое уравнение, должен быть равен числу эндогенных переменных модели без одного.

Первое уравнение. Матрица коэффициентов при переменных, не входящих в уравнение, имеет вид

II уравнение

— 1

Тождество

Ранг данной матрицы равен двум, так как определитель квадратной матрицы не равен нулю:

.

Достаточное условие идентификации для данного уравнения выполняется.

Второе уравнение. Матрица коэффициентов при переменных, не входящих в уравнение, имеет вид

I уравнение

— 1

Тождество

Ранг данной матрицы равен двум, так как определитель квадратной матрицы не равен нулю:

.

Достаточное условие идентификации для данного уравнения выполняется.

Таким образом, все уравнения модели сверхидентифицируемы. Приведенная форма модели в общем виде будет выглядеть следующим образом:

Для оценки параметров необходимо применить двухшаговый метод наименьших квадратов.

4. Временные ряды

корреляция регрессия линейный уравнение Имеются условные данные об объемах потребления электроэнергии () жителями региона за 16 кварталов.

5,8

7,9

4,5

5,5

5,1

6,3

9,1

10,8

7,0

9,0

5,0

6,5

6,0

7,0

10,1

11,1

Требуется:

1. Построить автокорреляционную функцию и сделать вывод о наличии сезонных колебаний.

2. Построить мультипликативную модель временного ряда.

3. Сделать прогноз на 2 квартала вперед.

Решение

Построим поле корреляции:

Рис. 1

Уже исходя из графика видно, что значения образуют пилообразную фигуру. Рассчитаем несколько последовательных коэффициентов автокорреляции. Для этого составляем первую вспомогательную таблицу.

Таблица 2

t

yt

yt-1

yt — y1

yt-1 — y2

(yt — y1) *(yt-1 — y2)

(yt-y1)2

(yt-1-y2)2

5,8

;

;

;

;

;

;

4,5

5,8

— 2,89

— 1,24

3,59

8,37

1,54

5,1

4,5

— 2,29

— 2,54

5,83

5,26

6,45

9,1

5,1

1,71

— 1,94

— 3,31

2,91

3,76

9,1

— 0,39

2,06

— 0,81

0,15

4,24

— 2,39

— 0,04

0,10

5,73

0,00

— 1,39

— 2,04

2,84

1,94

4,16

10,1

2,71

— 1,04

— 2,81

7,33

1,08

7,9

10,1

0,51

3,06

1,55

0,26

9,36

5,5

7,9

— 1,89

0,86

— 1,63

3,58

0,74

6,3

5,5

— 1,09

— 1,54

1,68

1,20

2,37

10,8

6,3

3,41

— 0,74

— 2,52

11,61

0,55

10,8

1,61

3,76

6,04

2,58

14,14

6,5

— 0,89

1,96

— 1,75

0,80

3,84

6,5

— 0,39

— 0,54

0,21

0,15

0,29

11,1

3,71

— 0,04

— 0,15

13,74

0,00

Сумма

110,9

105,6

0,00

0,00

8,85

65,61

52,54

Среднее значение

7,39

7,04

;

;

;

;

;

Следует заметить, что среднее значение получается путем деления не на 16, а на 15, т. к. у нас теперь на одно наблюдение меньше.

Теперь вычисляем коэффициент автокорреляции первого порядка по формуле (4.1):

.

Составляем вспомогательную таблицу для расчета коэффициента автокорреляции второго порядка.

Таблица 3

5,8

;

;

;

;

;

;

4,5

;

;

;

;

;

;

5,1

5,80

— 2,50

— 1,24

3,11

6,25

1,54

9,1

4,50

1,50

— 2,54

— 3,81

2,25

6,47

5,10

— 0,60

— 1,94

1,17

0,36

3,77

9,10

— 2,60

2,06

— 5,35

6,76

4,23

7,00

— 1,60

— 0,04

0,07

2,56

0,00

10,1

5,00

2,50

— 2,04

— 5,11

6,25

4,17

7,9

6,00

0,30

— 1,04

— 0,31

0,09

1,09

5,5

10,10

— 2,10

3,06

— 6,42

4,41

9,35

6,3

7,90

— 1,30

0,86

— 1,11

1,69

0,73

10,8

5,50

3,20

— 1,54

— 4,94

10,24

2,38

6,30

1,40

— 0,74

— 1,04

1,96

0,55

6,5

10,80

— 1,10

3,76

— 4,13

1,21

14,12

9,00

— 0,60

1,96

— 1,17

0,36

3,83

11,1

6,50

3,50

— 0,54

— 1,90

12,25

0,29

Сумма

106,4

98,60

0,00

0,00

— 30,96

56,64

52,53

Среднее значение

7,60

7,04

Следовательно

.

Аналогично находим коэффициенты автокорреляции более высоких порядков, а все полученные значения заносим в сводную таблицу.

Таблица 4.

Лаг

Коэффициент автокорреляции уровней

0,150 741

— 0,567 553

0,94 221

0,989 408

0,125 385

— 0,697 339

— 0,39 680

0,975 879

0,146 685

— 0,741 901

— 0,131 990

0,955 916

Коррелограмма:

Рис. 2.

Анализ коррелограммы и графика исходных уровней временного ряда позволяет сделать вывод о наличии в изучаемом временном ряде сезонных колебаний периодичностью в четыре квартала.

Построим мультипликативную модель временного ряда.

Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней. Для этого:

1.1. Просуммируем уровни ряда последовательно за каждые четыре квартала со сдвигом на один момент времени и определим условные годовые объемы потребления электроэнергии (гр. 3 табл. 5).

1.2. Разделив полученные суммы на 4, найдем скользящие средние (гр. 4 табл. 5). Полученные таким образом выровненные значения уже не содержат сезонной компоненты.

1.3. Приведем эти значения в соответствие с фактическими моментами времени, для чего найдем средние значения из двух последовательных скользящих средних — центрированные скользящие средние (гр. 5 табл. 5).

Таблица 5.

№ квартала, t

Объем потребления энергии, yt

Итого за четыре квартала

Скользящая средняя за четыре квартала

Центрированная скользящая средняя

Оценка сезонной компоненты

5,8

;

;

;

;

4,5

24,5

6,125

;

;

5,1

25,7

6,425

6,275

0,8127

9,1

26,2

6,55

6,4875

1,4027

27,1

6,775

6,6625

1,0507

28,1

7,025

6,9

0,7246

7,25

7,1375

0,8406

10,1

29,5

7,375

7,3125

1,3812

7,9

29,8

7,45

7,4125

1,0658

5,5

30,5

7,625

7,5375

0,7297

6,3

31,6

7,9

7,7625

0,8116

10,8

32,6

8,15

8,025

1,3458

33,3

8,325

8,2375

1,0926

6,5

33,6

8,4

8,3625

0,7773

;

;

;

;

11,1

;

;

;

;

Шаг 2. Найдем оценки сезонной компоненты как частное от деления фактических уровней ряда на центрированные скользящие средние (гр. 6 табл. 5). Эти оценки используются для расчета сезонной компоненты (табл. 6.). Для этого найдем средние за каждый квартал оценки сезонной компоненты. Считается, что сезонные воздействия за период взаимопогашаются. В мультипликативной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна числу периодов в цикле. В нашем случае число периодов одного цикла равно 4.

Таблица 6.

Показатели

№ квартала, i

I

II

III

IV

;

;

0,8127

1,4027

1,0507

0,7246

0,8406

1,3812

1,0658

0,7297

0,8116

1,3458

1,0926

0,7773

;

;

Всего за i_й квартал

3,2091

2,2316

2,4649

4,1297

Средняя оценка сезонной компоненты для i_го квартала,

1,0697

0,7439

0,8216

1,3766

Скорректированная сезонная компонента, Si

1,0666

0,7417

0,8192

1,3725

Имеем

.

Определяем корректирующий коэффициент:

.

Скорректированные значения сезонной компоненты получаются при умножении ее средней оценки на корректирующий коэффициент .

Проверяем условие равенство 4 суммы значений сезонной компоненты:

.

Шаг 3. Разделим каждый уровень исходного ряда на соответствующие значения сезонной компоненты. В результате получим величины (гр. 4 табл. 7), которые содержат только тенденцию и случайную компоненту.

Таблица 7.

t

yt

Si

yt/Si

T

T*S

E=yt/(T*S)

5,8

1,0666

5,4378

5,8475

6,2369

0,9299

4,5

0,7417

6,0671

6,0392

4,4793

1,0046

5,1

0,8192

6,2256

6,2309

5,1044

0,9991

9,1

1,3725

6,6302

6,4226

8,8150

1,0323

1,0666

6,5629

6,6143

7,0548

0,9922

0,7417

6,7413

6,8060

5,0480

0,9905

0,8192

7,3242

6,9977

5,7325

1,0467

10,1

1,3725

7,3588

7,1894

9,8675

1,0236

7,9

1,0666

7,4067

7,3811

7,8727

1,0035

5,5

0,7417

7,4154

7,5728

5,6167

0,9792

6,3

0,8192

7,6904

7,7645

6,3607

0,9905

10,8

1,3725

7,8689

7,9562

10,9199

0,9890

1,0666

8,4380

8,1479

8,6906

1,0356

6,5

0,7417

8,7637

8,3396

6,1855

1,0508

0,8192

8,5449

8,5313

6,9888

1,0016

11,1

1,3725

8,0874

8,7230

11,9723

0,9271

Шаг 4. Определим компоненту в мультипликативной модели. Для этого рассчитаем параметры линейного тренда, используя уровни. В результате получим уравнение тренда:

.

Подставляя в это уравнение значения, найдем уровни для каждого момента времени (гр. 5 табл. 7.).

Шаг 5. Найдем уровни ряда, умножив значения на соответствующие значения сезонной компоненты (гр. 6 табл. 7.). На одном графике откладываем фактические значения уровней временного ряда и теоретические, полученные по мультипликативной модели.

Расчет ошибки в мультипликативной модели производится по формуле:

.

Для сравнения мультипликативной модели и других моделей временного ряда можно использовать сумму квадратов абсолютных ошибок :

Шаг 6. Прогнозирование по мультипликативной модели. Прогнозное значение уровня временного ряда в мультипликативной модели есть произведение трендовой и сезонной компонент. Для определения трендовой компоненты воспользуемся уравнением тренда

.

Получим

;

.

Значения сезонных компонент за соответствующие кварталы равны: и. Таким образом

;

.

Т.е. в следующие два квартала следует ожидать следующие объемы потребления электроэнергии 9,5 и 6,8 соответственно.

Показать весь текст
Заполнить форму текущей работой