Прогноз среднего значения цены
Магазин торгует подержанными автомобилями. Статистика их потребительских цен накапливается в базе данных. В магазин пригоняют на продажу очередную партию небольших однотипных автомобилей. Как назначить их цену? Статистический подход позволяет дать прогноз среднего значения цены и доверительных интервалов для него. На продажу поступила очередная партия однотипных автомобилей. Их возраст х1 равен 3… Читать ещё >
Прогноз среднего значения цены (реферат, курсовая, диплом, контрольная)
Задача 1
Магазин торгует подержанными автомобилями. Статистика их потребительских цен накапливается в базе данных. В магазин пригоняют на продажу очередную партию небольших однотипных автомобилей. Как назначить их цену? Статистический подход позволяет дать прогноз среднего значения цены и доверительных интервалов для него.
Цена автомобиля зависит от множества факторов. К числу объясняющих переменных можно отнести, например, модель автомобиля, фирму-производитель, регион производства (Европа, США, Япония), объем двигателя, фирму-производитель, регион производства (Европа, США, Япония), объем производителя, количество цилиндров, время разгона до 100 км/час, пробег, потребление горючего, год выпуска и т. д. Первые из названных переменных очень важны при ценообразовании, но они — качественные. Традиционный регрессионный анализ, рассматриваемый в этом задании, предназначен для количественных данных. Поэтому, не претендуя на высокую точность, не будем включать их в эконометрическую модель. Сделаем выборку, например, только для автомобилей одной фирмы-производителя. Пусть, например, оказалось, что продано n= 16 таких автомобилей. Для упрощения выберем из базы данных цены yi (i = 1…16) проданных автомобилей и только две объясняющие переменные: возраст хi1 (i = 1, …16) в годах и мощность двигателя хi2 (i = 1, …16) в лошадиных силах. Выборка представлена в таблице:
I номер | yi, цена, тыс. у.е. | хi1 возраст, лет | хi2, мощность двигателя | |
5,0 | ||||
7,0 | ||||
9,8 | 5,0 | |||
4,0 | ||||
12,3 | 4,0 | |||
8,7 | 6,0 | |||
9,3 | 5,0 | |||
10,6 | 5,0 | |||
11,8 | 4,0 | |||
10,6 | 4,0 | |||
5,2 | 7,0 | |||
8,2 | 5,0 | |||
6,5 | 6,0 | |||
5,7 | 7,0 | |||
7,9 | 6,0 | |||
10,5 | 4,0 | |||
1. Построить поля рассеяния между ценой y и возрастом автомобиля х1, между ценой y и мощностью автомобиля x2. На основе их визуального анализа выдвинуть гипотезу о виде статистической зависимости y от х1 и y от х2. Найти точечные оценки независимых параметров
а0а1 модели y = а0 + а1 х1 + е и
в1в2 модели y = в0 + а1 х1 + д
2. Проанализировать тесноту линейной связи между ценой и возрастом автомобиля, а также ценой и мощностью двигателя х2. Для этого рассчитать коэффициенты парной корреляции ryx1 и ryx2 и проверить их отличие от нуля при уровне значимости б = 0,1.
3. Проверить качество оценивания моделей на основе коэффициента детерминации, Fи tкритериев при уровне значимости б = 0,05 и б = 0,10.
4. Проверить полученные результаты с помощью средств Microcoft Excel.
5. С помощью уравнений регрессии рассчитать доверительные интервалы для среднего значения цены, соответствующие доверительной вероятности 0,9. Изобразить графически поля рассеяния, линии регрессии и доверительные полосы.
На продажу поступила очередная партия однотипных автомобилей. Их возраст х1 равен 3 года. Мощность двигателя х2 = 165 л.с. Рассчитать точечный и интервальный прогноз среднего значения цены поступивших автомобилей по моделям y = а0 + а1 х1 + е и y = в0 + а1 х1 + д с доверительной вероятностью 0,9.
Решение:
На основе поля рассеяния, построенного на основе табл. 1, выдвигаем гипотезу о том, что зависимость цены y от возраста автомобиля x1 описывается линейной моделью вида
y = а0 + а1 х1 + е
где а0 и а1 — неизвестные постоянные коэффициенты, а е — случайная переменная (случайное возмущение), отражающая влияние неучтенных факторов и погрешностей измерений.
Рисунок 1 — Поле рассеяния «возраст автомобиля-цена»
Аналогично, на основе анализа поля рассеяния (рис. 2), также построенного на основе таблицы 1, выдвигаем гипотезу о том, что зависимость цены y от мощности автомобиля x2 описывается линейной моделью вида
y = в0 + в1 х1 + д
где в0 и в1 — неизвестные постоянные коэффициенты, а е — случайная переменная (случайное возмущение), отражающая влияние неучтенных факторов и погрешностей измерений.
Рисунок 2 — Поле рассеяния «мощность автомобиля-цена»
На основе табл. 1 исходных данных для вычисления оценок параметров моделей составляется вспомогательная табл. 1.1. Воспользуемся формулами и левой частью таблицы 1.1. для нахождения оценок а0 и а1.
Так как n = 16, получаем
= 145/16=9.0625
= 84.0/16=5.25
= 27.5625
= 365
= 460
i | yi | xi1 | xi12 | xi1 yi | yi2 | i | yi | xi2 | xi22 | xi2 yi | |
5.0 | |||||||||||
7.0 | |||||||||||
9,8 | 5.0 | 96,04 | 9,8 | 1038,8 | |||||||
4.0 | |||||||||||
12,3 | 4.0 | 49,2 | 151,29 | 12,3 | 1635,9 | ||||||
8,7 | 6.0 | 52,2 | 75,69 | 8,7 | 817,8 | ||||||
9,3 | 5.0 | 46,5 | 86,49 | 9,3 | 1153,2 | ||||||
10,6 | 5.0 | 112,36 | 10,6 | ||||||||
11,8 | 4.0 | 47,2 | 139,24 | 11,8 | |||||||
10,6 | 4.0 | 42,4 | 112,36 | 10,6 | 1134,2 | ||||||
5,2 | 7.0 | 36,4 | 27,04 | 5,2 | 275,6 | ||||||
8,2 | 5.0 | 67,24 | 8,2 | ||||||||
6,5 | 6.0 | 42,25 | 6,5 | 435,5 | |||||||
5,7 | 7.0 | 39,9 | 32,49 | 5,7 | 416,1 | ||||||
7,9 | 6.0 | 47,4 | 62,41 | 7,9 | |||||||
10,5 | 4.0 | 110,25 | 10,5 | ||||||||
Сумма | 145,1 | 84.0 | 726,2 | 1393,15 | 145,1 | 15 327,1 | |||||
Следовательно,
а1 =
а0 = 9,0625- (-1,844) * 5.25 = 18,74
Таким образом,
Аналогично находятся оценки коэффициентов второй регрессионной модели y = в0 + в1 х1 + д. При этом используется правая часть таблицы
= 1611/16=100,6875
= 10 137.97
= 153 271,1
= 167 677
в1 =
в 0 = 9,0625- 0,0099 * 100.6875= 2.0355
Окончательно получаем:
Подставляем соответствующие значения в формулу:
ryx =
ryx1 = = 0,915
ryx2 = = 0.8
В нашей задаче t0.95;14 = 1,761
Для ryx1 получаем
= = 0,955 <1.761
Условие не выполняется, следовательно, коэффициент парной корреляции не значим, гипотеза отвергается, между переменными отсутствует линейная связь
= = 4.98>1.761
Условие выполняется, следовательно, коэффициент парной корреляции значимый, гипотеза подтверждается, между переменными существует сильная линейная связь
Коэффициент парной корреляции ryx связан с коэффициентом а1 уравнения регрессии
следующим образом
ryx = a1 Sx/Sy
где Sx, Sy — выборочные среднеквадратичные отклонения случайных переменных х и y соответственно, рассчитывающиеся по формулам:
Sx1 = v Sx12
Sx12 = 1/n ?(xi —)2
Sy = v Sy2
Sy2 = 1/n ?(yi —)2
ryx1 = 0,915
ryx2 = 0,8
R2 = ryx12 = 0,8372
Вариация на 83,72% объясняется вариацией возраста автомобиля
R2 = ryx22 = 0,64
Вариация на 64% объясняется вариацией мощности двигателя автомобиля
Рассчитаем фактическое значение F- статистики Фишера по формуле:
F=
F== 0,768 для зависимости y от х1
F== 0,285для зависимости y от х2
Fт = 4,6
Поэтому для зависимостей y от х1 и y от х2 выполняется неравенство
Fт ф
гипотеза отклоняется и признается статистическая значимость уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии используется t-критерий Стьюдента.
Для зависимости y от х1:
= vF = v0,768 = 0,876
Поскольку это значение меньше 1,761, то принимаем нулевую гипотезу равенства нулю а1
Для зависимости y от х2:
= vF = v0,285 = 0,533
Поскольку это значение меньше 1,761, то принимаем нулевую гипотезу равенства нулю а1
Проверка с помощью Microsoft Excel
Оценка параметра а1 | — 1,87 237 | Оценка параметра а0 | 18,89 868 | |
Среднеквадратическое отклонение | 0,200 234 | Среднеквадратическое отклонение а0 | 1,73 633 | |
Коэффициент детерминации R2 | 0,861 987 | Среднеквадратическое отклонение y | 0,872 798 | |
F-Статистика | 87,43 972 | Число степеней свободы | ||
Регрессионная сумма квадратов | 66,60 951 | Остаточная сумма квадратов | 10,66 487 | |
Оценка параметра а1 | 0,698 523 | Оценка параметра а0 | 2,354 973 | |
Среднеквадратическое отклонение | 0,13 746 | Среднеквадратическое отклонение а0 | 1,4 271 948 | |
Коэффициент детерминации R2 | 0,648 444 | Среднеквадратическое отклонение y | 1,3 929 996 | |
F-Статистика | 25,822 959 | Число степеней свободы | ||
Регрессионная сумма квадратов | 50,108 105 | Остаточная сумма квадратов | 27,16 627 | |
Рассчитаем доверительный интервал среднего значения цены для y = a0 + a1x1/
: yв.н. = y (х0) ± t1-б/2,n-2Sy,
где ув, ун — соответственно верхняя и нижняя границы
доверительного интервала;
y (х0) — точечный прогноз;
t1-б/2,n-2 -квантиль распределения Стьюдента;
(1-б/2) — доверительная верояность;
(n-2) — число степеней свободы;
: yв.н. = y (х0) ± t1-б/2,n-2Sy,
ta = 2,57
Доверительный интервал для уn:
Нижняя граница интервала:
= 18,74−1,844*5 = 9,52
Верхняя граница интервала:
= 18,74−1,844*7 = 5,832
Sx12 = 1/n ?(xi —)2 = 19/16 = 1,1875
Sx1 = 1,089
xi1 | xi1 - хср1 | (xi1 - хср1)2 | х2 | х1х2 | |
5.0 | — 0,25 | 0,0625 | |||
7.0 | 1,75 | 3,0625 | |||
5.0 | — 0,25 | 0,0625 | |||
4.0 | — 1,25 | 1,5625 | |||
4.0 | — 1,25 | 1,5625 | |||
6.0 | 0,75 | 0,5625 | |||
5.0 | — 0,25 | 0,0625 | |||
5.0 | — 0,25 | 0,0625 | |||
4.0 | — 1,25 | 1,5625 | |||
4.0 | — 1,25 | 1,5625 | |||
7.0 | 1,75 | 3,0625 | |||
5.0 | — 0,25 | 0,0625 | |||
6.0 | 0,75 | 0,5625 | |||
7.0 | 1,75 | 3,0625 | |||
6.0 | 0,75 | 0,5625 | |||
4.0 | — 1,25 | 1,5625 | |||
myx= S1,089*v1/16 + 1,5625/19 = 0,414
5,832 — 2,57*0,414? yn? 5,832 + 2,57*0,414
На продажу поступила очередная партия однотипных автомобилей. Их возраст xp1 = 3 года. Мощность двигателя xp2 = 165 л.с.
Рассчитаем точечный и интервальный прогноз среднего значения цены поступивших автомобилей по первой парной регрессионной модели
y = в0 + в1 х1 + д
Подставляем xp1 в уравнение регрессии:
Получим точечный интервальный прогноз среднего цены.
(xp1) = 18,74 — 1,844*3 = 13,208 тыс. у.е.
Подставляем точечный интервальный прогноз среднего цены (xp1) = 12,3 тыс. и xp1 = 3 года в уравнения границ доверительного интервала регрессии. Получим интервальный прогноз с доверительной вероятностью 0,9
yв.н. = 13,208±2,57*0,414 или yн = 12,14 тыс. у.е.,
yв = 14,27 тыс. у.е.
Задача 2
Найти по методу наименьших квадратов оценки коэффициентов множественной регрессионной модели
y = а0 + а1 х1 + а2 х2 +е
Проверить качество оценивания моделей на основе коэффициента детерминации и F-критерия. Пояснить их содержательный смысл.
Проверить полученные в заданиях результаты с помощью средств Microcoft Excel.
Рассчитать точечный и интервальный прогноз среднего значения цены поступивших автомобилей по множественной модели y = а0 + а1 х1 + а2 х2 +е с доверительной вероятностью 0,9. Как в задаче 1, возраст поступивших автомобилей х1 = 3 года, мощность двигателя х2 = 165 л.с.
На основе полученных в задачах 1−2 статистических характеристик провести содержательную интерпретацию зависимости цены автомобиля от возраста и мощности двигателя.
Сумма произведений? х1х2 равна: 8175
ХТХ = ХТY =
Найдем матрицу (Хт Х), обратную матрице ХТХ.
Для этого сначала вычислим определитель.
ХТХ = 16*460*167 667+1611*84*8175+1611*84*8175−1611*460*1611−84*84*167 677−16*8175*8175 = 1 234 102 720+1106273700+1 106 273 700−1 193 847 660−1 183 128 912−1 069 290 000 = 383 548
Определим матрицу алгебраических дополнений
Задача 3
В таблице представлены ежегодные данные объема продаж автомагазина. Построить график во времени. Выдвинуть гипотезу о наличии тренда. Оценить неизвестные параметры линейной трендовой модели z = а0 а1t +е с методом наименьших квадратов.
Таблица 2 Ежегодные объемы продаж
t годы | |||||||||||||
zt, продажи, тыс.у.е. | |||||||||||||
Для найденного уравнения тренда построить доверительную полосу при уровне доверия 0,9. Изобразить графически точечный и интервальный прогноз среднего объема продаж.
В таблице 3 объемы продаж zt в тыс. у.е. детализированы по месяцам. Построить график объема продаж во времени. Выдвинуть гипотезу о наличии линейного тренда и сезонных колебаний объема продаж:
z1 = а0 а1t + а2cos (2рt/12) + а3sin (2рt/12) + еt
Оценить параметры этой модели методом наименьших квадратов.
По уравнению трендово-сезонной модели найти точечный прогноз среднего объема продаж на 12 месяцев и интервальный прогноз среднего объема продаж на 1 месяц вперед при доверительной вероятности 0,9.
Ежемесячные объемы продаж
t, годы | Zt | t | ytt | t2 | |
?t = Ѕ*12 (12+1) = 78
?t2 = 1/6 *12 (12+1) (24+1)= 650
а0 = 515 294/1716=283,61
а1 == 22 716/1716=15,804
Следовательно, уравнение тренда (регрессии) будет иметь вид:
y= 283,61+15,84t
Доверительный интервал для линейного тренда находится по формуле:
yв.н. = y (х0) ± t1-б/2,n-2Sy,
где ув, ун — соответственно верхняя и нижняя границы
доверительного интервала;
y (х0) — точечный прогноз;
t1-б/2,n-2 -квантиль распределения Стьюдента;
(1-б/2) — доверительная верояность;
(n-2) — число степеней свободы;
yв.н. = y (х0) ± t1-б/2,n-2Sy,
ta = 2,35
Доверительный интервал для уn:
Нижняя граница интервала:
y= 300.29+13.24t = 300,29+13,24*293 = 4179,61
Верхняя граница интервала:
y= 300.29+13.24t = 300,29+13,24*488= 6761,41
Sx12 = 1/n ?(xi —)2 = 51 804,7/12 = 4317,06
Sx1 = 65,704
zср = 386.33
z | zi - zср | (zi - zi ср)2 | |
— 36.33 | 1319,87 | ||
— 72.33 | 5231,63 | ||
— 86.33 | 7452,89 | ||
— 93.33 | 8710,49 | ||
— 18.33 | 335,99 | ||
6.67 | 44,49 | ||
— 47.33 | 2240,13 | ||
56.67 | 3211,49 | ||
80.67 | 6507,65 | ||
70.67 | 4994,25 | ||
101.67 | 10 336,79 | ||
37.67 | 1419,03 | ||
51 804,7 | |||
myx= S65,704*v1/12+ 24 624/51804,7 = 36,71
65,704 — 2,35*36,71? yn? 65,704 + 2,35*36,71
Точечный прогноз среднего значения продаж по линейному тренду находится следующим образом:
yв.н. = 283,61+15,84*13 = 489,53
Окончательно получаем интервальный прогноз продаж
yв.н. = 489,5 ±2,353*36,71
Или yв= 489,5 ±2,353*36,71 = 575,89
Или yн= 489,5 ±2,353*36,71 = 403,12
Задача 4
Для регрессионных моделей:
y = а0 + а1 х1 + а2 х2 +е
z1 = а0 а1t + а2cos (2рt/12) + а3sin (2рt/12) + еt
проверить наличие или отсутствие автокорреляции, используя критерий Дарбина-Уотсона при уровне значимости б = 0,05.
Для регрессионной модели y = а0 + а1 х1 + а2 х2 +е
Проверить наличие или отсутствие мультиколлинеарности, используя критерии xи-квадрат (ч2) при уровне значимости б = 0,05.