Анализ продажной цены автомобиля

КурсоваяПомощь в написанииУзнать стоимостьмоей работы

Анализ продажной цены автомобиля (реферат, курсовая, диплом, контрольная)

Направление «Экономика»

Квалификация «Бакалавр экономики»

Кафедра эконометрики и математических методов экономики КУРСОВАЯ РАБОТА На тему: Анализ продажной цены автомобиля

Оглавление Введение

1. Описание факторов рынка подержанных автомобилей

1.1 Статистическое описание переменных

2. Эконометрическое моделирование исходных данных

2.1 Первая конкурирующая модель

2.2 Вторая конкурирующая модель

2.3 Анализ остатков

2.4 Третья модель регрессии с добавленными фиктивными переменными наблюдений

2.5 Построение утилитарной модели

2.6 Проверка гипотезы об отсутствии гетероскедастичности в остатках третьего уравнения регрессии

3. Точечные и интервальные внутри-выборочные прогнозы для продажной стоимости автомобилей Выводы Список использованной литературы

Введение

автомобиль стоимость эконометрический регрессия В курсовой работе рассматривается московский сегмент российского вторичного рынка (подержанных) автомобилей марок Patriot и Hunter, проданных за 2009;2010.

Предметом исследования является цена сделки (продажи) подержанного автомобиля, как функция характеризующих факторов (указаны далее). Объектом исследования является выборка значений этих факторов для отечественных внедорожников УАЗ марок Patriot и Hunter по 132 сделкам.

Цель и задачи исследования

: определение набора конкурирующих моделей средней ожидаемой цены сделки как функции значений выбранных факторов, точностное описание этих моделей, определение наилучшей из них.

Методика исследования: определение состава рыночных факторов формирования цены подержанных автомобилей, их статистический анализ и эконометрическое моделирование в рамках моделей множественной линейной регрессии.

Актуальность исследования определяется устойчивостью спроса на подержанные автомобили этих марок, как в Московском регионе, так и во всей России. При этом, для этих автомобилей важен именно вторичный сегмент, т.к. в большинстве случаев все производственные дефекты им уже выявлены и установлены в процессе первичной эксплуатации.

Следует отметить, что автомобили марки Patriot пользуются спросом в основном у москвичей, имеющих большую семью, и выезжающих регулярно за город. А автомобили марки Hunter более популярны у жителей сельских частей московского региона.

1. Описание факторов рынка подержанных автомобилей Аудиторская компания Pricewaterhouse Coopers несколько лет подряд регулярно представляет доклады о состоянии дел на автомобильном рынке России: подводит итоги и даёт собственный прогноз. В этом году PwC впервые уделила пристальное внимание продажам подержанных машин, ведь дальше не замечать этот растущий сектор уже нельзя. В 2013;м на вторичке было реализовано 5,6 млн. автомобилей — на 4% больше, чем в 2012;м. По числу регистраций бэушные легковушки опережают новые машины вдвое, и рост совершенно точно продолжится.

Так называемых драйверов роста на рынке бэушных машин — хоть отбавляй. Производители запустили спецпрограммы и теперь дают дополнительные гарантии (примерами могут служить Mercedes-Benz StarClass, BMW Premium Selection, Audi с пробегом: plus, Jaguar Selected, Skoda Plus). Крупные дилеры создали подразделения, специализирующиеся на перепродажах (BlueFish, Major Expert). Постепенно набирает популярность трейд-ин. Банки принялись предлагать кредиты под автомобили с пробегом. Пышным цветом вторичный рынок цветёт в Интернете, который теперь считается ключевым источником информации о подержанных машинах. Кроме того, всё большую роль в секторе начинают играть корпоративные парки, которым нужно продать автомобили, номинально отработавшие срок.

Наиболее ликвидными среди секонд-хенда остаются автомобили в возрасте до пяти лет. Их доля постепенно увеличивается и составляет 27% в общем объёме автопарка России (в Москве — 50,4%). Соответственно, у регионов, обладающих такой «молодой вторичкой», имеется наибольший потенциал роста. Лидирует, конечно же, Центральный федеральный округ со столицей во главе. Другие стараются догонять (в Татарстане «допятилетки» составляют 45,2% рынка, в Питере — 44,6%, в Самарской области и Пермском крае — более 41%), но Москва непобедима — это крупнейший в стране рынок старых и новых автомобилей.

В российской столице 87% автомобильного секонд-хенда — иномарки. Официальные дилеры контролируют около 27% вторичного рынка (в России — лишь 4%), и их экспансия продолжается. Преимуществом обладают те, кто способен собрать под одной крышей максимальное количество подержанных машин. По брендам ситуация следующая: первое место в Москве занимает продукция АвтоВАЗа (доля 10,6%), второе — Ford (6,1%), третье делят Nissan и Toyota (по 5,9%). Далее в топ-10 следуют BMW (5,8%), Mercedes-Benz (5,4%), Volkswagen (5,3%), Mitsubishi (4,3%), Hyundai (4,3%) и Kia (3,6%).

В прошлом году в столице было продано около 500 тысяч автомобилей с пробегом, а зарегистрировано 290 000 бэушных машин. Это говорит о том, что почти половина перепроданных легковушек отправилась в область и другие регионы. Всё дело в московских ценах, широте ассортимента, высокой конкуренции (у дилеров больше возможностей дать хорошие скидки), что и привлекает перекупщиков. Изменений в этом круговороте ожидать вряд ли стоит. Прогноз PwC по «пробежному рынку» на 2014 год такой: количество регистраций стабилизируется на нынешней отметке, доля дилеров на вторичке в Москве вырастет до 30%, в России — до 5%.

А что же новые автомобили? Выиграть бой у секонда им пока не светит. По подсчётам аналитиков PwC, в этом году российский авторынок упадёт на 3% - до 2,5 млн. машин. Хуже других придётся продавцам импортируемых новых легковушек: их объёмы просядут на 12% (сейчас это ниша примерно в 10 тысяч машин, преимущественно японских). Отечественный автопром уйдёт в минус на 6%, тогда как производителей иномарок в России ожидает небольшой рост — на 4%. Причины дальнейшего падения рынка — это негативный макроэкономический фон (снижение темпов роста экономики, падение курса рубля, сокращение бюджетных расходов) и умеренно-пессимистические настроения потребителей.

Фактор, способствующий росту авторынка, по мнению аналитиков PwC, всего один — это поступление в продажу новых моделей массового сегмента. В то же время сдерживать реализацию машин будут четыре мощных фактора — рост цен на автомобили и топливо (вследствие повышения налога на добычу полезных ископаемых, акцизов на топливо и общемирового подорожания нефти), валютные колебания, а также сокращение государственных расходов и инвестиций.

Тем не менее долгосрочный прогноз PwC не изменился: эксперты по-прежнему считают, что к 2025 году российский авторынок вырастет до 3,6 млн. машин и перегонит германский. Причём постепенные подвижки в этом направлении, то есть умеренный рост, можно ожидать уже в 2015;м. Некоторые признаки стабилизации наблюдаются с середины прошлого года — благодаря программе льготного кредитования.

Фирма Pricewaterhouse Coopers подвела собственные итоги прошлого года для автомобильного рынка нашей страны. По её калькуляциям вышло, что продажи в штучном выражении упали на 5,5% (с 2755 до 2610 машин), а в денежном — на 3% (с 71 до 69 млрд. долларов). Аналитики признаются, что прогноз на 2013;й был более оптимистичным, но перегрев оказался сильнее. Единственной сектором, где был зафиксирован рост продаж, стали иномарки российского производства — их доля выросла до 50% от всех проданных новых легковушек.

В 2013 году на глобальном авторынке локомотивами роста были Китай (+15,7%, или 17,9 млн. шт.) и США (+7,6%, или 15,56 млн. шт.), которые сумели улучшить у себя экономическую обстановку. В остальных странах БРИКС продажи снизились: в Бразилии и Индии из-за выросших ставок по кредитам, высокой инфляции и растущей задолженности населения, подорожания топлива. В России — отчасти из-за неопределённости в экономике.

Кстати, Олимпиада в Сочи повлияла на рынок — южные регионы получили деньги и принялись покупать машины. Однако ожидать от спортивного праздника подспорья в дальнейшем не стоит. Как и рассчитывать на то, что спрос на новые автомобили подстегнут санация банков, падение рубля и подобные неприятности: вряд ли люди массово понесут спасать свои сбережения в автосалоны. Надежда на то, что негативный макроэкономический фон сменится на нейтральный, новинки наведут шороху, возобновится льготное кредитование, разовьются корпоративные парки, а потребительская уверенность, самая низкая за несколько лет, всё-таки вырастет.

1.1 Статистическое описание переменных


Фиктивные переменные	Описание	Фиктивные переменные	Описание
D1	ABS	D30	Обогрев сидений
D2	Airbag боковые	D31	Омыватель фар
D3	Airbag д/водителя	D32	Отделка под дерево
D4	Airbag д/пассажира	D33	Парктроник
D5	Airbag оконные	D34	Подлокотник передний
D6	ESP	D35	Противотуманные фары
D7	Handsfree	D36	Разд. спинка задн. сидений
D8	Авт. упр. светом	D37	Регул. сид. вод. по высоте
D9	Антипробуксовочная система	D38	Регул. сид. пасс. по высоте
D10	Ау диоподготовка	D39	Регулировка руля
D11	Багажник на крыше	D40	Салон (велюр)
D12	Блокировка заднего диф.	D41	Салон (кожа)
D13	Бортовой компьютер	D42	Сигнализация
D14	ГУР	D43	Сотовый телефон
D15	Д/о багажника	D44	Тонированные стекла
D16	Д/о бензобака	D45	Фаркоп
D17	Датчик дождя	D46	Центральный замок
D18	Иммобилайзер	D47	Электроантенна
D19	Катализатор	D48	Электрозеркала
D20	Климат-контроль	D49	Электропривод вод. сиденья (есть)
D21	Кондиционер	D50	Электропривод вод. сиденья (с памятью)
D22	Корректор фар	D51	Электропривод пасс. сиденья
D23	Круиз-контроль	D52	Электростекла (все)
D24	Ксеноновые фары	D53	Электростекла (передние)
D25	Лебедка	D54	Магнитола (есть)
D26	Легкосплавные диски	D55	Магнитола (с CD)
D27	Люк	D56	Магнитола (с MP3)
D28	Навигационная система	D57	CD-чейнджер (есть)
D29	Обогрев зеркал	D58	CD-чейнджер (с MP3)

2. Эконометрическое моделирование исходных данных И так, мы располагаем 129 наблюдениями переменных, из которых 2 количественные, продажа стоимости автомобиля и его пробег, 3 различные качественные бинарные переменные, 1 качественную переменную с 4 градациями, которую используем в виде набора 3-х «бинарных» переменных (см. параграф 2 предыдущей главы).

Мы так же будем использовать две дополнительных переменные LN_price и LN_run. Первая, в нашем случае приводит к нормальности распределения зависимой случайной переменной. Вторая — даёт простое представление о функции эластичности цены автомобиля по его пробегу.

В качестве конкурирующих, мы будем рассматривать модели для логарифма цены (LN_price), использующие либо переменную пробег (run), либо его лоарифм (LN_run) в составе объясняющих переменных. Дальнейшему улучшению подвергнется наилучшая из них.

Так же, дополнительно, мы построим аналогичную простую модель зависимости непосредственно для цены (price) автомобиля. Последняя модель, возможно менее пригодна с точки зрения теории, но весьма удобна на практике, как для быстрого отсева явно не пригодных предложений, так и для использования простыми обывателями, которые вряд ли помнят что такое логарифм.

В процессе анализа автором было исследовано 5 типов моделей, первые две модели использовали непосредственно возраст автомобиля эта зависимость оказалась в обоих случаях существенно не линейной. Кроме того они показались автору бесперспективными для дальнейшего улучшения. Эти модели в дальнейшем не использовались и в работе не описывались.

Этот факт привел к необходимости введения замены переменной year на фиктивную переменную. Все модели используют mark, state, power и константу.

2.1 Первая конкурирующая модель Далее мы будем рассматривать две модели, сначала для LN_price, а потом отдельно построим модель для цены (price) нужной в систему ее практической полезности (утилитарности).

Первая модель содержит переменную run в качестве фактора, вторая — переменную LN_run.

LN_PRICE = C + C1 х MARK + C2 x STATE + C3 x POWER +

C4 x DUM2_YEAR + C5 x DUM2_YEAR + C6 x DUM4_YEAR

+ C7 x RUN + EPSILON.

Где: C — константа,

C1 — C7 — коэффициенты уравнения,

EPSILON — случайная составляющая.

Результат оценивания первой модели дан в таблице 3.

Таблица 3. Вывод в пакете EViews результатов оценивания первой пробной конкурирующей модели регрессии.


Dependent Variable: LN_PRICE
Method: Least Squares
Date: 05/13/13 Time: 18:25
Sample: 1 132
Included observations: 130
Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	12.79 760	0.127 811	100.1295	0.0000
MARK	— 0.179 599	0.40 512	— 4.433 281	0.0000
STATE	0.127 830	0.48 364	2.643 105	0.0093
POWER	0.233 384	0.112 824	2.68 564	0.0407
DUM2_YEAR	— 0.107 976	0.49 881	— 2.164 681	0.0324
DUM3_YEAR	— 0.324 490	0.71 259	— 4.553 654	0.0000
DUM4_YEAR	— 0.344 819	0.68 436	— 5.38 564	0.0000
RUN	— 3.35E-06	7.68E-07	— 4.360 340	0.0000
R-squared	0.647 120	Mean dependent var	12.76 526
Adjusted R-squared	0.626 873	S.D. dependent var	0.349 080
S.E. of regression	0.213 232	Akaike info criterion	— 0.193 304
Sum squared resid	5.547 107	Schwarz criterion	— 0.16 840
Log likelihood	20.56 476	Hannan-Quinn criter.	— 0.121 601
F-statistic	31.96 096	Durbin-Watson stat	0.527 893
Prob (F-statistic)	0.0

Далее мы представим соответствующие объяснения, связанные с интерпретацией вывода результатов оценивания для нашего первого пробного уравнения регрессии.

В выводе результатов оценивания в Eviews в первом столбце, помеченном «Variable», в верхнем блоке таблицы 2 приводится список объясняющих (независимых) переменных, входящих в матрицу исходных данных.

Эта матрица состоит из восьми столбцов (первого столбца из единиц, второго столбца из значений фиктивной переменной mark и т. д., и последнего столбца из значений переменной run.) 130 строк — каждая соответствует своему номеру наблюдения.

Таким образом, число оцениваемых параметров в данной регрессии равно 8.

Объем выборки равен 130 наблюдений, (в выводе результатов оценивания смотри Included observations: 130).

В столбце, помеченном «Coefficient» [ Эконометрика. Начальный курс (7-ое издание). Катышев П. К., Магнус Я. Р., Пересецкий А. А. М.:Дело, 2005., отображаются оцененные коэффициенты регрессии нашего пробного уравнения.

Коэффициент с — это свободный член, который имеет значение основного уровня прогнозирования, когда все другие объясняющие переменные нулевые.

В столбце «Std. Error» [ Основы эконометрики. Прикладная статистика. С. А. Айвазян., В. С. Мхитарян. М.: Юнити 2001], показывается оцененные стандартные ошибки для оценок коэффициентов.

Стандартные ошибки измеряют статистическую надежность оценок коэффициентов — чем больше стандартные ошибки, тем больше статистический шум в оценках.

Если ошибки распределены нормально, то существует приблизительно 2 шанса из 3, что истинный коэффициент регрессии находится в пределах одной стандартной ошибки от оцененного коэффициента, и приблизительно 95 шансов из 100, что истинный коэффициент находится в пределах двух стандартных ошибок от оцененного коэффициента.

t-статистика [ Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В. А. Банников. Научн. ред. и предисл. С. А. Айвазян. — М.: Научная книга, 2008. «Библиотека Солев» ;] (в столбце «t-Statistic») мы вычислили как отношение оцененного коэффициента регрессии к его стандартной ошибке, и применяется для тестирования нулевой гипотезы, что истинный коэффициент регрессии равен нулю.

Значение статистики R-квадрат (R-squared) служит оценкой измерения, насколько хорошо из построенной регрессии прогнозируются внутри выборочные значения объясняемой (зависимой) переменной, и, следовательно, является измерителем качества соответствия модели наблюдаемым данным.

Одна из проблем при применении в измерении качества соответствия модели наблюдаемым данным состоит в том, что при добавлении в модель новых регрессоров, значение никогда не уменьшится. Или всегда можно получить значение равное единице, если включить столько независимых регрессоров, сколько в выборке имеется наблюдений. В нашем случае такой опасности нет.

Для скорректированного (Adjusted R-squared) [ Основы эконометрики. Прикладная статистика. С. А. Айвазян, В. С. Мхитарян. М.: Юнити 2001], обычно обозначаемого как, на обычный при добавлении регрессоров в модель налагается штраф, который не вносит свой вклад в объяснительную мощность модели.

Стандартная ошибка регрессии (S.E. of regression) [ Эконометрика. Начальный курс (7-ое издание). Катышев П. К., Магнус Я. Р., Пересецкий А. А. М.:Дело, 2005.] является итоговой статистикой на основе оцененной дисперсии остатков.

F-статистика [ Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В. А. Банников. Научн. ред. и предисл. С. А. Айвазян. — М.: Научная книга, 2008 «Библиотека Солев» ;] (F-statistic), применяется для тестирования нулевой гипотезы, все коэффициенты наклона в регрессии (за исключением свободного члена) равны нулю.

p-значение, предоставленное ниже F-статистики (Prob (F-statistic)) [ Основы эконометрики. Прикладная статистика. С. А. Айвазян, В. С. Мхитарян. М.: Юнити 2001], является предельным уровнем значимости F-критерия.

Если p-значение меньше уровня значимости, например, меньше 0,05, то при тестировании совместная нулевая гипотеза, что все коэффициенты наклона равны нулю, отклоняется.

В нашей первой пробной модели p-значение равно нулю, и, таким образом, мы отклоняем нулевую гипотезу, что все коэффициенты нашей регрессии равняются нулю.

На этом мы завершаем соответствующие объяснения, связанные с интерпретацией вывода результатов оценивания в таблице 2.

Все коэффициенты этого уравнения регрессии являются значимыми на уровне 95% и имеют хорошо экономически интерпретируемые знаки коэффициентов регрессии.

Например, при более раннем годе выпуска автомобиля его продажная стоимость при прочих равных условиях снижается.

Значение статистики R-квадрат для этого уравнения равно 0,647, и, следовательно, 64,7% вариации переменной продажная стоимость автомобиля объясняется независимыми переменными, включенными в правую часть первого уравнения регрессии. И это значение дает нам вывод о приемлимом качестве соответствия модели наблюдаемым данным.

Наше первое пробное уравнение регрессии включает все имеющиеся у нас переменные, и является линейным, как по параметрам, так и по переменным.

2.2 Вторая конкурирующая модель Вторая модель, как уже говорилось, содержит переменную LN_run вместо run.

(В этом случае коэффициент C7 равен значению эластичности цены по пробегу.)

LN_PRICE = C + C1 + MARK + C2 x STATE + C3 x POWER +

C4 x DUM2_YEAR + C5 x DUM2_YEAR + C6 x DUM4_YEAR

+ C7 x LN_RUN + EPSILON.

Где: C — константа,

C1: C7 — коэфф. уравнения,

EPSILON — случайная составляющая.

Результат оценивания модели 1 приведен в таблице 4.

Таблица 4. Вывод в пакете EViews результатов оценивания второй модели регрессии.


Dependent Variable: LN_PRICE
Method: Least Squares
Date: 05/14/13 Time: 13:13
Sample: 1 132
Included observations: 130
Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	12.98 790	0.177 811	75.41 157	0.0000
MARK	— 0.177 773	0.43 512	— 4.118 829	0.0001
STATE	0.151 773	0.50 503	3.5 213	0.0032
POWER	0.252 834	0.120 396	2.100 022	0.0378
DUM2_YEAR	— 0.127 819	0.73 501	— 2.401 951	0.0178
DUM3_YEAR	— 0.395 957	0.69 468	— 5.387 070	0.0000
DUM4_YEAR	— 0.346 358	0.69 468	— 6.137 505	0.0000
LN_RUN	— 3.31 247	0.14 015	— 2.229 596	0.0276
R-squared	0.608 096	Mean dependent var	12.76 526
Adjusted R-squared	0.585 610	S.D. dependent var	0.349 080
S.E. of regression	0.224 714	Akaike info criterion	— 0.88 414
Sum squared resid	6.160 549	Schwarz criterion	0.88 049
Log likelihood	13.74 694	Hannan-Quinn criter.	0.16 711
F-statistic	27.4 295	Durbin-Watson stat	0.489 251
Prob (F-statistic)	0.0

Второе уравнение, в отличие от первого, содержит переменную LN_RUN вместо переменной RUN.

Сравнение результатов с результатами первой модели, говорит о том, что эта модель имеет меньшую прогностическую силу.

Это означает, что на рынке данных авто эластичность [ Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В. А. Банников. Научн. ред. и предисл. С. А. Айвазян. — М.: Научная книга, 2008. «Библиотека Солев» ;] цены по пробегу (коэффициент C7) нельзя считать постоянной.

Для анализа эластичности рынка, требуется больше данных, желательно, равномерно распределенных по всему диапазону пробега. К тому же этот анализ требует отдельного самостоятельного исследования.

В нашей работе мы не будем проводить такое исследование, потому что такая задача перед автором не ставилась.

Из двух моделей для дальнейшего анализа, мы выберем первую.

2.3 Анализ остатков Проверка на гетероскедактичность [ Основы эконометрики. Прикладная статистика. С. А. Айвазян, В. С. Мхитарян. М.: Юнити 2001^; Эконометрика. Начальный курс (7-ое издание). Катышев П. К., Магнус Я. Р., Пересецкий А. А. М.:Дело, 2005.^; Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В. А. Банников. Научн. ред. и предисл. С. А. Айвазян. — М.: Научная книга, 2008. «Библиотека Солев» ;] остатков показала наличие средней (R-squared = 0.42) зависимости квадратов остатков от зависимой величины.

А тест на зависимость остатков от исходных переменных дал отрицательный результат. Данное оценивание не приводится. Модель зависимости дана ниже.

EPSILON2 = 45.18 038 — 7.425 410 x LN_price + 0.304 176 x LN_price + EPSILON1,

F-statistic = 45.40 328 (Prob. F-Stat = 0.0)

Через LN_price обозначена вторая степень переменной LN_price, а через EPSILON — остатки этой регрессии.

Эта зависимость является значимой. Об этом свидетельствуют значения критериев (F-statistic = 45.40 328 Prob. F-Stat = 0.0).

Но эта зависимость не очень существенна (R-squered =0,41).

Не приводя аналогичных расчетов, отметим лишь то, что увеличение степени полинома по переменной LN_price улучшает эту зависимость не существенно.

Однако, как будет понятно из дальнейшего, не стоит торопиться с выводами и переходить сразу к взвешенной регрессии.

Попробуем поступить по-другому — построить модель, учитывающую дополнительный анализ исходных данных на наличие выбросов.

Рассмотрим график остатков регрессии и определим наиболее выделяющееся значения (выбросы):

Рисунок 3. График значений остатков регрессии для второго уравнения (по оси абсцисс — номера наблюдений упорядоченных по возрастанию логарифма цены).

Стандартный анализ выбросов [ Основы эконометрики. Прикладная статистика. С. А. Айвазян, В. С. Мхитарян. М.: Юнити 2001^; Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В. А. Банников. Научн. ред. и предисл. С. А. Айвазян. — М.: Научная книга, 2008. «Библиотека Солев» ;] дал результаты, приведенные в таблице Таблица 4. Значения всех рассматриваемых переменных для пяти наблюдений с наибольшими по абсолютному значению остатками регрессии для второго уравнения.


Номер наблюд.	Перем. price	Перем. ln_price	Перем. mark	Перем. year	Перем. state	Перем. power	Перем. run (км.)
	тыс. руб.	13.6530
	тыс. руб.	13.3847
	тыс. руб	13.4588
	тыс. руб	12.4684
	тыс. руб	11.8494

Теперь посмотрим на таблицу 4 значений всех рассматриваемых переменных для пяти наблюдений с наибольшими по абсолютному значению остатками регрессии для второго уравнения.

Четыре наблюдения относятся к автомобилям марки Hunter с мощностью 128 л. с., в отличном состоянии, и только одно последнее наблюдение относится к автомобилям марки Patriot, 2006 г. выпуска, 128 л. с., в хорошем состоянии (см. значения по переменным mark, year, power, state в таблице 4).

Первый автомобиль в таблице 4 (под номером 84) имеет положительный максимальный по модулю остаток регрессии. Этот автомобиль 2008 г. выпуска, его продажная стоимость максимальна и составляет 850 тыс. рублей (для сравнений см. описательные статистики в таблице 1). Все значения переменных для этого автомобиля в классе автомобилей марки Hunter имеют самые лучшие значения, в том числе и пробег в км., поскольку он прошел обкатку 2500 км., и обычно за этот пробег выявляются и устраняются все его недостатки.

Второй автомобиль в таблице 4 (под номером 80) имеет второй положительный максимальный остаток регрессии. Этот автомобиль 2007 г. выпуска и его продажная стоимость составляет 650 тыс. рублей. Все значения переменных для этого автомобиля для этого автомобиля в классе автомобилей марки Hunter также имеют самые лучшие значения, за исключением 2007 г. выпуска и пробега 24 000 км.

Третий автомобиль в таблице 4 (под номером 82) 2008 г. выпуска имеет третий положительный максимальный остаток регрессии. Его продажная стоимость составляет 700 тыс. рублей. Все значения переменных для этого автомобиля для этого автомобиля в классе автомобилей марки Hunter также имеют самые лучшие значения, за исключением пробега, равного 4500 км.

Четвертый автомобиль в таблице 4 (под номером 4) имеет отрицательный максимальный остаток регрессии. Его продажная стоимость составляет 260 тыс. рублей. Все значения переменных для этого автомобиля в классе автомобилей марки Hunter также имеют самые лучшие значения, за исключением пробега, составляющего 10 000 км.

Пятый автомобиль в классе автомобилей марки Patriot в таблице 4 (под номером 86) имеет отрицательный максимальный остаток регрессии. Его продажная стоимость по сравнению с другими автомобилями небольшая и составляет 140 тыс. рублей. Он имеет 2006 г. выпуска и большой пробег, составляющий 116 000 км.

2.4 Третья модель регрессии с добавленными фиктивными переменными наблюдений Эти пять наблюдений (автомобилей) плохо описываются нашей второй моделью регрессии (имеют наибольшие по абсолютному значению остатки), поскольку имеют свои особенности, и, по-видимому, эти наблюдения сильно ухудшают качество нашей модели для всех остальных наблюдений.

Поэтому, чтобы проверить наше последнее предположение, мы введем пять новых соответствующих фиктивных переменных, которые обозначим как dum84, dum80, dum82, dum4 и dum86, в соответствии с номером наблюдения. Все фиктивные переменные имеют нулевые значения, за исключением значения, равного единице, которое проставлено в соответствующий номер наблюдения.

Эти пять наблюдений будут анализироваться как отдельные явления и соответствующие коэффициенты — это изменение LN_price для этих явлений, но отношение к «общей» картине, т. е. набору данных из которого эти наблюдения. Все фиктивные переменные имеют нулевые значения, за исключением значения, равного единице, которое проставлено в соответствующий номер наблюдения.

После первого прогона регрессии, не трудно заметить, что наблюдения 4, 80, 82, 84,86 существенно выделяются. Из них цена сделки 4 и 86 явно занижены, а сделок 80, 82 и 84 явно завышены. Например, сделка 84 с УАЗом Hunter годовалого и с пробегом 2500 км представляется мало вероятной, а трех годичный УАЗом Patriot с пробегом 100 000 км, был продан за 140 000 рублей. К примеру, цена аналогичного автомобиля Niva составляла 300 000 рублей. Скорей всего эти 5 сделок были совершены в особых условиях, информация о которых отсутствует. Выделив эти наблюдения каждое по отдельности путем ведения соответствующих фиктивных переменных, получим следующий результат (смотри таблицу 5):

В таблице 5 приведен вывод в пакете EViews результатов оценивания третьей модели регрессии с добавленными фиктивными переменными наблюдений. Прежде всего, отметим, что все коэффициенты регрессии этого уравнения значимы.

Таблица 5. Вывод в пакете EViews результатов оценивания третьей модели регрессии.


Dependent Variable: LN_PRICE
Method: Least Squares
Date: 05/15/13 Time: 15:21
Sample: 1 132
Included observations: 130
Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	12.66 378	0.105 021	120.5837	0.0000
MARK	— 0.220 201	0.35 894	— 6.134 738	0.0000
STATE	0.116 289	0.41 017	2.835 149	0.0054
POWER	0.363 213	0.97 242	3.735 144	0.0003
DUM2_YEAR	— 0.101 235	0.42 501	— 2.381 912	0.0188
DUM4_YEAR	— 0.342 298	0.57 943	— 5.907 472	0.0000
DUM3_YEAR	— 0.301 499	0.61 127	— 4.932 346	0.0000
DUM84	0.737 169	0.185 649	3.970 764	0.0001
DUM80	0.632 533	0.184 907	3.420 810	0.0009
DUM82	0.548 817	0.185 626	2.956 579	0.0038
DUM4	— 0.425 621	0.185 609	— 2.293 101	0.0236
DUM86	— 0.539 456	0.192 717	— 2.799 213	0.0060
RUN	— 2.90E-06	6.59E-07	— 4.403 834	0.0000
R-squared	0.756 043	Mean dependent var	12.76 526
Adjusted R-squared	0.731 022	S.D. dependent var	0.349 080
S.E. of regression	0.181 044	Akaike info criterion	— 0.485 517
Sum squared resid	3.834 889	Schwarz criterion	— 0.198 763
Log likelihood	44.55 860	Hannan-Quinn criter.	— 0.368 999
F-statistic	30.21 607	Durbin-Watson stat	0.957 412
Prob (F-statistic)	0.0

Полученное новое уравнение удовлетворяет всем требованиям и его коэффициенты подсчитаны так, что наши пять наблюдений на них не влияют.

2.5 Построение утилитарной модели Попробуем теперь построить практический полезную (утилитарную) модель, которой можно использовать для экспресс анализа на данном рынке. А так же для расчета продажной цены автомобиля среднестатистического обывателя.

PRICE = C + C1 + MARK + C2 x STATE + C3 x POWER +

C4 x DUM2_YEAR + C5 x DUM2_YEAR + C6 x DUM4_YEAR

+ C7 x RUN + EPSILON.

Все коэффициенты этой модели значимы на 95%, кроме коэффициента при C4 (мощность), он значим на 88% уровне вероятности, но не нормальность распределения (остатков) дает нам основания предполагать, что вероятность существенно выше и соответственно, не дает оснований выбрасывать данное слагаемое.

Таблица 6. Результаты оценивания Да, это модель обладает меньшей прогностической силой R*2 = 0,54, но с другой стороны хорошо интерпретируется средняя цена автомобиля, которая составляет 393 000 рублей (округлено), автомобиль Hunter на 51 000 дешевле. Отличное состояние увеличивает цену на 46 000 по сравнению с хорошим состоянием, двигатель в 128 л.с. на 76 000 дороже.

Иными словами результат можно истолковать следующим образом: Средняя цена автомобиля марки Patriot в хорошем состоянии, с двигателем в 98 л.с., 2008 года выпуска, без пробега стоит 393 000.

Более мощный двигатель увеличивает цены автомобиля на 76 000.

Двух годовая марка стоит на 65 000 меньше, трех годовая еще на 14 000, четырех годовая еще на 15 000.

Каждые 1000 км пробега уменьшают цену автомобиля на 900 рублей. То есть это модель коррелирует с ценой предложения на рынке на 70%, что вполне допустимо для обывателя и оставляет 30% для торга. Эта модель может быть построена для каждой марки отдельно, но это не является нашей задачей.

2.6 Проверка гипотезы об отсутствии гетероскедастичности в остатках третьего уравнения регрессии Если остатки регрессии являются н.о.р. (независимыми и одинаково распределенными) остатками, то по теореме Гаусса-Маркова [ Эконометрика. Начальный курс (7-ое издание). Катышев П. К., Магнус Я. Р., Пересецкий А. А. М.:Дело, 2005.] применение метода наименьших квадратов (МНК) приводит к состоятельным и эффективным оценкам коэффициентов регрессии.

Предположение о н.о.р. несправедливо, если остатки регрессии не распределены одинаково или независимо (или то и другое).

«Когда дисперсия остатков регрессии, условная по регрессорам, изменяется по наблюдениям, то предположение об одинаковом распределении остатков «регрессии» несправедливо.

Это явление, известное как гетероскедастичность (остатки регрессии статистически могут быть зависимы и имеют неравные дисперсии), противоположна гомоскедастичности (остатки регрессии независимы и имеют равные дисперсии).

В случае справедливости предположения нормальности и однородности распределения остатков регрессии предполагается, что остатки условно гомоскедастичны: о дисперсии ошибок в регрессорах у нас нет никакой информации.

Если справедливо предположение о нулевом условном среднем,, но остатки регрессии не являются н.о.р. остатками, то применение МНК все еще приводит к состоятельным оценкам коэффициентов регрессии, но они являются неэффективными.

В этом случае выборочное распределение оценок коэффициентов регрессии асимптотически (для больших выборок) все еще будет подчиняться нормальному закону распределения со средним значением в точке истинных значений коэффициентов, но оцененная ковариационная матрица оценок коэффициентов регрессии, не будет являться состоятельной оценкой". [ Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В. А. Банников. Научн. ред. и предисл. С. А. Айвазян. — М.: Научная книга, 2008. — 616с. «Библиотека Солев» ;]

Теперь с помощью теста Бреуша-Пагана-Годфрея (Breusch-Pagan-Godfrey) проверим нулевую гипотезу о гомоскедастичности остатков третьего уравнения регрессии (остатки регрессии имеют равные дисперсию).

Вместе со значениями этих двух статистик в пакете Eviews также приводится значение F-статистики. (Для теста на избыточность состава переменных во вспомогательной регрессии).

Вывод в пакете Eviews результатов тестирования остатков третьей регрессии по Бреушу-Пагану-Годфрею для проверки нулевой гипотезы отсутствия гетероскедастичности против альтернативной гипотезы присутствия гетероскедастичности представлен в таблице 6.

Значение основной ЛМ-статистики Бреуша-Пагана-Годфрея, обозначенное в верхнем блоке вывода в пакете Eviews как Scaled explained SS, равно 41,39 с p-значением, равным нулю.

Две другие вспомогательные статистики F-статистика и статистика Кроенкера [ Основы эконометрики. Прикладная статистика. С. А. Айвазян, В. С. Мхитарян. М.: Юнити 2001] (в выводе пакета Eviews в таблицы 5 они помечены как F-statistic и Obs*R-squared), которые представлены для сравнения, также имеют соответствующие p-значения.

Таблица 7. Результат тестирования остатков на гетероскедастичность.


Heteroskedasticity Test: Breusch-Pagan-Godfrey
F-statistic	4.24 856	Prob. F (12,117)	0.0000
Obs*R-squared	37.98 452	Prob. Chi-Square (12)	0.0002
Scaled explained SS	41.39 384	Prob. Chi-Square (12)	0.0000
Test Equation:
Dependent Variable: RESID²
Method: Least Squares
Date: 05/16/13 Time: 11:10
Sample: 1 132
Included observations: 130
Variable	Coefficient	Std. Error	t-Statistic	Prob.
C	— 0.30 726	0.24 893	— 1.234 327	0.2196
MARK	0.45 033	0.8 508	5.293 059	0.0000
STATE	0.13 190	0.9 722	1.356 701	0.1775
POWER	0.60 343	0.23 049	2.618 020	0.0100
DUM2_YEAR	— 0.24 596	0.10 074	— 2.441 479	0.0161
DUM4_YEAR	— 0.32 814	0.13 734	— 2.389 215	0.0185
DUM3_YEAR	— 0.54 954	0.14 489	— 3.792 851	0.0002
DUM84	— 0.87 765	0.44 004	— 1.994 463	0.0484
DUM80	— 0.62 519	0.43 828	— 1.426 445	0.1564
DUM82	— 0.87 704	0.43 999	— 1.993 340	0.0486
DUM4	— 0.87 538	0.43 995	— 1.989 735	0.0490
DUM86	0.28 846	0.45 679	0.631 480	0.5290
RUN	— 3.02E-08	1.56E-07	— 0.193 652	0.8468
R-squared	0.292 189	Mean dependent var	0.29 499
Adjusted R-squared	0.219 593	S.D. dependent var	0.48 576
S.E. of regression	0.42 913	Akaike info criterion
Sum squared resid	0.215 454	Schwarz criterion
Log likelihood	231.7034	Hannan-Quinn criter.
F-statistic	4.24 856	Durbin-Watson stat
Prob (F-statistic)	0.32

В нижнем блоке вывода в таблице 7 представлены результаты оценивания соответствующей вспомогательной регрессии, необходимой для вычисления значений трех названных статистик.

P-значение основной ЛМ-статистики Бреуша-Пагана-Годфрея, равное нулю, говорит нам о том, что нулевую гипотезу отсутствия гетероскедастичности следует отклонить. Таким образом, принимается альтернативная гипотеза о наличие гетероскедастичности в остатках регрессии третьего уравнения.

Тест показывает практическое присутствие гетероскедастичности, хотя и слабой (R-squared =0.3), но объясняющим переменным.

Для объяснения зависимой переменной продажная стоимость автомобиля третье уравнение регрессии выбрано нами как «наилучшее».

Переоценку коэффициентов регрессии с помощью взвешиваной регрессии этом случае я считаю ненужной, потому, что гетероскедактичность слаба, а оценки все равно состоятельны и несмещенные.

3. Точечные и интервальные внутри-выборочные прогнозы для продажной стоимости автомобилей Для каждого внутри-выборочного наблюдения программа EViews вычисляет точечные прогнозные значения объясняемой (зависимой) переменной, используя оцененные значения коэффициентов регрессии и значения экзогенных переменных в правой части уравнения регрессии.

Для нашей третьей модели регрессии мы получили следующее оцененное уравнение (в круглых скобках значения стандартных ошибок коэффициентов, смотри таблицу 7):

(0,077) (0,049) (0,036) (0,064)

(0,052) (0,058) (0,061)

(0,062) (0,051) (0,062) (0,062) (0,062)

, ()

где dum3_power — взаимодействие 2006 г. выпуска автомобиля с его мощностью, то есть автомобили 2006 г. выпуска с мощностью 128 л. с.

Для каждого внутри-выборочного наблюдения программа EViews вычисляет точечные прогнозные значения логарифмической продажной стоимости автомобиля, , используя формулу, в которой среднее значение остатка полагается равным нулю.

Согласно классическим учебникам [Основы эконометрики. Прикладная статистика. С. А. Айвазян, В. С. Мхитарян. М.: Юнити 2001^;Эконометрика. Начальный курс (7-ое издание). Катышев П. К., Магнус Я. Р., Пересецкий А. А. М.:Дело, 2005.^; Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В. А. Банников. Научн. ред. и предисл. С. А. Айвазян. — М.: Научная книга, 2008. «Библиотека Солев», точечные прогнозы делаются с ошибкой, где ошибка — это просто разность между фактическим и прогнозным значением, то есть остаток. Если модель специфицирована правильно, то существуют два источника ошибки прогноза: неопределенность в остатках и неопределенность в коэффициентах регрессии.

Первый источник ошибки прогноза, называемый неопределенностью в остатках (возмущениях), возникает из-за того, что в выборке прогнозирования возмущения в уравнении (1) неизвестны, и они заменяются их математическими ожиданиями, равными нулю. Несмотря на то, что математическое ожидание остатков равно нулю, индивидуальные значения остатков не нулевые; чем больше вариация в индивидуальных остатках, тем больше ошибка в прогнозах.

Стандартное измерение этой вариации — стандартная ошибка регрессии (помеченная в выводе результатов оценивания уравнения «S.E. of regression»). Неопределенность в остатках обычно является самым большим источником ошибки прогноза.

Второй источник ошибки прогноза — это неопределенность в коэффициентах. Оцененные коэффициенты уравнения регрессии отклоняются от истинных (теоретических) коэффициентов регрессии случайным образом.

Эффект влияния неопределенности в коэффициентах зависит от переменных. Чем больше экзогенные переменные отклоняются от своих средних значений, тем ниже точность прогнозов.

Вариабельность прогнозов измеряется стандартными ошибками прогнозов. Для невзвешенного уравнения регрессии стандартные ошибки прогнозов вычисляются по формуле:

где — стандартная ошибка регрессии. Эти стандартные ошибки объясняются как неопределенностью остатков (первый член под корнем в правой части уравнения), так и неопределенностью коэффициентов (второй член под корнем).

Точечные прогнозы, построенные из линейной модели регрессии, оцененной методом наименьших квадратов, оптимальны в том смысле, что они имеют наименьшую дисперсию прогноза среди прогнозов, сделанных с помощью линейных несмещенных оценок коэффициентов регрессии. Далее, если остатки распределены по нормальному закону, то ошибки прогнозов тоже. Тогда с помощью t-распределения, и легко можно получить интервалы прогнозов.

Рисунок 4. Точечные и 95%-ые интервальные внутри-выборочные прогнозы для логарифмической продажной стоимости автомобилей с таблицей статистических результатов оценивания прогнозов.

На рисунке 4 представлен график точечных и 95%-ых интервальных внутри-выборочных прогнозов для логарифмической продажной стоимости автомобилей с таблицей статистических результатов оценивания качества прогнозирования логарифмической продажной стоимости автомобилей.

На графике верхняя и нижняя кривая соответствуют верхним и нижним границам 95%-ых доверительных интервалов, а срединная кривая соответствует точечным прогнозам.

В таблице, справа от графика, первые две статистики ошибок прогнозов зависят от масштаба зависимой переменной. Их следует применять для сравнения прогнозов из разных моделей по правилу: чем меньше ошибка, тем лучше способность прогнозирования модели. Это среднеквадратичная ошибка прогнозов (Root Mean Squared Error в таблице) и средняя абсолютная ошибка прогнозов (Mean Absolute Error).

Оставшиеся две статистики, средняя абсолютная ошибка прогноза в процентах (Mean Abs. Persent Error) и коэффициент неравенства Тейла (Theil Inequality Coefficient), не зависят от масштаба зависимой переменной. Коэффициент неравенства Тейла всегда лежит между нулем и единицей, где нуль указывает на точное совпадение прогнозных и фактических значений.

Доля (в среднеквадратичной ошибке прогнозов) систематической ошибки прогнозов (Bias Proportion) говорит нам, насколько далеко среднее значение прогнозов от среднего значения фактического ряда.

Доля (в среднеквадратичной ошибке прогнозов) дисперсии прогнозов (Variance Proportion) говорит нам, насколько далеко вариация прогнозов от вариации фактического ряда.

Доля (в среднеквадратичной ошибке прогнозов) ковариации прогнозных и фактических значений (Covariance Proportion) измеряет остающиеся несистематические ошибки прогнозов.

Отметим, что доля систематической ошибки, доля дисперсии и доля ковариации прогнозов в сумме составляют единицу.

Если прогнозы «хороши», то доля систематической ошибки и доля дисперсии прогнозов должны быть маленькими, так что большая часть в среднеквадратичной ошибке прогнозов была бы сконцентрирована на доле ковариации прогнозов и фактических значений.

Значения статистик оценивания качества прогнозирования в таблице свидетельствуют о хорошем качестве подобранной модели. Например, значение доля систематической ошибки прогнозов равна нулю. Это показывает, что среднее значение прогнозов полностью отслеживает среднее значение зависимой переменной.

Значение статистики R-квадрат для нашего «наилучшего» третьего уравнения регрессии равно 0,756, то есть почти 76% дисперсии переменной логарифмическая продажная стоимость автомобиля объясняется независимыми переменными, включенными в правую часть этого уравнения регрессии. Следовательно, 24% дисперсии переменной логарифмическая продажная стоимость автомобиля имеющимися у нас независимыми переменными не объясняется. И это визуально отражается на графике рисунке 5.

Рисунок 5. Фактические значения и точечные прогнозные значения продажной стоимости автомобилей в рублях с верхней и нижней границами для 95%-ых доверительных интервалов.

PRICE_INCREASE — наблюденное значение.

PRICE _F_INCR — предсказанное значение.

PRICE_UP_INCR — верхняя 95% доверительная граница.

PRICE_LOW_INCR — нижняя 95% доверительная граница.

На графике рисунка 5 верхняя и нижняя кривая соответствуют верхним и нижним границам 95%-ых доверительных интервалов, а две срединных кривых соответствуют значениям точечных прогнозов и фактическим значениям продажной стоимости автомобилей в рублях, причем фактическим значениям продажной стоимости автомобилей в рублях соответствует более гладкая кривая. Для визуального удобства по оси абсцисс наблюдения также упорядочены по возрастанию фактических значений продажной стоимости автомобилей в рублях.

Отметим, что все фактические значения продажной стоимости автомобилей в руб. попадают в 95%-ые доверительных интервалы прогнозов, за исключением четырех фактических значений с наибольшими продажными стоимостями в рублях из 130 фактических значений.

Выводы Проведенное исследование говорит о том, что:

1. Отобранные факторы являются существенными в формировании структуры цены предложения при продаже поддержанного автомобиля, хотя и не определяют ее полностью.

2. Наиболее точна и пригодна для анализа модель логарифма цены.

3. Существенное значение имеет анализ выбранных данных с выделением выбросов и последующим переоцениваем модели.

4. Учет выбросов существенно повышает прогностическую силу модели.

5. Достигнутая точность модели (R-squared = 0,74) представляет автору близкой к оптимальной на рынке.

6. Наблюдается гетероскедактичность остатков регрессии (хотя и слабая в нашем случае). Этот факт следует учитывать при расширении объёма исследования.

7. В дальнейшем, следует обратить внимание так же и на выявленную зависимость квадрата остатков от объясняемой переменной.

8. Вполне практически пригодной для решения узкого, но важного круга задач оказалась и модель простой регрессии и непосредственно для цены автомобиля.

Эту модель я назвал утилитарной.

1. Основы эконометрики. Прикладная статистика. С. А. Айвазян, В. С. Мхитарян. М.: Юнити 2001.

2. Эконометрика. Начальный курс (7-ое издание). Катышев П. К., Магнус Я. Р., Пересецкий А. А. М.:Дело, 2005.

3. Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В. А. Банников. Научн. ред. и предисл. С. А. Айвазян. — М.: Научная книга, 2008." Библиотека Солев" .

4. http://www.gks.ru/

5. http://www.uaz.ru/

Показать весь текст

Заполнить форму текущей работой