Помощь в написании студенческих работ
Антистрессовый сервис

Исследовательская часть. 
Разработка эконометрической модели получения прибыли от букмекерских ставок на футбол

РефератПомощь в написанииУзнать стоимостьмоей работы

Достоверной оценки силы команды в грядущем сезоне не существует. Если бы её можно было бы определить, то это упростило бы исследование, с добавлением ещё некоторого количества факторов можно было бы получить почти идеальный прогноз. Однако выступление клуба определяется почти бесконечным количеством факторов, часть из которых, благодаря невозможности прогнозирования или оценки, придётся считать… Читать ещё >

Исследовательская часть. Разработка эконометрической модели получения прибыли от букмекерских ставок на футбол (реферат, курсовая, диплом, контрольная)

Прежде всего хотелось бы описать алгоритм нижеописанной работы:

  • 1) Выбор и сбор данных, которые влияют на результат
  • 2) Выбор значимых и незначимых факторов для каждой группы данных.
  • 3) Подбор наиболее подходящей модели для предсказания результата.
  • 4) Построение прогноза, используя модель, построенную на тестовых данных.
  • 5) Сравнение прогноза с реальными значениями.
  • 6) Подбор стратегий для использования прогноза.

Достоверной оценки силы команды в грядущем сезоне не существует. Если бы её можно было бы определить, то это упростило бы исследование, с добавлением ещё некоторого количества факторов можно было бы получить почти идеальный прогноз. Однако выступление клуба определяется почти бесконечным количеством факторов, часть из которых, благодаря невозможности прогнозирования или оценки, придётся считать случайными. Основной задачей будет выделение наибольшего количества значимых факторов, которые смогут объяснить наибольшую долю вариации зависимой переменной. Ею будет либо место команды, либо количество очков за сезон. Независимые переменные будут рассмотрены далее.

Стоит отдельно отметить, что данные будут за 10 сезонов в топ пяти европейских чемпионатах, большее количество найти крайне затруднительно, при том, что баз данных не существует и эти данные приходилось забирать в полуавтоматическом режиме из различных источников.

В таких условиях за базовую характеристику клуба логично взять выступление команды в прошлом сезоне, это косвенно отражает относительную силу команды в прошлом сезоне. Для этого будут использованы очки клуба за предыдущий сезон, а также забитые и пропущенные голы.

Для измерения изменений, произошедших между сезонами нужно как минимум оценить изменения в составе команд. Количественно это можно оценить, как трансферный баланс, возможно даже по отдельности потраченные и полученные суммы. Но в трансферах учитывается не только сила игрока для будущего сезона, но также и ряд других факторов, таких как возраст, популярность, продолжительность контракта, результат переговоров между клубами, и т. д. Поэтому величина получается искажённой и не отражает реальное изменение состава.

Логичнее будет оценить именно ценность игрока, для этого использовалась теоретическая стоимость. В ней также присутствуют искажающие элементы, но оценка уже гораздо ближе к истинной, так как значительная часть таких элементов вычленена из неё. Для оценки будет использована сумма стоимостей ушедших и пришедших игроков, что позволит оценить переход силы команды между сезонами.

Ключевую роль в успехе клуба зачастую играют отдельные футболисты — лидеры, которые в следствие этого являются лакомым кусочком на трансферном рынке. Очевидно, что уход одного из таких игроков негативно скажется на результате, а приход — положительно. Чтобы оценить переходы таких игроков, для каждой команды взята статистика по 2−3 самым дорого оценённым игрокам, которые пришли и покинули команду.

Но изменения в составе не ограничиваются только игроками. Также могут меняться и тренеры. Эти изменения могут быть разноплановыми, но позиция главного тренера настолько ключевая, что определённо должна влиять на результат. Тренера могут уволить вследствие неисполнения им обязанностей, это обычно происходит по ходу сезона при неудовлетворительном выступлении команды. При этом важно отметить, что это может быть не так критично, может это просто влияние дисперсии, но психология руководства клуба, а также склонность к срыву с траектории команд, могут привести к увольнению даже тогда, когда по оценкам тренер должен был дать результат. Также присутствуют плановые смены тренера, они обычно происходят в межсезонье и могут быть обусловлены, как повышением статуса тренера и переходом его в более сильную команду, так и тем же недовольством, но в меньшей степени, что обычно отражает менее критические процессы, происходящие в команде. При этом важно отметить, что нужно как-то разделять различные смены тренера. Может уйти тренер, проработавший полгода и ничего не дающий команде в плане результата (поэтому и уволенный), а может уйти тренер, проработавший больше 20 лет. Во втором случае, конечно, будет спад, вне зависимости от остальных условий. Поэтому в качестве объяснения данного показателя будет использоваться временной период до смены тренера.

Ещё одним фактором будет возраст, он может абсолютно по-разному влиять на показатели команды, но отрицать само наличие влияния нельзя. Механизмы влияния могут быть такими, как способность переносить физические нагрузки длительный период времени и другие показатели, связанные с биологическими характеристиками организма, психологическая устойчивость, управляемость тренером, настрой или вовлеченность в тренировочный процесс. Используются отдельно возраста игроков стартового состава и всего, включая запасных и резервных.

Несмотря на то, что достоверно измерить силу команды фактически невозможно, все равно хотелось бы использовать какие-либо субъективные показатели, которые могут объяснить её с некоторой точностью. Для этого можно использовать два варианта: сумма теоретических трансферных стоимостей или рейтинг ФИФА. Трансферные суммы хуже, так как, к примеру, люди часто не меняют команду длительный период времени и эти оценки могут быть не так объективны. Второй метод заключается в оценке отдельных характеристик каждого игрока команды (скорость, точность и сила удара, дриблинг, отбор мяча, выносливость и т. д.) на определённой позиции, а затем агрегирование этих показателей для всей команды. Такой подсчёт — это тема для отдельного исследования, но так как эти данные находятся в свободном доступе до начала сезона и включают в себя довольно качественную оценку и прогноз, то вполне разумно воспользоваться ими.

Аналогичные показатели, но не для игроков, а для игры команды в защите, полузащите и нападении также можно оценить сходным образом, и с учётом этих показателей рассчитать силу команды в отдельных компонентах. Это поможет разделить неопределённый показатель «сила команды» на компоненты, что может дать положительный результат для прогнозирования и оценки. Здесь будут использованы те же источники.

Дома почти все команды играют лучше. Не зря говорят, что болельщики на трибунах это 12й игрок. Поэтому нужно оценить этот вклад родного стадиона в успех команды. Логично включить оценку этого фактора в модель, адекватным показателем для оценки будет средняя посещаемость. Так как в текущем сезоне она неизвестна, можно взять её за прошлый сезон, ведь посещаемость обычно почти не колеблется настолько значительно чтобы исказить результаты модели. При этом важно отметить, что этот показатель отражает не только поддержку болельщиков в виде усиления игры дома. Также большая посещаемость напрямую повышают доходы клуба за счёт продажи билетов и сувенирной продукции. Кроме того, обычно относительная посещаемость незначительно отличается среди клубов, поэтому этот показатель отражает ещё и вместимость стадиона, то есть его величину. А это уже в свою очередь в какой-то степени определяет масштаб клуба, что тоже в определённой степени влияет на успех клуба. Под масштабом подразумевается, например, престижность, история клуба, его известность, величина фанатской базы. Это в свою очередь по своим каналам влияет на успешность, но не слишком очевидно, косвенно относительно изначального показателя, поэтому более глубоко оценивать смысла не имеется. Для оценки будут взяты средняя за сезон посещаемость и пиковая.

Переход к моделированию.

Для начала будут произведены некоторые доработки базы данных. В частности, будут рассмотрены совместные влияния факторов, а также другие производные элементы. Хотелось бы отметить относительную скудность данных, поэтому такие операции могут позволить отобразить недостающие характеристики клуба.

При анализе оказывается, что показатель, просто равный времени у руля команды ушедшего тренера, является совершенно незначимым. При этом его влияние на результат достаточно очевидно. В связи с этим, он будет рассмотрен совместно с другими показателями. Это количество очков в прошлом сезоне (показатель качества работы тренера), средняя посещаемость (отражает уровень клуба) и баланс пришедших и ушедших игроков (может показывать ситуацию в команде).

Хотелось бы иметь больше информации о стиле игры команды в прошлом, данных, которые как-то отражали это почти не существует на длительном отрезке времени. Одним из вариантов, который может как-то характеризовать это забитые и пропущенные голы. Но если рассматривать чистые показатели, то это больше схоже с простым количеством очков — чем больше забил и меньше пропустил, тем лучше. Поэтому, чтобы показать именно игру команды (атакующую или оборонительную) они будут взяты, как соотношение между количеством голов и количеством заработанных очков. Это позволит увидеть, насколько относительно много забивает и относительно мало пропускает команда, для того, чтобы заработать одно очко.

Также совместно будут рассмотрены другие факторы, такие как посещаемость, очки в прошлом сезоне, средний рейтинг и другие — см. список переменных.

Краткая справка, по использующейся базе данных (без её приведения дальнейшие рассуждения будут достаточно трудно понять):

  • — pts количество очков в текущем сезоне,
  • — win победа или нет в чемпионате текущего сезона,
  • — OVA средний рейтинг всех футболистов,
  • — ATT средний рейтинг нападающих,
  • — MID средний рейтинг полузащитников,
  • — DEF средний рейтинг защитников,
  • — TAA средний возраст всех игроков,
  • — SAA средний возраст игроков стартового состава,
  • — np количество игроков в заявке,
  • — vds суммарная ценность ушедших игроков летом перед сезоном,
  • — vas суммарная ценность пришедших игроков летом перед сезоном,
  • — vms разница между двумя показателями выше (vas-vds), отражает итоговую разницу в составе,
  • — vdw суммарная ценность ушедших игроков зимой прошлого сезона,
  • — vaw суммарная ценность пришедших игроков зимой прошлого сезона,
  • — vmw разница между двумя показателями выше (vaw-vdw), отражает итоговую разницу в составе, произошедшею в середине предыдущего сезона,
  • — exs потрачено на трансферы летом,
  • — is заработано на трансферах летом,
  • — exw потрачено на трансферы зимой,
  • — iw заработано на трансферах зимой,
  • — a1s, a2s рыночная цена двух самых дорогих игроков, пришедших перед сезоном,
  • — d1s, d2s рыночная цена двух самых дорогих игроков, ушедших перед сезоном,
  • — a1w, a2w рыночная цена двух самых дорогих игроков, пришедших в середине прошлого сезона,
  • — d1w, d2w рыночная цена двух самых дорогих игроков, ушедших в середине прошлого сезона,
  • — ptss количество очков, заработанных в прошлом сезоне,
  • — gfs забитые голы в прошлом сезоне,
  • — gas пропущенные голы в прошлом сезоне,
  • — pgf забитые голы за каждое заработанное очко в прошлом сезоне,
  • — pga пропущенные голы за каждое заработанное очко в прошлом сезоне,
  • — av средняя посещаемость в прошлом сезоне,
  • — hig пиковая посещаемость в прошлом сезоне,
  • — ptssaa произведение очков в прошлом сезоне на средний возраст,
  • — ptssav произведение очков в прошлом сезоне на посещаемость,
  • — val произведение суммарных рыночных цен игроков, пришедших летом и зимой,
  • — OVASAA произведение среднего рейтинга и возраста игроков,
  • — as произведение рыночных цен двух самых дорогих пришедших игроков,
  • — aw произведение рыночных цен двух самых дорогих пришедших игроков,
  • — md количество дней у руля команды для ушедшего перед сезоном тренера,
  • — mda произведение показателя выше (md) на суммарную рыночную цену пришедших игроков,
  • — mdd произведение показателя выше (md) на суммарную рыночную цену ушедших игроков,
  • — mdp произведение показателя выше (md) на количество очков в прошлом сезоне,
  • — mdav произведение показателя выше (md) на среднюю посещаемость в прошлом сезоне.

Выбор значимых и незначимых факторов для каждой группы данных.

Так как данные используются по 5 разным чемпионатам, то для каждого из них необходимо оценить значимость или незначимость отобранных факторов отдельно. Это можно легко увидеть просто с помощью обычной линейной регрессии. Расписывать абсолютно все шаги будет слишком долго и не имеет большого смысла. Далее пример этих действий для английского чемпионата.

Простая общая регрессия:

Coefficients:

Estimate Std. Error t value Pr (>|t|).

(Intercept) -4.510e+02 6.612e+02 -0.682 0.49 617.

OVA 7.591e+00 9.657e+00 0.786 0.43 302.

ATT -2.533e-01 2.974e-01 -0.852 0.39 568.

MID -2.632e-02 3.602e-01 -0.073 0.94 184.

DEF 2.027e-01 3.346e-01 0.606 0.54 557.

TAA -4.396e-01 8.442e-01 -0.521 0.60 329.

SAA 1.717e+01 2.478e+01 0.693 0.48 925.

np -2.388e-01 2.300e-01 -1.038 0.30 077.

vds 2.194e-08 6.463e-08 0.339 0.73 472.

vas 4.341e-09 7.486e-08 0.058 0.95 383.

vdw 9.277e-08 1.143e-07 0.811 0.41 832.

vaw -2.178e-07 1.629e-07 -1.337 0.18 317.

exs -5.776e-08 4.973e-08 -1.162 0.24 715.

is -4.248e-08 6.201e-08 -0.685 0.49 431.

exw 6.302e-09 1.127e-07 0.056 0.95 547.

iw -2.337e-07 1.257e-07 -1.859 0.6 492.

a1s 2.878e-08 1.573e-07 0.183 0.85 504.

a2s -4.714e-08 2.594e-07 -0.182 0.85 602.

d1s 1.223e-08 1.228e-07 0.100 0.92 076.

d2s 3.124e-07 1.890e-07 1.653 0.10 036.

a1w 2.416e-07 2.323e-07 1.040 0.29 993.

a2w 4.283e-07 2.946e-07 1.454 0.14 799.

d1w 4.995e-08 2.114e-07 0.236 0.81 351.

d2w -1.255e-07 4.069e-07 -0.308 0.75 817.

ptss -2.859e-01 1.763e+00 -0.162 0.87 136.

gfs 2.404e-02 3.683e-01 0.065 0.94 804.

gas -3.604e-01 1.693e-01 -2.129 0.3 483*.

pgf -5.006e+00 1.688e+01 -0.296 0.76 724.

pga 3.425e+00 4.009e+00 0.854 0.39 430.

av 6.148e-04 4.656e-04 1.321 0.18 858.

hig -7.245e-04 3.679e-04 -1.969 0.5 069.

ptssaa 8.232e-03 6.599e-02 0.125 0.90 089.

ptssav 4.063e-06 3.384e-06 1.201 0.23 172.

val -9.130e-16 1.323e-15 -0.690 0.49 124.

OVASAA -2.422e-01 3.614e-01 -0.670 0.50 377.

as 1.344e-14 8.511e-15 1.579 0.11 622.

aw 8.192e-16 1.977e-14 0.041 0.96 700.

md -2.100e-04 3.969e-03 -0.053 0.95 786.

mda 1.330e-10 9.453e-11 1.407 0.16 154.

mdd -1.237e-10 7.225e-11 -1.713 0.8 875.

mdp -1.699e-04 6.443e-05 -2.637 0.920 **.

mdav 2.858e-07 1.018e-07 2.807 0.563 **.

—;

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1.

Residual standard error: 8.655 on 158 degrees of freedom.

Multiple R-squared: 0.7919,Adjusted R-squared: 0.738.

F-statistic: 14.67 on 41 and 158 DF, p-value: < 2.2e-16.

Сразу видно, что существует значительная проблема мультиколлинеарности. А также переменных слишком много в том числе и для дальнейшей их обработки. В связи с этим нужно отобрать наиболее важные и весомые из них, объясняющие наибольшую часть изменчивости исходных данных. Построим попарную матрицу корреляции переменных между собой. Те из них, что имеют в наличии корреляцию близкую к 1 можно убрать без лишних забот. Также можно удалить переменные, которые практически не объясняют результат (r квадрат в одиночной регрессии совсем мал).

В результате этих операций количество переменных сократилось, следующий этап:

Coefficients:

Estimate Std. Error t value Pr (>|t|).

(Intercept) -2.721e+01 3.214e+01 -0.847 0.398 333.

OVA 1.809e+00 4.582e-01 3.948 0.112 ***.

vaw -1.250e-07 7.153e-08 -1.748 0.82 173 .

exs -6.908e-08 2.884e-08 -2.395 0.17 605 *.

iw -1.992e-07 7.237e-08 -2.752 0.6 517 **.

d2s 2.595e-07 1.329e-07 1.953 0.52 295 .

a2w 3.849e-07 1.933e-07 1.991 0.47 946 *.

gas -4.565e-01 1.007e-01 -4.534 1.04e-05 ***.

pgf -6.093e+00 3.525e+00 -1.729 0.85 538 .

av 6.096e-04 3.664e-04 1.664 0.97 848 .

hig -7.230e-04 3.138e-04 -2.304 0.22 326 *.

ptssav 4.510e-06 1.741e-06 2.590 0.10 360 *.

OVASAA -1.640e-02 6.410e-03 -2.559 0.11 301 *.

as 1.292e-14 3.785e-15 3.413 0.789 ***.

mdp -1.030e-04 2.689e-05 -3.831 0.175 ***.

mdav 2.199e-07 5.711e-08 3.851 0.162 ***.

—;

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1.

Residual standard error: 8.299 on 184 degrees of freedom.

Multiple R-squared: 0.7772,Adjusted R-squared: 0.759.

F-statistic: 42.79 on 15 and 184 DF, p-value: < 2.2e-16.

Здесь видно, что присутствует слишком много переменных, описывающих трансферы, их пять. Очевидно, что у них значительная корреляция между собой, поэтому упростим эту часть, оставив 1−2 переменные.

Если сравнивать между собой, то оптимальным выглядит оставление только iw и as (денег, полученных в середине прошлого сезона и произведения двух самых больших рыночных цен пришедших футболистов). Они достаточно полно описывают трансферную деятельность и при этом разносторонне: корреляция всего 0,3. Также здесь удалены ещё несколько переменных со значительной корреляцией с оставшимися переменными. В результате:

Call:

lm (formula = pts ~ OVA + iw + as + gas + pgf + ptssav + as +.

mdav + mdp, data = eng).

Residuals:

Min 1Q Median 3Q Max.

— 24.2038 -5.4918 -0.2289 6.3476 29.3716.

Coefficients:

Estimate Std. Error t value Pr (>|t|).

(Intercept) -3.819e+01 2.964e+01 -1.289 0.199 106.

OVA 1.533e+00 3.806e-01 4.027 8.15e-05 ***.

iw -1.480e-07 6.950e-08 -2.129 0.34 539 *.

as 7.275e-15 3.001e-15 2.424 0.16 270 *.

gas -5.009e-01 9.668e-02 -5.181 5.59e-07 ***.

pgf -9.795e+00 3.221e+00 -3.041 0.2 693 **.

ptssav 3.373e-06 8.520e-07 3.959 0.106 ***.

mdav 2.181e-07 5.857e-08 3.723 0.259 ***.

mdp -1.029e-04 2.745e-05 -3.750 0.234 ***.

—;

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1.

Residual standard error: 8.595 on 191 degrees of freedom.

Multiple R-squared: 0.7519,Adjusted R-squared: 0.7415.

F-statistic: 72.37 on 8 and 191 DF, p-value: < 2.2e-16.

Осталось всего 8 коэффициентов, оценим их матрицу попарных корреляций:

Табл. 1.

OVA.

iw.

as.

gas.

pgf.

ptssav.

mdav.

mdp.

OVA.

1,0.

0,2.

0,5.

— 0,8.

0,5.

0,8.

0,1.

0,1.

iw.

0,2.

1,0.

0,3.

— 0,2.

0,2.

0,1.

0,0.

0,0.

as.

0,5.

0,3.

1,0.

— 0,3.

0,1.

0,4.

0,0.

0,0.

gas.

— 0,8.

— 0,2.

— 0,3.

1,0.

— 0,6.

— 0,7.

0,0.

0,0.

pgf.

0,5.

0,2.

0,1.

— 0,6.

1,0.

0,4.

0,1.

0,1.

ptssav.

0,8.

0,1.

0,4.

— 0,7.

0,4.

1,0.

0,1.

0,2.

mdav.

0,1.

0,0.

0,0.

0,0.

0,1.

0,1.

1,0.

0,9.

mdp.

0,1.

0,0.

0,0.

0,0.

0,1.

0,2.

0,9.

1,0.

Видно, что кроме искусственно созданных переменных корреляции в целом достаточно маленькие, меньше или равны 0,3 (mdav будет убран в конечной версии). Поэтому данный выбор факторов можно считать оптимальным — модель значительно упростилась, при этом, почти не потеряв в описательной силе.

Теперь попробуем оценить нелинейные зависимости выбранных переменных, улучшив тем самым описание объясняемой переменной. Для этого используем пакет mfp в R:

Call:

mfp (formula = pts ~ fp (OVA, df = 4, select = 0.1) + fp (iw, df = 4,.

select = 0.1) + fp (as, df = 4, select = 0.1) + fp (gas, df = 4,.

select = 0.1) + fp (pgf, df = 4, select = 0.1) + fp (ptssav,.

df = 4, select = 0.1) + fp (mdav, df = 4, select = 0.1) +.

fp (mdp, df = 4, select = 0.1), data = eng, family = gaussian).

Deviance table:

Resid. Dev.

Null model 56 881.5.

Linear model 14 110.19.

Final model 14 445.02.

Fractional polynomials:

df.initial select alpha df. final power1 power2.

gas 4 0.1 0.05 1 1 .

OVA 4 0.1 0.05 1 1 .

ptssav 4 0.1 0.05 1 1 .

mdp 4 0.1 0.05 1 1 .

mdav 4 0.1 0.05 1 1 .

pgf 4 0.1 0.05 1 1 .

as 4 0.1 0.05 1 1 .

iw 4 0.1 0.05 0. .

Transformations of covariates:

formula.

OVA I ((OVA/100)1).

iw.

as I (((as+2.5e+10)/1e+14)1).

gas I ((gas/100)1).

pgf I (pgf1).

ptssav I ((ptssav/1e+06)1).

mdav I (((mdav+1130)/1e+07)1).

mdp I (((mdp+3)/10 000)1).

Re-Scaling:

Non-positive values in some of the covariates. No re-scaling was performed.

Coefficients:

Intercept gas.1 OVA.1 ptssav.1 mdp.1 mdav.1 pgf.1 as.1.

— 31.9801 -49.4646 144.2940 3.6246 -1.0524 2.2354 -10.4074 0.5902.

Degrees of Freedom: 199 Total (i.e. Null); 192 Residual.

Residual Deviance: 14 450 AIC: 1442.

Ни у одной из переменных не было найдено нелинейной зависимости, то есть можно сказать, что в данном случае линейность выглядит достаточно.

Попробуем перейти к панельным данным и посмотреть, даст ли это какие-то преимущества. Для этого будет использован пакет plm в R. Построим три модели по полученной ранее формуле и сравним их. Надо сравнить полученные модели. Для этого используем F-тест для фиксированных эффектов против сквозной регресии:

F test for individual effects.

data: pform.

F = 1.4487, df1 = 36, df2 = 155, p-value = 0.6 426.

alternative hypothesis: significant effects.

И тест для случайных эффектов против сквозной регрессии — тест Бройша-Пагана:

Lagrange Multiplier Test — (Breusch-Pagan) for unbalanced panels.

data: pform.

chisq = 0.83 558, df = 1, p-value = 0.7725.

alternative hypothesis: significant effects.

Анализ показывает, что использование панельных данных не даёт значимого преимущества в прогнозировании, поэтому от них было принято решение отказаться и использовать обычную логистическую регрессию.

Перейдём к логистической регрессии, необходимой для построения вероятностного распределения для сравнения с коэффициентами. Здесь в качестве объясняемой переменной будет победа в чемпионате.

Call:

glm (formula = win ~ OVA + iw + as + gas + pgf + ptssav + as +.

mdp, family = binomial (link = «logit»), data = train).

Deviance Residuals:

Min 1Q Median 3Q Max.

— 1.33 615 -0.108 -0.2 0.0 1.98 449.

Coefficients:

Estimate Std. Error z value Pr (>|z|).

(Intercept) -8.856e+01 9.455e+01 -0.937 0.3489.

OVA 1.136e+00 1.148e+00 0.989 0.3224.

iw 1.258e-07 1.026e-07 1.227 0.2200.

as 7.279e-15 5.141e-15 1.416 0.1568.

gas -2.671e-01 2.341e-01 -1.141 0.2539.

pgf -7.478e+00 8.165e+00 -0.916 0.3597.

ptssav 1.766e-06 9.757e-07 1.810 0.0703 .

mdp -2.044e-05 8.345e-05 -0.245 0.8065.

—;

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1.

(Dispersion parameter for binomial family taken to be 1).

Null deviance: 47.644 on 119 degrees of freedom.

Residual deviance: 12.567 on 112 degrees of freedom.

Number of Fisher Scoring iterations: 11.

Оценка регрессии с помощью пакета Pscl в r:

llh llhNull G2 McFadden r2ML r2CU.

— 20.2 413 458 -39.7 030 487 38.9 234 058 0.4 901 816 0.1 768 502 0.5 396 932.

Регрессия очевидно является адекватной, поэтому продолжим работу к построению прогноза. Разобьём данные на две части и попробуем мельком оценить прогноз на 4 сезона, основываясь на результатах 6 (более подробно далее):

Рис. 1.

Исследовательская часть. Разработка эконометрической модели получения прибыли от букмекерских ставок на футбол.

Чемпионы идут под номерами 1, 21, 41, 61.

На этом графике видно, что, не считая последнего сезона, где чемпионом абсолютно стал «Лестер Сити» модель правильно предсказывает чемпиона.

Для более правдоподобного прогноза разбивать данные следует не один раз, а для каждого сезона отдельно, чтобы получить больший объём тренировочных данных.

Проделав аналогичные действия для всех 5 чемпионатов, мы получим логистические регрессии и на их основе, разбивая данные на тренировочные и тестовые попробуем предсказать чемпиона (получим вероятность стать чемпионом для каждой из команд).

Букмекерские стратегии и прогнозирование.

В предыдущем пункте мы получили вероятности победы в чемпионате для каждой команды, теперь нужно проанализировать само получение прибыли на примере опять же Англии.

Существует несколько вариантов стратегий, попробуем выявить самую выгодную, путём сравнения величины дохода. Прежде всего о группах стратегий:

  • 1) Базовая (чемпион будет тот же).
  • 2) Ставим на команду с наибольшей предсказанной вероятностью.
  • 3) Ставим на команду, если вероятность победы больше, чем у букмекера.
  • 4) Вероятность победы больше фиксированного значения (0,2).
  • 5) Распределение ставки между прогнозами в соответствии с вероятностями.

Рассмотрим данные, которые получены в сравнении с букмекерскими коэффициентами за 2015 сезон:

Табл. 2.

Year.

Team.

pts.

win.

Коэффициент.

Вероятность букмекера.

Вероятность прогнозная.

Leicester City F.C.

0,0002.

Arsenal F.C.

0,142 857 143.

Tottenham Hotspur F.C.

0,14 925 373.

Manchester City F.C.

3,25.

0,307 692 308.

Manchester United F.C.

5,5.

0,181 818 182.

0,526 316.

Southampton F.C.

0,49 975.

West Ham United F.C.

0,49 975.

Liverpool F.C.

0,49 975.

Stoke City F.C.

0,49 975.

Chelsea F.C.

2,87.

0,348 432 056.

0,473 684.

Основываясь на этих данных, опишем на кого бы была сделана ставка в каждой из стратегий и какова была бы прибыль (прибыль получается, если чемпион угадан правильно, учитывая соответствующий коэффициент).

  • 1) Челси — чемпион прошлого года — прибыль 0.
  • 2) Манчестер Юнайтед — прибыль 0.
  • 3) Челси и Манчестер Юнайтед — прибыль 0.
  • 4) Челси и Манчестер Юнайтед — прибыль 0.
  • 5) Челси и Манчестер Юнайтед — прибыль 0.

Здесь она будет нулевой потому что произошло совсем непредсказуемое никакими методами событие.

Проделав те же операции для четырёх сезонов (больше не позволяет наличие данных) получим следующие доходности для стратегий:

  • 1) 0+0+0+0=0, доходность 0.
  • 2) 0+1,73+3,25+2,5=7,48.
  • 3) 0+1,73+3,25+1,81=6,79.
  • 4) 0+1,73+2,19+1,81=5,73.
  • 5) 0+1,57+2,19+1,81=5,57.

Соответственно видно, что стратегия со ставкой на наибольшую предсказанную вероятность наиболее прибыльна (7,48/4=1,87 или 87% за 4 года).

К сожалению, для остальных чемпионатов невозможно найти подобные коэффициенты, поэтому можно проанализировать только угадывание чемпиона или нет. Тем не менее модель успешно предсказывает (используя стратегию ставить на наибольшую вероятность) 14/20 чемпионов или 70%. То есть, если предположить, что коэффициенты такие же, как и для Англии, то ожидаемый выигрыш будет равен 14*2,5/20=1,75 или 75% доходности.

Подводя итог данного раздела, можно отметить, что данная модель очень успешно предсказывает чемпионство (70%), что значимо превышает достигнутые значения для краткосрочных ставок. Конечно, это компенсируется малой возможностью для совершения и большим периодом действия ставки, но вышеописанный пример показывает, что вполне реально получать ежегодную доходность до 17−18%, что в абсолютных значениях выглядит вполне удовлетворительно.

Показать весь текст
Заполнить форму текущей работой