Перейти на сайт сейчас |
- Как измеряется точность рынков футбольных ставок?
- Понимание показателя успешности вероятностного прогноза в ранжированных категориях (RPS)
- Какие футбольные лиги стали эффективнее?
За все годы, что я пишу статьи в ресурсах для размещения ставок Pinnacle, читатели уже наверняка привыкли к такому понятию, как эффективности рынка. Выражаясь простым языком, эффективность — это то же самое, что точность. Когда мы говорим, что рынок коэффициентов эффективен, то имеем в виду, что эти коэффициенты в точности отображают истинные вероятности результатов футбольного матча.
Для некоторых усвоить это понятие может быть довольно трудно. Проблема заключается в том, что коэффициенты отображают вероятности, но для ставок возможны лишь два результата — победа (100 %) либо поражение (0 %). В этом смысле все коэффициенты являются неточными, так как не отображают результаты. Требуется немного воображения, чтобы понять, что результаты отображают лишь один из возможных вариантов развития событий, но знание о том, какой из них состоится в действительности, скрыто природой неопределенности.
Если бы мы могли бесконечное количество раз переигрывать футбольные матчи, то наблюдали бы распределение результатов — когда победа дома, а когда ничья или победа в гостях. То, насколько хорошо предполагаемые вероятности отображают это распределение, и определяет точность, или эффективность, соответствующих коэффициентов.
Как измеряется точность рынков футбольных ставок?
К сожалению, фактические результаты — это единственная информация, которой мы можем оперировать, пытаясь определить точность рынков футбольных ставок Pinnacle. Нам никогда не узнать истинных вероятностей. Чтобы определить, насколько хорошо коэффициенты отображают фактические результаты, можно использовать т. н. скоринговое правило, измеряющее точность вероятностных прогнозов.
Компания Pinnacle уже публиковала статью в ресурсах для размещения ставок об одном хорошо известном скоринговом правиле — показателе Бриера. Другим таким правилом является показатель неосведомленности, связанный с энтропией Шеннона, т. е. информацией, заложенной в возможных результатах случайной переменной. В этой статье мы познакомимся с еще одним понятием — показателем успешности вероятностного прогноза в ранжированных категориях.
Понимание показателя успешности вероятностного прогноза в ранжированных категориях (RPS)
Показатель успешности вероятностного прогноза в ранжированных категориях (RPS) — это скоринговое правило для вероятностных результатов, учитывающее расстояние или порядок. В контексте определения точности коэффициентов футбольных ставок по отношению к результатам это означает, что ничья ближе к домашней победе в месте проведения матча, чем к победе на выезде (и наоборот). Это понятие было впервые применено к футболу в академической литературе в 2012 г. Формула вычисления показателя RPS следующая:
где r — это количество потенциальных результатов (для рынка ставок на футбольные матчи это значение равно 3), а pj и ej — это вероятностные прогнозы и наблюдаемые результаты в точке j. В качественном отношении показатель RPS представляет собой сумму квадрата разности суммарных распределений прогнозов и наблюдений. Ее значение находится в пределах от 0 (при совершенном прогнозе) и 1 (при полностью несовершенном прогнозе). Рассмотрим практический пример для лучшего понимания вышесказанного.
Для начала возьмем справедливые коэффициенты (без букмекерской маржи) на матч «Манчестер Юнайтед» — «Манчестер Сити», состоявшийся 8 марта 2020 г. Согласно средним коэффициентам рынка значения вероятности домашней победы, ничьей и выездной победы (ph, pd и pa) составили 0,211, 0,245 и 0,544 соответственно. В этом матче победу одержал «Манчестер Юнайтед», поэтому коэффициент eh равен 1, а ed и ea равны 0.
Сначала посчитаем суммарные прогностические вероятности. Как это сделать, показано в первой таблице.
Теперь то же самое сделаем для результатов.
Наконец, посчитаем квадрат их разности для каждого возможного результата, после чего найдем сумму и разделим ее на 2 (так как r – 1 = 2, если r равно 3).
Результат этого матча оказался наименее предсказуемым, поэтому показатель RPS довольно высок. Если бы победил «Манчестер Сити», показатель RPS составил бы 0,126.
Одним из преимуществ использования скорингового правила, учитывающего расстояние, является возможность генерировать меньший показатель для ничьих при равных по силе командах. «Бернли» с «Тоттенхэмом» сыграли в ничью 7 марта. Шансы обеих команд на победу оценивались одинаково (35,7 %). Показатель RPS составил 0,127, хотя ничья считалась наименее вероятным из трех возможных результатов (28,7 %). Если бы одна из команд победила, показатель RPS для этого матча составил бы 0,270.
Несмотря на то что ничья была наименее вероятна, интуитивно это кажется обоснованным значением, по крайней мере, с точки зрения скорингового правила и соответствия вероятностей модели (в данном случае, коэффициентов) фактическим событиям. Впрочем, такая аргументация считается спорной.
Использование показателя RPS для оценки эффективности рынка
Теоретически эффективность коэффициентов ставок на рынке можно оценить, подсчитав средний показатель RPS для выборки матчей. Чем ниже оценка, тем эффективнее рынок и точнее модель коэффициентов. Я провел подсчеты для большой выборки (n = 162 282) футбольных матчей, прошедших по всему миру с 2007 по 2017 г. Средний показатель RPS для коэффициентов линии закрытия Pinnacle составил 0,2046.
Без какой-либо точки привязки сложно понять, что значит это число и как с его помощью оценить точность коэффициентов ставок. Нам известно, что в масштабах отдельно взятого мачта эти коэффициенты «неправильны» с точки зрения детерминизма. Но насколько? Идеальная оценка равна 0, но, разумеется, ни одна модель коэффициентов не сможет достичь такого значения.
Самая простая модель коэффициентов, которой можно воспользоваться, — это угадывание. Используя генератор случайных чисел в Excel, я рандомизировал вероятности для домашней победы, ничьей и выездной победы, после чего посчитал коэффициенты RPS на основе того же набора фактических результатов матчей. Средний показатель RPS при моделировании методом Монте-Карло составил 0,293. Очевидно, что как прогностическая модель коэффициенты линии закрытия Pinnacle статистически гораздо лучше произвольного угадывания (на 451 пункт среднеквадратического отклонения).
Однако все, кто следит за футболом, знают, что домашняя победа куда вероятнее ничьей или победы на выезде, по крайней мере, в большинстве случаев. Краткое изучение архивных баз данных показывает, что примерно 45 % матчей заканчиваются домашней победой, а около 27 % и 28 % — ничьей и выездной победой соответственно. Что, если применить эти цифры к каждому матчу выборки? Показатель RPS опустится до значения 0,225 , которое превосходит угадывания, но все равно значительно уступает по точности коэффициентам линии закрытия Pinnacle.
Коэффициенты линии открытия и линии закрытия
Как соотносятся коэффициенты линии открытия и линии закрытия Pinnacle? Большинство людей интуитивно понимают, что чем более устоявшимся является рынок ставок, что выражается в повышенной активности и большем обороте денег, представляющих различные взгляды, тем точнее становятся коэффициенты.
Средний показатель RPS для выборки матчей составил 0,2059. Это выше, чем для коэффициентов линии закрытия, хотя разница несущественная. Свидетельствует ли такая незначительная разница об увеличении эффективности коэффициентов между линиями открытия и закрытия рынка?
Это можно проверить, в частности, определив, насколько удачными или неудачными являются эти значения. Не забывайте, что исход матча во многом зависит от удачи; это явление называется случайностью, или статистической неопределенностью. Невозможно каждый раз получать один и тот же результат. Фактические результаты представляют собой лишь один из 3 в 162 282 степени возможных вариантов развития событий (по моими подсчетам, результатом возведения в степень будет число, состоящее из 77 000 цифр).
Вместо того чтобы использовать фактические результаты, давайте их рандомизируем, определив их вероятности согласно коэффициентам линий открытия и закрытия Pinnacle, чтобы получить диапазон ожидаемых показателей RPS с помощью моделирования методом Монте-Карло.
Для коэффициентов линии закрытия ожидаемый (средний) показатель RPS составил 0,2045 со среднеквадратическим отклонением 0,0003. Это значит, что примерно две трети значений показателя RPS для модели коэффициентов линии закрытия находятся в пределах от 0,2042 до 0,2048. То же верно и для показателя RPS фактических результатов. Примерно 99,8 % находятся в пределах 3 пунктов среднеквадратического отклонения, т. е. от 0,2036 до 0,2054. Схожим образом среднее значение коэффициентов линии открытия составило 0,2056 со все тем же среднеквадратическим отклонением 0,0003.
Так как разница между фактическими показателями RPS для коэффициентов линий открытия и закрытия составляет 0,13 (или свыше 4 пунктов среднеквадратического отклонения), это говорит о статистически значимой разнице между двумя моделями коэффициентов, из чего можно сделать вывод, что коэффициенты линии закрытия и вправду эффективнее (точнее), чем коэффициенты линии открытия. Таким же образом применение одностороннего t-критерия к фактическим показателям RPS матча для коэффициентов линий открытия и закрытия обеспечивает p-значение 0,001 (что приблизительно равно чуть более чем 3 пунктам среднеквадратического отклонения).
Повысилась ли эффективность рынков футбольных ставок Pinnacle?
Попробуем дать ответ на вопрос в названии статьи: стали ли со временем эффективнее коэффициенты ставок на футбол от Pinnacle? Я распределил показатели RPS по календарным годам и отобразил тенденцию на приведенной ниже диаграмме.
Несмотря на значительную дисперсию в смежных годах, вполне закономерную ввиду не только случайности фактических результатов, но и отличия матчей (которое обусловлено ежегодным попаданием в лигу новых команд и выбыванием старых, а также составом игроков и их физической формой), все же наблюдается тенденция к повышению эффективности.
Любопытно, что коэффициенты линии закрытия стали более эффективными быстрее, чем коэффициенты линии открытия. Средний показатель RPS для коэффициентов линии открытия отображает точность модели, по которой Pinnacle устанавливает коэффициенты. А средний показатель RPS для коэффициентов линии закрытия, в свою очередь, отображает все модели клиентов компании Pinnacle в дополнение к ее собственной. Наблюдающееся сравнительное повышение эффективности коэффициентов линии закрытия с 2007 по 2017 г. свидетельствует об увеличении количества клиентов, активно соревнующихся с Pinnacle (и пассивно между собой) в своего рода «гонке вооружений», направленной на достижение как можно высшей точности прогнозов.
Какие футбольные лиги стали эффективнее?
Часто высказывается предположение, что одержать верх над букмекерами проще на меньших, менее эффективных рынках, чем на тех, где активно делает ставки большое количество клиентов. Это вполне рациональное предположение, особенно в свете того, что Pinnacle применяет разные ограничения ставок для разных лиг именно с целью управления рисками.
По меньшим лигам меньше информации, а также им свойственна большая неопределенность и дисперсия, поэтому Pinnacle не дает клиентам злоупотреблять повышенной погрешностью, ограничивая разрешенный размер ставок. Для непопулярного низшего дивизиона европейской страны ограничение ставок может достигать всего лишь нескольких сотен долларов. В то же время для матча английской Премьер-лиги или Лиги чемпионов ограничение ставки может достигать 45 000 долл. США.
В приведенной ниже диаграмме данные из первой диаграммы разбиты на категории «больших» и «малых» футбольных лиг и соревнований. Разделяя лиги на «большие» и «малые», я руководствовался субъективными критериями, которые, надеюсь, все же перекликаются со здравым смыслом. Таким образом, к «большой» категории отнесены высшие дивизионы Англии, Шотландии, Испании, Италии, Германии и Франции, а также Лига чемпионов, Лига Европы, Чемпионат Европы и Кубок мира, матчи которых составили примерно 15 % выборки.
Тут можно выделить два момента. Во-первых, у «больших» рынков средний показатель RPS ниже, чем у «малых». И вправду, статистически разница между ними огромная. Для коэффициентов линий открытия и закрытия шанс такого исхода по чистой случайности равен примерно 1 к 50 миллиардам. Во-вторых, «большие» рынки продемонстрировали тенденцию к снижению показателя RPS, а следовательно, и к повышению эффективности за гораздо меньший временной промежуток. И в самом деле, показатели «малых» рынков практически не изменились.
Чем обусловлена более стремительная тенденция больших рынков к повышению эффективности? Это можно объяснить тем, что интерес клиентов к большим рынкам возрос быстрее, чем к малым. Что неудивительно ввиду увеличивающегося количества рекламы ставок на спорт в Интернете и на телевидении, сосредоточенной на крупнейших соревнованиях.
Однако влияет ли вообще повышенная эффективность на более низкий средний показатель RPS больших рынков? Конечно, это одно из возможных объяснений. Но другое заключается в том, что в «больших» соревнованиях чаще выделяются популярные фавориты и аутсайдеры с более высокими коэффициентами. Иными словами, у них выше дисперсия по трем возможным результатам матча.
Попытка выяснить, какое из этих объяснений является правильным, лишний раз подчеркивает проблему, лежащую в основе использования показателя RPS, да и любого другого скорингового правила, для определения точности вероятностных прогнозов.
Как насчет эпистемической неопределенности?
Предположим, модель на матч прогнозирует вероятности 45 %, 27 % и 28 % для домашней победы, ничьей и победы на выезде соответственно. При условии, что модель правильная, ожидаемый показатель RPS составит 0,225. Статистическая неопределенность, обусловленная случайными воздействиями во время матча, указывает на то, что фактический показатель составит 0,191 (для домашней победы), 0,140 (для ничьей) или 0,360 (для выездной победы), но если такие матчи переигрывать бесконечное количество раз, средний показатель RPS составит 0,225.
Теперь предположим, что модель прогнозирует 70 %, 20 % и 10 %. Дисперсия по трем вероятным результатам будет больше, как и дисперсия по трем возможным показателям RPS (домашняя победа — 0,05, ничья — 0,25, выездная победа — 0,65), но ожидаемый показатель RPS будет меньше — 0,150.
При условии, что обе модели правильные, показатель RPS будет ниже при большей определенности хотя бы одного конкретного результата. Таким образом, становится очевидным, почему средний показатель RPS для больших рынков ниже, чем для малых. На «больших» рынках 5 % коэффициентов моей выборки подразумевали вероятность победы свыше 70 %. На «малых» таких коэффициентов было лишь 2 %. Точно так же более 20 % коэффициентов на «больших» рынках прогнозировали победу с вероятностью ниже 20 %, а на «малых» их количество составило лишь 13 %.
Если подумать о лидерах «больших» соревнований, проходивших в период выборки, таких как «Реал Мадрид», «Барселона», «Ювентус», «Манчестер Сити», «Челси», «Селтик», «ПСЖ» и «Бавария Мюнхен», эта разница кажется обоснованной. В «больших» соревнованиях больше популярных фаворитов, и соответственно, больше тех, кто уступает им по рангу. Поскольку коэффициенты отображают асимметричность предполагаемых вероятностей, они имеют более неравное среднее значение в «больших» соревнований.
Но предположим, что вторая модель в моем мысленном эксперименте совершенно неправильная. Предположим, что истинные вероятности на самом деле 60 %, 25 % и 15 %. В таком случае ожидаемый показатель RPS поднимется до значения 0,190, поскольку в действительности выездных побед больше, чем должно быть согласно модели. Тем не менее ожидаемый показатель RPS все равно будет ниже, чем для матчей, исход которых прогнозирует первая модель. Это создает впечатление более точного набора прогнозов, но нам известно, что это не так. Они лишь кажутся более точными из-за большей дисперсии вероятностей трех возможных результатов для данной выборки матчей.
Систематическую неопределенность (или погрешность) в модели также называют эпистемической неопределенностью. Сложность заключается в том, чтобы определить имеющуюся степень систематической неопределенности в выборках показателей RPS. Невозможно сделать вывод, основываясь на одних числовых значениях показателей. Коэффициенты больших футбольных рынков могут показаться более точными (и эффективными) в силу меньшего среднего показателя RPS, но мы удостоверились в том, что такое впечатление может быть обманчивым. Меньший средний показатель RPS не обязательно свидетельствует о более точной прогностической модели.
Что мы узнали?
Показатель успешности вероятностного прогноза в ранжированных категориях (RPS) можно использовать для определения точности вероятностных прогнозов на рынке футбольных ставок.
С помощью показателя RPS можно увидеть, что коэффициенты линии закрытия более эффективны, чем коэффициенты линии открытия, а со временем стали еще эффективнее. Кроме того, хоть большие рынки и эффективнее малых, это можно также объяснить наличием большего числа популярных фаворитов.
Однако эпистемическая неопределенность, свойственная моделям, с помощью которых прогнозируются вероятности результатов, накладывает ограничения на использование этих показателей для оценки точности соответствующих моделей.
Следовательно, делать с их помощью выводы об эффективности рынка футбольных ставок нужно с большой долей осмотрительности. Главная проблема заключается в том, что нам никогда не будут известны истинные вероятности результатов футбольных матчей. Полагаю, если бы мы обладали такими знаниями, то уже давно были бы миллиардерами.
JOSEPH BUCHDAHL
Перейти на сайт сейчас |
Оставить комментарий