Pinnacle … Оценка погрешности выборки при ограниченном количестве данных

Перейти на сайт сейчас

Что делать, если сезон только начался, но данных для достоверных выводов еще недостаточно? В этой статье Доминик объясняет на двух примерах, как можно использовать метод бутстреппинга для сведения к минимуму влияния параметрической погрешности из-за небольших выборок.

Основным методом, используемым для прогноза результатов футбольного матча, является распределение Пуассона, как было описано в предыдущей статье Pinnacle. Подробнее о методах прогнозирования победителя футбольных ставок с помощью распределения Пуассона можно узнать здесь.

Метод основан преимущественно на подсчете ожидаемого среднего значения команды хозяев в зависимости от ее возможностей в атаке и защите.  Он также относится к подсчету ожидаемого среднего значения команды гостей.

Тем не менее при использовании этого метода в начале сезона мы столкнемся с проблемой, поскольку игр для выборки недостаточно. Кроме того, если при расчете будет учитываться один матч с экстремальным результатом, например матч с высоким количеством забитых голов или серия матчей с нулевым счетом, это сильно отразится на оценке.

Мы действительно получим высокую параметрическую погрешность. Подробнее о том, как построить модель размещения ставок, можно узнать здесь.

Для измерения степени параметрической погрешности предлагается использовать методику бутстреппинга. Бутстреппинг относится к решению, в котором моделируются размеры выборок.

На время написания статьи большинство команд премьер-лиги сыграли менее 5 матчей дома и 5 матчей в гостях каждая.

В качестве примера я могу порекомендовать два метода.

Метод 1: прямой подход

Этот метод включает выборку с заменой, т. е. создание выборок одинаковых размеров с возможностью использовать одно и то же значение несколько раз.

Рассмотрим домашние матчи Leicester City, в которых они забили 3, 2, 2 и 1 гол в играх против Aston Villa, West Ham, Arsenal и Crystal Palace соответственно. В этой выборке среднее значение забитых в домашних матчах голов составляет 2.

Теперь давайте смоделируем другую случайную выборку из четырех голов с помощью этих значений. Этот метод аналогичен созданию случайных значений в имитационном моделировании по методу Монте-Карло. Дополнительные наборы выборок в таком случае могут быть следующие:

  •       Выборка 1: 2, 2, 2, 1.
  •       Выборка 2: 1, 1, 3, 2.
  •       Выборка 3: 3, 3, 2, 2.
  •       Выборка 4: 1, 2, 1, 1.

Примите во внимание, что вероятность выбора двух голов должна быть в два раза выше, чем вероятность выбора одного или трех голов при каждом выборе, и что в каждом случае мы можем получить другое среднее значение. И это не всегда «два».

В этом случае среднее значение на выборку будет составлять 1,75; 1,75; 2,5 и 1,25 соответственно. Мы думаем, что средний показатель 2, но значения показывают, что он может варьироваться в диапазоне от 1,25 до 2,5.

Мы также можем увеличить его, рассчитав значительное количество разных выборок, полученных методом бутстреппинга, и увидеть стандартное отклонение результатов.

Метод 2: нестандартный

Для матчей Leicester мы могли бы сгенерировать ‘ожидаемый результат’. Его можно сгенерировать так же, как и по методу Пуассона, но используя данные предыдущего сезона .

Давайте, например, рассмотрим матч против Aston Villa.   Среднее количество забитых голов в домашних играх сезона 2014/15 в премьер-лиге составило 1,474. Команда Leicester забила 28 голов в 19 домашних матчах, в то время как Aston Villa пропустила только 32 гола в 19 гостевых матчах.

Исходя из этого сила атаки Leicester составляет 1. Это означает, что они играли дома как обычная команда. С другой стороны, среднее количество пропущенных голов у Aston Villa составляет 1,684.

Если разделить это значение на 1,474 , мы получим 114,29 %. Это значит, что команда Aston Villa пропустила при игре в гостях на 14 % больше голов, чем обычно. С учетом этого ожидается, что команда Leicester забьет в среднем 1*1,1429*1,474 = 1,684 гола в домашних матчах команде Aston Villa.

Повторив эту процедуру для всех сыгранных ими матчей, мы получим ожидаемое количество забитых за матч голов, которое приводится в таблице ниже. Здесь мы видим, что количество забитых командой Leicester голов превышает ожидаемое, за исключением игры против Crystal Palace.

Они показаны в строке «Разница», которую на техническом языке можно назвать остаточной погрешностью.

Команда Aston Villa West Ham Arsenal Crystal Palace
Ожидаемое количество голов 1.684 1,526 1.158 1.263
Забитые голы 3 2 2 1
Разница 1.316 0.474 0.842 -0.263

Аналогично методу 1 мы получили выборку с заменой некоторых остаточных погрешностей. В связи с этим некоторые возможные остаточные погрешности в пределах выборки будут следующие:

  •       Выборка 1: 1,316; 1,316; 0,474; 0,474.
  •       Выборка 2: 0,474; –0,263; –0,263; 0,474.

Теперь добавим этим остаточные погрешности выборки к ожидаемым результатам, чтобы получить другие выборки по забитым в домашних матчах голов:

  •       Выборка 1: 3,000; 2,842; 1,632; 1,737.
  •       Выборка 2: 2,158; 1,263; 0,895; 1,737.

Среднее значение будет определено для каждой выборки, и мы сможем использовать его для расчета среднего количества голов, забитых командой хозяев, для различных параметров.

Вывод

Это не совсем быстрый и легкий способ расчета, но он не требует обширных знаний в программировании. Откройте электронную таблицу и вы сможете протестировать диапазон возможных параметров. Однако имейте в виду, что при использовании второго из описанных выше методов вам также придется анализировать остаточную погрешность при расчете количества голов, забитых командой гостей.

DOMINIC CORTIS

Перейти на сайт сейчас


Поделитесь своим опытом, оставив здесь комментарий

Оставить комментарий

Ваш электронный адрес не будет опубликован.