Mundial Catar 2022 y qué nos enseñan los modelos para predecir el fútbol


El 18 de Noviembre, un tuit de la Universidad de Oxford informaba que su departamento de Matemáticas había realizado un modelo donde predecían las rutas de los equipos participantes en el Mundial Catar-2022.

d

 https://twitter.com/uniofoxford/status/1593564445715881984?s=46&t=fKN7a8TFOW0hIbaoYZyjGw

No quedan claros los algoritmos desarrollados, pero informaban que usaron como base el “ELO Ratings”, y un factor ideado por ellos mismos, denominado “xG”.

El “ELO Ratings” es un sistema utilizado para elaborar rankings en el ajedrez profesional, y ha sido ajustado para generar rankings de equipos de fútbol de selecciones y de las principales ligas profesionales del mundo. El “xG” es el promedio de goles anotados por juego, por un equipo en particular, en un período de tiempo determinado.

El Modelo de Oxford restringió la data utilizada a los encuentros a partir del año 2018. Informan que replicaron los posibles resultados “un millón” de veces para la fase de grupos y, para la segunda fase, “cien mil” veces. Estos fueron los resultados publicados previo al inicio del Mundial:

Lo primero que salta a la vista es que Brasil no fue campeón, ni Bélgica subcampeón.

El modelo predice acertadamente que Argentina y Francia accederían a semifinales, y que Portugal, Inglaterra y Holanda caerían en cuartos de final. El modelo también acertó seis de los ocho ganadores de cada grupo, pero fallaron en seis de los ocho segundos lugares.

El resto de las posiciones de cada grupo se vieron afectadas, entre otros, por el poco peso otorgado por el “ELO Ratings” a los países de Asia, Norte y Centro América y el Caribe. Pienso, además, que el factor “xG” está íntimamente correlacionado con el “ELO Ratings”, con lo cual, agregó poco valor.

De este breve resumen, surge la siguiente pregunta: ¿ha sido este modelo correcto? ¿Qué haría que un modelo sea correcto? (cualquier modelo).

Para concluir si el modelo ha sido correcto, lo primero que hay que determinar es si el mismo ha dejado a sus creadores satisfechos con la estructura de los resultados.

En este caso, la estructura de los resultados NO debe haber dejado satisfechos a sus desarrolladores. Acertar al campeón del Mundial es complejo. Pero colocar la corrida de Bélgica hasta la final, sin agregar siquiera una nota de pie de página acerca de los riesgos de esta predicción, es indefendible.

Lo segundo es que el modelo debe contener algún elemento que le diferencie de la información públicamente disponible, para así ofrecer una perspectiva más profunda de dicha información.

Los creadores del modelo de Oxford explican que éste se basa en probabilidades. Pero para usar únicamente probabilidades, no hace falta un modelo: sólo bastaba con tomar el ranking FIFA de Octubre y desplegarlo en los cruces del Mundial.

Este ranking FIFA se basa en el ELO Rating y, como acabamos de ver, dicha información es tan pública, que es promovida por Coca Cola.

Lo tercero, es entender y evaluar el origen de la mayor parte de la información básica que se utiliza como insumo al modelo de Oxford, para entender la pertinencia de la aplicación al evento que se está modelando.

En este caso, la data proviene, primordialmente, de los resultados de juegos en terreno de uno de los dos equipos en torneos clasificatorios a la Nations League, la Eurocopa, el Mundial, así como algunos juegos amistosos. Varios son los problemas con esta fuente de información:

1-. El Mundial es en terreno casi neutral, por lo que es complejo ajustar por localía, la cual es muy importante en las competencias deportivas. Además, nadie imaginó el alto nivel de localía relativa que disfrutaría Argentina, aunque eran previsibles los altos niveles de localía de Arabia Saudita, Marruecos y hasta Brasil.

2-. Existe muy poca data para juegos oficiales entre equipos de distintas confederaciones. ¿Cómo modelar el México-Polonia? ¿el Ecuador-Senegal? ¿el Estados Unidos-Irán?

Es importante resaltar que aquí no aplica la propiedad de “transitividad” de manera absoluta: si Arabia Saudita gana a Argentina, y Argentina gana a México, entonces Arabia Saudita debía haber podido ganar a México… y este no era el resultado esperado previo a dicho juego. Esto si es corregido por el “ELO Ratings”.

3-. Dado que la data es histórica, ¿cómo ajustar, por ejemplo, al nivel actual de los jugadores que componen a un equipo determinado?

Por ejemplo: Bélgica tuvo una corrida magnífica en 2018, alcanzando el tercer lugar del Mundial; ganó todos sus juegos de 2019 (San Marino, Chipre, Kazakhstan, Rusia y Escocia); y accedió a Cuartos de Final de la Eurocopa del 2020 (jugada en 2021), donde cayó bajo los pies de Italia, que ni siquiera se clasificó al Mundial.

Sin embargo, camino a Catar-2022, la principal referencia en el ataque de Bélgica, Romelu Lukaku, estaba lesionado y, el capitán del equipo, Eden Hazard, era obscenamente dejado en la banca del Real Madrid. Hazard jugó 229 minutos, de 1890 minutos posibles (12%), entre Agosto y Noviembre de 2022.

Lo cuarto, y para no extendernos mucho más, el modelo de Oxford no presenta posibilidades de sorpresas, las cuales siempre ocurren en este tipo de torneos cortos, con esquemas de eliminación directa. Esta observación de resultados históricos debió haberse tomado en cuenta y, en este caso, con una nota a pie de página habría sido suficiente.

Nadie, en su sano juicio, iba a eliminar a Alemania o Bélgica en fase de grupos, pero se podría haber realizado una nota con una serie de posibilidades poco populares: como por ejemplo: Brasil podría haber perdido contra España, Argentina contra Holanda, o Bélgica contra Portugal en los cuartos de final resultantes del modelo de Oxford.

Eso si: es imposible haber predicho que Marruecos alcanzaría las semifinales, y de allí la belleza de este tipo de torneo corto, que puede hacer soñar a un país entero, e incluso, a una región.

La propia cuenta del Departamento de Matemáticas de Oxford, publicó un tuit donde destacan que los modelos matemáticos son utilizados para evaluar otras áreas como, por ejemplo, el tratamiento del Cáncer. También destacan que las predicciones de los Mundiales de Fútbol son “divertidas y difíciles”.

Como he tratado de hacer ver, la dificultad de los modelos predictivos radica, en gran medida, en lo que se espere del modelo, como por ejemplo: predecir un resultado específico vs entender la dinámica de los componentes del evento que se esté modelando.

En este sentido, el modelo de Oxford no parece haber tomado en cuenta, como mínimo: el estado de los jugadores al momento de comenzar el Mundial; la imperiosa necesidad de Brasil y Argentina de ganar el torneo; y el poco apoyo a sus selecciones nacionales por parte de los europeos, por un descontento relativamente generalizado hacia Catar.

Como regla básica, los resultados de los modelos relacionados a actividades humanas (como los deportes), deben venir acompañados de una historia sencilla, que se adelante a los acontecimientos, y muestre una perspectiva más profunda que el resultado matemático o probabilístico del modelo.

En mis artículos acerca de las posibilidades de 10 selecciones nacionales de alzarse con la Copa del Mundo, utilicé las estadísticas de los equipos, pero incluí en mi análisis opiniones cualitativas de las razones por las cuales yo pensaba que un equipo avanzaría más o menos que otro.

En el artículo sobre Argentina especifiqué que el ganador del Mundial sería Brasil pero, que en todo caso, el Campeón Mundial sería el ganador de la llave semifinal entre Argentina y Brasil (que en realidad fue entre Argentina y Croacia).

Pienso que mi modelo fue mejor, pero no por los resultados (que lo fue), sino por otorgar una perspectiva más amplia y profunda de los posibles resultados, a los lectores.

En cuanto a la diversión destacada por ellos mismos en el Departamento de Matemáticas de Oxford, relacionada con la realización del modelo: se divirtieron ellos, me divertí yo, y espero que se hayan divertido ustedes.





Source link