Durante miles de años hemos utilizado las matemáticas para modelar cosas, desde guerras utilizando ecuaciones diferenciales hasta movimiento de partículas con calculo vectorial, ¿por qué no el fútbol? ¿Podemos predecir quién ganará la Copa del Mundo de Brasil?
En principio sí, podemos dar un estimado de quien tiene mayor porcentaje de probabilidades de ganar la copa, pero el asunto es muy complejo. ¿Qué variables tomar? ¿Qué cosas nos generarán ruido? ¿Qué eventos nos ayudaran a predecir con mayor certeza el triunfo y la derrota?
Este año la firma SAS Global presentó un modelo que predecía resultados de partidos con 65% de efectividad y encontró un par de cosas interesantes. La primera es que las variables que más afectaron el desempeño del modelo fueron el número de goles de visitante, el número de tarjetas rojas y los tiros a gol. ¿La segunda? El fútbol se modela mejor con una distribución de Poisson.
En las teorías de probabilidad y estadística la distribución de Poisson es unadistribución de probabilidad discreta que expresa la probabilidad de que ocurra un número de eventos durante cierto tiempo. Es decir, es una función asignada a una variable aleatoria perfecta para predecir la probabilidad de que un balón entre en una portería en un tiempo de 90 minutos.
Sabiendo el tipo de distribución podemos empezar a recopilar los datos, aunque un actuario ya se nos adelantó y presentó su análisis estadístico enReddit. Para recopilar los datos acudió a ELO Score, porque, a diferencia de la FIFA, la fórmula utilizada es conocida. Después agregó los goles por partido a una distribución de Poisson.
Como el modelo de ELO no distingue entre partidos ganados y empatados compiló su propia tabla y procedió a ajustar las fórmulas. El paso final fue simular el torneo 100 mil veces. ¿Los resultados? Brasil tiene un 18.9% de probabilidades de ganar, Alemania un 15.9%, España un 12.7%, Argentina un 11.5%, Chile un 1.4% y México un 0.07%.
El problema aquí es que tenemos solo probabilidades, no podemos dar un resultado certero por varias razones, desde la falta de poder computacional, los errores de observación, el hecho que los modelos no son más que aproximaciones y, tal vez el más interesante de ellos, la naturaleza caótica del fútbol.