Vous souhaitez partager votre contenu sur R-bloggers ? cliquez ici si vous avez un blog, ou ici si vous n’en avez pas.
Les prévisions probabilistes pour la Coupe du Monde de la FIFA 2026 sont obtenues à l’aide d’un modèle hybride qui combine des données, des informations d’experts et des modèles statistiques avancés. Le favori est l’Espagne, suivie de près par l’Angleterre, la France et l’Allemagne.
Les fans de football du monde entier attendent avec impatience le coup d’envoi de la Coupe du Monde de la FIFA 2026 au Canada, au Mexique et aux États-Unis la semaine prochaine. 48 des meilleures équipes du monde s’affronteront du 11 juin au 19 juillet pour déterminer le nouveau champion du monde. En prévision du tournoi, la grande question est de savoir laquelle parmi les équipes réussira, laquelle abandonnera et qui finira par l’emporter. Même s’il n’est évidemment pas encore possible de donner définitive réponses à ces questions, nous sommes en mesure de fournir probabiliste prévisions pour tous les matchs possibles à l’aide d’un algorithme d’apprentissage automatique raffiné. Cela nous permet d’explorer le déroulement probable du tournoi par simulation.
Probabilités de gagner
Les prévisions sont basées sur un algorithme d’apprentissage automatique qui mélange diverses sources d’informations : une estimation des capacités de chaque équipe basée sur des matchs historiques ; une estimation des capacités de chaque équipe basée sur les cotes de 24 bookmakers ; notes moyennes des joueurs de chaque équipe sur la base de leurs performances individuelles dans leurs clubs locaux et équipes nationales ; la valeur marchande moyenne de tous les joueurs de chaque équipe selon une approche fondée sur la sagesse de la foule ; d’autres covariables d’équipe et de pays (par exemple, les notes FIFA et Elo ou le PIB). Un algorithme d’apprentissage automatique est entraîné sur les résultats de tous les grands tournois de football (Coupes du monde masculines et Euros) entre 2006 et 2024, puis appliqué aux informations actuelles pour obtenir une prévision pour la Coupe du monde de football 2026. Plus précisément, l’algorithme estime le nombre de buts prévu pour tous les matchs possibles entre les 48 équipes du tournoi. Sur la base des objectifs prédits, les probabilités de chaque résultat potentiel (c’est-à-dire 0-0, 1-0, 0-1, 2-0, etc.) dans chacune de ces correspondances peuvent être calculées à partir d’une distribution de Poisson bivariée (ici : en supposant l’indépendance). Cela nous permet de simuler tous les matches de la phase de groupes, de savoir quelles équipes accèdent à la phase à élimination directe et qui finit par gagner. Répéter la simulation 100 000 fois donne des probabilités de victoire pour chaque équipe. Les résultats montrent que l’Espagne est la favorite pour le titre avec une probabilité de victoire de 14,5 %, suivie de près par l’Angleterre et la France, toutes deux avec 12,4 %, et l’Allemagne avec 11,2 %. Les probabilités de victoire pour toutes les équipes sont indiquées dans le graphique à barres ci-dessous avec plus d’informations liées dans la version interactive pleine largeur.
Graphique interactif pleine largeur


L’étude a été menée par une équipe internationale de chercheurs : Andreas Groll, Agamyrat Hanekov, Lars Magnus Hvattum, Rouven Michels, Gunther Schauberger, Elina Sukhanova, Sebastian Witte, Achim Zeileis. L’idée de base de la prévision est de procéder en deux étapes. Dans un premier temps, des modèles statistiques sophistiqués ainsi que les connaissances d’experts sont utilisés pour déterminer les points forts de toutes les équipes et de leurs joueurs à l’aide d’ensembles d’informations disparates. Dans la deuxième étape, un algorithme d’apprentissage automatique décide de la meilleure façon de combiner les estimations de force avec d’autres informations sur les équipes.
-
Informations historiques : capacités de correspondance.
Une estimation des capacités est obtenue pour chaque équipe sur la base de données « rétrospectives », à savoir tous les matches nationaux historiques des 8 dernières années (organisées librement par Mart Jürisoo sur Kaggle). UN modèle de Poisson bivarié avec des effets fixes spécifiques à l’équipe et en supposant que l’indépendance soit adaptée au nombre de buts marqués par les deux équipes dans chaque match. Cependant, plutôt que de pondérer de manière égale tous les matches pour obtenir moyenne capacités d’équipe (ou forces d’équipe) sur toute la période historique, un système de pondération exponentielle est utilisé. Cela attribue plus de poids aux résultats les plus récents et donne ainsi une estimation de actuel capacités de l’équipe. Plus de détails peuvent être trouvés dans Ley, Van de Wiele, Van Eetvelde (2019). -
Attente future : capacités de consensus des bookmakers.
Une autre estimation des capacités de chaque équipe est obtenue sur la base de données « prospectives », à savoir les cotes de 24 bookmakers internationaux qui reflètent leurs attentes d’experts pour le tournoi. En utilisant le modèle de consensus des bookmakers Selon Leitner, Zeileis, Hornik (2010), les cotes des bookmakers sont d’abord ajustées en fonction des marges bénéficiaires des bookmakers (« overround »), puis moyennées (sur une échelle logit) pour obtenir un consensus sur la probabilité de victoire de chaque équipe. Pour tenir compte des effets du tirage au sort du tournoi (qui aurait pu conduire à des groupes plus faciles ou plus difficiles pour certaines équipes), une approche de simulation « inverse » est utilisée pour déduire quelles capacités d’équipe sont les plus susceptibles de conduire aux probabilités de victoire consensuelles. -
Contributions individuelles des joueurs : notes moyennes des joueurs.
Pour déduire les « contributions des joueurs individuels » dans un match, le notes plus-moins des joueurs de Pantuso & Hvattum (2021) disséquent tous les matchs avec un certain joueur (à la fois au niveau du club et au niveau national) en segments, par exemple entre les remplacements. Par la suite, la différence de buts réalisée dans ces segments est liée à la présence des joueurs individuels lors de ce segment. Cela donne des notes individuelles pour tous les joueurs qui peuvent être regroupées en notes moyennes des joueurs de chaque équipe. -
Sagesse de la foule : Valeurs marchandes moyennes :
Une autre façon de refléter la qualité actuelle et le potentiel futur de chaque joueur d’une équipe est de considérer leur valeur marchande attendue. Comme les valeurs réelles du marché sont inconnues, le portail Web Transfermarkt utilise une approche de « sagesse de la foule » pour déterminer les valeurs de marché actuelles attendues pour tous les acteurs. Celles-ci sont basées sur des discussions s’appuyant sur des données accessibles au public entre les membres de la communauté en ligne du portail et modérées et consolidées par des membres experts de la communauté et des employés du portail. -
Combinaison avec le statut actuel : Forêts aléatoires hybrides.
Enfin, l’apprentissage automatique est utilisé pour combiner ces quatre variables hautement agrégées et informatives avec un large éventail d’autres covariables pertinentes reflétant l’état actuel des différentes équipes et les pays dont elles sont originaires. Une telle approche hybride a été suggérée pour la première fois par Groll, Ley, Schauberger, Van Eetvelde (2019). Un algorithme de forêt aléatoire est entraîné pour décider comment combiner les différentes estimations de capacités avec des fonctionnalités spécifiques à l’équipe qui sont généralement moins informatives mais néanmoins suffisamment puissantes pour améliorer les prévisions. Les caractéristiques prises en compte comprennent des détails spécifiques à l’équipe (par exemple, le classement FIFA, le classement Elo, le nombre de joueurs de la Ligue des Champions) ainsi que des facteurs socio-économiques spécifiques au pays (tels que le PIB par habitant). En combinant un large ensemble d’arbres de régression plutôt faiblement informatifs dans une forêt aléatoire, les importances relatives de toutes les covariables peuvent être déduites automatiquement. Le nombre de buts prévu pour chaque équipe peut ensuite être utilisé pour simuler l’intégralité du tournoi 100 000 fois.
Probabilités de correspondance
L’utilisation des prévisions de l’algorithme d’apprentissage automatique donne le nombre de buts prévu pour les deux équipes dans chaque match possible. Les informations explicatives utilisées à cet effet sont la différence entre les deux équipes dans chacune des variables énumérées ci-dessus, c’est-à-dire la différence dans les capacités de match historiques (sur une échelle logarithmique), la différence dans les capacités de consensus des bookmakers (sur une échelle logarithmique), la différence dans les notes moyennes des joueurs des équipes, la différence dans les valeurs de marché logarithmiques, etc. gagnerun dessinerou un perte. La même chose peut être répétée en prolongation, si nécessaire, et un tirage au sort est utilisé pour décider des pénalités, si nécessaire.
La carte thermique suivante montre pour chaque combinaison possible d’équipes la probabilité qu’une équipe bat l’autre équipe dans un match à élimination directe. La palette de couleurs utilise le vert et le violet pour signaler respectivement les probabilités supérieures et inférieures à 50 %. Les info-bulles de chaque match dans la version interactive du graphique impriment également les probabilités que le match se termine par un gagner, dessinerou perte après l’heure normale.
Graphique interactif pleine largeur


Performance tout au long du tournoi
Comme les buts des deux équipes dans chaque match peuvent être simulés avec l’approche décrite ci-dessus, il est également simple de simuler l’intégralité du tournoi (ici : 100 000 fois), en fournissant des probabilités de « survie » pour chaque équipe aux différentes étapes.
Graphique interactif pleine largeur


Bouts
Toutes nos prévisions sont probabilistes, nettement inférieures à 100 %, et donc nullement certaines. Bien que nous puissions quantifier cette incertitude en termes de probabilités à partir d’un multivers de tournois potentiels, il est loin d’être prédéterminé lequel de ces tournois potentiels nous verrons éventuellement lors du tournoi lui-même.
Néanmoins, la vision probabiliste nous fournit des informations intéressantes : par exemple, par rapport aux pronostics pour les tournois précédents (voir par exemple 2018, 2022), il est encore plus incertain de savoir qui remportera le titre car il existe un certain nombre d’équipes avec de bonnes chances (mais aucune avec de très grandes) chances de remporter le tournoi. Un facteur important à cet égard est la taille considérablement accrue du tournoi, avec 48 équipes (au lieu de 32 auparavant) et un tour à élimination directe supplémentaire. De plus, le tirage au sort du tournoi est beaucoup plus variable, car 8 des 12 équipes classées troisièmes accèdent à la phase à élimination directe avec 495 (!) permutations possibles pour mapper les groupes aux matches des huitièmes de finale.
De plus, en comparant nos prévisions à celles basées uniquement sur les cotes des bookmakers, il est frappant de constater que l’Allemagne est classée 4ème, juste derrière les trois meilleures équipes, alors qu’elle n’est classée que 7ème par de nombreux bookmakers. À l’inverse, le Brésil et l’Argentine sont généralement mieux classés par les bookmakers, mais obtiennent de moins bons résultats dans notre simulation calibrée par apprentissage automatique.
Quoi qu’il en soit, tout cela signifie que les prévisions probabilistes laissent beaucoup de place aux surprises et aux excitations lors de la Coupe du Monde de la FIFA 2026. Mais ce qui est absolument certain, c’est que nous attendons avec impatience un tournoi divertissant en tant que fans de football (bien plus qu’en tant que prévisionnistes professionnels).
En rapport
PakarPBN
A Private Blog Network (PBN) is a collection of websites that are controlled by a single individual or organization and used primarily to build backlinks to a “money site” in order to influence its ranking in search engines such as Google. The core idea behind a PBN is based on the importance of backlinks in Google’s ranking algorithm. Since Google views backlinks as signals of authority and trust, some website owners attempt to artificially create these signals through a controlled network of sites.
In a typical PBN setup, the owner acquires expired or aged domains that already have existing authority, backlinks, and history. These domains are rebuilt with new content and hosted separately, often using different IP addresses, hosting providers, themes, and ownership details to make them appear unrelated. Within the content published on these sites, links are strategically placed that point to the main website the owner wants to rank higher. By doing this, the owner attempts to pass link equity (also known as “link juice”) from the PBN sites to the target website.
The purpose of a PBN is to give the impression that the target website is naturally earning links from multiple independent sources. If done effectively, this can temporarily improve keyword rankings, increase organic visibility, and drive more traffic from search results.