Kommenden Sonntag, 20. November, starten die Herren-Fußballmannschaften in die FIFA-Weltmeisterschaft in Katar. Der Favorit ist diesmal Brasilien mit einer Gewinnwahrscheinlichkeit von 15 Prozent. Das zeigt ein internationales Forscher*innen-Team bestehend aus Andreas Groll und Neele Hormann (beide TU Dortmund), Gunther Schauberger (TU München), Christophe Ley (Universität Luxemburg), Hans Van Eetvelde (Universität Gent) und Achim Zeileis (Universität Innsbruck) mit Hilfe von maschinellem Lernen. Ihre Prognose kombiniert dabei mehrere statistische Modelle für die Spielstärken der Teams mit Informationen über die Team-Struktur (etwa Marktwert oder Anzahl Champions-League-Spieler) sowie sozio-ökonomische Faktoren des Herkunftslandes (Bevölkerung und Bruttoinlandsprodukt). „Die WM ist diesmal von vielen ethischen und sportlichen Problemen überschattet, die wir nicht ausblenden wollen. Aus wissenschaftlichem Interesse haben wir uns aber dennoch dazu entschlossen, unseren Ansatz des maschinellen Lernens, den wir bei früheren Turnieren erfolgreich eingesetzt haben, für die Erstellung probabilistischer Prognosen zu verwenden“, sagt Achim Zeileis.
100.000 Simulationen
Mit den vorhergesagten Werten aus dem Modell der Forscher*innen wurde die gesamte WM 100.000 Mal durchsimuliert: Spiel für Spiel, der Turnierauslosung und allen FIFA-Regeln folgend. Damit ergeben sich Wahrscheinlichkeiten für das Weiterkommen aller Teams in die einzelnen Turnierrunden und letztendlich für den EM-Sieg. Favorit ist diesmal Brasilien mit einer Gewinnwahrscheinlichkeit von 15 Prozent, gefolgt von Argentinien (11,2 Prozent), den Niederlanden (9,7 Prozent), Deutschland (9,2 Prozent) und Frankreich (9,1 Prozent) – die gesamte Prognose finden Sie unten verlinkt. Das Turnier ist natürlich dennoch nicht gelaufen – das zeigen allein die ohnehin vergleichsweise niedrige Gewinnwahrscheinlichkeit selbst der vier Top-Nationen. „Es liegt in der Natur von Prognosen, dass sie auch danebenliegen können – sonst wären Fußball-Turniere auch sehr langweilig. Wir liefern eben Wahrscheinlichkeiten, keine Gewissheiten, und eine Gewinnwahrscheinlichkeit von 15 Prozent heißt zugleich, dass die Mannschaft zu 85 Prozent nicht Turniersieger werden kann“, erklärt Andreas Groll. Bisher waren die Prognosen aber durchaus erfolgreich: Das Innsbrucker Modell von Achim Zeileis, das auf bereinigten Quoten der Wettanbieter basiert, konnte unter anderem bereits 2008 das EURO-Finale, sowie 2010 und 2012 Welt- und Europameister Spanien richtig vorhersehen. Dieses Jahr wird es zum zweitem Mal nach der EM 2021 als Teil eines umfassenderen kombinierten Modells eingesetzt, das von den Teams um Andreas Groll (TU Dortmund), Gunther Schauberger (TU München) und Christophe Ley (Universität Luxemburg) entwickelt wurde und das bei der Fußball-Weltmeisterschaft 2018 die Prognosegüte der Wettanbieter übertroffen hatte.
Die WM 2022 ist für die Forscher*innen aus wissenschaftlicher Perspektive aufgrund des Termins interessant – wegen der extrem hohen Temperaturen in Katar im Sommer musste das Turnier bekanntlich auf die Wintermonate verschoben werden: „Neben den weithin diskutierten ethischen Problemen dieser Fußballweltmeisterschaft ergeben sich so auch sehr kritische sportliche Fragen: In den Wintermonaten müssen nun alle großen Fußballligen in Europa und Südamerika ihren üblichen Spielplan unterbrechen, um das Turnier unterzubringen. Dadurch haben die Nationalmannschaften weniger Zeit zur Vorbereitung und die Spieler weniger Zeit zur Erholung vor und nach der Weltmeisterschaft. In Verbindung mit den extremen klimatischen Bedingungen erhöht sich dadurch auch das Verletzungsrisiko“, erläutert Achim Zeileis. Eine Mannschaft mit vielen Spielern in den internationalen Ligen zu haben – etwa Champions League, Europa League, Europa Conference League –, könnte sich daher in diesem Jahr eher als Nachteil statt wie sonst als Vorteil erweisen, wie Andreas Groll ausführt: „Alle diese Faktoren erschweren die Vorhersage des Turnierverlaufs, da Variablen, die sich bei früheren Weltmeisterschaften als sehr aussagekräftig erwiesen haben, möglicherweise nicht oder anders funktionieren.“
Als Fußball-Fans sind die Forscher*innen abseits von wissenschaftlichem Interesse bestürzt über die Umstände, unter denen die WM dieses Jahr stattfindet, betont Achim Zeileis: „Die sonst übliche Freude und Vorfreude auf eine Fußballweltmeisterschaft wurde durch die schrecklichen Umstände in diesem Jahr zunichte gemacht: angefangen bei der angeblichen Korruption bei der FIFA-Vergabe, den Menschenrechten und den Arbeitsbedingungen in Katar bis hin zur mangelnden Nachhaltigkeit beim Bau der Stadien.“
Machine Learning
Die Berechnung der Forscher*innen basiert auf vier Informationsquellen: Ein statistisches Modell für die Spielstärke jedes Teams auf Basis aller Länderspiele der vergangenen acht Jahre (Universitäten Gent und Luxemburg), ein weiteres statistisches Modell für die Spielstärke der Teams auf Basis der Wettquoten von 28 internationalen Buchmachern (Universität Innsbruck) und weitere Informationen über die Teams, zum Beispiel der Marktwert, und ihre Herkunftsländer, etwa die Bevölkerungszahl (TU Dortmund und TU München). Vierte Quelle bzw. vierter „Partner“ ist ein Machine-Learning-Modell, das die anderen Quellen zusammenführt und sie schrittweise optimiert. Die Forscher*innen haben das Modell zuvor mit historischen Daten trainiert, wie Andreas Groll erläutert: „Wir haben das Modell mit den jeweils zu dem Zeitpunkt aktuellen Daten für die vergangenen fünf Weltmeisterschaften, also zwischen 2002 und 2018, gefüttert und mit den tatsächlichen Spielausgängen aller Spiele der jeweiligen Turniere vergleichen lassen – so wird die Gewichtung der einzelnen Informationsquellen für das aktuelle Turnier im Idealfall sehr genau ausfallen.“ Das so weiter trainierte Modell kann in Zukunft übrigens auch für weitere Prognosen verwendet werden – so kann eine bessere Fußball-Prognose in Zukunft vielleicht auch für genauere Wettervorhersagen sorgen. Wie gut das Modell in Sachen Fußball abschneidet, werden wir aber auf alle Fälle spätestens am Abend des 18. Dezember erfahren.
Service:
Die gesamte Prognose mit interaktiven Grafiken gibt es hier: https://www.zeileis.org/news/fifa2022/
Method of Research
Data/statistical analysis