Ein 27 Jähriger hat sich 2020 hingesetzt und binnen einer Woche ein Vorhersagemodell für Coronavirus-Erkrankungen geschrieben. Weil sein Modell (im Gegensatz zu den Modellen von Instituten) die späteren Zahlen sehr genau wiedergab, ist er quasi zum ´Superstar`unter den Modellierern geworden – obwohl er mit medizinischen oder Pandemie-Themen nichts am Hut hat.
In Zeiten der Coronavirus-Pandemie kommt den Modellen zur Berechnung der Fallzahlen samt tödlichem Ausgang eine hohe Bedeutung zu. In Deutschland findet man gelegentlich Modelle, die von Mathematikern und Forschern im Bereich Epidemologie entwickelt wurden, auf Webseiten (auch von Medien). Die Modelle sollen eine Vorhersage liefern, wie sich die Fallzahlen entwickeln – wäre dann auch eine Basis für politische Entscheidungen.
Modelle liefern falsche Zahlen
Das Problem: Die Modelle liefern oft irre falsche Ergebnisse und widersprechen sich – man ist also genau so schlau wie vorher. Als man im Frühjahr 2020 versuchte, abzuschätzen, wie groß das die Infektionszahlen mit dem Coronavirus im März und April sein könnten, kamen häufig zwei Prognosesysteme, die auf Statistikmodellen basierten zum Einsatz. Eines war vom Imperial College in London entwickelt worden, das andere Modell kam vom Institute for Health Metrics and Evaluation, kurz IHME, mit Sitz in Seattle, USA.
Das Problem: Die Modelle lieferten stark voneinander abweichende Vorhersagen. Das Modell des Imperial College in London errechnete für die USA bis zum Sommer bis zu 2 Millionen Covid-19-Tote. Die IHME-Prognose kam recht konservativ auf etwa 60.000 Todesfälle bis August 2020. Aber beide Modelle lieferten keine Zahlen, die der Realität mit letztendlich etwa 160.000 Todesfällen bis August 2020 für die USA auch nur annähernd nahekamen.
Jemand fühlt sich herausgefordert
Die großen Abweichungen in den Ergebnissen bei den Vorhersagezahlen der beiden erwähnten Statistikmodelle fielen einem damals 26-jährigen Datenwissenschaftler namens Youyang Gu auf. Dieser hatte einen Master-Abschluss in Elektrotechnik und Informatik vom Massachusetts Institute of Technology (MIT) und einen weiteren Abschluss in Mathematik, aber keine formale Ausbildung in einem pandemiebezogenen Bereich wie Medizin oder Epidemiologie, wie Bloomberg hier schreibt.
Da er Modelle für die Finanzindustrie im Bereich Hochfrequenzhandel geschrieben hatte, griff er Mitte April 2020 das Thema Covid-19-Vorhersagen auf und schrieb quasi binnen einer Woche im Appartment seiner Eltern, in Santa Clara, Kalifornien, bei denen er noch wohnte, ein eigenes Modell. Das Prognosemodell war recht einfach, indem er auf die Anzahl vergangener Todesfälle schaute, versuchte er im Modell den Verlauf zukünftiger Todesfälle vorherzusagen. Denn bei seiner Analyse stellte er fest, dass viele Kenndaten zu Covid-19-Erkrankungen wie Covid-Tests, Krankenhausaufenthalte und anderen Faktoren durch unterschiedliche Meldesysteme in den USA zu ungenau waren (etwas, was wir in Deutschland auch kennen).
Der gravierende Unterschied zu Statistikmodellen war aber sein Ansatz, Algorithmen des maschinellen Lernens zu verwenden, um seine Vorhersagezahlen zu verfeinern. Hier kam ihm zugute, dass er nach seinem Studium am MIT einige Jahre in der Finanzindustrie gearbeitet hatte. Dort entwickelte er Algorithmen für Hochfrequenz-Handelssysteme. Dort mussten die Prognosen der Modelle genau sein.
Beim Covid-19-Modell verglich Gu seine Modellvorhersagen ständig mit den jeweils gemeldeten Todesfällen ab und stimmte so seine maschinelle Lernsoftware auf die Realität ab. Laut Bloomberg war dies wohl vom Aufwand ein Vollzeit-Job, so dass Gu von seinen Ersparnissen lebte. Er wollte, dass seine Daten frei von jeglichen Interessenkonflikten oder politischer Voreingenommenheit sind.
Präzise Vorhersagen
Was für mich erstaunlich ist (und der Grund war, das Thema hier im Blog aufzugreifen): Die Genauigkeit der Vorhersagen, die das ML-Modell schließlich erreichte. Auch wenn das Model nicht perfekt war, traf es bereits mit dem Start den Verlauf der realen Covid-19-Todesfälle für die USA sehr genau.
- Ende April lag die Prognose bei 80.000 Todesfälle bis zum 9. Mai 2020, die tatsächliche Zahl der Toten lag bei 79.926.
- Auch 90.000 vorausgesagte Todesfälle am 18. Mai und 100.000 Todesfälle am 27. Mai trafen die realen Todeszahlen sehr genau.
Das konkurrierende Statistikmodell der IHME erwartete dagegen einen Rückgang der Todesfälle, auf Grund der sozialen Distanzierung. Das Modell von Gu sagte eine zweite, große Welle von Infektionen und Todesfällen voraus, da viele Staaten nach einem Lockdown wieder geöffnet würden.
Gu wies dann Reporter auf Twitter auf sein Modell hin und schickte E-Mails an Epidemiologen mit der Bitte, seine Zahlen zu überprüfen. Gegen Ende April twitterte der prominente Biologe Carl Bergstrom von der University of Washington über Gus Modell, und nicht lange danach übernahmen die U.S. Centers for Disease Control and Prevention Gus Zahlen auf ihre Covid-Prognose-Website. Als die Pandemie fortschritt, wurde Gu, ein chinesischer Einwanderer, der in Illinois und Kalifornien aufgewachsen ist, regelmäßig bei Treffen mit der CDC und Teams von professionellen Modellierern und Epidemiologen einbezogen. Gu wurde quasi so etwas wie der Star unter den Modellierern, was zeigt, was maschinenbasierendes Lernen eventuell zu solchen Modellen beitragen kann.
Im November 2020 stellte Gu die Veröffentlichung der Todeszahlen auf Basis der Vorhersagen seines Modells auf seiner Webseite ein. Begründung war, dass die anderen Modelle inzwischen genügend genaue Vorhersagen liefern würden. Auf der Seite für Deutschland findet sich der Hinweis, dass die letzte Aktualisierung Anfang Oktober 2020 erfolgte. Aber man sieht eine Prognose für einen Anstieg (zweite Welle) für Ende 2020, Anfang 2021.
Ein Modellierer mit Namen Murray vom IHME wird von Bloomberg so zitiert, dass der Grund für den Rückzug schlicht „das Modell funktioniert für den Winter nicht sehr gut“ gewesen sei. Die maschinellen Lernmethoden, die von Gu verwendet werden, funktionieren gut bei kurzfristigen Vorhersagen, wird Murray von Bloomberg zitiert. Die Methode sei aber „nicht sehr gut darin, zu verstehen, was im größeren Rahmen vor sich geht“. Die Algorithmen, die auf der Vergangenheit basieren, können keine Virusvarianten berücksichtigen und auch nicht, wie gut Impfstoffe gegen sie wirken können oder nicht, so Murray.
Inzwischen hat das IHME sein Modell an die Realität angepasst und kann den Verlauf der Covid-19-Todeszahlen auch unter Berücksichtigung der Virus-Mutationen und Impfungen recht gut vorhersagen. Ist aber eine spannende Geschichte zu sehen, wie neue Modellierungsansätze für maschinelles Lernen zur Verbesserung von Vorhersagen beitragen können. Es bleibt ein aber, denn es muss immer wieder überprüft werden, kann ein Modell neue Entwicklungen abdecken. Weitere Details lassen sich bei Bloomberg nachlesen.