zum Inhalt springen

Daten für mehr Transparenz

Forscher fordert offenen Zugang zu Daten – auch nach der Pandemie

Wissenschaftliche Studien sind auch für Fachleute oft nur schwer nachvollziehbar, da die genutzten Daten nicht öffentlich zugänglich sind. Dabei könnten nicht nur Forschende, sondern auch die breite Öffentlichkeit von mehr Transparenz profitieren. Ein Kölner Wirtschaftswissenschaftler zeigt, wie die Coronapandemie den Umgang mit Daten langfristig verändern könnte.  

Von Carolin Jackermeier   

Rückblick März 2020: Anfang des Monats sind die Corona-Fälle in Deutschland noch überschaubar, doch dann geht es Schlag auf Schlag: Italien wird zur Sperrzone, Länder machen ihre Grenzen dicht und Deutschland geht wegen des exponentiellen Wachstums in den Lockdown. So schwer überschaubar sich die Corona-Fälle entwickelten, so zerstückelt war auch die Datenlage zu Covid-19 im Frühjahr 2020.

Während es mittlerweile zahlreiche Statistiken gibt und das Robert Koch-Institut (RKI) Zahlen in seiner Datenbank erfasst, mussten die Daten zu Beginn der Pandemie noch mühsam aus kommunalen Angaben zusammengetragen werden. Das brachte den Wirtschaftswissenschaftler Dr. Tom Zimmermann, Juniorprofessor an der Universität zu Köln und beim Exzellenzcluster ECONtribute: Markets & Public Policy, auf eine Idee: die Covid-19 Daten aus Deutschland in einem einzigen Dashboard in verschiedenen Statistiken visualisieren, um die lokale Entwicklung der Pandemie deutschlandweit vergleichen zu können.

Er erstellte schon im Frühjahr ein Dashboard, das automatisiert die kommunalen Daten zusammenträgt. Darin errechnet er unter anderem den R-Wert auf Kreisebene, um einen transparenten zeitlichen Überblick zu erhalten. Auch wenn es im Laufe des Jahres 2020 immer bessere Datenbanken gab, führte er das Projekt weiter und aktualisiert das Dashboard bis heute regelmäßig. Denn er interessiert sich zwar einerseits für den Verlauf und verschiedene Facetten der Pandemie, doch es geht ihm auch um mehr: Er will zeigen, dass viele gesellschaftliche Bereiche profitieren können, wenn mehr Daten öffentlich zugänglich sind.

Den eigenen Kreis mit dem Nachbarkreis vergleichen

Das Dashboard zeigt verschiedene Statistiken zu Covid-19 auf Bundesländer- und Kreis-Ebene. Neben den öffentlich viel diskutierten Zahlen, wie den Fällen pro 100.000 Einwohnern oder der 7-Tages-Inzidenz, visualisiert Zimmermann die Daten etwa nach Geschlecht oder Alter. Die Statistiken bilden so die demographischen Unterschiede der Länder in der Pandemie ab: Während in Nordrhein-Westfalen im Januar 2021 zum Beispiel etwa 22 Prozent der gemeldeten Fälle Menschen über 60 Jahren sind, sind es in Sachsen mehr als 35 Prozent. In allen Bundesländern sind mehr Frauen als Männer mit Corona erfasst worden, die Sterblichkeit ist unter Männern jedoch höher.

Zimmermann aktualisiert die Rubriken des Dashboards regelmäßig, wenn er neue spannende Zusammenhänge findet und entwickelt eigene Maße. Für sein Projekt nutzt er Daten des RKI, des Intensivregisters, das die Belegung der Intensivbetten in Krankenhäusern dokumentiert, und des Statistischen Bundesamtes.

Auch wenn es mittlerweile einige vergleichende Statistiken und Dashboards gibt, hat Zimmermann ein besonderes Tool eingebaut: Den direkten Vergleich zweier beliebiger Landkreise in Deutschland. Auf einen Blick lassen sich aktuelles Wachstum, Fälle, Krankenhauszahlen und Todesfälle im Zeitverlauf vergleichen. »Das habe ich in dieser Form noch nirgendwo anders gesehen«, sagt der Wissenschaftler. Betrachtet man zum Beispiel die Städte Köln und Bonn im Zeitverlauf, stellt man fest, dass die Hospitalisierungsrate in Bonn – trotz relativ ähnlich verlaufender Fälle pro 100.000 Einwohner – bis Januar 2021 immer etwas höher lag als in Köln.

Daten als solide Diskussionsgrundlage

Eigentlich forscht der Wirtschaftswissenschaftler zu Aktienmärkten sowie Geld- und Fiskalpolitik. Doch die Projekte überschneiden sich an einem zentralen Punkt: Daten. Zimmermann nutzt in seiner Forschung Technologien wie maschinelles Lernen zur Auswertung großer Datenmengen. »Man braucht eine vernünftige Grundlage, auf der man diskutieren kann. Dafür sind große, repräsentative Datensätze entscheidend«, sagt Zimmermann.

Sein Corona-Dashboard ist ein Versuch die Komplexität der Daten aufzuschlüsseln. Denn es ist schwierig, Zahlen unter verschiedenen Gesichtspunkten richtig einzuordnen. Das Hauptproblem sei die Selektion bei der Entstehung der Daten: Man wird eben nur getestet, wenn man zum Arzt geht oder in einem Beruf arbeitet, für den regelmäßige Tests wichtig sind. Auch die Testkapazitäten spielen eine wichtige Rolle, sind in den Zahlen aber nicht ablesbar.

Öffentlich verfügbare Datensätze schaffen

Zimmermann ist seit Beginn seiner akademischen Laufbahn fasziniert von der Arbeit mit großen Datenmengen. Es macht ihm Spaß Daten zusammenzusuchen, neue Variablen zu generieren und diese zu untersuchen. Seine Vision: öffentlich verfügbare, transparente Datensätze als Basis für alle Forschenden, auf die jeder aufbauen kann. Eine solche Transparenz sei in vielen Bereichen nötig, meint der Forscher: »Die Ergebnisse vieler wissenschaftlicher Studien lassen sich nicht replizieren, weil nicht klar ist, wie die zugrundeliegenden Daten zustande kamen.« Das möchte Zimmermann ändern. Gemeinsam mit Andrew Chen, Ökonom bei der Federal Reserve in den USA, wertete er in einem aktuellen Forschungsprojekt Studien zu über 300 Anlagestrategien aus. Jede dieser Studien untersuchte jeweils hunderte Vorhersagen zu Anlagen am Aktienmarkt mit riesigen Datensätzen und rechenintensiven Algorithmen. Die Ergebnisse der Arbeiten sind jedoch oft nur schwer nachzuvollziehen, da die verwendeten Algorithmen nicht öffentlich verfügbar sind. Forschung brauche jedoch eine solide Datengrundlage, von der aus alle miteinander diskutieren können.

Zimmermann und Chen bauten deshalb 98 Prozent der replizierbaren Algorithmen über drei Jahre hinweg nach und sammelten sie in einer öffentlich zugänglichen Datenbank, die nun von Forschenden, Firmen oder Privatanlegern eingesehen werden kann. »Ich hoffe, dass auch andere Forschende ihre Daten und Computerskripte vermehrt offen zur Verfügung stellen, damit Forschung weiter zum kollektiven Verständnis beiträgt«, sagt Zimmermann.

Mehr Datentransparenz nach Corona

Trotz des menschlichen Leids und der hohen gesellschaftlichen Kosten, die Covid-19 weltweit verursacht, hat Zimmermann eine Hoffnung: Die Pandemie könnte die Datentransparenz von der Forschung in die Öffentlichkeit vorantreiben. »2020 hat die Bevölkerung wahrscheinlich mehr über Statistik gelernt als je zuvor«, sagt der Ökonom. In Zukunft könne es deshalb auch in anderen Bereichen leichter sein, öffentlich über Daten zu kommunizieren. Doch dazu müssen diese für die Forschung zunächst verfügbar sein.

Während die Corona-Kennzahlen täglich in Dashboards aktualisiert werden können, gibt es nach wie vor viele Bereiche, in denen es gerade in Deutschland für Forschende schwer ist, an Daten von öffentlichen Institutionen zu kommen. Zimmermann wünscht sich daher für die Zukunft: »Öffentliche Institutionen in Deutschland sollten Daten leichter und schneller verfügbar machen.«


Dr. Tom Zimmermann ist Mitglied bei ECONtribute und Juniorprofessor für Volkswirtschaftslehre an der Universität zu Köln. Bevor er die Professur übernahm, arbeitete er für das Federal Reserve Board in Washington, D.C. Er studierte Volkswirtschaftslehre in Bonn und promovierte an der Harvard University. Tom Zimmermann forscht zu Finanz- und Datenwissenschaft und nutzt dazu unter anderem maschinelles Lernen.  

ECONTRIBUTE ist der einzige von der Deutschen Forschungsgemeinschaft (DFG) geförderte Exzellenzcluster in den Wirtschaftswissenschaften – getragen von den Universitäten Bonn und Köln. Der Cluster forscht zu Märkten im Spannungsfeld zwischen Wirtschaft, Politik und Gesellschaft. Ziel von ECONtribute ist es, Märkte besser zu verstehen und eine grundlegend neue Herangehensweise für die Analyse von Marktversagen zu finden, die den sozialen, technologischen und wirtschaftlichen Herausforderungen der heutigen Zeit, wie zunehmender Ungleichheit und politischer Polarisierung oder globalen Finanzkrisen, gerecht wird. Der Cluster setzt sich außerdem für die Förderung von Frauen in den Wirtschaftswissenschaften ein.