Im SMC Lab, dem Datenlabor des Science Media Centers, entstehen Tools für den Daten- und Wissenschaftsjournalismus. Wie ein Frühwarnsystem aktuelle Publikationen aufspüren und Trends in der Wissenschaft auf Twitter erkennen soll, erklärt der Leiter Forschung und Entwicklung Meik Bittkowski.
„Das nächste große Ding für den Wissenschaftsjournalismus“
Herr Bittkowski, welche datenjournalistischen Tools entwickeln Sie im Datenlabor des Science Media Centers?
Wir entwickeln Werkzeuge für den digitalen Wissenschaftsjournalismus. Das sind häufig einfache Tools für unsere eigene Redaktion. Wir haben außerdem verschiedene Dashboards gebaut – wie den wöchentlichen Corona-Report. In den vergangenen zwei Jahren waren Preprint-Server in den Lebenswissenschaften sehr prominent. Wir haben uns schon seit fünf Jahren damit beschäftigt, weil wir immer davon ausgegangen sind, dass Preprint-Server das nächste große Ding für den Wissenschaftsjournalismus sind und nicht verschwinden werden – erst recht nicht nach der Pandemie. Wir entwickeln deshalb Werkzeuge, um dort relevante Themen früher erkennen zu können.
Wie funktionieren diese Tools?
Wir haben einen Empfehlungsservice für uns entwickelt, der sich innerhalb eines Sieben-Tage-Fensters neue Publikation auf diesen Servern anschaut und täglich Nutzungsmetriken vergleicht: Wie oft wurde ein Preprint als PDF heruntergeladen, wie häufig wurde ein Abstract gelesen, wie häufig wurde dazu getweetet? So kann man verschiedene Schwellenwertebereiche definieren, ab denen ein Preprint in einer Kategorie auffällig ist. Dazu schauen wir uns beispielsweise die täglichen Downloads in der Vergangenheit innerhalb von sieben Tagen an. Wir setzen dann die Schwellwerte für die PDF-Downloads für die sieben Tage nach Veröffentlichung so, dass nur ein Prozent der Preprints diese Schwelle überschreiten. Wird ein neues Preprint an einem der sieben Tage häufiger heruntergeladen, lohnt sich ein genauerer journalistischer Blick auf die Veröffentlichung. Auf diese Weise entsteht ein Frühwarnsystem für Preprints. Zurzeit ist das noch ein interner Emailservice für unsere Redaktion. Wir arbeiten aber gerade an einem externen Dashboard für interessierte Wissenschaftsjournalist*innen.
Welche weiteren Tools entwickeln Sie, um frühzeitig relevante Themen erkennen zu können?
Wir gucken uns aktuell „Academic Twitter“ an, einen Teil des sozialen Netzwerks bestehend aus Wissenschaftler*innen, Journalist*innen und öffentlichen Akteur*innen. Wir beobachten systematisch, wie sich Diskussionen in diesen Netzwerken entwickeln oder welche Publikationen dabei vermehrt erwähnt werden, die in unserer Redaktion vielleicht noch nicht bekannt sind. Die Erhebung hat immer einen leichten zeitlichen Verzug, weil wir die Daten nicht live streamen, sondern nur viermal am Tag abrufen. Zum Beispiel haben wir, als die Omikron-Varianten aufkamen, nach ungewöhnlichen Häufungen von Begriffen oder oft geteilten Links geguckt. Ein anderer Anwendungsfall ist, dieses Twitter-Netzwerk als Frühwarnsystem zu nutzen, beispielsweise wenn Hacks oder Sicherheitslücken wie bei der häufig benutzte Softwarekomponente Log4J auftauchen. Bisher waren wir bei diesen Themen am SMC immer ein bisschen zu spät und Medien wie Golem und Heise hatten schon vor uns berichtet. Wir wollen eine Art Seismographen entwickeln, der thematisch getrennt sagen kann, hier poppt irgendetwas im Bereich IT auf, hier ein Thema im Bereich Gesundheit. Und dazu braucht man am Anfang häufig nicht mehr als ein paar Hinweise oder einen Link, um weiter zu recherchieren.
Wie haben Sie die entsprechenden Wissenschaftsjournalist*innen und Wissenschaftler*innen ausgewählt?
Ein Ziel des SMC Lab ist laut der Website, Formen zu finden, um den Wissenschaftsjournalismus in Richtung von Structured News über Wissenschaft entwickeln zu können. Was versteht man unter „Structured Journalism“ über Wissenschaft?
Klassische journalistische Angebote wie Zeitungsartikel, Radiobeiträge, Fernsehstücke oder Dokumentationen sind monolithische Blöcke, die gedruckt oder gesendet werden und dann bestenfalls noch irgendwo im Archiv liegen. Darin sind aber viele Informationen enthalten, die für andere Kontexte interessant sein könnten: Biografien von Personen oder Zusammenfassungen von Publikationen. Gerade mit den digitalen Medien gibt es Bemühungen, diese Blöcke in Einheiten aufzubrechen und wiederverwendbar zu machen. Journalist*innen und Content-Ersteller*innen denken durchaus strukturiert. Alle Inhalte, die sie erzeugen, haben daher eine Binnenstruktur. Bei „Structured Journalism“ geht es darum, die Gesamtheit in seine Bestandteile zu zerlegen und als Module auch für andere Zwecke zu benutzen.
David Caswell vom BBC News Labs hat es in Vorträgen gut auf den Punkt gebracht: Structured Journalism kann die Antwort des Journalismus darauf sein, in einer Welt der many-to-many-Kommunikation überhaupt gehört zu werden. Es geht darum, viele verschiedene Inhalte erzeugen zu können, um sie passgenau auf den vielfältigen Kommunikationswegen auszuspielen. Idealerweise sind sie an demografische Eigenheiten wie Alter und Geschlecht oder an das Vorwissen der Zielgruppe angepasst. Die BBC steckt da sehr viel Geld rein, weil die den Auftrag haben, die gesamte Bevölkerung mit ihren Angeboten zu erreichen. Die Rundfunkanstalt zeigt damit, wo die Reise hingehen könnte.
Könnten Sie diese Art des „Structured Journalism“ einmal an einem Beispiel erklären?
Das könnte man auch weiterdenken in Richtung „Structured News“. Die Stichpunkte können die Wissensbasis für weitere Texte, Grafiken oder Audiosnippets für Podcasts bilden, die halbautomatisiert erstellt werden. Zum Schluss wird immer noch ein*e Redakteur*in darüber schauen müssen. Das geht aber alles nur, wenn die Daten in einem vernünftigen Format vorliegen und da schließt sich der Kreis zu dem, was wir am SMC machen.
Wir haben bereits große Wissensbestände aus den vergangenen fünf Jahren auf unserer Website. Am SMC bringen wir schnell Expert*innenstatements zu wichtigen Themen aus der Wissenschaft. Das zieht aber ein ganzes Informationsreich nach sich. Das immer größer werdende Archiv auf unserer Webseite weckt Erwartungen, die wir bisher noch gar nicht auf dem Schirm hatten. Unsere Webseite wird von nicht wenigen Journalist*innen zur Recherche genutzt, als Ideengeberin für Themen oder als Rückversicherung, was bisher zu einem Thema gesagt wurde. Es geht ihnen auch darum, Kontexte zu erschließen.
Diese Nutzungsbedürfnisse der Journalist*innen können wir durch eine reine Textsuche auf der Webseite schlecht abbilden. Die Angebote des SMC auf der Webseite sind aus Sicht der Informatik einfach ein Kasten voller Text. Die Maschine hat keine Chance zu wissen, was darin ein Expert*innenname, die Affiliation, eine wichtige Aussage oder eine Publikation ist. Wir sind deshalb gerade dabei, unseren historischen Bestand an Angeboten nachträglich aufzubrechen, um sie auf ganz mannigfaltige Art und Weise zu präsentieren und an die verschiedenen Nutzungswünsche anzupassen. Journalist*innen können dann beispielsweise nach allen Expert*innen suchen, die wir bisher zu dem Thema Autonomes Fahren angefragt haben oder sich Statements zum Thema anzeigen lassen.
In der Coronapandemie spielen Zahlen und Daten eine enorme Rolle. Dashboards sind zu einem wichtigen Tool für die Kommunikation geworden. Was haben Sie während der Coronapandemie für den Datenjournalismus gelernt?
Hannah Ritchie von „Our World in Data“ wurde kürzlich in einem Artikel zitiert, dass viele Dashboards mittlerweile nicht mehr gepflegt und zugehörige Daten nicht mehr erhoben werden. Sehen Sie diese Entwicklungen auch?
Der Aufwand, solche Dashboards zu pflegen, ist immens. Daher kann ich es nachvollziehen, dass sie wieder abgebaut werden. In der Coronapandemie hat jede Redaktion einer größeren Onlinezeitung ein eigenes Dashboard aufbaut. Dahinter steckt ein eigener Workflow, eine eigene Qualitätssicherung. Die Inzidenz und andere Metriken sind nicht mehr so leicht zu interpretieren und weniger wichtig für den Alltag der Menschen. Das nachlassende Interesse merkt man sicherlich an den Klickzahlen. Da ist der Aufwand nicht mehr gerechtfertigt. Hier kommen Datenintermediäre ins Spiel, die kuratierte Datensätze bereitstellen.
Das Konzept hat sich etabliert und man sieht bei Zeit Online oder Spiegel Online schon Klima-Dashboards oder solche zu Kennzahlen der Energiewende. Sie sind noch nicht immer prominent auf der Startseite zu finden wie die zu Corona, aber die datenjournalistischen Teams der großen Player werden dranbleiben und sie für andere Themen betreiben.
Weitere Beiträge zum Thema
- „Wir stehen am Anfang des datenbasierten Journalismus über Wissenschaft“ – Ein Gespräch mit dem Geschäftsführer und Redaktionsleiter des Science Media Centers Volker Stollorz über die Rolle von Daten für den Wissenschaftsjournalismus.