„Das nächste große Ding für den Wissenschaftsjournalismus“

Im SMC Lab, dem Datenlabor des Science Media Centers, entstehen Tools für den Daten- und Wissenschaftsjournalismus. Wie ein Frühwarnsystem aktuelle Publikationen aufspüren und Trends in der Wissenschaft auf Twitter erkennen soll, erklärt der Leiter Forschung und Entwicklung Meik Bittkowski.

Herr Bittkowski, welche datenjournalistischen Tools entwickeln Sie im Datenlabor des Science Media Centers?
Wir entwickeln Werkzeuge für den digitalen Wissenschaftsjournalismus. Das sind häufig einfache Tools für unsere eigene Redaktion. Wir haben außerdem verschiedene Dashboards gebaut – wie den wöchentlichen Corona-Report. In den vergangenen zwei Jahren waren Preprint-Server in den Lebenswissenschaften sehr prominent. Wir haben uns schon seit fünf Jahren damit beschäftigt, weil wir immer davon ausgegangen sind, dass Preprint-Server das nächste große Ding für den Wissenschaftsjournalismus sind und nicht verschwinden werden – erst recht nicht nach der Pandemie. Wir entwickeln deshalb Werkzeuge, um dort relevante Themen früher erkennen zu können.

Wie funktionieren diese Tools?

Meik Bittkowski ist am Science Media Center als Leiter Forschung und Entwicklung insbesondere für das SMC Lab zuständig. Er hat langjährige Erfahrung mit datenjournalistischen Projekten, u.a. am HITS in Heidelberg. Er studierte Philosophie und Germanistik sowie Informatik und wurde in Philosophie promoviert. Foto: Science Media Center

Wir haben einen Empfehlungsservice für uns entwickelt, der sich innerhalb eines Sieben-Tage-Fensters neue Publikation auf diesen Servern anschaut und täglich Nutzungsmetriken vergleicht: Wie oft wurde ein Preprint als PDF heruntergeladen, wie häufig wurde ein Abstract gelesen, wie häufig wurde dazu getweetet? So kann man verschiedene Schwellenwertebereiche definieren, ab denen ein Preprint in einer Kategorie auffällig ist. Dazu schauen wir uns beispielsweise die täglichen Downloads in der Vergangenheit innerhalb von sieben Tagen an. Wir setzen dann die Schwellwerte für die PDF-Downloads für die sieben Tage nach Veröffentlichung so, dass nur ein Prozent der Preprints diese Schwelle überschreiten. Wird ein neues Preprint an einem der sieben Tage häufiger heruntergeladen, lohnt sich ein genauerer journalistischer Blick auf die Veröffentlichung. Auf diese Weise entsteht ein Frühwarnsystem für Preprints. Zurzeit ist das noch ein interner Emailservice für unsere Redaktion. Wir arbeiten aber gerade an einem externen Dashboard für interessierte Wissenschaftsjournalist*innen.

Welche weiteren Tools entwickeln Sie, um frühzeitig relevante Themen erkennen zu können?
Wir gucken uns aktuell „Academic Twitter“ an, einen Teil des sozialen Netzwerks bestehend aus Wissenschaftler*innen, Journalist*innen und öffentlichen Akteur*innen. Wir beobachten systematisch, wie sich Diskussionen in diesen Netzwerken entwickeln oder welche Publikationen dabei vermehrt erwähnt werden, die in unserer Redaktion vielleicht noch nicht bekannt sind. Die Erhebung hat immer einen leichten zeitlichen Verzug, weil wir die Daten nicht live streamen, sondern nur viermal am Tag abrufen. Zum Beispiel haben wir, als die Omikron-Varianten aufkamen, nach ungewöhnlichen Häufungen von Begriffen oder oft geteilten Links geguckt. Ein anderer Anwendungsfall ist, dieses Twitter-Netzwerk als Frühwarnsystem zu nutzen, beispielsweise wenn Hacks oder Sicherheitslücken wie bei der häufig benutzte Softwarekomponente Log4J auftauchen. Bisher waren wir bei diesen Themen am SMC immer ein bisschen zu spät und Medien wie Golem und Heise hatten schon vor uns berichtet. Wir wollen eine Art Seismographen entwickeln, der thematisch getrennt sagen kann, hier poppt irgendetwas im Bereich IT auf, hier ein Thema im Bereich Gesundheit. Und dazu braucht man am Anfang häufig nicht mehr als ein paar Hinweise oder einen Link, um weiter zu recherchieren.

Wie haben Sie die entsprechenden Wissenschaftsjournalist*innen und Wissenschaftler*innen ausgewählt?

„In den vergangenen zwei Jahren waren Preprint-Server in den Lebenswissenschaften sehr prominent.“ Meik Bittkowski
Wir sind nach ihrer Selbstbeschreibung auf Twitter gegangen und haben über ihre Tweets analysiert, über welche Themen sie schreiben. In einer Art Schleppnetz-Verfahren haben wir mit unserem Netzwerk angefangen und „Twitter Academics“ zu verschiedenen Themen händisch ausgewählt und in einem Anfangssatz gebündelt. Die weitere Auswahl läuft dann automatisiert. Dabei kann man Netzwerkeffekte nutzen. Heuristisch sind Freund*innen von Twitter Academics ebenfalls Twitter Academics und schreiben zu ähnlichen Themen.

Ein Ziel des SMC Lab ist laut der Website, Formen zu finden, um den Wissenschaftsjournalismus in Richtung von Structured News über Wissenschaft entwickeln zu können. Was versteht man unter „Structured Journalism“ über Wissenschaft?
Klassische journalistische Angebote wie Zeitungsartikel, Radiobeiträge, Fernsehstücke oder Dokumentationen sind monolithische Blöcke, die gedruckt oder gesendet werden und dann bestenfalls noch irgendwo im Archiv liegen. Darin sind aber viele Informationen enthalten, die für andere Kontexte interessant sein könnten: Biografien von Personen oder Zusammenfassungen von Publikationen. Gerade mit den digitalen Medien gibt es Bemühungen, diese Blöcke in Einheiten aufzubrechen und wiederverwendbar zu machen. Journalist*innen und Content-Ersteller*innen denken durchaus strukturiert. Alle Inhalte, die sie erzeugen, haben daher eine Binnenstruktur. Bei „Structured Journalism“ geht es darum, die Gesamtheit in seine Bestandteile zu zerlegen und als Module auch für andere Zwecke zu benutzen.

David Caswell vom BBC News Labs hat es in Vorträgen gut auf den Punkt gebracht: Structured Journalism kann die Antwort des Journalismus darauf sein, in einer Welt der many-to-many-Kommunikation überhaupt gehört zu werden. Es geht darum, viele verschiedene Inhalte erzeugen zu können, um sie passgenau auf den vielfältigen Kommunikationswegen auszuspielen. Idealerweise sind sie an demografische Eigenheiten wie Alter und Geschlecht oder an das Vorwissen der Zielgruppe angepasst. Die BBC steckt da sehr viel Geld rein, weil die den Auftrag haben, die gesamte Bevölkerung mit ihren Angeboten zu erreichen. Die Rundfunkanstalt zeigt damit, wo die Reise hingehen könnte.

Könnten Sie diese Art des „Structured Journalism“ einmal an einem Beispiel erklären?

„Es gab eine Einsicht, dass man kompetente Menschen braucht, die sich wirklich in die Zusammenhänge einarbeiten können.“ Meik Bittkowski
Die BBC hat beobachtet, wie speziell junge Frauen medizinische Informationen konsumieren. Im Mittel lesen sie keine langen Onlinetexte dazu. Die Leute verbleiben zunehmend in ihren sozialen Medien und warten darauf, dass die Nachrichten sie erreichen. Die BBC veröffentlicht weiterhin lange Texte, denn auch die haben ihre Zielgruppe. Sie fasst aber zusätzlich in einem automatisierten Verfahren die wichtigsten Kernaussagen der Texte in bullet points zusammen und macht daraus wiederum automatisiert kleine Comics mit zwei, drei Panels, die die Hauptinfos enthalten. Diese Comics können sie dann in den sozialen Medien ausspielen, die dort vergleichsweise besser bei der Zielgruppe ankommen. Manche werden so auf den längeren Artikel überhaupt erst aufmerksam.

Das könnte man auch weiterdenken in Richtung „Structured News“. Die Stichpunkte können die Wissensbasis für weitere Texte, Grafiken oder Audiosnippets für Podcasts bilden, die halbautomatisiert erstellt werden. Zum Schluss wird immer noch ein*e Redakteur*in darüber schauen müssen. Das geht aber alles nur, wenn die Daten in einem vernünftigen Format vorliegen und da schließt sich der Kreis zu dem, was wir am SMC machen.

Wie entstehen am SMC aus Text strukturierte Daten und wie nutzen Sie diese weiter?
Wir haben bereits große Wissensbestände aus den vergangenen fünf Jahren auf unserer Website. Am SMC bringen wir schnell Expert*innenstatements zu wichtigen Themen aus der Wissenschaft. Das zieht aber ein ganzes Informationsreich nach sich. Das immer größer werdende Archiv auf unserer Webseite weckt Erwartungen, die wir bisher noch gar nicht auf dem Schirm hatten. Unsere Webseite wird von nicht wenigen Journalist*innen zur Recherche genutzt, als Ideengeberin für Themen oder als Rückversicherung, was bisher zu einem Thema gesagt wurde. Es geht ihnen auch darum, Kontexte zu erschließen.

Diese Nutzungsbedürfnisse der Journalist*innen können wir durch eine reine Textsuche auf der Webseite schlecht abbilden. Die Angebote des SMC auf der Webseite sind aus Sicht der Informatik einfach ein Kasten voller Text. Die Maschine hat keine Chance zu wissen, was darin ein Expert*innenname, die Affiliation, eine wichtige Aussage oder eine Publikation ist. Wir sind deshalb gerade dabei, unseren historischen Bestand an Angeboten nachträglich aufzubrechen, um sie auf ganz mannigfaltige Art und Weise zu präsentieren und an die verschiedenen Nutzungswünsche anzupassen. Journalist*innen können dann beispielsweise nach allen Expert*innen suchen, die wir bisher zu dem Thema Autonomes Fahren angefragt haben oder sich Statements zum Thema anzeigen lassen.

In der Coronapandemie spielen Zahlen und Daten eine enorme Rolle. Dashboards sind zu einem wichtigen Tool für die Kommunikation geworden. Was haben Sie während der Coronapandemie für den Datenjournalismus gelernt?

„In der Coronapandemie hat jede Redaktion einer größeren Onlinezeitung ein eigenes Dashboard aufbaut.“ Meik Bittkowski
Es gab eine Einsicht, dass man kompetente Menschen braucht, die sich wirklich in die Zusammenhänge einarbeiten können. Am SMC haben wir das Glück, dass wir Lars Koppers als Datenwissenschaftler haben. Er ist von Hause aus Statistiker und er hat dadurch einen ganzheitlichen Blick auf Daten: Er weiß, wie sie zustande kommen und was Daten aussagen können. Er war maßgeblich für den Corona-Report verantwortlich und beherrscht die Kunst, die passende Grafik für gewisse Aussagen zu finden. Dafür haben wir am SMC noch keine wirkliche Expertise. Als Intermediäre müssen wir aber auch nicht wie die Financial Times herausragende Grafiken produzieren, die auch Lai*innen sofort einleuchten. Unser Schwerpunkt im Corona-Report lag auf der Beschreibung von Zusammenhängen und darauf, immer mal wieder ein Vorsicht-Schild bei starken Vereinfachungen hochzuhalten oder wenn die Daten einfach nicht gut genug sind, um daraus Schlussfolgerungen zu ziehen. In der Politik wurden häufiger Prognosen in der Öffentlichkeit getroffen, um Maßnahmen zu rechtfertigen oder in Aussicht zu stellen. Dazu konnten wir dann sagen, von welchem Entwicklungspfad sie eigentlich ausgehen und wie wahrscheinlich das laut damaligem Stand war.

Hannah Ritchie von „Our World in Data“ wurde kürzlich in einem Artikel zitiert, dass viele Dashboards mittlerweile nicht mehr gepflegt und zugehörige Daten nicht mehr erhoben werden. Sehen Sie diese Entwicklungen auch?
Der Aufwand, solche Dashboards zu pflegen, ist immens. Daher kann ich es nachvollziehen, dass sie wieder abgebaut werden. In der Coronapandemie hat jede Redaktion einer größeren Onlinezeitung ein eigenes Dashboard aufbaut. Dahinter steckt ein eigener Workflow, eine eigene Qualitätssicherung. Die Inzidenz und andere Metriken sind nicht mehr so leicht zu interpretieren und weniger wichtig für den Alltag der Menschen. Das nachlassende Interesse merkt man sicherlich an den Klickzahlen. Da ist der Aufwand nicht mehr gerechtfertigt. Hier kommen Datenintermediäre ins Spiel, die kuratierte Datensätze bereitstellen.

Das Konzept hat sich etabliert und man sieht bei Zeit Online oder Spiegel Online schon Klima-Dashboards oder solche zu Kennzahlen der Energiewende. Sie sind noch nicht immer prominent auf der Startseite zu finden wie die zu Corona, aber die datenjournalistischen Teams der großen Player werden dranbleiben und sie für andere Themen betreiben.


Weitere Beiträge zum Thema