Akzeptieren Menschen Texte über wissenschaftliche Themen, wenn sie von einer künstlichen Intelligenz geschrieben wurden? Die Psychologin Angelica Lermann Henestrosa erforscht, wie Menschen auf automatisiert erstellte Texte reagieren und erklärt im Interview, warum dies für die Entwicklung von Sprachtools wichtig ist.
„Ich sehe ein großes Potenzial für die automatisierte Textgenerierung in der Wissenschaftskommunikation“
Frau Lermann Henestrosa, Sie untersuchen, wie Menschen automatisch erstellte Texte zu wissenschaftlichen Themen wahrnehmen und akzeptieren. Was war der Ausgangspunkt Ihrer Studien?
Ich sehe ein großes Potenzial für die automatisierte Textgenerierung in der Wissenschaftskommunikation. Komplexe und große Datensätze aus der Forschung könnten relativ einfach in Textform aufbereitet werden. Das war der Grundansporn für meine Forschung. Automatische Textgenerierung gibt es in der Praxis schon seit über einem Jahrzehnt. Die Forschung zur Akzeptanz dieser Texte hinkt allerdings hinterher. Wir haben eine große repräsentative Umfrage unter der deutschen Bevölkerung durchgeführt, in der wir die Menschen fragten, wie sie allgemein zu künstlicher Intelligenz stehen und was sie über Texte denken, die automatisch generiert werden.
Was kam dabei heraus?
Unsere bisherigen Ergebnisse zeigen, dass es noch wenig Wissen unter der deutschen Bevölkerung darüber gibt. Die Mehrheit gab an, noch nie automatisch generierte Texte gelesen zu haben. Das ist für mich ein Hinweis, dass es noch viel Aufklärungsbedarf gibt, denn so gut wie jede*r von uns hat im Internet schon einmal einen Text gelesen, der von einer KI verfasst wurde. Eigentlich sollte die Forschung zur Akzeptanz von automatisierten Texten ein begleitender Prozess sein, der die Entwicklung neuer KI-Tools im Optimalfall mitgestaltet. Würden wir zum Beispiel herausfinden, dass KI-basierte Texte, die eine Wertung des Inhaltes vornehmen, von den Menschen nicht akzeptiert werden, wäre das eine wichtige Erkenntnis für die Entwicklung solcher Tools. Wichtig ist auch zu wissen, für welche Texte oder Themen diese Technologie überhaupt sinnvoll angewandt werden sollte.
Wie sind Sie methodisch vorgegangen?
Unsere Grundfrage war: Was passiert, wenn wir den Versuchsteilnehmenden sagen, dass ein Text von einer KI geschrieben wurde? Hierzu haben wir die Texte selbst geschrieben, den Teilnehmenden aber gesagt, dass eine KI diesen
Künstliche Intelligenz, Algorithmen und Co: Definitionen
Künstliche Intelligenz
Spezifische Art, wie Systeme externe Daten interpretieren, daraus lernen und das Gelernte anwenden. Ziel ist, dass Computer menschenähnlich intelligent agieren können. Der Begriff ist nicht trennscharf definiert – auch weil der Begriff der menschlichen Intelligenz nicht eindeutig zu fassen ist.
Selbstlernende Algorithmen
Rechenverfahren, die sich während ihrer Ausführung selbst (autonom) verbessern.
Neuronales Netz
Mathematisches Konzept, das die Funktionsweise des Gehirns nachahmt. Information wird auf verschiedenen Ebenen verarbeitet – vom einfachen Muster hin zu komplexen Strukturen.
Machine Learning (Maschinelles Lernen)
Mathematische Verfahren zur Mustererkennung.
Deep Learning
Maschinelles Lernen unter Nutzung künstlicher neuronaler Netze.
GPT-3 (Generative Pre-trained Transformer 3)
Ein Sprachverarbeitungstool, das von der Non-Profit-Organisation Open-AI entwickelt wurde. Das Tool kann selbstständig über Deep Learning Texte erstellen, vereinfachen und kürzen.
Text verfasst hätte. In einem weiteren Experiment haben wir Texte von dem Sprachverabeitungsprogramm GPT-3 erstellen lassen. Die Teilnehmenden beurteilten die Texte online per Fragebogen. Im Nachhinein wurden sie darüber aufgeklärt, ob die Texte von uns oder der KI geschrieben wurden.
Im Beitrag „Vom plappernden Papageien zum nützlichen Werkzeug?“ sagen Sie, dass erste Ergebnisse darauf hindeuten, dass Leute automatisiert erstellte Texte durchaus akzeptieren. Wie haben die Teilnehmenden reagiert, wenn sie Ihnen gesagt haben, dass der Text von einer KI geschrieben wurde?
Überraschenderweise kamen wenige Bedenken und wenig extreme Reaktionen, die Teilnehmenden waren eher begeistert. Akzeptanz haben wir für uns so definiert: Wie glaubwürdig nehmen die Leute den Text wahr? Wie intelligent wird die KI eingeschätzt? Wie vertrauenswürdig finden sie die Inhalte, die kommuniziert werden? Und hier haben wir keine großen Unterschiede zwischen dem vermeintlich menschlich und dem vermeintlich KI verfassten Text festgestellt. Unsere Ergebnisse haben gezeigt, dass der von der KI verfasste Text nur minimal weniger glaubwürdig und vertrauenswürdig wahrgenommen wurde. Ich hätte zudem einen deutlichen Abfall in der Glaubwürdigkeit und der Vertrauenswürdigkeit in dem Text erwartet, in welchem die KI den Inhalt bewertet. Den gab es aber nicht. Das war die überraschendste Erkenntnis.
Wovon handelten diese Texte?
Wir haben einen Text über die Ausbreitung von Wölfen in Deutschland geschrieben. Zu diesem Thema gibt es eindeutige wissenschaftliche Fakten, etwa wie die Ausbreitung stattfindet. Zudem ist die Mehrheit der Bevölkerung zu diesem Thema relativ positiv eingestellt. Wichtig war auch, dass das Thema aktuell nicht groß in den Medien vertreten ist. Wir haben zunächst in einem Text mehrere, relativ neutrale Fakten aufgelistet, wie: „Jungtiere können teilweise ein etwas neugieriges Verhalten an den Tag legen“. Denn bisher wurde vor allem die Wirkung faktenbasierter Nachrichtenberichte erforscht, die nicht bewertet oder kontextualisiert werden müssen, wie Wetterberichte, Erdbebenbenachrichtigungen oder Staumeldungen. In der Wissenschaftskommunikation ordnen Wissenschaftsjournalist*innen jedoch Themen in einen Kontext ein und bewerten die Daten. Uns interessierte, wie
Wie sehr haben sich ihr Text und der von der KI unterschieden?
Wir haben unseren Text als Vorlage genommen, um möglichst ähnliche Textabschnitte zu erstellen. Man kann bei GPT-3 einen Prompt eingeben, also einen ersten Satz, und dann spuckt die KI verschiedene Absätze aus. Ein Satz aus unserem Text, der beispielweise Informationen zur Ausbreitung, oder dem Bestand der Wölfe enthielt, diente also als Prompt. Daraufhin haben wir GPT-3 gebeten, dazu einen Absatz von etwa 100 Wörtern zu schreiben. Dies haben wir fünf Mal pro Prompt gemacht und haben den Text ausgewählt, der unserem am meisten ähnelte. Teilweise spuckte GPT-3 sehr unbrauchbare, vom Thema abkommende Absätze aus. Erstaunlich war, dass wir trotzdem, mit wenigen Versuchen einen brauchbaren und inhaltsvollen Text erhalten haben, den wir verwenden konnten. Es war natürlich schön, einen brauchbaren Text zu erhalten, es zeigt aber auch, dass GPT-3 eine Blackbox ist, die sich nicht wirklich kontrollieren lässt.
Wer waren die Teilnehmenden?
In den ersten Studien hatten wir insgesamt um die 530 Proband*innen, bei der GPT-3 Studie etwa 730. Es sind freiwillige, sehr diverse Teilnehmer*innen von der Online-Rekrutierungsplattform prolific. Dabei gab es keine spezifischen Auswahlkriterien außer der Freiwilligkeit und dass sie deutsch sprechen müssen, weil unsere Studien auf Deutsch sind.
Sie sagen, die Akzeptanz der Menschen und die technischen Möglichkeiten für automatisierte Textgenerierung in der Wissenschaftskommunikation sind da. Warum wird es dann noch nicht angewendet?
Das Problem liegt aktuell noch bei den Datensätzen, mit denen eine KI gespeist und trainiert wird. Viele KIs sind im Prinzip eine Blackbox. Es ist nicht nachvollziehbar, woher die Daten kommen und wer sie produziert hat. Die Technologie der automatisierten Textgenerierung braucht aber strukturierte Daten. Um die automatisierte Textgenerierung auf wissenschaftliche Inhalte anwenden zu können, benötigt man wissenschaftliche Daten, in unserem Beispiel wären das Daten zu der Ausbreitung von Wölfen in Deutschland. Diese sind aber aus verschiedenen Gründen immer noch ziemlich unter Verschluss. Der Gedanke von Open Science, also frei verfügbaren wissenschaftlichen Daten, verbreitet sich zwar immer mehr, aber aktuell ist es noch nicht möglich, eine KI mit ausreichend unabhängigen Daten zu füttern.
Wird aus Ihrer Sicht genug über die Risiken von KI aufgeklärt? Oder sollte das gerade nicht geschehen, weil es Menschen überfordern könnte?
Die Kommunikation über KI ist sehr einseitig, da sie sich sehr auf die ethischen Bedenken konzentriert, die absolut wichtig zu betonen sind. Als ich anfing die Literatur zu dem Thema automatisierte Textgenerierung zu lesen, ging es viel darum, ob der Mensch oder die Journalist*innen ersetzt werden. Aber das entspricht nicht der Realität. Es wird meiner Ansicht nach nie eine komplette Abgabe der Kontrolle an die KI sein, schon gar nicht wenn es um wissenschaftliche Inhalte geht, die verlässlich sein müssen. Immer wird ein Mensch involviert sein. In der Kommunikation wird viel zu wenig Fokus auf die tatsächliche Umsetzung gelegt. Die Technologie ist bereits so weit, dass Texte einer KI nicht mehr von menschlichen zu