Künstliche Intelligenz offenbart ihre Schattenseiten – biomedizinische Journale werden überschwemmt mit KI-generierten Originalartikeln und Kommentaren. Wie ihr dem Hype begegnen könnt.
Ein ungewöhnliches Editorial sorgte Ende 2024 für Aufsehen: „In den letzten Monaten verzeichnete Neurosurgical Review einen beispiellosen Anstieg der Zahl der zur Veröffentlichung eingereichten Leserbriefe und Kommentare“, schreibt der Chefredakteur Daniel Prevedello. Dieser Anstieg sei wahrscheinlich auf Fortschritte in der Künstlichen Intelligenz (KI) generell und speziell bei Large Language Models wie ChatGPT zurückzuführen.
Um einen Einzelfall handelt es sich dabei nicht: Laut Science lag der Anteil KI-generierten Contents bei anderen Journalen in 2024 zwischen 60 und 80 Prozent – verglichen mit 9 Prozent im Jahr zuvor.
Es handelt sich aber keineswegs um Bots, die Content generieren, sondern um Wissenschaftler aus Fleisch und Blut. Für Autoren sind Kommentare eine Möglichkeit, Veröffentlichungen und Zitationen anzuhäufen, ohne selbst zu forschen. Beispielsweise hat der thailändische Arzt Viroj Wiwanitkit pro Jahr 400 bis 500 Papers veröffentlicht, größtenteils als kurze Leserbriefe.
Weil Kommentare kaum einem Peer-Review-Verfahren unterzogen werden, gelingt es oft, solche Texte zu platzieren – bei vergleichsweise geringem Aufwand dank KI. Auch so manche Zeitschrift profitiert vom Trend, weil sie Gebühren für die Veröffentlichung von Leserbriefen einfordert.
Forschungseinrichtungen schaffen es mit dem Trick, ihr Ranking zu verbessern. So hat es das eher unbekannte Saveetha Dental College, Indien, beim QS World University Ranking auf einen Spitzenplatz in der Zahnmedizin gebracht.
Jedes Jahr nehmen rund 500 Studenten an Prüfungen teil, bei denen sie ein Manuskript über ihre Forschungsarbeiten schreiben. Nachdem Dozenten die Arbeiten überprüft und überarbeitet haben, verwenden sie ein Online-Tool, um Verweise auf zuvor veröffentlichte Papers einzufügen. Viele der Arbeiten werden an Zeitschriften geschickt und von diesen veröffentlicht; dieser Trick hat dazu beigetragen, dass das College auf mehr als 1.400 wissenschaftlichen Arbeiten pro Jahr kommt.
Es geht aber noch schlimmer: Zwischen 1 und 3 Prozent aller wissenschaftlichen Publikationen könnten komplett gefälscht worden sein. Laut Nature wurden allein 2022 etwa 70.000 solcher Papers veröffentlicht, vor allem in der Biologie und der Medizin.
Firmen wie die Sakana AI Labs, Tokyo, bieten professionelle Unterstützung an. Ihre KI bildet den gesamten Weg ab – vom Brainstorming über die Auswahl vielversprechender Ideen bis hin zur Simulation von Experimenten und zum Erstellen des Textes:
Von der Idee über die Bewertung bis hin zum Artikel – KI schafft das. Quelle: Sakana AI, Screenshot: DocCheck
Doch wie kann das funktionieren? Millionen wissenschaftlicher Artikel sind online über Repositorien wie medRxiv oder PubMed verfügbar. Mit diesen Daten trainieren Entwickler ihre KI, um den Aufbau von Artikeln bzw. die Sprache der Wissenschaft zu „lernen“.
Der Algorithmus von Sakana hat zwei Ansätze, um interessante Themen zu finden. Im ersten Schritt „bewertet“ er neue Ideen für Artikel anhand publizierter Forschungsarbeiten. Alles, was zu ähnlich ist, wird nicht weiterverfolgt.
Zweitens gibt es ein digitales „Peer Review“-Verfahren. Dabei bewertet eine weitere, unabhängige KI die Qualität und Neuartigkeit des Themas. Auch für Begutachtungen gibt es online frei zugängliche Trainingsdaten. Zuletzt entsteht die fertige Publikation.
Doch nicht nur die Autoren stehen in der Kritik. Auch so mancher Gutachter muss sich an die eigene Nase fassen. Eigentlich soll das Peer-Review-Verfahren die Qualität und Relevanz eingereichter Arbeiten gewährleisten. Unabhängige Fachleute bewerten die eingereichten Manuskripte.
Der Aufwand ist groß – genau deshalb nutzen menschliche Peers digitale Unterstützung. Eine Analyse von 263 Gutachten für 37 Zeitschriften zeigt, dass sich allgemeine, vage, wohl KI-generierte Formulierungen wiederholen, unabhängig von Fachgebiet und der Art der Publikation. Das macht diese Gutachten wertlos.
Mittlerweile untersagen es die US-amerikanischen National Institutes of Health (NIH) und das Australian Research Council (ARC) Gutachtern, KI-Tools einzusetzen. Science und The Lancet vertreten ebenfalls die Ansicht, Peers sollten auf die Verwendung von KI-gestützten Technologien komplett verzichten.
Hier beginnt die Sache, sich im Kreis zu drehen: KI schreibt Kommentare oder Artikel – und Gutachter setzen auf KI, um Artikel zu bewerten. Der Schmu fällt an keiner Stelle auf.
Bleibt nur, Künstliche Intelligenz künftig in die Liste von Interessenskonflikten mit aufzunehmen. Und spezielle KI-Detektoren helfen dabei, zu erkennen, ob Texte per KI generiert worden sind. Noch haben sie Schwächen, vor allem bei Papers, die Wissenschaftler nachträglich bearbeitet haben.
Zusammenfassung für Eilige
Bildquelle: Valeria Nikitina, Unsplash