Erfundene Zelllinien, recycelte Abbildungen, standardisierte Textbausteine: Selbst in Top-Journalen sind manche Studien fragwürdig. Das hat Folgen für medizinische Entscheidungen.
Paper Mills (im übertragenen Sinne „Publikationsfabriken“) fluten biomedizinische Journale. Hinter dem Begriff verbergen sich kommerzielle Dienstleister, die wissenschaftliche Manuskripte gegen Bezahlung produzieren – inklusive erfundener Daten, manipulierter Abbildungen, standardisierter Textbausteine und fingierter Begutachtung. Diese Arbeiten werden anschließend unter dem Namen von Forschern eingereicht, die ihre Publikationsliste frisieren wollen.
Das Phänomen ist seit den 2010er-Jahren bekannt und hat sich inzwischen zu einem milliardenschweren Geschäftsmodell entwickelt. Schätzungen gehen von mehr als 400.000 verdächtigen Publikationen in den vergangenen zwei Jahrzehnten aus. Solche Arbeiten haben meist eine erschreckend niedrige Qualität. Ihr Erscheinungsbild täuscht jedoch solide Wissenschaft vor. Typisch sind generische Studiendesigns, recycelte Abbildungen, inkonsistente Methoden und austauschbare Formulierungen. Viele dieser Manuskripte entstehen auf Basis vorgefertigter Templates, bei denen lediglich Gene, Zelllinien oder Tumorarten ausgetauscht werden. Genau diese inhaltlichen, strukturellen und sprachlichen Ähnlichkeiten machen Papers dieser Art maschinell erkennbar – diese Tools stehen jedoch nicht allen Ärzten zur Verfügung. Papers, die mit moderner KI generiert worden sind, lassen sich wiederum nur mit speziellen Algorithmen entlarven.
Ein internationales Team wollte wissen, wie verbreitet solche Paper-Mill-Publikationen in der onkologischen Forschung sind. Dafür trainierten die Autoren ein BERT-basiertes Machine-Learning-Modell, das ausschließlich Titel und Abstracts analysiert.
Als Grundlage dienten den Wissenschaftlern über 2.200 bereits zurückgezogene Paper-Mill-Arbeiten und weitere Datensätze aus der Forschung zum Vergleich. Anschließend wurde das Modell auf rund 2,6 Millionen onkologische Publikationen aus PubMed angewendet, die zwischen 1999 und 2024 erschienen sind. Die Klassifikationsleistung des Modells war hoch. In der internen Validierung erreichte es eine Genauigkeit von 91 Prozent, in einer externen Validierung sogar 93 Prozent. Besonders relevant: Der Ansatz funktionierte ausschließlich anhand der Textstruktur.
Insgesamt hat der Algorithmus 261.245 von 2.647.471 aller untersuchten Krebsstudien als „auffällig“ markiert. Das entspricht 9,87 Prozent der Literatur-Stichprobe. Damit liegt der Anteil deutlich über früheren Schätzungen von etwa drei Prozent in der biomedizinischen Forschung. Noch beunruhigender ist die zeitliche Entwicklung. Während in den frühen 2000er-Jahren nur etwa ein Prozent der Publikationen verdächtig war, stieg der Anteil kontinuierlich an und überschritt Anfang der 2020er-Jahre 15 Prozent der jährlichen Krebsforschung. Diese Zunahme folgte einem nahezu exponentiellen Trend. Die Autoren warnen allerdings davor, einzelne vom Algorithmus markierte Arbeiten ohne weitere Prüfung als Fälschungen zu interpretieren. Ihr Tool liefert nur statistische Hinweise.
Die Analyse zeigt recht überraschend, dass verdächtige Arbeiten keineswegs auf Journale mit niedriger Reputation beschränkt sind. Der Anteil auffälliger Studien in den Top-10-Journalen der Krebsforschung nahm ebenfalls kontinuierlich zu und lag zuletzt bei über zehn Prozent. Ein hoher Impact Factor des Journals garantiert offenbar keine zuverlässige Qualitätskontrolle. Der zunehmende Publikationsdruck und das „publish-or-perish“-System („publiziere oder gehe unter“) könnten dazu beitragen, dass auch renommierte Journale anfälliger für manipulierte Manuskripte werden.
Viele der auffälligen Arbeiten kamen aus bestimmten Forschungsfeldern. Darunter waren viele präklinische Studien aus der Tumorbiologie, etwa zu microRNAs, zu lncRNAs oder zu verschiedenen onkologisch wichtigen Signalwegen. Auch Arbeiten zur Therapieentwicklung sowie zur molekularen Diagnostik waren häufig betroffen. Eher selten gab es bei Publikationen aus der epidemiologischen Forschung, der Versorgungsforschung und der palliativen Onkologie Hinweise zu Paper Mills. Das passt zu der Hypothese, dass solche Firmen Themen mit leicht manipulierbaren, kaum überprüfbaren experimentellen Daten bevorzugen.
Auch tumorbiologisch zeigen sich Unterschiede. Besonders hohe Anteile auffälliger Studien fanden sich bei Magenkarzinomen, Knochentumoren und hepatozellulären Karzinomen, während Papers zu Brust-, Haut- und hämatologischen Tumoren deutlich seltener betroffen waren. Das könne teilweise mit der Nutzung bestimmter Zelllinien und standardisierter experimenteller Designs zusammenhängen, die sich leicht reproduzieren oder fälschen ließen, spekulieren die Autoren.
Für Ärzte hat die Studie einige Konsequenzen: Sie sollten präklinische Evidenz noch kritischer bewerten als bislang üblich. Das Problem betrifft auch systematische Reviews und Metaanalysen, die solche Arbeiten unkritisch einbeziehen. Damit könnte die Entwicklung translationaler Therapiekonzepte auf fehlerhaften präklinischen Grundlagen beruhen. Die Qualität wissenschaftlicher Publikationen für evidenzbasierte Entscheidungen ist nicht mehr selbstverständlich. Die Situation dürfte sich künftig weiter verschärfen. Generative KI ermöglicht es bereits heute, wissenschaftliche Texte schnell zu erstellen, umzuschreiben und in zahlreichen Varianten zu produzieren. Gleichzeitig reagieren wissenschaftliche Verlage auf diese Entwicklung. Sie setzen verstärkt auf automatisierte Screening-Verfahren, um auffällige Manuskripte bereits vor dem eigentlichen Peer Review zu identifizieren. Entscheidungen über eine Ablehnung oder eine vertiefte Untersuchung treffen weiterhin menschliche Editoren.
Quelle
Scancar et al.: Machine learning based screening of potential paper mill publications in cancer research: Methodological and cross sectional study. BMJ, 2026. doi: 10.1136/bmj-2025-087581
Bildquelle: Braydon Anderson, Unsplash