Auch in medizinischen Fragen wenden sich immer mehr Menschen an Chatbots. Das kann gefährliche Auswüchse haben – denn die KI schlägt teils Fantasie-Behandlung vor, die so in keiner Leitlinie zu finden sind.
Chatbots erfreuen sich größter Beliebtheit, auch bei Fragen rund um Krebserkrankungen. Zu Recht? Das muss sich zeigen. US-Forscher sind der Frage nachgegangen, welche Qualität diese Informationen wirklich haben. Das Wichtigste aus zwei aktuellen Studien.
Eine Arbeitsgruppe an der New York University School of Medicine hat sich mit Anfragen, wie sie Patienten an Suchmaschinen stellen, befasst. Im Fokus standen häufige Krebserkrankungen, nämlich Haut-, Brust-, Lungen-, Darm- und Prostatakrebs. Die Suchdaten wurden aus öffentlich zugänglichen Quellen wie Google Trends extrahiert.
Mit identischen Anfragen fütterten die Wissenschaftler dann ChatGPT Version 3.5 (OpenAI), Perplexity (Perplexity.AI), Chatsonic (Writesonic) und Bing AI (Microsoft). Die Qualität der Ausgaben bewerteten sie mit dem DISCERN-Instrument. Seine Skala reicht von 1 Punkt (niedrige Qualität) bis zu 5 Punkten (hohe Qualität). Als Möglichkeit zur Quantifizierung der Verständlichkeit und Umsetzbarkeit dieser Informationen kam das Patient Education Materials Assessment Tool (PEMAT) zum Einsatz. Hier reichen die Werte von 0 Prozent bis 100 Prozent, wobei größere Zahlen ein höheres Maß an Verständlichkeit und Umsetzbarkeit signalisieren. Zu den sekundären Ergebnissen gehörten falsche Informationen, die anhand der Likert-Skala bewertet wurden. Sie reicht von 1 (keine Fehlinformationen) bis 5 (zahlreiche Fehlinformationen). Wie verständlich KI-Ausgaben waren, bewerteten die Forscher mit dem Flesch-Kincaid Grade Level Readability Score. Hier entsprechen 30 bis 50 Punkte Texten, die nur mit höheren Schulabschlüssen zu erfassen sind. 70 bis 80 Punkte entsprechen allgemeinverständlichem Content.
Die Analyse umfasste 100 Antworten der Chatbots zu den häufigsten Suchanfragen für häufige Krebsarten. Die Qualität der Textantworten war gut bei einem mittleren DISCERN-Score von 5. Inhaltlich falsche Ausgaben, bewertet anhand der Likert-Skala, gab es nicht. Nur die Verständlichkeit erwies sich als eher mäßig (PEMAT: 66,7 %). Noch schlechter war die Umsetzbarkeit der Informationen (PEMAT: 20 %). Antworten wurden laut Flesch-Kincaid Grade Level Scores meist auf College-Niveau ausgegeben. „Die Ergebnisse […] legen nahe, dass KI-Chatbots eine genaue und zuverlässige ergänzende Ressource für medizinische Informationen sind“, schreiben die Autoren. „Aber sie sind teils schwer lesbar und sollten Ärzte bei individuellen Gesundheitsfragen nicht ersetzen.“
Einen anderen Fokus hatten Wissenschaftler der Harvard Medical School in Boston. Sie entwickelten verschiedene Eingabeaufforderungen für Behandlungsempfehlungen bei 26 verschiedene Krebsarten. Das waren insgesamt 104 Fragen an ChatGPT. Die Ausgaben verglichen Onkologen mit Therapieempfehlungen des National Comprehensive Cancer Network (NCCN).
Laut Studie lieferten Chatbots für 102 von 104 (98 %) Eingabeaufforderungen mindestens eine Empfehlung zur Therapie. Alle Textausgaben der KI enthielten auch mindestens eine NCCN-konforme Behandlung. Schön und gut. Nur war in 35 von 102 (34,3 %) der KI-generierten Resultate mindestens eine nicht leitliniengerechte, aber zumindest denkbare Therapie. 13 von 104 Antworten (12,5 %) bezeichnen die Autoren sogar als „Halluzinationen“, also Therapien, die Ärzte keineswegs empfehlen. „Entwickler sollten Verantwortung dafür übernehmen, Technologien zu verbreiten, die keinen Schaden anrichten“, heißt es im Artikel. Ärzte und Patienten sollten sich der Grenzen moderner Technologien bewusst sein.
In einem begleitenden Editorial schreibt Atul Butte von der University of California, die GPT-Technologie sei momentan noch kein verlässlicher klinischer Partner. Allerdings kämen die untersuchten Tools „von der Stange“; sie enthielten wohl kaum spezifische Datensätze für medizinische Fragen. Genau dies hätten neue Chatbots wie Med-PaLM 2 von Google mit an Bord. Für die Zukunft fordert der Editorialist, KI-Tools sollten mit Daten der besten Zentren geschult werden mit dem Ziel, alle Patienten bestmöglich zu behandeln.
Quellen
Alexander Pan et al.: Assessment of Artificial Intelligence Chatbot Responses to Top Searched Queries About Cancer, JAMA Oncology (2023). DOI: 10.1001/jamaoncol.2023.2947.
Shan Chen et al.: Use of Artificial Intelligence Chatbots for Cancer Treatment Information, JAMA Oncology (2023). DOI: 10.1001/jamaoncol.2023.2954.
Atul J. Butte: Artificial Intelligence—From Starting Pilots to Scalable Privilege, JAMA Oncology (2023). DOI: 10.1001/jamaoncol.2023.2867.
Bildquelle: Maximalfocus, Unsplash