Dr. ChatGPT wird immer mehr Teil der medizinischen Kommunikation – ob ihr wollt oder nicht. Doch beim Feingefühl ist noch Luft nach oben: Wer sich emotional oder falsch ausdrückt, wird schlechter beraten.
Sprachmodelle wie ChatGPT werden zunehmend in der klinischen Praxis eingesetzt – etwa zur Vor-Triage in Patientenportalen oder zur Formulierung medizinischer Empfehlungen. Eine Studie weist nun auf eine bislang unterschätzte Schwachstelle hin: Nicht-klinische Textmerkmale wie Rechtschreibfehler, Umgangssprache, fehlende Geschlechtsangaben oder übermäßige Leerzeichen können die Empfehlungen der KI signifikant verzerren.
Die Forscher manipulierten reale Patientennachrichten minimal, ohne dabei den klinischen Inhalt zu verändern. Getestet wurden u. a.:
Vier verschiedene Sprachmodelle – darunter GPT-4 – sollten dann auf Basis der veränderten Texte Empfehlungen abgeben: Ist eine Selbstbehandlung ausreichend? Wird ein Arztbesuch empfohlen? Muss eine diagnostische Maßnahme ergriffen werden?
In ihrer Einschätzung medizinischer Anfragen zeigten die Sprachmodelle systematische Verzerrungen – und das bereits bei kleinsten sprachlichen Abweichungen. Wiesen die Eingabetexte formale Schwächen wie Rechtschreib- oder Grammatikfehler auf, wurde in bis zu 9 % mehr Fällen zur Selbstbehandlung geraten. Besonders gravierend war der Einfluss emotional gefärbter oder bildhafter Sprache: Diese reduzierte die Wahrscheinlichkeit, dass das Modell ärztliche Hilfe empfahl, am stärksten.
Ein weiteres besorgniserregendes Ergebnis: Selbst wenn das Geschlecht der beschriebenen Person nicht ausdrücklich genannt wurde, erhielten weiblich codierte Patienten systematisch schlechtere Empfehlungen. Die Modelle sprachen ihnen seltener die Notwendigkeit professioneller medizinischer Versorgung zu – ein Hinweis auf tief verankerte Bias-Strukturen in der KI.
Im Gegensatz dazu blieben klinische Einschätzungen durch Menschen stabil, unabhängig von der sprachlichen Form. Das unterstreicht: KI reagiert auf Signale, die für menschliche Fachkräfte irrelevant sind – und reproduziert damit unbewusst gesellschaftliche Verzerrungen.
„Diese Ergebnisse belegen eindeutig, dass KI-Modelle vor dem Einsatz im Gesundheitswesen gründlich auditiert werden müssen“, betont Studienleiterin Prof. Marzyeh Ghassemi. Die Modelle seien für strukturierte Daten entwickelt worden, nicht für die heterogene, oft unklare Sprache echter Patienten. In der Konsequenz ist mehr Forschung nötig: Wie lässt sich die Robustheit von KI gegenüber sprachlicher Varianz verbessern? Wie können vulnerable Patientengruppen besser geschützt werden?
Bildquelle: Possessed Photography, Unsplash