Dr. med. Halluzinationen: Warum LLMs keine Differenzialdiagnosen können

Dr. med. Halluzinationen: Warum LLMs keine Differenzialdiagnosen könnenDass Ärzte heutzutage KI für ihre Tätigkeit nutzen, kommt immer häufiger vor. Eine neue Umfrage der American Medical Association zeigt, dass ca. 81% der befragten Ärzte KI in ihrem Beruf nutzen, ein Anstieg von über 250% im Vergleich zu 2023. LLMs klingen zwar leider extrem überzeugend und emphatisch, aber für die Medizin braucht es kein Sprachgefühl, sondern Faktenwissen.Warum LLMs bei Diagnosen scheitern
Grundlegend sind LLMs wie GPT oder Claude einfach nur "stochastische Papageien". Das Einzige, was sie können, ist die Wahrscheinlichkeit des nächsten Wortes abzuschätzen, basierend auf den Daten, mit denen das Modell trainiert wurde. Genau dort liegt das Problem: LLMs basieren rein auf Wahrscheinlichkeiten und besitzen keinerlei logisches Denken.Differentialdiagnosen basieren grundlegend auf dem systematischen Ausschließen von Erkrankungen. Dabei muss der Aussagewert der Symptome abgeschätzt werden, z.B. durch die Unterteilung in Allgemeinsymptome und pathognomonische Symptome. Zudem müssen die lebensbedrohlichen Verläufe als Erstes ausgeschlossen und Muster erkannt werden, auch abseits von statistischer Häufigkeit.Genau dort entsteht das Problem: KIs nennen die wahrscheinlichsten Wörter. DDs werden allerdings auch gemacht, um seltene Erkrankungen zu diagnostizieren, und vor allem solche sind in den Trainingsdaten oft sehr unterrepräsentoert oder gar nicht erst vorhanden. Wenn diese Informationen nicht vorhanden sind, sucht die KI sich einfach das nächstwahrscheinlichste Wort aus. Vor allem im medizinischen Kontext kann dies oft fatale Folgen haben: Symptom-Verknüpfungen, die nicht existieren, Studien, die es nie gab, und Behandlungen, die nicht angemessen sind.Eine Studie aus dem Januar 2026 zeigt genau dieses Phänomen: 22,2% aller Entscheidungen der KI-Modelle waren falsch und wurden trotzdem unkritisch angenommen. Im klinischen Kontext könnte dies die falsche Behandlung des Patienten bedeuten, resultierend in permanenten Schäden oder sogar dem Tod.Was sind medizinische Ontologien und wie könnten sie dieses Problem lösen?
Eine Ontologie bzw. ein Wissensgraph ist ein digitales, strukturiertes Netz, in diesem Fall aus medizinischen Fakten wie Symptomen, Erkrankungen, Behandlungen etc. und deren Beziehung zueinander.Ein Beispiel für solch eine Wissensdatenbank ist z.B. der ICD-10 oder SNOMED. Die Daten liegen hier strukturiert vor: es gibt einen Knotenpunkt, welcher fest weiterverbunden ist. Bei der Diagnose "Akuter Myokardinfarkt, nicht näher bezeichnet" (I21.9) lässt sich diese Einteilung z.B. gut erkennen: I21.9 ist eine Diagnose, die mit I21 ("Akuter Myokardinfarkt") verbunden ist, welche wiederum unter I20-I25 ("Ischämische Herzkrankheiten") liegt. In diesem Beispiel gibt es keinen Spielraum für Wahrscheinlichkeiten, eine Verbindung existiert entweder oder sie existiert nicht.Während LLMs auf Korrelation vertrauen (also das häufige gemeinsame Auftreten von Wörtern), basieren Ontologien auf Kausalität und Logik.Symbiose von LLMs und Ontologien
Die Frage ist ganz klar nicht mehr, ob wir KI in der Medizin nutzen sollten, sondern wie wir KI für die Nutzung in der Medizin sicher machen können.Genau dort kommt die Retrieval-Augmented Generation (RAG) ins Spiel. RAG basiert genau auf diesem Konzept: ein LLM an eine medizinische Datenbank, die Ontologie, zu verknüpfen. In diesem Fall lassen wir die KI nicht mehr mithilfe von Wahrscheinlichkeiten diagnostizieren, sondern aufgrund der digitalen "Fachbibliothek". Ein Arzt gibt Symptome ein und das System gleicht diese strikt mit der Wissensdatenbank ab, um logische DDs zu filtern. Nun wird das LLM nur noch benutzt, um diese geprüften Fakten in eine flüssige und lesbare Sprache zu übersetzen.Der Vorteil von solch einem System ist, dass die Sprachgewandheit des LLMs erhalten bleibt, aber das Halluzinationsrisiko massiv sinkt, da das Modell keine Fakten mehr selbst generieren darf, sondern diese nur noch abruft.Fazit und Ausblick
Es lässt sich ganz klar sagen, dass reine LLMs für Differenzialdiagnosen absolut ungeeignet sind und letale Folgen haben können. Erst die Kombination aus einem Sprachsystem (also einem LLM) und einer Wissensdatenbank mit logisch verknüpften Fachwissen schafft ein echtes klinisches Assistenzsystem.Aktuelle KIs werden Ärzte nicht bei der DD ersetzen. Aber der Arzt, der in der Zukunft auf KI-Applikationen gestützt von medizinischen Datenbanken vertraut, wird langfristig die Ärzte ersetzen, die sich weigern, solche Systeme zu verwenden.