Ein simuliertes Krankenhaus: Virtuelle Ärzte behandeln virtuelle Patienten mit einer diagnostischen Genauigkeit von über 90 Prozent – und bestehen sogar reale Prüfungen mit Bestnote. Was nach Sci-Fi klingt, ist in China schon Realität.
Künstliche Intelligenz gewinnt in der Medizin an Bedeutung. Nur gibt es bei der Entwicklung solcher Tools ein großes Problem: Um Diagnosen zu stellen und Therapieentscheidungen zu treffen, benötigen KI-Systeme riesige Mengen an medizinischen Daten – sorgfältig aufbereitet und manuell annotiert – um daraus zu lernen. Bei der Annotation kennzeichnen Radiologen etwa in Röntgenbildern Auffälligkeiten wie Tumore. Das kostet Zeit und Geld.
Forscher aus China gehen einen völlig neuen, einfacheren Weg. Mit „Agent Hospital“ haben sie ein virtuelles Krankenhaus geschaffen. Alle Rollen von Patienten über Pflegekräfte bis hin zu Ärzten sind autonome Agenten, die auf Large Language Models (LLMs) basieren. Diese LLMs – auf denen auch Anwendungen wie ChatGPT basieren – sind in der Lage, menschenähnliche Sprache zu erzeugen und zu interpretieren.
Die Autoren nennen ihr System „Simulacrum-based Evolutionary Agent Learning“ (SEAL). In einer virtuellen Welt wird der gesamte Behandlungszyklus realistisch nachgebildet: vom Auftreten erster Symptome über Triage, Diagnose und Therapie bis hin zur Nachsorge.
Ein Beispiel: Der Agent (Patient) Kenneth Morgan fühlt sich unwohl und geht ins ins KI-Krankenhaus. Dort wird er zunächst von der Triage-Krankenschwester Katherine Li untersucht, die seine Symptome bewertet und ihn an die dermatologische Abteilung überweist. Nach der Anmeldung am Empfang erhält Mr. Morgan einen Termin beim Facharzt Dr. Robert Thompson. Dieser führt eine gründliche Untersuchung durch, stellt eine Diagnose und verordnet die passende Medikation. Anschließend kehrt Mr. Morgan nach Hause zurück und kann genesen.
© Junkai Li et al., CC-BY 4.0
Besonders innovativ ist dabei die Art der Datenerstellung: Statt aufwendig manuell annotierte Patientendaten einzulesen, generiert SEAL die nötigen Informationen – etwa Krankheitsverläufe, Untersuchungsergebnisse oder Symptome – automatisch mithilfe großer Sprachmodelle. Diese greifen dabei auf medizinische Datenbanken zurück. Das spart nicht nur Zeit, sondern macht die Entwicklung medizinischer KI deutlich effizienter. Trainingsdaten mit manuellem Labelling sind nicht erforderlich.
In dieser Umgebung lernen Ärzte-Agenten durch Interaktion mit simulierten Patienten. Sie lesen medizinische Fachtexte, stellen Diagnosen, treffen Therapieentscheidungen – und entwickeln sich weiter. Erfolgreiche Behandlungsverläufe werden in einer Falldatenbank gespeichert. Fehler hingegen fließen in eine Erfahrungsdatenbank ein, aus der Regeln zur Vermeidung künftiger Fehlentscheidungen abgeleitet werden. Damit orientiert sich das System am Lernprozess von Ärzten in der Facharzt-Ausbildung.
Zum Trainingsstart konzentrierten sich die Forscher auf häufige Atemwegserkrankungen, darunter COVID-19, Influenza und Asthma. So entsteht ein lernfähiges System, das medizinisches Wissen aus Datenbanken zunehmend eigenständig erschließt.
Bereits nach der Behandlung von 10.000 simulierten Patienten erreichte der KI-gestützte Arzt-Agent eine Diagnosegenauigkeit von 95,6 %. Auch bei der Auswahl der passenden Therapie überzeugte das System mit einer Trefferquote von 77,6 %. Zum Vergleich: Ein menschlicher Arzt bräuchte mehrere Jahre, um auf eine vergleichbare Fallzahl und damit auf einen ähnlichen Erfahrungsstand zu kommen. In der Simulation genügen dafür wenige Tage.
Doch lässt sich Wissen aus einer virtuellen Simulation tatsächlich auf die reale Welt übertragen? Ja: Nach dem Training im Agent Hospital wurde der Arzt-Agent mit Fragen aus einem Multiple-Choice-Test auf dem Niveau von medizinischen Zulassungsprüfungen getestet. Er erzielte eine beeindruckende Genauigkeit von 93,06 % und schnitt damit besser ab als viele menschliche Absolventen. Und das, ohne jemals Zugriff auf die Originalfragen oder deren Lösungen gehabt zu haben.
Die in der Simulation gesammelten Erfahrungen reichen ebenfalls aus, um reale medizinische Entscheidungen zu treffen. Allein die Kombination aus verallgemeinerten Erfahrungsregeln und konkreten Fallbeispielen versetzte den Arzt-Agenten in die Lage, Symptome echter Patienten richtig zu deuten, die korrekte Diagnose zu stellen und eine geeignete Therapie vorzuschlagen.
Trotz aller Erfolge ist das System noch nicht ausgereift. Aktuell basiert Agent Hospital auf GPT-3.5, was sowohl die Geschwindigkeit als auch die Tiefe der Interaktionen einschränkt. Zudem konzentriert sich die Simulation auf Atemwegserkrankungen. Künftig soll der medizinische Anwendungsbereich um Fachgebiete wie Kardiologie oder Onkologie erweitert werden.
Die Forscher planen auch, komplexere Aspekte des Klinikalltags in der Simulation zu berücksichtigen. Dazu gehören Karrierewege von Ärzten, der Umgang mit Epidemien oder das Management begrenzter medizinischer Ressourcen. Darüber hinaus planen die Entwickler, soziale Dynamiken innerhalb des Krankenhauses zu modellieren, etwa Teamstrukturen, Kommunikationsprozesse oder hierarchische Abläufe, um die virtuelle Umgebung noch realistischer zu gestalten.
Schon jetzt zeigt das Projekt, dass selbstlernende Systeme nicht zwingend auf große, manuell annotierte Datensätze angewiesen sind – stattdessen können sie durch strukturierte Erfahrungen in einer kontrollierten Umgebung erstaunlich schnell medizinische Kompetenz entwickeln. Solche Tools könnten früher oder später eine Grundlage für Assistenzsysteme werden.
Quelle
Li et al.: Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents. ArXiv, 2025. doi: https://arxiv.org/abs/2405.02957
Bildquelle: Mohamed Nohassi, Unsplash