Mancher Arzt hat Angst, irgendwann von einer KI ersetzt zu werden. Wir haben nachgefragt: Was bringen die Tools in der Radiologie – und wo geht die Reise hin?
Ein Arzt betrachtet das Röntgenbild von der CD, die sein Patient am Empfang der Praxis abgegeben hat. Er kann es nicht genau festlegen, aber irgendetwas an diesem Bild kommt ihm komisch vor. Er sieht die trabekuläre Struktur im Beckenknochen des Patienten, schaut sich die beiden Hüftgelenke an – etwas ist anders als sonst, irgendwie erscheint ihm das Bild nicht schlüssig. Das kann einfach nicht die Hüfte des Patienten sein.
Von DALL-E erzeugtes Röntgenbild.
Könnte es bald wirklich so ablaufen, dass Ärzte sich nicht mehr sicher sein können, ob sie ein echtes Röntgenbild vor sich haben oder eines, das von einer künstlichen Intelligenz erzeugt wurde?
Deep-Learning-Modelle wie DALL-E 2 haben in letzter Zeit mit ihrer Fähigkeit, auch fotorealistische Bilder aus kurzen Texteingaben zu erzeugen, großes Interesse erlangt. Für Laien erscheinen die Bilder jetzt schon täuschend echt, vor Kurzem führte ein vermeintliches Foto des Papstes viele in die Irre. Ist es also nur eine Frage der Zeit, bis sogar Experten getäuscht werden?
Dr. Keno Bressem forscht hierzu an der Berliner Charité und in Harvard und hat mit seinem Team untersucht, ob sich die Fähigkeiten von DALL-E 2 auf den medizinischen Bereich übertragen lassen. DALL-E 2 wurde mit Milliarden von Text-Bild-Paaren aus dem Internet trainiert und kann diese auch kombinieren, um völlig neue Bilder zu erstellen. Die Forscher wollten herausfinden, wie gut die KI Röntgen-, Computertomographie- (CT), Magnetresonanztomographie- (MRT) und Ultraschallbilder erstellen und manipulieren kann. Dabei lernten sie viel darüber, was sie aktuell leisten kann – und was nicht.
Sie ließen DALL-E 2 hierfür versuchsweise Röntgenbilder von Kopf, Brust, Schulter, Abdomen, Becken, Hand, Knie und Knöchel erstellen. „Die Farbgebung der Bilder und die allgemeine Struktur der Knochen erschienen realistisch und die anatomischen Aussagen waren insgesamt korrekt“, schreiben sie in ihrem Artikel. Das ließe auf das Vorhandensein grundlegender Konzepte der Röntgenanatomie schließen. Bei näherer Betrachtung fiele jedoch auf, dass die trabekuläre Struktur des Knochens eher willkürlich sei und nicht dem Verlauf der mechanischen Belastung folge, wie es bei echten Röntgenbildern der Fall ist. „Manchmal fehlten kleinere Knochen, wie das Wadenbein in mehreren Röntgenaufnahmen des Knies, oder mehrere Hand- oder Fußwurzelknochen waren zu einem Knochen verschmolzen.“ In seltenen Fällen seien außerdem zusätzliche Knochen und Gelenke erzeugt worden, wie z. B. ein zusätzlicher Zeigefinger in einem Röntgenbild der Hand. Besonders Gelenke schienen der KI noch schwerzufallen.
Könnten Ärzte schon jetzt mit einem KI-erzeugten Röntgenbild getäuscht werden? „Nein“, sagt Bressem im Interview mit DocCheck. „Die Auflösung von DALL-E ist noch relativ begrenzt, dadurch ist die Detailschärfe auch noch nicht vergleichbar mit echten Röntgenbildern. Wenn ich jetzt nur eine kleine Abbildung irgendwo habe, wie ein Thumbnail, dann könnte man es nicht unbedingt erkennen. Aber spätestens im größeren Format erkennt man das schon.“ Auch hätten die KI-Bilder ein gewisses Aussehen. „Die sind ein bisschen wie weichgezeichnet oder poliert – das ist momentan quasi noch wie ein KI-Stil, den man einfach erkennt.“
Von DALL-E erzeugtes Röntgenbild mittels Outpating. Auf Grundlage einer BWS-Zielaufnahme hat die KI den Thorax drumherum erzeugt.
„Was ganz gut klappt, sind Röntgenbilder mit Normalbefunden“, sagt Bressem. „Das macht auch Sinn, wenn man sich anschaut, wie DALL-E trainiert wurde: mit Röntgenbildern, die frei im Internet verfügbar sind. Und die meisten Röntgenbilder, die man online findet, sind Normalbefunde.“ Wobei es momentan noch hake, seien Bilder von pathologischen Befunden. „Das geht bisher nur sehr sehr limitiert. Es gibt auch viel weniger Bilder von den einzelnen Pathologien, mit der die KI trainiert werden könnte. Es gibt ja im Internet nicht zehntausend Röntgenbilder, die einen bestimmten Typ der Radiusfraktur zeigen.“
Noch mehr schwächelt die KI wohl bisher bei dreidimensionalen Bildern. „CT-, MRT- oder Ultraschallbilder haben wir auch versucht, zu erzeugen. Da hat zwar der allgemeine Look gestimmt, aber die waren nicht realistisch.“ Was den Forschern auffiel: Beim Ultraschall erinnerte jedes Bild an einen Uterus bzw. ein Bild aus einem Schwangerschafts-Ultraschall. „Davon findet man einfach im Netz die meisten Bilder“, so Bressem. Die Ergebnisse waren ein gutes Abbild der Inhalte, die das Netz bietet. „Wir hatten z. B. mal ein Thorax-Bild, wo so ein symbolisches Herz abgebildet war. Das hat stark erinnert an diese Abbildungen, die man häufig sieht, im künstlerischen Stil mit Herz. Sowas lernt die KI dann natürlich auch.“
Bressems Fazit: Aktuell lassen sich Modelle wie DALL-E noch nicht sinnvoll in der Medizin nutzen. „Wir wollten eher herausfinden: Was hat die KI bisher gelernt? Also wenn ich ihr eine Hand zeige, wird dann der Unterarm mit logischen Proportionen erzeugt oder wird der viel zu lang oder viel zu kurz? Das hat eigentlich schon ganz gut geklappt.“ Vielleicht könnte man also bald schon fehlende Teile eines Röntgenbildes über die Bildränder hinaus von einer KI generieren lassen. Auch einen Einsatz zu Lehrzwecken findet Bressem realistisch. „Es wäre praktisch, wenn man Bilder zu Lehrzwecken erzeugen könnte, mit z. B. einer bestimmten Pathologie. Wenn ich Studenten einen Spannungspneumothorax oder ein hepatozelluläres Karzinom zeigen möchte, dann könnte ich dafür ein Bild generieren.“
Auch werde der Einsatz im Training von Deep-Learning-Modellen diskutiert, so der Experte. „Wobei ich mich dann aber frage: Was ist zuerst da? Sehr gute Deep-Learning-Modelle zur Klassifikation, die mit den Bildern funktionieren, die wir haben oder haben wir zuerst sehr gute Bilder, die genau die Daten erzeugen, die wir anschließend wieder für die Verbesserung der Klassifizierung verwenden können? Das wird sich dann zeigen.“
Wie also wird die Reise für die Radiologie und die Verwendung von KI weitergehen? „Mit Stable Diffusion gibt es schon eine Arbeit aus Stanford, wo sie mit Textual Inversion gearbeitet haben. Das ist eine Technik, mit der man dem Modell anhand weniger Beispiele neue Bildkonzepte beibringen kann, wie z. B. das Aussehen eines Pleuraergusses. Die Arbeitsgruppe hat damit schöne Röntgenaufnahmen von Pathologien erzeugen können. Das ist ein sehr spannendes Projekt gewesen.“
Aktuell forsche er selbst aber eher an Sprachmodellen und wie sie in der Medizin in Zukunft eingebunden werden könnten. „Wir haben in den letzten Wochen einen Fortschritt gemacht im Bereich KI, wo man vor einiger Zeit noch angenommen hätte, dass das noch zehn oder zwanzig Jahre dauert. Man kann also überhaupt nicht sagen, an welchem Punkt wir in einigen Jahren sein werden“, sagt Bressem.
Er rät allen Ärzten, sich mit dem Thema zu beschäftigen. „Meiner Meinung nach sollten Ärzte offen dem Thema gegenüber bleiben, die Entwicklung verfolgen und versuchen, auch einige Erfahrung in der Anwendung zu sammeln. Sehr wahrscheinlich wird es so sein, dass wir irgendwann die KI im Alltag anwenden müssen – und das auch vorausgesetzt wird. Schließlich kann sie uns auch viel produktiver machen. Es wird dann so sein, wie man es in vielen Bereichen prognostiziert: Die KI wird uns Ärzte nicht ersetzen, aber Ärzte, die KI anwenden können, werden irgendwann Ärzte ersetzen, die sie nicht anwenden.“
Man solle sie eher als Hilfsmittel verstehen. „Die KI kann momentan noch nicht so gut Medizin wie Ärzte – ganz klar. Sie kann aber andere Sachen deutlich besser. GPT4 schafft z. B. das amerikanische Jura-Examen.“ Bei der momentanen Geschwindigkeit könne man aber nicht genau sagen, wo wir in ein paar Jahren stehen. „Ich bin der Meinung, wir sind da gerade in einem Umbruch – jedenfalls fühlt es sich für mich so an.“
Bildquelle: Félix Lam, unsplash