Ist der Computer der bessere Arzt? Es gibt bereits Algorithmen, die Bilddaten zuverlässig auswerten. Allerdings muss der Arzt deren Grenzen kennen, denn die KI macht vor allem einen Fehler gerne.
Es soll ja Ärzte geben, die in der Digitalisierung der Medizin nicht unbedingt einen Fortschritt sehen. Andererseits geistern durch Presse und soziale Medien Buzzwords wie „KI“ und „Deep Learning“. Manch eine Titelzeile suggeriert, dass der Computer bald schon der bessere Arzt sei – gerade beim Beurteilen der Bilddaten von Pathologen, Dermatologen und Radiologen. Was aber kann eine KI tatsächlich zum Wohl des Patienten beitragen?
Wenn von einer Künstlichen Intelligenz oder KI die Rede ist, meint man heute meist eine selbstlernende Software, die als ein künstliches neuronales Netz programmiert ist. Künstliche neuronale Netze versuchen, biologische Neuronennetze in vereinfachter Form nachzubilden. Die Gewichtungen der einzelnen virtuellen Synapsen verändern sich, während die Software lernt.
So könnte man dem neuronalen Netz Fotos von Hautflecken zeigen, die entweder als „gutartiges Muttermal“ oder „Melanom“ klassifiziert sind. Beim Training verändert das neuronale Netz solange die einzelnen Gewichtungen, bis für möglichst viele Trainingsfotos als Output die korrekte Klassifikation herauskommt. Im nächsten Schritt gibt man der Software Testdaten, die im Training nicht zum Einsatz kamen. Nur wenn die KI auch solche ihr bislang unbekannten Bilder zuverlässig zuordnet, kommt ein Einsatz für die Diagnostik überhaupt in Frage.
Ergebnisse zu genau solchen Experimenten haben im Frühjahr 2019 Heidelberger Forscher vom DKFZ und vom Nationalen Tumorzentrum in Kooperation mit verschiedenen Unikliniken veröffentlicht. Die Autoren hatten eine KI mit mehr als 12.000 dermatoskopischen Bilddaten trainiert. Auf den Bildern zu sehen war entweder ein Muttermal oder ein Melanom. Die Forscher wollten wissen, ob die trainierte KI oder ausgebildete Dermatologen beim Beurteilen dermatologischer Fotos besser abschneiden.
Die Testdaten sollten dabei den Kategorien „Muttermal“ und „Melanom“ zugeordnet werden. Für die Auswertung hatten die Autoren Experimente mit 157 Ärzten aus zwölf deutschen Unikliniken berücksichtigt. Das Ergebnis: Gegen 136 der Dermatologen schnitt die KI besser ab. Dabei war der Computer sowohl bei der Spezifität als auch der Sensitivität meistens besser als der Mensch.
In einer kurz zuvor veröffentlichten ähnlichen Studie mit denselben Erst- und Seniorautoren hatten die Forscher bereits berichtet, dass eine KI beim Erkennen von Melanomen auf Augenhöhe mit Dermatologen abschneidet. Im Diskussionsteil dieser Arbeit räumen sie jedoch ein, dass die Trainings- und Testdatensätze größtenteils von hellhäutigen Probanden stammen. Zudem habe man Bilder verwendet, wie man sie „typischerweise in der klinischen Praxis“ sehe. Bilder aus demselben Datenpool waren aber auch in der erstgenannten Studie fürs Training verwendet worden.
Mit diesen Fakten im Hinterkopf relativiert sich manch eine spektakuläre Titelzeile. Denn eine KI kann immer nur so gut sein wie die Daten, mit denen sie trainiert wurde. Weiß der Arzt um diese Grenzen, kann er die Algorithmen ganz gezielt nutzen – zum Beispiel, um die Haut eines mitteleuropäischen hellhäutigen Patienten zu analysieren. Auf die Erfahrung und das Knowhow des menschlichen Dermatologen kann man folglich nicht verzichten.
Problematisch ist der Einsatz einer KI hingegen, wenn die Trainingsdaten einem Bias unterliegen, dem sich weder die Entwickler noch die Nutzer der Software bewusst sind. Ziad Obermeyer und Kollegen sind auf solch einen voreingenommenen Algorithmus gestoßen. In den USA kommt eine Software zum Einsatz, um den Umfang medizinischer Hilfe zu prognostizieren, den Patienten benötigen. In ihrem in Science veröffentlichten Artikel stellen die Autoren fest: Bei Personen, denen die Software denselben Risiko-Score zuschreibt, befinden sich dunkelhäutige Patienten in Wirklichkeit in einem schlechteren Gesundheitszustand als hellhäutige. Sie bräuchten also eigentlich eine aufwändigere Behandlung.
Offenbar ist dieser Racial Bias auf eine Korrelation zwischen Gesundheitskosten und Hautfarbe zurückzuführen: Dunkelhäutige Menschen sind in den USA im Durchschnitt schlechter versorgt und verursachen dadurch weniger Kosten im Gesundheitssystem. Der Algorithmus aber wertet die Höhe der verursachten Kosten als Indikator für den Gesundheitszustand – der demnach bei dunkelhäutigen Menschen besser wäre. Solche Fehlschlüsse lauern überall, wo in komplexen Datensätzen nach statistisch auffälligen Zusammenhängen gefahndet wird. Doch da eine selbstlernende Software eigenständig nach Korrelationen sucht und daraus eine Datenausgabe (zum Beispiel einen Wahrscheinlichkeitswert) erzeugt, fallen Fehlschlüsse nicht unbedingt auf. Die Entwickler müssen also über etwaige Tücken innerhalb der Trainingsdaten genau Bescheid wissen.
„Nur durch eine gute Trainingskohorte kann eine KI hinterher auch zuverlässig funktionieren“, betont Pathologe Frederick Klauschen. An der Berliner Charité forscht er an computergestützten Systemen, um insbesondere Biomarker in Tumoren zu analysieren und so die jeweils optimale Therapie zu finden.
Seine Arbeitsgruppe hat vor kurzem in Kooperation mit anderen Instituten die Methylierungsmuster der DNA in Lungentumorzellen unter die Lupe genommen. Die Forscher wollen primäre Lungentumoren von Metastasen aus Kopf-Hals-Karzinomen unterscheiden – denn histologisch ähneln sich beide Tumortypen, obwohl sie unterschiedliche therapeutische Interventionen erfordern. Um die genomischen Daten zu den Methyl-Modifikationen der DNA auszuwerten und den Tumortyp zu ermitteln, haben die Forscher erfolgreich einen Algorithmus eingesetzt.
„Maschinelles Lernen wird uns in naher Zukunft bei Arbeiten unterstützen, die ein Computer besser kann“, ist sich Klauschen sicher. Dazu gehöre etwa das Auszählen von Zellen, Mustererkennung in Bildern oder eben die Analyse von Biomarkern sowie von proteomischen und genomischen Daten. „Da trifft die Maschine die präziseren und auch reproduzierbareren Entscheidungen – und der Arzt hat mehr Zeit für schwierige und komplexe Fälle.“
Ersetzbar sei der Mensch aber schon allein deshalb nicht, weil immer wieder neue Erkenntnisse in die Trainingsdaten einfließen müssen. „Dadurch ist die Präzision einer KI immer definiert durch das Expertenwissen dahinter“, führt Klauschen aus. Ginge die menschliche Expertise verloren, könne man auch keine neuen Zusammenhänge finden, um diese Erkenntnisse in neue Systeme zu integrieren. „Wir würden dann künftig auf ein und demselben Qualitätsstand stehenbleiben.“
Als weiteres großes Ressort für maschinelles Lernen gilt die Radiologie. Am Universitätsspital Zürich nutzt das Team um Andreas Boss bereits ein Computersystem, um die Dichte von Brustgewebe einzuschätzen. Die sogenannte b-box gibt sofort nach der Mammografie eine Empfehlung heraus, ob zusätzlich ein 3D-Ultraschall angefertigt werden sollte oder nicht.
„Für uns ist das eine Workflow-Optimierung“, erklärt Boss, „die b-box läuft in der täglichen Routine mit und wird von einer MTRA bedient.“ Ein zertifiziertes Medizinprodukt sei diese KI aber momentan noch nicht. „Auf jedes Bild schaut am Ende auch noch mal der Arzt drauf“, betont Boss und hält das auch künftig für notwendig. Dennoch sei die b-box sehr verlässlich und vor allem objektiv. „Wir wissen, dass die Wiederholbarkeit einer Brustdichte-Entscheidung bei einem Radiologen relativ schlecht ist“, verrät Boss, „denn wenn Sie demselben Radiologen eine Woche später dasselbe Bild zeigen, entscheidet er sich in 15 Prozent der Fälle anders“.
In einer Publikation von 2017 schreiben die Züricher ihrer b-box eine Zuverlässigkeit zu, die mit der von Radiologen vergleichbar ist. „Es geht uns nicht darum, dass eine KI besser sein muss als der Arzt“, stellt Boss klar. „Eine hyperparanoide Software, die zu jedem Bild Alarm schlägt, ist nicht hilfreich“, kommentiert Boss diese Gratwanderung zwischen Spezifität und Sensitivität. „Wenn die Software etwas anderes macht als der Radiologe, dann ist sie automatisch schon weniger nützlich.“
Tatsächlich können Deep-Learning-Algorithmen in komplexen Daten Muster erkennen, die uns Menschen verborgen bleiben. „Allerdings haben Sie bei solchen künstlichen neuronalen Netzen keine Chance, zu verstehen, warum der Algorithmus nun zu einer bestimmten Einschätzung kommt“, so Boss. Doch würde man der Diagnose eines Computers trauen, die sich überhaupt nicht nachvollziehen lässt? „Ich glaube, da hätten wir bei der Akzeptanz ein Problem“, glaubt Boss. „Der Patient wird immer genau wissen wollen, was zum Beispiel eine Krebsdiagnose rechtfertigt“, ergänzt er.
Dennoch gebe es Wege, KI so einzusetzen, dass der Mensch den Überblick behält. „Bei einer Brustkrebspatientin sehe ich in der Mammographie vielleicht eine spikulierte Weichteilläsion in Kombination mit auffälligem Mikrokalk“, denkt sich Boss ein typisches Beispiel aus. Anstatt nun eine KI zwischen „Krebs“ oder „nicht Krebs“ entscheiden zu lassen, könnte man auch zwei voneinander unabhängige KI-Systeme trainieren: Eines bewertet die Art der Läsionen, das andere System ermittelt einen Wert für den Mikrokalk.
„Indem Sie mehrere spezialisierte Modelle über ein und dasselbe Bild laufen lassen, bekommen Sie dann doch wieder nachvollziehbare Informationen, die Sie in ihrer Gesamtheit beurteilen können“, so Boss.
Bis die KI-Diagnostik Einzug in medizinische Leitlinien hält, dürfte noch eine Menge Forschung notwendig sein. Und man müsste sich auch auf gemeinsame Standards verständigen. Doch selbst dann hätte man lediglich Assistenzsysteme, die den Arzt mit einer Zweitmeinung unterstützen, nicht aber seine Erfahrung ersetzen.
Bei aller Objektivität und Reproduzierbarkeit: Bislang kann noch kein Computerprogramm auf die jeweils ganz persönliche Krankengeschichte eingehen und auch die individuelle Besonderheit des Patienten jenseits hochauflösender Fotos in die Therapieempfehlung einfließen lassen. Schließlich steckt hinter jeder Bildgebung und jeder Biopsie auch eine Biographie. Deshalb brauchen wir auch künftig Ärzte aus Fleisch und Blut.
Bildquelle: Adam Griffith, unsplash