Sind generative KI-Systeme die besseren Mediziner*innen? Eine neue Studie zeigt: Was die Diagnose und Therapievorschläge angeht, nehmen es die neuesten Modelle mit den besten Fachleuten auf. Was aber nicht heißt, dass der Mensch abgehängt ist. Die kurze Historie der KI-Forschung zeigt: Ein neues Level wird dann erreicht, wenn Mensch und Maschine kooperieren. Das gilt auch für die Medizin – wobei hier zwei Menschen involviert sind: Ärzt*in und Patient*in. Ein Essay von André Boße
Man sollte vorsichtig sein, wenn es in der Headline eines Artikels heißt, bei dieser oder jener speziellen Tätigkeit sei die Technik dem Menschen ab jetzt hoffnungslos überlegen. Denn was den Menschen auszeichnet, ist die Eigenschaft, kein Fachidiot zu sein. Sondern die Fähigkeit zu besitzen, sein Wissen immer wieder anzupassen und flexibel anzuwenden. Ein Beispiel: 2019 ging die Nachricht durch die Medien, eine Künstliche Intelligenz habe erstmals den Weltmeister im Brettspiel Go besiegt. Das war eine Besonderheit, da Go deutlich komplexer als Schach ist und man lange der Auffassung war, ein Spiel mit so vielen Handlungsoptionen sei für eine Künstliche Intelligenz nicht durchschaubar. Der Tenor der Berichterstattung von damals: Dies ist ein Paradigmenwechsel, der zeigt, dass die KI bei taktischen Denkspielen den Menschen abhängt.
Mensch schlägt zurück
2023 erschein eine weitere Meldung zu diesem Thema, verbreitet in deutlich weniger Medien, was schade ist, denn der Nachrichtenwert ist mindestens genauso hoch: Dem US-Amerikaner Kevin Pellrine war es gelungen, 14 von 15 Go-Partien gegen die beste KI für dieses Spiel mit dem Namen KataGo zu gewinnen, so berichtete es zum Beispiel die Computerwoche. Seine Strategie: Er stellte der KI eine Falle, in dem er eine Reihe von Scheinangriffen initiierte, sodass KataGo ab einem bestimmten Punkt nicht mehr wusste, was der menschliche Spieler wirklich vorhat.
Nächster Schritt: Quanten-Computing
Quanten sind Teilchen, die unsere Vorstellungskraft sprengen. Weil sie nicht nur einen Zustand besitzen, sondern zeitgleich alle möglichen Zustande. Anders als ein digitales Bit, das entweder 0 oder 1 sein kann, kann ein QuBit sowohl 0 als auch 1 als auch alle Zustände dazwischen sein. Eine Eigenschaft, die einen auf QuBits basierenden Quantencomputer zu einer Maschine mit gigantischer Rechenleistung macht. Solche Computer gibt es bereits. Sie sind riesig, überaus sensibel und kaum zu bezahlen. Weshalb sie auch in Zukunft eher keine Personal Computer sein werden, sondern als Zentralrechner eingesetzt werden, um in bestimmten Bereichen überaus komplexe Probleme zu knacken. Hier kommt auch die Medizin ins Spiel: Der Pharmakonzern Boehringer Ingelheim kooperiert mit Google, um insbesondere bei der Simulation von Molekülen voranzukommen – einer grundlegenden Technik für die Entwicklung von Medikamenten. Laut des Pharma-Unternehmens besitzen Quantencomputer das Potenzial, viel größere Moleküle als derzeit möglich genau zu simulieren und zu vergleichen. „Dadurch“, so heißt es im News- Bereich des Konzerns, „ergeben sich neue Möglichkeiten für pharmazeutische Innovationen und Therapien für ein breites Spektrum an Krankheiten.“
Ein Experte vermutete, die KI sei mit dieser Taktik deshalb nicht klargekommen, weil ein so erratisches Spiel in den Trainingsdaten nicht vorgekommen sei. Wobei, so viel hat Pellrine verraten, er sich als menschlicher Spieler auch selbst von einer Künstlichen Intelligenz helfen ließ: Eine Company hatte ihm ein KI-System zur Verfügung gestellt, mit dessen Hilfe er im Vorfeld vermutliche Schwächen von KataGo identifizierte. Das Beispiel belegt, was auch viele KI-Expert*innen bestätigen: KI ist ein Teamspiel. Das beste Ergebnis lässt sich dann erzielen, wenn der Mensch mit der Maschine kooperiert.
Generative KI der bessere Augenarzt?
Im April 2024 meldeten verschiedene wissenschaftliche und medizinische Nachrichtenportale folgende Schlagzeile: „Stu die: GPT-4 übertrifft viele Ärzte bei der Beurteilung von Augenproblemen“, so hieß es beim Online-Dienst Heise. Wieder so eine Schlagzeile – und auch hier lohnt es sich, genau hinzuschauen. Erstellt wurde die Studie von Forscher*innen der Universit.t Cambridge, die .Überschrift über der Zusammenfassung der Studienergebnisse, zu finden auf der Homepage der Uni, liest sich sogar noch deutlicher, als die Headline beim Online- Dienst Heise: „Künstliche Intelligenz übertrifft Ärzte bei der genauen Beurteilung von Augenproblemen.“ Die KI steht hier für GPT-4, ein so genanntes „Large Language“-Modell (LLM), entwickelt von den KI-Spezialisten OpenAI.
Es handelt sich um ein generatives KI-System, sprich um eines, das eigene Inhalte erstellt, vornehmlich Texte, Sprache und Bilder. In der Medizin sorgte GPT-4 schon kurz nach dem Launch für Schlagzeilen: Eine Research-Gruppe des Softwareunternehmens Mircosoft (dessen KI-Dienst Pilot auf GPT-4 basiert) untersuchte das Modell auf sein medizinisches Fachwissen. Das Ergebnis veröffentlichte Microsoft im Research-Portal des Konzerns und verweist dabei auf den USMLE (United States Medical Licensing Examination), die dreistufige Prüfung, die man in den USA bestehen muss, um als .Ärztin oder Arzt tätig sein zu dürfen. „Unsere Ergebnisse zeigen, dass GPT-4, ohne spezielle Prompts, die Punktzahl für das Bestehen des USMLE um mehr als 20 Punkte übertrifft und sowohl frühere Allzweckmodelle (GPT-3.5) als auch Modelle, die speziell auf medizinisches Wissen abgestimmt sind, übertrifft.“ Heißt: GPT-4 besteht diese Prüfungen, ohne sich vorbereiten zu müssen. Ein Traum für jede Medizinerin, jeden Mediziner, der einmal fürs Physikum lernen musste.
Theorie hin oder her, auf die Praxis kommt es an. Die Forscher* innen wollten daher mit ihrer Untersuchung herausfinden, wie es um die medizinische Diagnosefähigkeit von GPT-4 aussieht. Das Studienmodell: Einer Gruppe von Ärzt*innen sowie der generativen KI wurden 87 Patientenszenarien mit jeweils einem spezifischen Augenproblem vorgelegt. Der Test umfasste, so heißt es im Studien-Design, Fragen zu einer Vielzahl von Problemen, darunter extreme Lichtempfindlichkeit, verminderte Sehkraft, Läsionen, juckende oder schmerzende Augen. Ein wichtiger Aspekt: Diese Problemstellungen entnahmen die Forscher*innen laut eigener Aussage einem medizinischen Lehrbuch, das für die Prüfung angehender Augenärzte verwendet wird, dessen Inhalte aber nicht im Internet frei zugänglich sind. Daher sei es, heißt es in der Zusammenfassung der Studie, „unwahrscheinlich, dass sein Inhalt in die Trainingsdatensätze des GPT-4 aufgenommen wurde“. Schließlich wird die generative KI fast ausschließlich mit digital verfügbaren Daten gefüttert. So ist davon auszugehen, dass GPT-4 nicht „gemogelt“ hat, in dem es sich im Vorfeld die Tests draufgeschafft hat.
In der menschlichen Gruppe befand sich die Bandbreite an Erfahrung und Spezialistentum, also sowohl nicht-spezialisierte Assistenzärzt*innen als auch Augenärzt*innen in der Ausbildung sowie ausgewiesene Fachexpert*innen. Alle hatten die Aufgabe, anhand der vorgelegen Problematik eine Diagnose zu stellen sowie eine Behandlung zu empfehlen. Das Ergebnis laut Studienzusammenfassung: GPT-4 habe in dem Test deutlich besser abgeschnitten als nicht spezialisierte sowie .ähnlich stark abgeschnitten wie Augenärzt*innen in der Ausbildung und Fachärzt*innen. Lediglich die leistungsstärksten Speazlist*innen hätten ein besseres Resultat erzielt als die generative KI.
It takes two
Wenn GPT-4 also nur von den Besten geschlagen werden kann – heißt das nun, das Ärzt*innen in diesem (und dann auch in anderen Feldern) nicht mehr benötigt werden? Vorsicht! Denken wir zurück an die Geschichte mit dem Go-Duell zwischen Mensch und KI. Auch da dachte man, der humanoide Spieler sei in Zukunft chancenlos. Das war er aber ab dem Moment nicht mehr, als er eine Kooperation mit der KI einging – und damit das spielerische Level des Teams erhöhte. Sprich: „It takes two“ – um wirklich stark zu sein, macht man es zu zweit. Ähnliche Schlüsse ziehen auch die Forscher*innen von der „School of Clinical Medicine“ der Universit.t Cambridge.
Generative KI wird nicht den Mensch ersetzen, sondern sie besitzt das Potenzial, die Gesundheitsversorgung als Teil des klinischen Arbeitsablaufs zu verbessern.
In der Studienzusammenfassung sagen sie eben nicht, dass die generative KI den Menschen ersetzen wird, sondern, dass sie „das Potenzial besitzt, die Gesundheitsversorgung als Teil des klinischen Arbeitsablaufs zu verbessern“. Und dass „Large Language“- Modelle wie GPT-4, die dem neuesten Stand der Technik entsprechen, nützlich sein können, um „augenbezogene Ratschl.ge, Diagnosen und Managementvorschl.ge in gut kontrollierten Kontexten zu geben, wie zum Beispiel bei der frühen Einstufung von Patienten oder dann, wenn der Zugang zu medizinischem Fachpersonal begrenzt ist.“
KI im Kampf gegen Krebs
2023 startete eine Kooperation zwischen dem Softwarekonzern Microsoft und Paige, einem Spezialisten für medizinische KI-Services. Ziel des Joint Ventures ist es, das weltweit größte bildbasierte KI-Modell zur Erkennung von Krebs zu entwickeln. Die Forscher hofften, dass das Modell helfen wird, mit Personalknappheit und wachsenden Fallzahlen klarzukommen, heißt es in der Pressemitteilung von Microsoft. Das KI-Modell werde mit einer gigantischen Datenmenge trainiert, die Milliarden von Bildern umfasst, heißt es weiter. Es könne häufige, aber auch seltene Krebsarten erkennen, die besonders schwer zu diagnostizieren sind. Entwickelt wird das Modell speziell für die Pathologie, wo es darum geht, der Entstehung und den vielen Entwicklungen von Krankheiten auf die Spur zu kommen.
Dr. Arun Thirunavukarasu, Hauptautor der Studie, benennt in der Zusammenfassung der Studie folgendes konkretes Szenario aus dem Bereich der Augenerkrankungen: „Wir können KI realistisch bei der Einteilung von Patienten mit Augenproblemen einsetzen, um zu entscheiden, welche Falle Notfalle sind, die sofort von einem Spezialisten behandelt werden müssen, welche von einem Hausarzt behandelt werden k.nnen oder welche keine Behandlung benötigen.“ Eine generative KI, die hier zuverlässig die Fälle einteilt, hilft dabei, das gesamte System zu entlasten, weil jeder, der .ärztliche Hilfe benötigt, dorthin verwiesen wird, wo ihm passgenau geholfen werden kann. „Bei weiterer Entwicklung könnten „Large Language“ Modelle auch Hausärzte beraten“, wird Dr. Arun Thirunavukarasu zitiert. Das ist überall dort wichtig, wo Menschen für eine fachärztliche Behandlung lange Wartezeiten in Kauf nehmen müssen. In Großbritannien ist dies der Fall, und in Deutschland in vielen Fachbereichen ebenfalls. Hier könnten Hausärzt*innen plus KI den Job in bestimmten Fällen übernehmen.
Wo generative KI wirklich unterstützt
Die Limbach-Gruppe, ein Verbund unabhängiger Labore in Deutschland, hat in einem Meinungsbeitrag auf der Homepage des Unternehmens weitere Szenarien für die Kooperation zwischen Mensch und generativer KI in der Medizin skizziert. So hätten GPT-Modelle das Potenzial, die Patientendokumentation erheblich zu verbessern, „weil sie die Fähigkeit besitzen, umfangreiche Datenmengen effizient zu verarbeiten und in präzise medizinische Dokumente umzuwandeln“. Auch bringe die KI Ärzt*innen in die Lage, „sich nahtlos über die neuesten wissenschaftlichen Erkenntnisse zu informieren, ohne umfassende Literaturrecherchen durchführen zu müssen“. Zudem könnten die Modelle als „Brücke zwischen Arzt und Patient fungieren“, zum Beispiel, indem „Large Language“-Modell „komplexe medizinische Informationen in verständlicher Sprache bereitstellen und so die Patientenaufklärung verbessern“ oder sogar „die Analyse und Interpretation von Daten weiter zu verfeinern“, wie es in dem Beitrag heißt. Eine Perspektive lautet: „Mit einer fortschreitenden Entwicklung könnten LLMs in der Lage sein, genetische Sequenzen zu analysieren, personalisierte Behandlungsansätze vorzuschlagen und so die Präzisionsmedizin auf eine neue Stufe zu heben.“
Zukunftsmusik? Nicht nur. Was bereits passiert, zeigt das Med-PaLM-Projekt von Google. Dabei handelt es sich laut Eigenbeschreibung des Konzerns um ein „Large Language“- Modell, das entwickelt wurde, um qualitativ hochwertige Antworten auf medizinische Fragen zu liefern, und das damit auf die Gesundheitsbranche abgestimmt ist. Auch dieses Modell geht als generative KI über die Mustererkennung hinaus und erstellt eigene Inhalte. Das „Large Language“- Modell wird bereits von Kliniken oder digitalen Health-Care-Anbietern getestet, geplant ist, Med-PaLM im Gesundheits- und Life-Sciences-Bereich der Google Cloud zu implementieren. Kurz: Med-PaLM ist die Gegenwart.
Die ethischen Überlegungen im Zusammenhang mit der Anwendung von KI in der Medizin sind von großer Bedeutung. Dazu zählen Fragen des Datenschutzes, der Patientenautonomie, aber auch der Rolle von KI in der Arzt-Patienten-Beziehung.
Ein Thema drängt sich auf: Ethik
An dieser Stelle ist es wichtig, über eine Herausforderung zu sprechen, die beim Thema generativer KI generell, insbesondere aber bei einem so sensiblen Bereich wie der Medizin zwingend ins Spiel kommt: die Ethik. „Die ethischen Überlegungen im Zusammenhang mit der Anwendung von KI in der Medizin sind von großer Bedeutung“, heißt es im Meinungsbeitrag der Labor-Spezialist*innen von der Limbach-Gruppe. Dazu zählten Fragen des Datenschutzes, der Patientenautonomie, aber auch der Rolle von KI in der Arzt-Patienten-Beziehung. Beantwortet werden muss vor allem die Frage: Wenn KI und Medizin kooperieren – wie wird dann die kommunikative Schnittstelle zur Patientin oder zum Patienten organisiert?
Transparenz und Aufklärung über den Einsatz und die Grenzen der generativen KI-Technologien sind entscheidend, „um das Vertrauen der Patienten zu gewinnen und die Integrit.t der medizinischen Praxis zu wahren“, heißt es im Meinungsbeitrag der Limbach-Gruppe. Was bedeutet: Es ist schon okay, wenn ein Mensch eine generative KI nutzt, um eine andere generative KI bei einem komplexen Spiel für Go zu täuschen und letztlich zu schlagen. Im hochsensiblen Bereich der Medizin kommt es aber darauf an, an jeder Stelle mit offenen Karten zu spielen. Zumal es auch weiterhin so bleiben wird, dass bei der medizinischen Versorgung zwei Menschen im Mittelpunkt stehen: Patient*in und Ärzt*in. Beide haben die Chance, durch eine gemeinsame Kooperation mit der generativen KI die Medizin auf ein neues Level zu heben. Wer dabei besiegt werden soll, ist auch klar: die Erkrankung.
Buchtipp: Chancen und Grenzen der generativen KI in der Medizin
Das von Peter Lee, Carey Goldberg, Isaac Kohane und Sébastien Bubeck verfasste Buch „Die KI-Revolution in der Medizin – GPT-4 und darüber hinaus“ entwickelte sich in den USA schnell zu einem Bestseller. Nun liegt das Standardwerk auch in deutscher Übersetzung vor. Die Autoren beschreiben den Einfluss der generativen KI in der Medizin, von der Forschung bis zur Diagnose. Dabei beschreiben sie, wie im ärztlichen Alltag über diese Zukunftstechnologie debattiert wird – was zu witzigen oder aberwitzigen Szenen führt. Bei aller Begeisterung für das Thema: Auch die Grenzen der generativen KI werden aufgezeigt. Peter Lee, Carey Goldberg, Isaac Kohane und Sébastien Bubeck: Die KI-Revolution in der Medizin – GPT-4 und darüber hinaus. Pearson 2023. ISBN: 978-3868944532. 29,95 Euro.