Es klingt so schön simpel: Symptome bei einer KI eingeben, Diagnose erhalten und einen Behandlungsplan gleich mit. Dass es nicht so einfach geht, zeigt eine Studie mit realen Patientendaten der TU München, durchgeführt von Paul Hager und Friederike Jungmann. Wie sie die Studie aufgebaut haben und woran der Einsatz von KI in Krankenhäusern aus technischer und regulatorischer Sicht hakt, erklären sie selbst.
Herr Hager, in Ihrer Studie untersuchten Sie den Einsatz von KI in Kliniken, genauer gesagt in Form von Chatbots.
Hager: Richtig. Wir haben Large Language Models (LLMs) untersucht, die Anwendungen wie ChatGPT von OpenAI oder Gemini von Google und wahrscheinlich auch einige neuere Chatbots antreibt. Die Technologie kann für viele Zwecke eingesetzt werden und ist sehr flexibel, da sie jede Art von Text als Eingabe akzeptiert und beliebige Texte als Ausgabe erzeugt. Das macht sie ideal für ein offenes, realistisches, klinisches Entscheidungsszenario, wie das, das wir entworfen und bewertet haben. Ganz konkret ging es um den Einsatz in der Patientenversorgung.
Wie kamen Sie darauf und wie dürfen wir uns die Anwendung vorstellen?
Jungmann: In letzter Zeit wurde mehrfach gezeigt, dass LLMs die medizinischen Examina und Zulassungsprüfungen verschiedenster Länder mit Bravour bestehen können. Daraus wurde teils abgeleitet, dass die Modelle inzwischen über ausreichend medizinisches Wissen verfügen könnten, um in der Patientenversorgung eingesetzt zu werden. Genau das haben wir zum Ausgangspunkt unserer Studie gemacht. Für den Einsatz in einer Notaufnahme haben wir zwei unterschiedliche Szenarien simuliert: Im ersten Szenario wird KI völlig autonom eingesetzt. Die LLMs hatten dabei immer nur die Informationen zur Verfügung, die auch die realen Ärztinnen und Ärzte zu dem jeweiligen Zeitpunkt hatten, und mussten selbst entscheiden, ob sie zum Beispiel ein Blutbild oder ein radiologisches Verfahren in Auftrag geben. Mit dieser Information musste das Modell dann die nächste Entscheidung treffen und schließlich eine Diagnose sowie einen Behandlungsplan erstellen. Im zweiten Szenario der Studie fungierten die LLMs als Second Reader. Hier hat das KI-Modell bereits alle durch einen Arzt gesammelten diagnostischen Informationen zu einem Patienten vorliegen und es wird vom Modell sozusagen eine Zweitmeinung eingeholt.
Beim Einsatz von KI in Krankenhäusern ist die Datenquelle natürlich enorm relevant.
Jungmann: Unser Datenset wurde als Subkohorte aus dem MIMIC-Datensatz kuriert, welcher anonymisierte, digitale Patientendaten vom Beth Israel Deaconess Medical Center in Boston, USA enthält. Wir haben circa 2.400 Patienten ausgewählt, die sich mit der initialen Beschwerde „Bauchschmerzen“ in der Notaufnahme vorgestellt haben und mit einer der folgenden Krankheiten diagnostiziert wurden: Blinddarmentzündung, Gallenblasenentzündung, Entzündung der Bauchspeicheldrüse oder eines Divertikels am Darm. Die MIMIC-Daten werden über PhysioNet verwaltet, über das auch wir unseren kurierten Datensatz MIMIC-IV-CDM der Öffentlichkeit zur Verfügung stellen. Des Weiteren haben wir mit Ärzten sowohl aus Deutschland als auch aus den USA zusammengearbeitet, um einen Vergleichswert zur Evaluierung der LLM-Leistungen zu ermitteln.
Welche Risiken gab es bei den verwendeten Daten?
Jungmann: Im Vergleich zu künstlich synthetisierten Patientenfällen, wie sie in medizinischen Examina oder Lehr-Patientenfällen verwendet werden, haben echte Daten natürlich den Nachteil, dass man sich darauf verlassen muss, dass alle Patienten richtig diagnostiziert und behandelt wurden. Es lagen aber zu jedem Patienten die Entlassbriefe mitsamt aller Informationen zum Verlauf vor und die Qualität der medizinischen Versorgung ist in den USA sehr hoch. Außerdem hat der Datensatz diverse Qualitätskontrollen durchlaufen, sodass die Gesamtqualität der Daten sehr gut ist. Ein weiterer potentieller Nachteil ist, dass man nur die Informationen vorliegen hat, die zu dem Patienten tatsächlich gesammelt wurden, um die korrekte Diagnose zu stellen. Wir haben nicht nur Qualitätskontrollen und Plausibilitätsprüfungen durchgeführt – sondern auch eine Reader-Study, bei der klinisch praktizierende Ärzte einen Teil der enthaltenen Patientenfälle diagnostiziert haben. Natürlich ohne Kenntnisse der korrekten Diagnose. So stellten wir sicher, dass die in unserem Satz enthaltenen Daten für eine korrekte Diagnose reichen.
Das vollständige Paper findest du auf nature.com!
Im Hinblick auf die Testung von KI-Modellen in einem realistischen klinischen Szenario sind solche möglichen Unschärfen in den Daten auch von Vorteil, da man hierdurch die Robustheit von KI-Modellen und deren Umgang mit unvollständigen Daten testen kann. In der Realität können verschiedene Faktoren zu fehlenden Informationen führen, womit ein in der klinischen Entscheidungsfindung eingesetztes KI-Modell jedoch genauso wie das medizinische Fachpersonal umgehen können muss, um die Patientensicherheit nicht zu gefährden.
Ein weiterer Vorteil eines reellen Datensatzes ist, dass er Unsicherheiten und Komplexität der Patientenversorgung abbildet. Patienten können immer verschiedene Symptome und Begleiterkrankungen haben, und damit mehrere diagnostische Tests nötig gewesen sein, je nachdem wie leicht oder komplex die Erkrankung im individuellen Fall für die behandelnden Ärzte zu erkennen war. Auch ist die reelle Behandlung der individuellen Patienten enthalten, die durch verschiedenste Faktoren beeinflusst werden kann. Nur solche Daten erlauben eine realistische, aussagekräftige Evaluation eines möglichen KI-Einsatzes in der tatsächlichen Patientenversorgung.
Aus welchem Grund haben Sie sich ausschließlich auf die Notaufnahme konzentriert?
Jungmann: Um die Fähigkeiten der Modelle in der klinischen Entscheidungsfindung und Diagnostik zu bewerten. Dies hat mehrere Gründe: Zum einen wollten wir verhältnismäßig simple Patientenfälle betrachten, ohne dass die Diagnostik der Patienten durch mehrere, gleichzeitig vorliegende akute Erkrankungen und komplexe Fälle erschwert wird. Zudem sollten es keine vortherapierten Krankheitsfälle sein, da die Interpretation von diagnostischen Tests umso komplexer wird, je mehr Einflüsse es durch Begleiterkrankungen und bereits erfolgte Therapieversuche gab. Bei Patienten, die sich mit einer akuten Beschwerde in der Notaufnahme vorstellen, erfolgt der Großteil der Diagnostik direkt dort. Anschließend werden die Patienten entweder stationär aufgenommen oder ambulant behandelt. Zudem war die Qualitätssicherung der Daten besser.
Welche Rolle spielten die Prompts bei Ihrem Vorgehen?
Hager: Der spezifische Wortlaut des Prompts machte einen großen Unterschied in unseren Auswertungen aus, wobei große Unterschiede in der Diagnosegenauigkeit festgestellt wurden, je nachdem, ob wir beispielsweise nach einer „Main Diagnosis“, einer „Primary Diagnosis“ oder einer „Final Diagnosis“ fragten, obwohl diese Begriffe für Ärzte in der Regel ziemlich austauschbar sind. Wichtig ist, dass kein Prompt für alle Krankheiten am besten war, es gab also keinen idealen Prompt, der die Leistung in allen Bereichen erhöht hat.
Selbst eine spezialisierte KI scheitert daran, Erkrankungen korrekt zu diagnostizieren und Behandlungspläne zu erstellen. Ist hier die Spezialisierung schief gegangen?
Hager: Ich würde nicht sagen, dass es komplett gescheitert ist, denn ClinicalCamel war zum Beispiel bei der Second Reader-Aufgabe etwas besser als nicht spezialisierte Modelle. Es kann nur nicht alle Fälle lösen. Das Training an allgemeinen biomedizinischen Texten bereitet die Modelle auch nicht speziell auf eine solche Aufgabe der klinischen Entscheidungsfindung vor. Höchstwahrscheinlich ist eine Spezialisierung mit spezifischen, qualitativ hochwertigen Daten erforderlich.
Wie schaffen Menschen es, hier KI zu übertrumpfen, wo es doch eigentlich um einen Abgleich von Symptomen geht und auch Behandlungspläne/-empfehlungen weitestgehend standardisiert sind?
Jungmann: Alle Menschen sind individuell und somit kann sich in der Realität ein und dieselbe Erkrankung bei unterschiedlichen Menschen unterschiedlich äußern. Auch andere Faktoren, wie etwa Begleiterkrankungen der Patienten, können die Ergebnisse diagnostischer Tests beeinflussen. Für einzelne, klar definierte Erkrankungen gibt es bereits spezialisierte KI-Algorithmen, die diese Erkrankungen zu einem hohen Prozentsatz richtig erkennen. Dies gilt aber nicht für die Gesamtheit aller potentiellen Erkrankungen, bei der Ärztinnen und Ärzte nach wie vor der KI überlegen sind. Sie sind jahrelang intensiv ausgebildet, das komplexe System „Mensch“ mit den entsprechenden Unsicherheiten und Verknüpfungen zu verstehen und entsprechend zu interpretieren. Hierbei spielen neben reinem Fachwissen auch Erfahrung, die Fähigkeit zur Plausibilitätsprüfung von Testergebnissen und Patientenaussagen, menschliche Intuition, Kommunikation und Kooperation zwischen verschiedenen Fachgebieten eine große Rolle.
In unserer Studie haben wir auch gezeigt, dass insbesondere in „open-ended tasks”, in denen nicht aus einer vorgegebenen Auswahl an möglichen Diagnosen ausgewählt werden kann, sondern erst einmal jede Diagnose möglich ist, die getesteten LLMs signifikant schlechter darin waren, die richtige Diagnose zu erkennen als Ärzte. Hier fielen die Modelle insbesondere dann stark in ihrer diagnostischen Genauigkeit ab, wenn sie sich die relevanten diagnostischen Informationen selbst erarbeiten mussten und nicht vorgefiltert und vorinterpretiert präsentiert bekommen haben. Diese Fähigkeit der klinischen Entscheidungsfindung wurde durch die bisherigen Benchmarks, wie medizinische Examina oder künstliche Lehrbeispiele, bei denen Wissen mittels multiple-choice Antworten abgefragt wird, nicht getestet. Da ein solches Multiple-Choice Szenario mit bereits vollständig vorliegenden relevanten Informationen jedoch nicht dem klinischen Alltag entspricht, konnten wir zeigen, dass LLMs aktuell noch nicht in der klinischen Entscheidungsfindung eingesetzt werden können.
Warum hängt die Diagnose der KI von der Reihenfolge ab, in der sie die relevanten Informationen erhält?
Hager: Ich glaube nicht, dass diese Frage von der Forschungsgemeinschaft bereits beantwortet wurde. Es handelt sich um ein offenes Forschungsthema, das bereits in anderen Arbeiten beobachtet wurde (siehe Pezeshkpour et al. “Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions” und Chen et al. “Premise Order Matters in Reasoning with Large Language Models”).
Warum empfehlen Sie Open-Source-Software?
Hager: Wir sind der Meinung, dass Open-Source-Modelle den Fortschritt im Bereich der medizinischen KI vorantreiben müssen, da Bedenken hinsichtlich des Datenschutzes und der Sicherheit der Patienten, der mangelnden Transparenz der Unternehmen und der Gefahr unzuverlässiger externer Anbieter bestehen. Es stellt ein ernsthaftes Risiko für die Patientensicherheit dar, wenn wichtige medizinische Infrastrukturen auf APIs und Modellen externer Unternehmen beruhen, deren Leistung sich bei Aktualisierungen sprunghaft ändern kann und die generell aus jedem Grund deaktiviert werden können.
Wie geht es weiter: Ist das Projekt beendet oder wird mit anderen Daten weiter geforscht und die KI trainiert?
Hager: Natürlich wollen wir unseren Benchmark erweitern und noch mehr Daten und Modalitäten wie Bilder oder EKGs einbeziehen. Je mehr gute und realistische Benchmarks wir haben, desto besser verstehen wir den aktuellen Stand der Technik und ob KI reif ist, im Krankenhaus integriert zu werden.
Was passiert, wenn eine KI entscheidet, dass eine Behandlung nicht mehr sinnvoll ist?
Jungmann: Ein solches Szenario haben wir in unserer Studie nicht getestet und ein reales Beispiel eines solchen KI-Einsatzes ist uns nicht bekannt. KI kann aktuell nicht autonom in der reellen Patientenversorgung eingesetzt werden, ohne die Patientensicherheit zu gefährden. Ein autonomer KI-Einsatz in der Medizin wirft viele ethische und rechtliche Bedenken auf und ist nicht zuletzt durch den Artificial Intelligence Act der Europäischen Union schlicht nicht zulässig. Dieser Act fordert in sicherheitskritischen Bereichen einen Menschen, der das KI-System kontrollieren und gegebenenfalls entscheidend eingreifen kann. Somit dient KI sowohl aktuell als auch in absehbarer Zukunft als Werkzeug und Hilfestellung für Medizinerinnen und Mediziner, explizit nicht als deren Ersatz. Selbst wenn ein KI-Modell vorschlagen sollte, dass eine Behandlung nicht mehr sinnvoll sei, würde dies also immer ein Arzt oder eine Ärztin bewerten. Und letztlich entscheidet ausnahmslos der Patientenwille über eine Fortführung oder Beendigung einer Behandlung. Über die genauen ethischen und rechtlichen Aspekte eines eventuellen KI-Einsatzes in solch kritischen Situationen und dessen Konsequenzen wird aktuell von vielen Körperschaften und Experten diskutiert und Richtlinien zum zukünftig bestmöglichen Umgang mit dieser neuen Technologie entwickelt.
Zurück zum Karrierenetzwerk Gesundheits-IT geht es hier und mehr Beiträge zur Künstlichen Intelligenz gibt’s hier.