(Large Language Models könnten in Zukunft wichtige Werkzeuge für Ärztinnen und Ärzte im Krankenhaus werden. (Foto von Daniele D'Andreti auf Unsplash)
Large Language Models (LLM) sind Computerprogramme, die mit Unmengen an Text trainiert worden sind und kontinuierlich weiter lernen. Speziell trainierte Varianten der Technologie, die auch hinter ChatGPT steckt, lösen mittlerweile Abschlussexamen aus dem Medizinstudium nahezu fehlerfrei.
Wäre eine solche KI auch in der Lage, die Aufgaben von Ärztinnen und Ärzten in einer Notaufnahme zu übernehmen? Könnte sie anhand der Beschwerden die passenden Tests anordnen, die richtige Diagnose stellen und einen Behandlungsplan entwerfen?
Die kurze Antwort vorweg: Medizin-Chatbots treffen vorschnelle Diagnosen, halten sich nicht an Richtlinien und würden das Leben von Patientinnen und Patienten gefährden. Die Technologie hat aber dennoch Potenzial im Krankenhausalltag.
Testen der Möglichkeiten
Ein interdisziplinäres Team um Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der TUM, hat gemeinsam mit KI-Fachleuten erstmals systematisch untersucht, wie erfolgreich verschiedene Varianten des Open-Source-Large-Language-Models Llama 2 bei der Diagnose sind.
Um die Fähigkeiten der komplexen Algorithmen zu testen, nutzten die Forschenden anonymisierte Daten von Patientinnen und Patienten aus einer Klinik in den USA. Aus einem größeren Datensatz wählten sie 2.400 Fälle aus. Alle Betroffenen waren mit Bauchschmerzen in die Notaufnahme gekommen. Die Fallbeschreibung endete jeweils mit einer von vier Diagnosen und einem Behandlungsplan. Zu den Fällen waren alle Daten verfügbar, die für die Diagnose erfasst wurden – von der Krankengeschichte über die Blutwerte bis hin zu den Bildgebungsdaten.
Das Ergebnis:
Keines der Large Language Models forderte durchgängig alle notwendigen Untersuchungen ein. Tatsächlich wurden die Diagnosen der Programme sogar weniger zutreffend, je mehr Informationen sie zu dem Fall hatten. Behandlungsrichtlinien befolgten sie oftmals nicht. Als Konsequenz ordnete die KI beispielsweise Untersuchungen an, die für echte Patientinnen und Patienten schwere gesundheitliche Folgen nach sich gezogen hätten.
Vergleich mit Ärztinnen und Ärzten
In einem zweiten Teil der Studie sind die KI-Diagnosen zu einer Teilmenge aus dem Datensatz mit Diagnosen von vier Ärztinnen und Ärzten verglichen worden.
Während diese bei 89% der Diagnosen richtig lagen, kam das beste Large Language Model auf 73%. Jedes Modell erkannte manche Erkrankungen besser als andere. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13% der Fälle korrekt.
Ein weiteres Problem der Programme: Welche Diagnose ein Large Language Modell stellte, hing unter anderem davon ab, in welcher Reihenfolge es die Informationen erhielt. Auch linguistische Feinheiten beeinflussten das Ergebnis – beispielsweise ob das Programm um eine „Main Diagnosis“, eine „Primary Diagnosis“ oder eine „Final Diagnosis“ gebeten wurde. Im Klinikalltag sind die Begriffe in der Regel austauschbar.
Keine Tests mit ChatGPT
Das Team hat explizit nicht die kommerziellen Large Language Models von OpenAI (ChatGPT) und Google getestet. Weil zum einen der Anbieter der Krankenhausdaten aus Datenschutzgründen untersagt, die Daten mit diesen Modellen zu verarbeiten. Zum anderen raten Expertinnen und Experten nachdrücklich, für Anwendungen im Gesundheitssektor ausschließlich Open-Source-Software zu verwenden.
Denn private Unternehmen halten die Trainingsdaten streng unter Verschluss und dies erschwert eine faire Bewertung. Es ist zudem riskant, „wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, die ihre Modelle nach Belieben aktualisieren und ändern können. Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist“, betont Paul Hager, Mitglied des Studienteams.
Potenzial der Technologie
Rückert sieht aber Potenzial in der Technologie:
„Large Language Models könnten in Zukunft wichtige Werkzeuge für Ärztinnen und Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lässt. Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen.“
Publikation:
Hager, P., Jungmann, F., Holland, R. et al. Evaluation and mitigation of the limitations of large language models in clinical decision-making. Nat Med (2024). https://doi.org/10.1038/s41591-024-03097-1
Erhalten Sie jetzt uneingeschränkten Zugriff auf alle interessanten Artikel.
- Online-Zugriff auf das PM-Report Heftarchiv
- Aktuelle News zu Gesundheitspolitik, Pharmamarketing und alle relevanten Themen
- 11 Ausgaben des PM-Report pro Jahr inkl. Specials