Large Language Models im Gesundheitswesen: Mehr Potenzial oder mehr Risiken? (Foto von Towfiqu barbhuiya auf Unsplash)
Dazu hat Prof. Stephen Gilbert ein Paper verfasst, das in Nature Medicine veröffentlicht worden ist. Wir haben dazu bei ihm nachgefragt. Gilbert ist Professor für Medical Device Regulatory Science am Else Kröner Fresenius Zentrum für Digitale Gesundheit an der TU Dresden.
PM—Report: Herr Prof. Gilbert, haben für Sie Chatbots im Gesundheitswesen und in der Medizin mehr Potenzial oder bergen sie mehr Risiken?
Gilbert: Large Language Model Chatbots haben mittelfristig ein enormes Potenzial und kurzfristig große Risiken. Die Risiken und Möglichkeiten sind für Bürger/Patienten und Ärzte unterschiedlich. Die unmittelbare Herausforderung für die Regulierungsbehörden besteht darin, die Risiken zu kontrollieren, ohne eine verantwortungsvolle Entwicklung zur Erforschung des enormen Potenzials dieser Instrumente zu blockieren.
PM—Report: Worin liegt das Potenzial?
Gilbert: Tools, die sich an Bürger/Patienten richten, haben großes Potenzial, personalisierte Antworten auf spezifische medizinische Fragen zu geben, einschließlich der Frage, wie bestimmte Symptome behandelt werden sollten und was sie bedeuten. Sie haben auch das Potenzial, komplexe medizinische Informationen in einer verständlichen Form wiederzugeben und personalisierte Zusammenfassungen über den Gesundheitszustand auf der Grundlage individueller medizinischer Aufzeichnungen und Informationen von Wearables und Apps zu erstellen.
Die Werkzeuge für Ärzte und andere Gesundheitsdienstleister haben das Potenzial ähnliche Aufgaben durchzuführen, wie Informationen zusammenzufassen oder herauszufiltern, zum Beispiel für die effiziente Transkription von Sprache aus aufgezeichneten Konsultationen in wiederverwendbare und geordnete medizinische Informationen oder für die Zusammenfassung der wichtigsten Informationen aus vielen Jahren medizinischer Vorgeschichte und für das Verfassen von Entwürfen medizinischer Berichte für Patienten und für andere medizinische Fachkräfte.
PM—Report: Und wo liegen die Risiken?
Gilbert: Das Hauptrisiko allgemeiner Chatbots wie ChatGPT, wenn sie von Bürgern/Patienten für die Beantwortung medizinischer Fragen genutzt werden, besteht darin, dass sie glaubwürdig klingende medizinische Informationen liefern, deren Genauigkeit jedoch davon abhängt, wie genau die Frage gestellt wurde.
Im Gegensatz zu Ärzten und Gesundheits-Apps, die speziell für die Beantwortung medizinischer Fragen entwickelt und zertifiziert wurden, beantworten ChatGPT und ähnliche Tools fast jede Frage und stellen in ihren aktuellen Versionen nicht die entscheidenden Folgefragen, von denen sichere Informationen und Ratschläge abhängen.
Es gibt auch mehrere illegal auf dem Markt erscheinende Apps, die speziell für die Beantwortung medizinischer Fragen konzipiert sind, aber ebenfalls weder zertifiziert noch getestet und demzufolge unzuverlässig und auch nicht überwacht sind. Diese stellen eine Gefahr für die Nutzer dar.
Bei Tools, die sich an Ärzte richten, gibt es ähnliche Probleme. Wenn Ärzte alle bereitgestellten Informationen sorgfältig prüfen und filtern würden, könnten sie Sicherheitsprobleme beseitigen. Leider lassen sich Ärzte mit der Zeit aufgrund der Automatisierung in einem falschen Gefühl der Sicherheit wiegen und verwenden die von diesen Tools bereitgestellten Informationen, ohne sie angemessen zu prüfen.
Aus diesem Grund haben die australische Ärztekammer und die australischen Gesundheitssysteme den Ärzten die Verwendung von ChatGPT und ähnlichen Tools mit Patienteninformationen untersagt. Es gibt mehrere auf Sprachmodellen basierende Chatbots, die illegal auf dem Markt sind und als Hilfsmittel für Ärzte in bestimmten medizinischen Fällen gedacht sind, sich aber als Lehrmittel tarnen, um eine Zertifizierung und Kontrolle zu umgehen.
PM—Report: Was steckt hinter „Ground Truth“? Sie appellieren ebenso für neue Rahmenbedingungen für die Sicherheit der Patient:innen. Wie können oder sollten diese aussehen?
Gilbert: „Ground truth“ zu definieren ist eine Herausforderung, aber diese Schwierigkeit sollte nicht als Versteck für diejenigen genutzt werden, die nicht für die Bereitstellung sicherer Geräte zur Rechenschaft gezogen werden wollen. Es gibt Datensätze mit medizinischen Fällen, die als Grundlage dienen können. Ebenso können neue Datenbanken von Herstellern und Prüforganisationen entwickelt werden.
Die Antworten der einzelnen Ärzte sind nicht unbedingt perfekt, aber die gruppierten und übereinstimmenden Antworten von Allgemeinmedizinern und Fachärzten können zusammengetragen werden. In der Medizin gibt es viele Bereiche, in denen Ungewissheit herrscht, aber auch viele Bereiche, in denen Gewissheit herrscht oder falsche Informationen unmittelbar lebensbedrohlich sein können. Gute Testverfahren können hier Abhilfe schaffen.
Es ist immer schlecht, wenn keine systematischen und kontinuierlichen Tests durchgeführt werden. Jedes Werkzeug, das nicht systematisch für die Sicherheit entwickelt wird, ist mit hoher Wahrscheinlichkeit unsicher. Die Rahmenbedingungen für das Testen sind bereits gut und können weiterentwickelt werden. Bei den derzeitigen Ansätzen ist es Aufgabe des Entwicklers, den Rahmen, den er für das Testen verwenden will, vorzuschlagen und zu verteidigen.
Das Problem ist, dass die Entwickler von Chatbots, die auf großen Sprachmodellen basieren, keine Test-Frameworks verwenden. Einige bieten illegale Tools an, ohne systematische oder laufende Tests durchzuführen. Keiner meldet den Regulierungsbehörden die Ergebnisse der Tests. Die bisher in der wissenschaftlichen Literatur veröffentlichten Validierungen sind von geringem Umfang oder haben keinen Bezug zur realen Nutzung von Chatbots in der Medizin.
Das gesamte Interview mit Prof. Gilbert können Sie in der Oktober Ausgabe des PM—Report nachlesen.
Zum Nachlesen:
Erhalten Sie jetzt uneingeschränkten Zugriff auf alle interessanten Artikel.
- Online-Zugriff auf das PM-Report Heftarchiv
- Aktuelle News zu Gesundheitspolitik, Pharmamarketing und alle relevanten Themen
- 11 Ausgaben des PM-Report pro Jahr inkl. Specials