KI stellt bessere Diagnosen


Für eine Studie ist ein Chatbot getestet worden und kam ziemlich gut weg: Bei der Diagnose von Atemwegs- und Herz-Kreislauf-Erkrankungen war er genauer als Ärzte.

In einer Studie schnitt ein Chatbot namens AMIE bei der Empathie besser als Ärzt:innen ab. (Foto von Ant Rozetsky auf Unsplash)

 

Der Chatbot mit dem Namen Articulate Medical Intelligence Explorer (AMIE) basiert auf einem von Google entwickelten Large Language Model (LLM). Im Vergleich zu menschlichen Ärzten gelang es ihm, bei medizinischen Interviews eine ähnliche Menge an Informationen zu sammeln, und er schnitt bei der Empathie besser ab. 

Wichtig zu wissen: Er wurde nicht an Menschen mit echten Gesundheitsproblemen getestet, sondern nur an Schauspielern, die für die Darstellung von Menschen mit Erkrankungen ausgebildet sind.

„Unseres Wissens ist dies das erste Mal, dass ein Konversations-KI-System optimal für den diagnostischen Dialog und die Erhebung der Krankengeschichte entwickelt wurde“, erläutert Alan Karthikesalingam, klinischer Forschungswissenschaftler bei Google Health in London und Mitautor der Studie.

Auch wenn der Chatbot in der klinischen Versorgung (noch) weit davon entfernt ist, eingesetzt zu werden, argumentieren die Autoren, dass er durchaus eine Rolle bei der Demokratisierung des Gesundheitswesens spielen könnte. Das Tool könnte somit hilfreich sein, aber es sollte die Interaktion mit Ärzten nicht ersetzen, betont wiederum Adam Rodman, Internist an der Harvard Medical School in Boston, Massachusetts. Denn: „Medizin ist einfach so viel mehr als nur das Sammeln von Informationen – es geht um menschliche Beziehungen“, bekräftigt er.

Besondere Herausforderung: Fähigkeit zur Interaktion

Nur wenige Versuche, LLMs für die Medizin zu nutzen, haben untersucht, ob die Systeme die Fähigkeit eines Arztes nachahmen können, die Krankengeschichte einer Person zu erfassen und diese für die Erstellung einer Diagnose zu nutzen. Medizinstudenten verbringen viel Zeit damit, genau das zu lernen und zu trainieren.

Herausfordernd für die Entwickler war der Mangel an realen medizinischen Gesprächen, die als Trainingsdaten verwendet werden konnten. Die Forscher entwickelten deswegen eine Möglichkeit für den Chatbot, seine eigenen „Gespräche“ zu trainieren:

Die Forscher führten eine erste Runde der Feinabstimmung des Basis-LLM mit vorhandenen realen Datensätzen wie elektronischen Gesundheitsakten und transkribierten medizinischen Gesprächen. Um das Modell weiter zu trainieren, veranlassten die Forscher den LLM, die Rolle einer Person mit einer bestimmten Erkrankung und die eines einfühlsamen Klinikers zu übernehmen, der darauf abzielt, die Vorgeschichte der Person zu verstehen und mögliche Diagnosen zu entwickeln.

Das Team bat das Modell außerdem, eine weitere Rolle zu spielen: die eines Kritikers, der die Interaktion des Arztes mit der behandelten Person bewertet und Feedback dazu gibt, wie diese Interaktion verbessert werden kann. Diese Kritik wird genutzt, um den LLM weiterzubilden und verbesserte Dialoge zu generieren. Um das System zu testen, rekrutierten die Forscher 20 Personen, die darauf trainiert worden waren, sich als Patienten auszugeben, und ließen sie textbasierte Online-Konsultationen durchführen – sowohl mit AMIE als auch mit 20 Klinikern.

Es wurde ihnen nicht gesagt, ob sie mit einem Menschen oder einem Bot chatten. Die Schauspieler simulierten 149 klinische Szenarien und wurden anschließend gebeten, ihre Erfahrungen zu bewerten. Ein Expertenpool bewertete ebenso die Leistung von AMIE und die der Ärzte.

Mit dem Ergebnis:

Das KI-System erreichte oder übertraf die diagnostische Genauigkeit der Ärzte in allen sechs berücksichtigten medizinischen Fachgebieten. Der Bot übertraf Ärzte in 24 von 26 Kriterien für die Gesprächsqualität, darunter Höflichkeit, Erklärung des Zustands und der Behandlung, ehrliches Auftreten sowie der Ausdruck von Fürsorge und Engagement.

„Das bedeutet keineswegs, dass ein Sprachmodell bei der Erhebung der Krankengeschichte besser ist als Ärzte“, beschwichtigt Karthikesalingam. Er weist darauf hin, dass die Hausärzte in der Studie wahrscheinlich nicht daran gewöhnt waren, mit Patienten über einen textbasierten Chat zu interagieren, und dass dies ihre Leistung beeinträchtigt haben könnte. Im Gegensatz dazu hat ein LLM nämlich den Vorteil, dass er schnell lange und schön strukturierte Antworten verfassen kann, was es ihm ermöglicht, stets rücksichtsvoll zu sein.

Wanted: Unvoreingenommener Chatbot

Ein wichtiger nächster Schritt für die Forschung sind detailliertere Studien, um mögliche Vorurteile zu bewerten und sicherzustellen, dass das System für verschiedene Bevölkerungsgruppen fair ist. Stichwort: Diversity.

Das Google-Team beginnt außerdem damit, die ethischen Anforderungen für das Testen des Systems an Menschen mit echten medizinischen Problemen zu untersuchen. Für Daniel Ting, ein klinischer KI-Wissenschaftler bei Duke-NUS Medical School in Singapur, ist es nun wichtig, dass das System vorurteilsfrei ist, um sicherzustellen, dass der Algorithmus keine Rassengruppen bestraft, die in den Trainingsdatensätzen nicht gut vertreten sind.

Auch die Privatsphäre der Chatbot-Benutzer sei ein wichtiger Aspekt, der berücksichtigt werden müsse: „Bei vielen dieser kommerziellen großen Sprachmodellplattformen sind wir derzeit noch unsicher, wo die Daten gespeichert werden und wie sie analysiert werden“, kritisiert Ting.

 

Erhalten Sie jetzt uneingeschränkten Zugriff auf alle interessanten Artikel.
  • Online-Zugriff auf das PM-Report Heftarchiv
  • Aktuelle News zu Gesundheitspolitik, Pharmamarketing und alle relevanten Themen
  • 11 Ausgaben des PM-Report pro Jahr inkl. Specials
Mehr erfahren