Dateninfrastruktur ermöglicht Vorhersagemodell bei Krebs


Diskutiert wird hierzulande, inwieweit Gesundheitsdaten die Pharmaforschung voranbringen können. Das können sie: In einem Projekt sind Millionen von dänischen Patientendaten zusammengeflossen, um ein Vorhersagemodell bei Krebs zu trainieren. 

Wissenschaftler:innen nutzen die dänischen Gesundheitsregister, um die individuellen Risiken für 20 verschiedene Krebsarten mit hoher Treffsicherheit vorherzusagen. (Foto von Nastya Dulhiier auf Unsplash)

 

Eine Machbarkeitsstudie haben Wissenschaftlerinnen und Wissenschaftler vom Deutschen Krebsforschungszentrum (DKFZ) und vom European Bioinformatics Institute EMBL-EBI, Hinxton, UK, durchgeführt. Die Informatiker nutzten dafür die umfassenden Daten der dänischen Gesundheitsregister, in denen alle klinischen Diagnosen der Bevölkerung hinterlegt sind, um für 20 verschiedene Krebsarten die individuellen Erkrankungsrisiken zu quantifizieren.

Das Team betont, dass das Vorhersagemodell sich auch auf andere Gesundheitssysteme übertragen lässt – und somit helfen könnte, Menschen mit hohen Krebsrisiken zu identifizieren, für die man gezielt individuelle Früherkennungsangebote im Rahmen von Studien erproben könnte.

Wie das Vorhersagemodell funktioniert

Die Forscher trainierten zunächst ein Vorhersagemodell an den Daten von 6,7 Millionen erwachsener Dänen aus den Jahren 1995 bis 2014. In den Trainingsdatensatz flossen mehr als 1000 unterschiedliche Vorerkrankungen ein, sowie Krebserkrankungen bei Familienmitgliedern, Alter und – wo vorhanden – grundlegende Körperdaten sowie Risikofaktoren wie Tabakkonsum oder Übergewicht.  


Anschließend wurde das Modell an den Datensätzen von 2015 bis 2018, die 4,7 Millionen Dänen umfassen, validiert und lieferte eine hohe Vorhersagegenauigkeit. Das Modell ermöglicht eine Aussage über die individuellen Risiken, an 20 verschiedenen Tumorarten zu erkranken. 

Über den Lauf des Lebens erreichte das Modell eine Genauigkeit von 81%. Unter Berücksichtigung von Alters- und Geschlechtseffekten ergab sich eine Genauigkeit von 59%. Die höchste Präzision erzielte das Modell für Krebserkrankungen des Verdauungssystems, sowie für Schilddrüsen-, Nieren- und Gebärmutterkrebs.  

Um zu prüfen, ob sich diese Vorhersageleistung auch in den Gesundheitsdaten anderer Länder bestätigte, validierten die Forschenden ihr Modell auch an Daten der britischen UK Biobank und erzielten eine vergleichbare Treffsicherheit. Die Analysen ermöglichen keine exakte Vorhersage, bei welcher Person Krebs auftreten wird. Sie stellen aber das individuelle Risiko fest und ermöglichen einen Vergleich mit Personen vergleichbaren Alters.

Grundsätzlich möglich: Modellierung individueller Krebsrisiken durch nationale Gesundheitsdaten


„Mit der Arbeit wollten wir demonstrieren, dass es grundsätzlich möglich ist, individuelle Krebsrisiken auf der Basis nationaler Gesundheitsdaten zu modellieren“, erklärt Moritz Gerstung.

Eine solche Risikostratifizierung könnte dabei helfen, weiterführende Untersuchungen gezielt denjenigen Personen anzubieten, die am meisten davon profitieren würden. Neben etablierten Früherkennungen könnten dies beispielsweise in Zukunft blutbasierte Krebstests sein, an denen weltweit intensiv geforscht wird und die teilweise bereits in klinischen Studien überprüft werden.

Die Hoffnung: Künftig könnten nach einer Risikostratifizierung mit einer bestimmten Anzahl von Tests mehr Krebserkrankungen entdeckt, Personen mit geringem Risiko unnötige Tests erspart und falsch-positive Ergebnisse und Überdiagnosen vermieden werden.  

Dafür ist eine geeignete Datenbasis unverzichtbar. „Die dänischen Gesundheitsdaten sind einzigartig, da sie einen großen Zeitraum abdecken und miteinander verknüpft werden können. Vergleichbares bieten nur wenige europäische Länder, etwa Finnland und Schweden oder spezielle Forschungskohorten in Großbritannien“, betont Gerstung.  

Auch in Deutschland laufen Bemühungen, nationale digitale Gesundheitsinfrastrukturen aufzubauen. Laut Gerstung „wäre es sinnvoll, bereits bei der Planung zu berücksichtigen, welche Art von Daten für die Bewertung des Krebsrisikos am besten geeignet sind.” In seiner aktuellen Arbeit haben sich die ICD-10-Diagnosecodes, die auch in anderen europäischen Gesundheitssystemen verwendet werden, als nützlich erwiesen.    

 

Alexander W. Jung, Peter C. Holm, Kumar Gaurav, Jessica Xin Hjaltelin, Davide Placido, Laust Hvas Mortensen, Ewan Birney, Søren Brunak, Moritz Gerstung: Multi-cancer risk stratification based on national health data: A retrospective modelling and validation study
Lancet Digital Health 2024, DOI: https://doi.org/10.1016/S2589-7500(24)00062-1

Erhalten Sie jetzt uneingeschränkten Zugriff auf alle interessanten Artikel.
  • Online-Zugriff auf das PM-Report Heftarchiv
  • Aktuelle News zu Gesundheitspolitik, Pharmamarketing und alle relevanten Themen
  • 11 Ausgaben des PM-Report pro Jahr inkl. Specials
Mehr erfahren