Personal Health Train
Verteilte Datenanalyse unter Wahrung der Privatsphäre
Hintergrund
Gesundheitsforschung sieht sich bei der Nutzung von gesundheitsbezogenen Daten mit großen Herausforderungen konfrontiert. Zum einen sind Forschungsdaten in vielen Fällen höchst sensibel, zum andern weisen sie oft einen hohen Grad an Heterogenität auf. Darüber hinaus herrscht ein allgemeiner Mangel an Standardisierung und Semantik, was zu einer zusätzlichen Fragmentierung der Forschungsdaten führt und die Datenanalyse erschwert. Trotz der augenscheinlichen Vorteile gemeinsamer Analysen verschiedener Gesundheitsstudien, schränken Datenschutzbedenken und eine mangelnde IT-Infrastruktur eine institutsübergreifende Nachnutzung von Forschungsdaten häufig ein. Das Ziel von NFDI4Health ist, Forschenden und Forschungseinrichtungen die
Bereitstellung und Wiederverwendung von gesundheitsbezogenen Forschungsdaten zu ermöglichen, ohne dass die datenhaltenden Organisationen die Kontrolle über ihre eigenen Daten abgeben müssen. Ein Ansatz dies Umzusetzen ist die föderierte Daten-Analyse mit dem Personal Health Train (PHT). Innerhalb der nationalen Forschungsdateninfrastruktur ergänzt der PHT den Central Search Hub (CSH) und den Local Data Hub (LDH), indem er die Möglichkeit bietet, Analysen auf verteilte und datenschutzfreundliche Weise durchzuführen. Im Gegensatz zur zentralisierten Analyse bringt der PHT den Algorithmus zu den Daten und nicht umgekehrt, so dass die Dateneigentümer die Kontrolle über ihre Daten behalten und die Daten an ihrem Ursprung bleiben.
Konzept
Das PHT-Konzept ist ein innovativer Ansatz zur Förderung datengesteuerter Analyse. Er bietet eine verteilte Analyseinfrastruktur, die Forschende den Zugang zu sensiblen Daten ermöglicht und gleichzeitig verschiedene Datenformate unterstützt. Der PHT basiert auf einer Analogie aus der realen Welt, die einem Eisenbahnsystem mit Zügen, Bahnhöfen und Zugdepots ähnelt. Im PHT-Ökosystem kapselt der Zug eine analytische Aufgabe, die in der Analogie durch die Güter repräsentiert wird. Der Datenanbieter spielt die Rolle einer erreichbaren Station, auf die der Zug zugreift. Die Station führt die Aufgabe aus und verarbeitet die verfügbaren Daten. Der Central Service (CS) dient als Depot und verwaltet die Zug-Daten.
Der Central Service (CS) dient als Depot und verwaltet die Zug-Orchestrierung, die Betriebslogik, die Geschäftslogik und die Datenverwaltung. Dieses Konzept stellt sicher, dass die Algorithmen zu den Daten und nicht die vertraulichen Daten zu den Algorithmen gebracht werden, um die Einhaltung der Datenschutzanforderungen zu gewährleisten. Hierdurch bietet der PHT einen verteilten, flexiblen Ansatz zur Nutzung von Daten in einem Netzwerk von Teilnehmenden, der die FAIR-Prinzipien berücksichtigt. In Deutschland arbeiten verschiedene Implementierungsinitiativen wie PADME oder PHT-meDIC als Teil des internationalen PHT Go FAIR Implementierungsnetzwerks eng zusammen.
Anwendung innerhalb der NFDI4Health
Um die Effektivität unserer Infrastruktur zu demonstrieren, führen wir 2 Anwendungsfälle in Zusammenarbeit mit der Radiologischen Universitätsklinik Köln (UHC) und Fraunhofer MEVIS durch. Hier wird der PHT eingesetzt, um synthetische Daten auf verteilte Weise zu erzeugen, die später der Datenharmonisierung dienen. Der mit Fraunhofer MEVIS entwickelte Anwendungsfall konzentriert sich auf die Erkennung von Nierentumoren bei Patienten anhand von Computertomographie-Bildern
von 2 verschiedenen Standorten. Mit diesen Daten zielt unser Anwendungsfall darauf ab, das Gesamtergebnis verschiedener Therapieansätze zu untersuchen. In dem mit der radiologischen Abteilung des UHC durchgeführten Anwendungsfall diente der Erkennung von Lungenkrebspatienten, bei denen die Datenharmonisierung aufgrund der vielen verschiedenen Geräte und Protokolle in der Praxis eine Schwierigkeit darstellt.
Unsere Services
Health Study Hub
Der German Central Health Study Hub ermöglicht Wissenschaftler:innen, ihre Projektcharakteristika, Dokumente und Daten im Zusammenhang mit ihrem Forschungsvorhaben in einer FAIRen Weise zu veröffentlichen oder Informationen über vergangene und laufende Studien finden.
Data Train
Das fächerübergreifende Ausbildungsprogramm Data Train, ein Kernelement des NFDI4Health-Ausbildungskonzepts, zielt darauf ab, die nächste Generation von datenkundigen Forscher:innenn in den biomedizinischen Wissenschaften auszubilden.