Für die medizinische Forschung in Deutschland stehen immer mehr Daten zur Verfügung: Allein über das Forschungsdatenportal Gesundheit (FDPG) von der Medizininformatik-Initiative (MII) und der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF) sind inzwischen mehr als zwei Milliarden Laborwerte und die Basisdaten von über 21 Millionen Patientinnen und Patienten aus 41 Universitätskliniken verfügbar.
Erst kürzlich feierte die MII über 200 Millionen Vitaldaten aus der Intensivmedizin – darunter Blutdruck, Atemfrequenz, Herzfrequenz und Körpertemperatur –, die dank des Netzwerks Universitätsmedizin im FDPG zur Verfügung stehen. Neben dem FDPG soll das 2025 eröffnete Forschungsdatenzentrum Gesundheit (FDZ Gesundheit) für einen besseren Datenzugang sorgen – mit Daten aus der elektronischen Patientenakte (ePA), medizinischen Registern und weiteren Datenquellen.
Prof. Sebastian C. Semler ist Arzt und seit 2004 Geschäftsführer der TMF.
(Bild: TMF)
TMF-Geschäftsführer Sebastian Claudius Semler begleitet den Aufbau dieser Strukturen seit über zwei Jahrzehnten. Die TMF koordiniert dabei nicht nur die Begleitstrukturen der Medizininformatik-Initiative, sondern auch weitere Großprojekte wie das zur nationalen Genom-Initiative genomDE. Im Interview erklärt er, warum wir trotz neuer Gesetze und europäischer Visionen wie dem European Health Data Space (EHDS) erst einmal klären müssen, was die neuen Datenquellen wissenschaftlich überhaupt hergeben – und warum Paragrafen allein noch nicht für eine funktionierende Forschungsdateninfrastruktur sorgen.
Sie beschäftigen sich seit vielen Jahren mit der Architektur von Forschungsdateninfrastrukturen. Wenn wir ganz vorne anfangen: Warum braucht es das Forschungsdatenportal Gesundheit (FDPG) überhaupt, wenn es jetzt das Forschungsdatenzentrum Gesundheit (FDZ Gesundheit) gibt?
Um die Zusammenhänge zu verstehen, muss man tatsächlich etwas weiter zurückblicken. Die Wurzeln liegen im Jahr 2003 beim GKV-Modernisierungsgesetz, mit dem die Paragrafen 303a ff. SGB V zur Datentransparenz erstmals eingeführt wurden. Seinerzeit hatte der Gesetzgeber die Spitzenverbände von Krankenkassen und KBV verpflichtet, eine „Arbeitsgemeinschaft für Aufgaben der Datentransparenz“ zu bilden, um Datenzusammenführung und Datennutzung zu Zwecken von Wirtschaftlichkeitsanalysen und für eine bessere Transparenz über die Inanspruchnahme und Kosten von Gesundheitsleistungen zu organisieren.
Nachdem dies nicht vorankam, hat der Gesetzgeber dann 2011 mit dem GKV-Versorgungsstrukturgesetz und mit der Datentransparenzverordnung von 2012 deutlich nachgeschärft. Im Kern ging es darum, die Abrechnungsdaten der Krankenkassen endlich zusammenzuführen und für externe Forschung und für die Bedarfsplanung im Gesundheitswesen nutzbar zu machen, ohne den Sozialdatenschutz aufzugeben. Eine erste Datenherausgabestelle wurde beim seinerzeitigen Deutsche Institut für Medizinische Dokumentation und Information (DIMDI) im Geschäftsbereich des BMG aufgebaut; das DIMDI hat zwischen 2015 und 2018 anonymisierte Krankenkassendaten an externe Forschungsprojekte herausgegeben, wenn auch in einem aufwändigen Verfahren.
Diese Entwicklung wurde später durch das Digitale-Versorgung-Gesetz 2019 fortgeführt, das DIMDI wurde aufgelöst und die Zuständigkeit ins BfarM verlagert, wo die Entwicklung schließlich in das heutige FDZ Gesundheit mündete, das seit Oktober 2025 nun auch wieder Datenzugang zu Krankenkassendaten ermöglicht. Ab Ende 2026 sollen hier – gemäß Gesundheitsdatennutzungsgesetz (GDNG) von 2024 – auch die pseudonymisierten Daten aus der elektronischen Patientenakte verfügbar gemacht werden.
Parallel dazu gab es aber eine zweite Entwicklung: Das Bundesforschungsministerium startete 2015 die Medizininformatik-Initiative, konzipiert zu einem Zeitpunkt, als die erste E-Health-Gesetzgebung in Deutschland noch nicht verabschiedet war. Dort stand bereits in der Ausschreibung, dass eine verteilte Dateninfrastruktur geschaffen werden soll, in der jede Universitätsklinik ein Datenintegrationszentrum aufbaut. Das Forschungsdatenportal Gesundheit (FDPG) ist im Grunde die direkte Konsequenz aus dieser Förderausschreibung von 2015. Wir hatten es zunächst etwas technokratisch „Zentrale Antrags- und Registerstelle“ genannt, aber die Funktion war klar: Es ging darum, in den forschungsorientierten Standorten, also den Unikliniken, einen deutlich breiteren klinischen Datensatz erschließbar zu machen – und zwar jenseits der reinen Abrechnungsdaten. Und als vernetzende und abfragende Instanz zu diesen verteilt vorliegenden Daten braucht es das zentrale Portal – als Anlaufpunkt für die forschenden Datennutzer.
Die Abkürzungen ähneln sich, die Aufgaben auch – viele verwechseln anscheinend das FDPG mit dem FDZ, das beim Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) angesiedelt ist. Ist das verwirrend?
Das ist tatsächlich ein Punkt, der oft konfus wirkt und nicht einfach zu verstehen ist. Aber man muss die Unterscheidung machen, denn wir reden hier über völlig unterschiedliche Datenwelten. Es ist schön, dass man das FDZ beim BfArM eingeweiht hat und dort nun endlich Daten für die Forschung bereitstehen. Aber das FDZ arbeitet aktuell eben „nur“ mit den Abrechnungsdaten der gesetzlichen Krankenkassen. Das sind populationsbasierte, sektorenübergreifende Daten. Das ist ein relativ schmaler, aber durchaus aussagekräftiger Datensatz für Versorgungsanalysen.
Der wesentliche Charme dieser Daten war schlicht und ergreifend: Es gab lange Zeit keine anderen. Aber sie haben eben keine klinische Tiefe – es fehlen die Details der Behandlung, die Laborwerte, die Bildgebung. Über das FDPG hingegen erschließen sich primäre klinischen Daten aus den Universitätskliniken. Da gehen wir viel tiefer rein. Dafür sind diese Daten natürlich auf den universitär-stationären Versorgungskontext beschränkt. Man kann also sagen: Keine der beiden Infrastrukturen ersetzt die andere, wir brauchen beide Perspektiven.
Wer darf denn diese Daten beim FDPG eigentlich beantragen? Kann da, wie beim FDZ Gesundheit, jeder kommen?
Grundsätzlich kann jeder einen Antrag stellen, aber wir schauen uns das im Rahmen der Nutzerregistrierung sehr genau an. Es muss ein plausibles, gemeinwohlorientiertes Forschungsinteresse nachgewiesen werden. Wenn jemand mit einer Uni-Adresse ankommt, ist das meist schnell geklärt. Wenn eine Privatadresse oder ein Unternehmen anfragt, prüfen wir tiefer: Gibt es ein substanzielles Forschungsinteresse? Explizit schließen wir die forschende Industrie nicht aus, aber der Zweck muss stimmen.
Außerdem arbeiten wir mit einer breiten Einwilligung der Patienten, dem sogenannten Broad Consent. Das ist ein ganz entscheidender Punkt: Die Patienten müssen aktiv einwilligen, dass ihre Daten für die medizinische Forschung nachgenutzt werden dürfen. Darin ist klar geregelt, dass dies nur für medizinische Zwecke geschehen darf – aber eben nicht für Kosmetikforschung, reinen Datenverkauf oder ähnliches. Die genauen Kriterien stellen wir auch auf unserer Website bereit (https://forschen-fuer-gesundheit.de/daten-und-bioproben/daten-und-bioproben-fur-ein-forschungsprojekt-beantragen/).
Nun sollen noch in diesem Jahr Daten aus der elektronischen Patientenakte (ePA) zu Forschungszwecken ausgeleitet werden. Braucht es das FDPG mit dem Ausbau des FDZ Gesundheit noch?
Generell finde ich die Idee der ePA natürlich super – schon allein zur Behandlungsunterstützung, aber auch mehr strukturierte Daten für die Forschung wären toll. Wir würden uns sogar wünschen, dass wir direkt eine Schnittstelle zur ePA bekommen. Das ist gesetzlich im Paragraf 363 Absatz 8 SGB V tatsächlich auch so vorgesehen: Dort steht, dass Versicherte ihre ePA-Daten mittels einer Einwilligung auch direkt Forschenden für die Forschung freigeben können. Wir könnten die Patienten also – zusätzlich zur automatisierten Ausleitung ans FDZ – auch direkt fragen, ob sie ihre Daten für die Datenintegrationszentren der Universitätsmedizin und deren Nutzungsabfrage via FDPG, verknüpft mit den anderen vorhandenen medizinischen Daten, zur Verfügung stellen. Damit würden auch Fragestellungen zur Vor- und Nachbehandlung rund um einen stationären Aufenthalt beantwortet werden können. Es ist aber noch nicht unklar, wann und wie diese Schnittstelle kommt.
Die Repräsentativität der Daten wurde immer wieder politisch versprochen. Es gibt da aber deutliche Bedenken.
Das ist ein ganz wichtiger Punkt – und der unterscheidet die ePA-Daten von den Kassendaten im FDZ. Selbst wenn wir formal Millionen von ePAs haben, wissen wir ja nicht automatisch, wie sie befüllt sind. Wir wissen nicht, wie vollständig die Daten pro Patient sind oder ob bestimmte Erkrankungen systematisch besser erfasst werden als andere. Wenn beispielsweise chronisch Kranke oder digital affine Menschen überrepräsentiert sind, entstehen Verzerrungen. Aber viel kritischer ist die Frage: Bei wie vielen wird nichts eingestellt? Und das alles müssen Sie wissen, um valide damit forschen zu können.
Dazu kommen ganz praktische Hürden: Viele Inhalte liegen derzeit als PDF vor, was für die Forschungsnachnutzung weitgehend nutzlos ist. Zudem bildet die ePA oft nur Ausschnitte einer Krankengeschichte ab. Und auch der Ruf nach tagesaktuellen Daten klingt zwar attraktiv, bedeutet aber technisch enorme Anforderungen, etwa wenn es um Korrekturen oder Nachmeldungen geht. Das wird noch sehr sportlich. Bis wir in der Fläche mit ePA-Daten im FDZ sinnvoll forschen können, wird es aus meiner Sicht Jahre, wenn nicht gar ein Jahrzehnt dauern. Das soll aber überhaupt nicht dagegen sprechen, sich diesbezüglich auf den Weg zu machen und an der Zielsetzung festzuhalten.
Heißt das im Umkehrschluss, wenn wir genug Daten haben, brauchen wir keine klassischen klinischen Studien mehr?
Nein, das wäre ein Trugschluss. Keine Sekundärnutzung von Versorgungsdaten wird jemals eine kontrollierte klinische Studie ersetzen. In einer Studie schließe ich Störfaktoren aus, um einen Effekt statistisch hart nachzuweisen. Im Versorgungsalltag habe ich aber Patienten, die multimorbid sind, die drei andere Medikamente gleichzeitig nehmen.
Die Versorgungsdaten sind dafür da, den "Realitätscheck" zu machen: Kommt der Effekt, den wir unter Idealbedingungen in der Studie gesehen haben, im echten Versorgungsalltag überhaupt an? Und bei welchen Gruppen gibt es Nebenwirkungen, die wir in der kleinen Studiengruppe nicht gesehen haben? Beides ergänzt sich, aber eines ersetzt das andere nicht.
Mit verschiedenen Gesetzen wie dem Gesundheitsdatennutzungsgesetz und weiteren geplanten Gesetzen macht die Politik sehr viel Druck. Hilft das?
Es ist gut, dass wir einen Rechtsrahmen haben. Es ist freilich vergleichsweise leicht, ein Gesetz zu schreiben. Aber die technische und medizinische Umsetzung „hinten raus“ bedeutet oft einen Riesenaufwand, der in der Theorie unterschätzt wird. Wenn im Gesetz steht, dass Daten fließen müssen, sind die Schnittstellen noch lange nicht programmiert. Wir müssen aufpassen, dass wir nicht eine Diskrepanz erzeugen zwischen dem, was im Gesetzblatt steht, und dem, was in der IT tatsächlich umgesetzt werden kann.
Ein weiteres ungelöstes Problem ist beispielsweise die Verknüpfbarkeit. Für viele komplexe Forschungsfragen bräuchte man eine Kombination aus vielfältigen, verteilt vorliegenden klinischen Daten und Abrechnungsdaten. Das ist derzeit rechtlich und technisch nur sehr eingeschränkt möglich. Ich vermisse da so ein bisschen den großen Wurf. Man verweist stolz darauf, dass man im FDZ bald Kassendaten und Genomdaten aus dem gesetzlichen Modellvorhaben zur Genomsequenzierung verknüpfen kann, aber für die breite Masse der Forschung fehlt uns ein durchgängiges Konzept, etwa über ein permanentes Forschungspseudonym.
Wenn wir nicht generell sagen wollen, das RKI macht jetzt für alles und für jeden Daten-Pseudonymisierung, dann müssen wir uns eigentlich was Besseres überlegen. Das geht auch aus unserer Stellungnahme zum Medizinregistergesetz (PDF) hervor. Es bräuchte hier dringend ein durchgehendes Fachkonzept, das maßgeblich aus der Perspektive der Forschung und nicht allein aus der ministerialjuristischen Perspektive erarbeitet werden müsste.
Apropos Stellungnahmen. Das Verfahren wird hierzulande immer mal wieder als nicht demokratisch genug bezeichnet: Die vom Bund vorgegebenen Fristen werden beispielsweise des Öfteren als „zu knapp bemessen“ kritisiert, außerdem darf nicht jeder eine Stellungnahme abgeben, beispielsweise beim MRG. Wie sehen Sie den Prozess?
Wir als TMF bemühen uns, die breit gefächerte Expertise in der Community – sei es aus der Mitgliedschaft oder von Partnerorganisationen – einzubeziehen und abgestimmtes Feedback im Rahmen der Kommentierung zu liefern. Gerade für ein solches Vorgehen ist ausreichend Zeit notwendig.
Warum ist die Verknüpfung so schwer?
Man denkt oft: Nehmen wir doch einfach die KV-Nummer. Aber wenn man länger darüber nachdenkt, merkt man, dass das zu kurz springt. Die Rentenversicherung kennt keine KV-Nummer. Die Unfallversicherung kennt keine. Der privatversicherte Bereich zieht erst mühsam nach. Und in primären Forschungserhebungen fragt man erst recht nicht nach einer KV-Nummer des untersuchten bzw. befragten Bürgers – das dürfte man bis dato rechtlich noch nicht einmal.
Wenn wir Daten wirklich über Sektoren hinweg verknüpfen wollen – etwa um zu sehen, wie sich Arbeitslosigkeit oder Reha-Maßnahmen auf die Gesundheit auswirken –, dann ist die KV-Nummer vermutlich eine Sackgasse. Wir bräuchten eigentlich eine übergreifende ID, etwa basierend auf der Steuer-ID, die jeder Bürger hat. Und diese ID müsste erst einmal in alle Datenbestände eingeführt werden, was sehr viel Aufwand und Zeit erfordert. Aber an dieses heiße Eisen traute sich der Gesetzgeber bislang nicht richtig ran; wir sind sehr gespannt, ob sich der jüngste Entwurf zum Forschungsdatengesetz oder das Update zur Digitalstrategie im Gesundheitswesen in diese Richtung entwickeln lassen.
Wer ist beim European Health Data Space (EHDS) in Deutschland eigentlich zuständig?
Im EHDS sind nationale Datenzugangsstellen für den Forschungsbereich vorgesehen. In Deutschland ist dafür das BfArM als zentrale Datenzugangs- und Koordinierungsstelle benannt worden. Daneben gibt es im Versorgungskontext aber noch die nationale Kontaktstelle für die grenzüberschreitende Gesundheitsversorgung, die in Deutschland bei der Gematik angesiedelt ist. Ihre Funktion ist primär koordinierend: Sie bilden die Schnittstelle zwischen den Mitgliedstaaten.
In einem föderalen System wie Deutschland stellt sich zudem die Frage, wie wir die verschiedenen spezialisierten Datenquellen anbinden – also Register, universitäre Daten oder eben Kassendaten. Der EHDS erlaubt glücklicherweise mehrere nationale Zugangspunkte. Das halten wir auch für sehr sinnvoll, denn unterschiedliche Datenarten erfordern unterschiedliche Expertise. Eine rein zentralistische Struktur würde unserer gewachsenen Forschungslandschaft kaum gerecht werden. Gebündelt werden diese dezentralen, domänenspezifischen Datenzugangsstellen allerdings durch die zentrale Stelle beim BfArM.
Es gibt immer wieder Kritik, dass zum Beispiel die Daten aus der elektronischen Patientenakte überhaupt nicht für wissenschaftliche Zwecke geeignet sind. Wie sehen sie das?
Wir diskutieren in Deutschland sehr intensiv über Rechtsrahmen und Technik – aber viel zu wenig über die eigentliche wissenschaftliche Zielsetzung. Es gibt beispielsweise gar keine wissenschaftliche Beschreibung, welche wissenschaftliche Frage der EHDS eigentlich beantworten soll. Das steht nirgendwo im Detail.
Wir müssten uns viel früher fragen: Welche konkreten Forschungsfragen wollen wir mit ePA-Daten eigentlich beantworten? Je nach Fragestellung unterscheiden sich die Anforderungen an Datenqualität und Struktur erheblich. Ohne eine solche Beschreibung und den Blick für die Praxis bauen wir eine Infrastruktur auf, deren wissenschaftliches Potenzial wir am Ende vielleicht gar nicht optimal nutzen können.
Die ePA basiert auf einer Widerspruchslösung. Reicht das für die Akzeptanz?
Die Widerspruchslösung, also das Opt-out, klingt einfacher als eine Einwilligungslösung. Sie erfordert aber einen enormen Aufwand bei der Kommunikation. Vertrauen entsteht ja nicht automatisch durch Gesetzgebung. Gerade wenn Daten künftig auch europäisch nutzbar werden, müssen wir den Bürgerinnen und Bürgern transparent erklären, was passiert.
Spätestens wenn ich keine Einwilligung mehr brauche, ist es viel schwieriger, diese Information an den Mann oder an die Frau zu bekommen. Und die Vorstellung, dass man das auf irgendeine Behördenwebseite packt und sagt „Das war jetzt die Information“, da weiß ich nicht, ob das langfristig akzeptanzfördernd ist.
Wie blicken Sie in die Zukunft?
Ich bin realistisch. Wir haben heute mehr Infrastruktur, mehr Standardisierung und mehr europäische Koordination als je zuvor. Das ist viel, was es an Möglichkeiten gibt.
Aber wir müssen ehrlich bleiben: Daten sind nicht automatisch repräsentativ, Infrastruktur ersetzt keine wissenschaftliche Methodik, und rechtliche Ansprüche ersetzen keine praktikablen Prozesse. Große Visionen brauchen belastbare Umsetzungsstrategien. Die Bottom-Line bei all dem, was wir sagen, ist doch: Keine einzelne Lösung ist eine Lösung für alles. Wir haben unterschiedliche Datentöpfe, unterschiedliche Zugänge, und in der Summe ergänzen sie sich gut. Entscheidend ist, dass wir nicht nur Technik bauen, sondern auch verstehen, was wir damit wissenschaftlich erreichen wollen.
(mack)











English (US) ·