AP6 IT-Konzept & Infrastruktur

Arbeitspaket 6: IT Konzeption und Infrastruktur

Eine wesentliche Stärke von DigiMed Bayern besteht in der innovativen Konzeption und Umsetzung einer zentralen digitalen Achse, über die nicht nur der sichere, datenschutzkonforme Datenzugang gewährleistet ist, sondern auch analytische Tools, Algorithmen-basierte Analysen inkl. Machine Learning und Knowledge Management Systeme angeschlossen werden können. Der Einsatz von KI in diesen Bereichen ist hier schon relativ lange etabliert und erstreckt sich im Freitextbereich von der Erkennung und Zuordnung von Wörtern und Wortgruppen in Ontologien bis hin zur syntaktischen und semantischen Analyse und nachfolgender Strukturierung von Information in Datenbanken. Im Bereich der Bilderkennung können bspw. histologisch mikroskopische Strukturen erkannt und quantifiziert werden. Als besondere Anwendung bei DigiMed Bayern ist hier bspw. in AP5.2 die Etablierung und Nutzung eines Hochdurchsatzverfahrens angedacht, bei dem anhand ausgewerteter Bilddaten dann Laser für die Mikrodissoziierung der aus AP2 stammenden Plaques gesteuert werden. Die herauspräparierten Plaque-Bereich sollen dann proteomisch untersucht werden und so einen Beitrag zum kausalen Zusammenhang mit dem klinischen Verlauf von Schlaganfall-Patienten bis hin zu neuen Therapie-Ansätzen liefern.
Bei Erfassung und Auswertung von Big Data ist dies eng mit statistischer Expertise verknüpft. Das Ziel einer weitgehend übergreifenden und kooperativen digitalen Infrastruktur entspricht dem Verständnis von DigiMed Bayern und ist zugleich zeitgemäß und realisierbar.
Die Erhebung, Verarbeitung, Zusammenführung und integrative Analyse großer Mengen unterschiedlicher Daten wie bei DigiMed Bayern erfordert den Einsatz verschiedener IT-Technologien. Ziel ist es, diese Technologien zu integrieren und eine Infrastruktur zu schaffen, die die an den Standorten der beteiligten Partner vorhandenen IT-Ressourcen verbindet und dadurch eine effiziente gemeinsame Nutzung der für das Projekt benötigten Daten und Tools ermöglicht. Die Anforderungen an diese Infrastruktur sind zum Teil auch innerhalb der APs 1 bis 5 beschrieben. Neben der Infrastruktur muss zeitgleich die Kompetenz bei den DigiMed-Partnern aufgebaut werden, diese korrekt und zielführend anzuwenden und so für den medizinischen Benefit gewinnbringend zu nutzen.
Zwischen den an DigiMed Bayern beteiligten Institutionen wird es eine enge horizontale Zusammenarbeit hinsichtlich Daten-Typen, -Mengen, -Schutz, -Integration, und -Auswertung geben. Gleichzeitig müssen die unterschiedlichen Ebenen des Kollegiums wie Informatiker, Bioinformatiker, Statistiker, Omics-Experten und klinische Wissenschaftler vertikal die digitalen Aspekte aus verschiedenen Perspektiven zielführend umsetzen. Um diesen Anforderungen gerecht zu werden, ist eine digitale Steuerungs-Struktur, das sogenannte Governance Board unter Leitung des AP6 eingerichtet. Jedem vertikalem Bereich wird bspw. jeweils mindestens ein qualifizierter Vertreter aus allen Arbeitspaketen mit definiertem Anteil an Arbeitszeit zugeordnet, der sowohl der Mitarbeit am der IT Governance Struktur als auch der Unterstützung aller Kooperationspartner und als Adapter in sein AP bzw. seine Institution dient. Die Detailstruktur des Governance Boards und assoziierte Prozesse werden in den ersten 6 Wochen nach Projektstart definiert.
Besonders im digitalen Bereich hat sich für die Bewältigung der hohen Dynamik mit ständig adaptierten Anforderungen ein „agiler“ Prozess weitreichend etabliert („Scrum“-Modell). Ein kontinuierlicher Lern- und Optimierungsprozess mit engen Kontrollpunkten im Projektmanagement erzielt im Allgemeinen eine genauere Planung mit besserem Ergebnis, also eine Erhöhung von Effizienz, Berechenbarkeit und Zielerreichung. Dieses Modell wird, in angemessener Form, im AP6 Berücksichtigung finden.
Primär ist hier innerhalb der APe 1 bis 5 die Erfassung der vorliegenden Hard- und Software-Infrastruktur, von Daten und Use Cases gefragt, um dann gemeinschaftlich ein solides Konzept zu entwickeln, das in der Realisierung auch die Infrastruktur des LRZ umfasst. Damit kann auch eine Verbindung zu Rechnerkapazität geschaffen werden, die zu Umsetzung der Datenanalysen in AP1 bis AP5 benötigt wird.

AP6.1 Analyse der bestehenden Infrastruktur / Konzeption der integrativen IT-Infrastruktur

Zunächst wird der Status quo der bestehenden IT-Infrastrukturen der beteiligten Partner evaluiert. Um früh zu einer Einschätzung über die Integrierbarkeit in eine übergeordnete Infrastruktur zu gelangen, werden in den ersten 6 Monaten alle wichtigen Fragen zum Ist-Stand der IT-Ausstattung, den Datenmanagement-Erfordernissen und den Anforderungen der Wissenschaftler an eine integrative Infrastruktur identifiziert und kategorisiert. Dieser Fragenkatalog wird in Interviews mit den IT-Spezialisten aller Partnerinstitutionen befüllt. Diese Befragungen erfolgen in enger Zusammenarbeit mit AP7 auch unter den Anforderungen von Ethik und Datenschutz. Ein übergreifender Workshop zu Beginn des Projekts legt die Grundlage.
Die Ergebnisse dienen für die anschließende Konzeption der Infrastruktur. Hierbei werden sowohl der lokale Bestand an Ressourcen, Daten und Werkzeugen als auch Infrastrukturen berücksichtigt, die an anderen Standorten oder bei weiteren Kooperationspartnern auch international zur Verfügung stehen.
Besonderes Augenmerk bei der Konzeption der Infrastruktur erhalten die Anforderungen für Analyse- und Knowledge-Management-Software aus AP 6.3. Umgekehrt fließen die Analyseergebnisse aus AP6.1 in AP 6.3 ein, insbesondere bei Sicherheit, Datenschutz, Skalierbarkeit, Bedienbarkeit, Passung auf Hardware-Architekturen, Schnittstellen, Datenformaten, etc. Der Prozess der Anforderungsdefinition und Auswahl wird durch das LRZ koordiniert und kontrolliert.
Die dokumentierten Ergebnisse der Konzeptionsphase dienen der Detailplanung für den Aufbau der Infrastruktur in der zweiten Projektphase. Ein von AP6.2 aufgebautes kontinuierliches Schulungsprogramm macht die Projektpartner mit der Infrastruktur vertraut und identifiziert gemeinschaftlich Verbesserungsvorschläge und Weiterentwicklungen zur weiteren Integration. Die Zielsetzung ist nach Aufbau und Betrieb auch die Überführung der Infrastruktur in den klinischen bzw. klinik-nahen Betrieb im Jahr 5 und die öffentlich verfügbare Dokumentation als exemplarische, skalierbare und übertragbare Infrastruktur für P4-Medizin mit Omics-Daten.

AP6.2 Aufbau Pilotinfrastruktur, Planung und Koordination des Datenaustauschs, Bereitstellung Rechenkapazität

Um trotz der aufwändigen Analyse von Anforderungen und Status Quo keine wertvolle Zeit zu verlieren und realitätsnahe Erfahrungen kontinuierlich konzeptionell einfließen zu lassen, werden parallel erste Teile der integrativen Infrastruktur mit Fokus auf „low hanging fruits“ aufgebaut. IT-Ressourcen werden so eingerichtet, dass möglichst schnell begonnen werden kann, Pilotanwendungen auf den ersten Infrastruktur-Komponenten zu testen und zu nutzen. Eine solche Komponente wird etwa die Datenbank sein, welche die biochemischen und molekulargenetischen Daten sowie den Behandlungsverlauf von FH-Patienten zentral vorhält, oder öffentlich verfügbare Gen- und Proteindatenbanken mit phänotypischen Assoziationen und Ontologien. Dabei werden bis zur Klärung aller datenschutz-rechtlichen Fragen nur datenschutz-unkritische Daten verwendet werden. Neben der Datenspeicherung wird auch mit der Ermöglichung von Datentransfer zwischen den Institutionen und den zentralen Datenmanagementeinrichtungen begonnen. Dabei wird der Skalierungsbedarf von Datentransfer-Infrastrukturen auf definiert hohen Datenmengen in der Betriebsphase frühzeitig berücksichtigt.

Neben Transfer und Management der Daten ist deren Verarbeitung ein wesentlicher Teil der IT-Infrastruktur. Dazu muss Analyse-Software teilweise auf zentralen Hardware-Komponenten installiert werden, welche die für die entsprechenden Berechnungen notwendige Rechenkapazität bereitstellen können. Bei HPC-Systemen, wie sie für große Simulationen oder Analysen eingesetzt werden, ist ein separater Antrag erforderlich, der die zur Nutzung der Systeme notwendige wissenschaftliche und technische Expertise nachweist. Das LRZ unterstützt die verantwortlichen Wissenschaftler bei der Erstellung dieser Anträge. Darüber hinaus werden Tests der Software auf der Infrastruktur durchgeführt, deren Ergebnisse direkt in deren Konzeption bei AP6.1 einfließen.

Einem Prozess der kontinuierlichen Integration folgend, wird diese Pilotinfrastruktur sukzessive ausgebaut und verbessert. So können die wachsenden Möglichkeiten durch Pilotnutzer auf Tauglichkeit getestet werden und etwaige Defizite sofort in die weitere Konzeption einfließen. Zum Ende der ersten Phase werden die Erkenntnisse aus Aufbau und Test der Pilotinfrastruktur zusammengetragen und in die Dokumentation von AP6.1 integriert. Dies dient zur Entscheidung über die Fortführung von Pilotkomponenten im Realbetrieb bzw. der Neukonzeption ggf. nicht ausreichend tragfähiger Teilbereiche.

In der zweiten Phase wird das Konzept von AP6.1 iterativ realisiert und für die Nutzung durch die Wissenschaftler aus den APen 1 bis 5 betrieben. Parallel wird die Überführung in den klinischen bzw. klinik-nahen Betrieb unabhängig von DigiMed Bayern vorbereitet, der im Laufe von Jahr 5 stattfinden soll.

AP6.3 Analyse, Konzeption und Implementierung der Software-Lösungen für die integrierte Omics-Plattform und das Expertensystem für Digitale Medizin

Die datenschutzkonforme Integration bestehender, sowie prospektiv und retrospektiv erhobener Daten ist die Grundlage für weiterführende Analysen. Dazu soll eine umfassende IT-Kerninfrastruktur geschaffen werden, die sowohl die Erfassung, die Aufbereitung, die Integration, als auch die Analyse unterstützt. Im Projekt verwendete proprietäre bis öffentliche Daten sollen in zweckdienlichen, d.h. auch digital-integrativ auswertbaren Formaten zugängig gemacht und integriert werden. Daten sollen auf Command-Line oder Graphical User Interface-Ebene auch mit komplexen Anfragen und in Analysetools inkl. KI geschoben oder manuell analysiert werden können. Die analysierten Daten inkl. der ausgewählten Parameter und der Ergebnisse sollen strukturiert abgelegt werden. Damit ist nicht nur eine Dokumentation gegeben, sondern auch eine schnelle Wiederholbarkeit der Analysen mit angepassten zugrunde liegenden Datensätzen und/oder Parametern. Analysen, Ergebnisse, Daten und Relationen sollen zudem auch manuell mit Freitext und mit bestehenden und/oder neuen, flexibel adaptierbaren Ontologien annotiert werden können. Ein beispielhafter Use-Case ist ein Protein-Entry, bei dem dann innerhalb des Konsortiums sichtbar ist, welche Analysen von wem mit welchen Daten, welcher Software und welchen Parametern unter welchen Hypothesen mit welchen Ergebnissen und Erkenntnissen durchgeführt wurden, sowie welche Fragestellungen oder Folgeaktivitäten sich ergeben. Nur auf diese Weise kann auch bei hohen Datenmengen und kombinatorischer Vielfalt ein kollaborativer Informationsaustausch zwischen den beteiligten Institutionen und Personen bewerkstelligt werden. Diese durchgehende digitale Achse ist essentiell für hohe Effizienz hinsichtlich der übergeordneten Projektziele und birgt folgende Teilaspekte:

Strukturiertes, flexibles Data Retrieval inkl. Rechtemanagement
Förderung einer effizienten und transparenten Kollaboration trotz Interdisziplinarität
transparente (Live-)Dokumentation von Aktivitäten, bis hin zu Innovationen, Publikationen und Projekterfolg
Wissenschaftliches Projektmanagement
Schaffung einer beispielhaften, skalierbaren und übertragbaren digitalen Infrastruktur für P4-Medizin
öffentlich zugängliche interaktive Experten-Datenbank für Biomarker in Atherosklerose als nachhaltige Struktur

Die höchste Datenquantität fällt in den Omics-Technologien im AP5 an. Zugleich liegt hier bereits große Expertise in der integrativen Analyse hinsichtlich übergeordneter, krankheitsbezogener Fragestellungen vor. In den Arbeitsgruppen von Prof. Matthias Mann werden in parallelen Projekten ähnliche Infrastrukturen bereits aufgebaut und genutzt. Schwerpunkte sind hier die Integration von Omics-Daten und öffentlichen Datenbanken sowie Integration klinischer Daten, Textmining und Graph-basierten Datenbanken. Diese Expertise soll von DigiMed Bayern genutzt werden. Gleichzeitig gibt es „unterhalb“ dieser Ebene, besonders im klinischen Bereich, den Bedarf von Daten-Formatierung und -Harmonisierung sowie „oberhalb“ den Bedarf an User-Interface-basiertem Zugang, dem effizienten granulärem Management von Benutzerrechten und Datenzugriff, der Integration weiterer Daten, Schnittstellen zu analytischen Tools sowie Annotation. Die gewonnenen Erkenntnisse münden in dokumentierten Anforderungen für die IT Infrastruktur und den Betrieb bzw. die Erweiterung der Pilotinfrastruktur. Der Bedarf an kommerziellen Dienstleistern wird strukturiert erfasst und kann so schnell in zielgerichtete Vergabeverfahren fließen. Dabei soll die Pilot-Infrastruktur, soweit möglich, als bereits bestehender Baustein für Produktivsysteme genutzt werden. Neben der Erfassung des Ist-Zustandes und der Use Cases sowie der daraus folgenden Anforderungen wird als Erstes das IT-Sicherheits- und Datenschutzkonzept ausgearbeitet. Die Sammlung von Forschungsdaten erfolgt nach dem TMF-„Leitfaden zum Datenschutz in medizinischen Forschungsprojekten“ inkl. zwei-stufiger Pseudonymisierung. Vor der Aufbereitung bzw. Integration werden sowohl die Forschungsdaten als auch die Versorgungsdaten pseudonymisiert. Die weiteren Prozessschritte erfolgen somit ausschließlich auf pseudonymisierten Daten. Für den externen Zugriff auf Daten müssen sichere Konzepte zum datenschutzkonformen Austausch von Daten und Proben erarbeitet werden. Das Datenschutz- und Sicherheitskonzept wird mit den zuständigen Datenschützern und Ethikkommissionen erörtert und zur Begutachtung vorgelegt.

Die erhobenen Anforderungen und die identifizierten Quellsysteme werden priorisiert und einem agilen Prozess folgend, wird eine erste Version der Architektur konzipiert. Nachfolgend werden die Software-Komponenten entwickelt bzw. erweitert und in einen Piloteinsatz gebracht.