Seit 2019 gibt es in Hamburg die Graduiertenschule DASHH: „Data Science in Hamburg – Helmholtz Graduate School for the Structure of Matter“. Sie ermöglicht jungen Forschenden eine interdisziplinäre und anwendungsbezogene Ausbildung im Verarbeiten und Analysieren von großen Datenmengen, die bei der Grundlagenforschung zur Struktur der Materie anfallen. Das Forschungszentrum DESY ist das hauptverantwortliche Helmholtz-Zentrum und einer der acht Partner von DASHH. Es beteiligen sich Forschenden verschiedener Institute und Hochschulen aus Hamburg und Umgebung als Partner an DASHH, darunter jetzt auch Wissenschaftler*innen der HAW Hamburg.
Ziel der Graduiertenschule ist es, eine neue Generation von Daten-Wissenschaftler*innen auszubilden, damit sie die notwendigen Kompetenzen erwerben, um datenintensive Experimente der Zukunft gestalten und auswerten zu können. Solche finden weltweit an führenden Großforschungs-Einrichtungen statt – beispielsweise an den Teilchenbeschleunigern PETRA III und Large Hadron Collider (LHC) oder am Röntgenlaser European XFEL – um die Struktur und Funktion von Materie zu entschlüsseln. Mit Materie können die kleinsten Teilchen im Universum gemeint sein, die Bausteine des Lebens oder Viren wie Sars-CoV-2. So beschäftigen sich die derzeit 15 Promovierenden an der Graduiertenschule mit unterschiedlichen Fragestellungen aus der Strukturbiologie, Medizin, Teilchenphysik, den Materialwissenschaften oder dem Betrieb moderner Beschleunigeranlagen.
Vor allem aber lernen sie, die dabei anfallenden großen Datenmengen mit Hilfe innovativer Ansätze auszuwerten. Dazu werden sie im Rahmen von DASHH jeweils von einem Tandem aus Fachwissenschaftler*innen und Mathematiker*innen oder Informatiker*innen betreut. Data Science ist eine interdisziplinäre Wissenschaft, die Naturwissenschaften mit Mathematik und Informatik verbinden soll – ganz gleich, aus welcher Disziplin und ob Grundlagen- oder angewandte Forschung.
„Daten sind das neue Gold“
„Data Science-Lösungen werden eingesetzt, um aus Daten Erkenntnisse zu gewinnen“, erläutert Marina Tropmann-Frick, Professorin für Data Science am Department Informatik der HAW Hamburg. Sie und Kollegen ihres Departments gehören nun zu den rund 70 Leitenden Forschenden (Principal Investigators, abgekürzt PIs) der Graduiertenschule DASHH. „Wissenschaftliche Einrichtungen, Behörden oder Unternehmen produzieren, sammeln und verarbeiten heute üblicherweise Daten. Wertvoll sind aber nicht die Daten an sich, die meist unstrukturiert in großen Mengen vorliegen und aus heterogenen Quellen stammen. Wertvoll sind erst die Informationen, die mit Hilfe von Data Science zielgerichtet analysiert und nutzergerecht aufbereitet wurden.“
Das geschieht mit den Methoden der Statistik, des Maschinellen Lernens und der Künstlichen Intelligenz. Moderne Datenverarbeitung beschäftigt sich neben der Auswertung und dem Management von Daten vor allem mit deren Visualisierung. Das dient dem Ziel, Daten besser zu verstehen, aus ihnen Erkenntnisse abzuleiten und mit ihrer Hilfe zum Beispiel Vorhersagen treffen zu können. Voraussetzung ist aber auch, die richtigen Fragen zu stellen, um entsprechende Antworten zu finden. Oft handelt es sich um die Lösung komplexer Probleme, die nicht einmal vollständig ausformuliert sind. „Um so ein Problem zu vereinfachen und weiter zu entwickeln, werden semi-automatische Methoden eingesetzt, die das Konzept des Human in the Loop integrieren,“ sagt die promovierte Ingenieurin. Das bedeutet, vereinfacht ausgedrückt, der Mensch steht immer im Mittelpunkt.
Daten besser zu verstehen, hilft bei Vorhersagen
Wie das im Einzelnen aussieht, erläutert Tropmann-Frick anhand eines aktuellen Forschungsprojektes. Dabei geht es um Software-Lösungen zur Analyse von Daten aus der Pharmakovigilanz, also der Überwachung unerwünschter Wirkungen von Arzneimitteln. Nationale und internationale Datenbanken nehmen solche Informationen auf, werten sie aus und machen sie für unterschiedliche Nutzer verfügbar. Am bekanntesten sind wohl die kanadische Drug-Bank oder die amerikanische Behörde FDA (Food and Drug Administration).
In Deutschland ist dafür das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) zuständig. In Kooperation mit dieser und Pharmakologen von der Christian-Albrechts-Universität zu Kiel beteiligt sich ein Team um Tropmann-Frick am Aufbau einer webbasierten Applikation, die sich einfach über den Browser öffnen lässt. Somit ist sie für alle zugänglich, und nicht nur Ärzte können darin nach bestimmten Medikamenten suchen. „Hinter so einem Web-Programm laufen immer ganz viele Algorithmen“, sagt Professorin Tropmann-Frick. „Da steckt die ganze Intelligenz drin.“
Muster erkennen, Daten visualisieren, Wissen extrahieren
Es beginnt mit der Sammlung und Analyse von Datensätzen, die aus unterschiedlichen Quellen stammen. Für Informatiker stellen sich dann viele Fragen: Woher stammen die Daten, wie werden sie erhoben? Wie integrieren wir Dutzende oder gar Hunderte von verschiedenen Quellen? Wie bereinigen wir sie um Duplikate? Wie gehen wir mit fehlenden oder fehlerhaften Daten um, etwa wenn an einer Stelle das Medikament mit Wirkstoff-Dosis, beispielsweise Schmerzmittel XY 600, angegeben ist, an anderer Stelle aber nur der Name auftaucht? Das sei wirklich schwierig. Auch müssen die Daten „normalisiert“ werden, also in die gleiche Einheit umgewandelt werden, etwa von Gramm in Milligramm oder umgekehrt.