| Forschung
DASHH-Graduiertenschule

„Daten sind das neue Gold“

Wie lassen sich die datenintensiven Experimente der Zukunft gestalten und auswerten? Die Wissenschaftsdisziplin Data Science ist ein zentraler Forschungsschwerpunkt in Hamburg. In der vom Deutschen Elektronensynchrotron (DESY) initiierten Helmholtz-Graduiertenschule DASHH wird an der Analyse großer Datenmengen geforscht. Eine neue Generation von Daten-Wissenschaftler*innen sollen die datenintensiven Experimente der Zukunft analysieren und aufbereiten. Vier Informatik-Professor*innen der HAW Hamburg wurden nun als leitende Forscher*innen in die DASHH-Graduiertenschule aufgenommen.

HAW Informatik, Flyermotive.

Studierende der Informatik an der HAW Hamburg

Seit 2019 gibt es in Hamburg die Graduiertenschule DASHH: „Data Science in Hamburg – Helmholtz Graduate School for the Structure of Matter“. Sie ermöglicht jungen Forschenden eine interdisziplinäre und anwendungsbezogene Ausbildung im Verarbeiten und Analysieren von großen Datenmengen, die bei der Grundlagenforschung zur Struktur der Materie anfallen. Das Forschungszentrum DESY ist das hauptverantwortliche Helmholtz-Zentrum und einer der acht Partner von DASHH. Es beteiligen sich Forschenden verschiedener Institute und Hochschulen aus Hamburg und Umgebung als Partner an DASHH, darunter jetzt auch Wissenschaftler*innen der HAW Hamburg.  

Ziel der Graduiertenschule ist es, eine neue Generation von Daten-Wissenschaftler*innen auszubilden, damit sie die notwendigen Kompetenzen erwerben, um datenintensive Experimente der Zukunft gestalten und auswerten zu können. Solche finden weltweit an führenden Großforschungs-Einrichtungen statt – beispielsweise an den Teilchenbeschleunigern PETRA III und Large Hadron Collider (LHC) oder am Röntgenlaser European XFEL – um die Struktur und Funktion von Materie zu entschlüsseln. Mit Materie können die kleinsten Teilchen im Universum gemeint sein, die Bausteine des Lebens oder Viren wie Sars-CoV-2. So beschäftigen sich die derzeit 15 Promovierenden an der Graduiertenschule mit unterschiedlichen Fragestellungen aus der Strukturbiologie, Medizin, Teilchenphysik, den Materialwissenschaften oder dem Betrieb moderner Beschleunigeranlagen.

Vor allem aber lernen sie, die dabei anfallenden großen Datenmengen mit Hilfe innovativer Ansätze auszuwerten. Dazu werden sie im Rahmen von DASHH jeweils von einem Tandem aus Fachwissenschaftler*innen und Mathematiker*innen oder Informatiker*innen betreut. Data Science ist eine interdisziplinäre Wissenschaft, die Naturwissenschaften mit Mathematik und Informatik verbinden soll – ganz gleich, aus welcher Disziplin und ob Grundlagen- oder angewandte Forschung.

„Daten sind das neue Gold“

„Data Science-Lösungen werden eingesetzt, um aus Daten Erkenntnisse zu gewinnen“, erläutert Marina Tropmann-Frick, Professorin für Data Science am Department Informatik der HAW Hamburg. Sie und Kollegen ihres Departments gehören nun zu den rund 70 Leitenden Forschenden (Principal Investigators, abgekürzt PIs) der Graduiertenschule DASHH. „Wissenschaftliche Einrichtungen, Behörden oder Unternehmen produzieren, sammeln und verarbeiten heute üblicherweise Daten. Wertvoll sind aber nicht die Daten an sich, die meist unstrukturiert in großen Mengen vorliegen und aus heterogenen Quellen stammen. Wertvoll sind erst die Informationen, die mit Hilfe von Data Science zielgerichtet analysiert und nutzergerecht aufbereitet wurden.“

Das geschieht mit den Methoden der Statistik, des Maschinellen Lernens und der Künstlichen Intelligenz. Moderne Datenverarbeitung beschäftigt sich neben der Auswertung und dem Management von Daten vor allem mit deren Visualisierung. Das dient dem Ziel, Daten besser zu verstehen, aus ihnen Erkenntnisse abzuleiten und mit ihrer Hilfe zum Beispiel Vorhersagen treffen zu können. Voraussetzung ist aber auch, die richtigen Fragen zu stellen, um entsprechende Antworten zu finden. Oft handelt es sich um die Lösung komplexer Probleme, die nicht einmal vollständig ausformuliert sind. „Um so ein Problem zu vereinfachen und weiter zu entwickeln, werden semi-automatische Methoden eingesetzt, die das Konzept des Human in the Loop integrieren,“ sagt die promovierte Ingenieurin. Das bedeutet, vereinfacht ausgedrückt, der Mensch steht immer im Mittelpunkt.

Daten besser zu verstehen, hilft bei Vorhersagen

Wie das im Einzelnen aussieht, erläutert Tropmann-Frick anhand eines aktuellen Forschungsprojektes. Dabei geht es um Software-Lösungen zur Analyse von Daten aus der Pharmakovigilanz, also der Überwachung unerwünschter Wirkungen von Arzneimitteln. Nationale und internationale Datenbanken nehmen solche Informationen auf, werten sie aus und machen sie für unterschiedliche Nutzer verfügbar. Am bekanntesten sind wohl die kanadische Drug-Bank oder die amerikanische Behörde FDA (Food and Drug Administration).

In Deutschland ist dafür das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) zuständig. In Kooperation mit dieser und Pharmakologen von der Christian-Albrechts-Universität zu Kiel beteiligt sich ein Team um Tropmann-Frick am Aufbau einer webbasierten Applikation, die sich einfach über den Browser öffnen lässt. Somit ist sie für alle zugänglich, und nicht nur Ärzte können darin nach bestimmten Medikamenten suchen. „Hinter so einem Web-Programm laufen immer ganz viele Algorithmen“, sagt Professorin Tropmann-Frick. „Da steckt die ganze Intelligenz drin.“

Muster erkennen, Daten visualisieren, Wissen extrahieren

Es beginnt mit der Sammlung und Analyse von Datensätzen, die aus unterschiedlichen Quellen stammen. Für Informatiker stellen sich dann viele Fragen: Woher stammen die Daten, wie werden sie erhoben? Wie integrieren wir Dutzende oder gar Hunderte von verschiedenen Quellen? Wie bereinigen wir sie um Duplikate? Wie gehen wir mit fehlenden oder fehlerhaften Daten um, etwa wenn an einer Stelle das Medikament mit Wirkstoff-Dosis, beispielsweise Schmerzmittel XY 600, angegeben ist, an anderer Stelle aber nur der Name auftaucht? Das sei wirklich schwierig. Auch müssen die Daten „normalisiert“ werden, also in die gleiche Einheit umgewandelt werden, etwa von Gramm in Milligramm oder umgekehrt.

Die Vorbereitung der Datensätze kostet uns etwa 80 Prozent der Zeit.

Prof. Marina Tropmann-Frick, Professorin für Data Science

„Die Vorbereitung der Datensätze kostet uns etwa 80 Prozent der Zeit“, schätzt Tropmann-Frick. Erst dann kann die eigentliche Analyse beginnen, mit Hilfe von Maschinellem Lernen, Tiefenlernen (neuronale Netze) und statistischen Methoden. Zu den Resultaten gehören Bild- bzw. Mustererkennung oder natürliche Spracherkennung. Nach der Analyse werden die Daten für Nutzer visualisiert, indem man sie beispielsweise in Graphiken darstellt. Auf jeden Fall soll daraus eine verständliche Präsentation entstehen.

Das Human in the Loop-Konzept

Das Human in the Loop-Konzept besagt, dass in jedem dieser Schritte der Datenverarbeitung eine Interaktion mit Menschen steht, entweder mit den Expertinnen und Experten der Fachdomänen oder den Nutzern verschiedener Gruppen, zum Beispiel Ärzte, Patienten, Unternehmen. Zum Konzept gehöre aber auch das ethische Handeln der Datensammler und Programmierer, betont Tropmann-Frick, etwa um den Persönlichkeitsschutz zu gewährleisten. Das geschehe durch Privacy By Design: „Wir designen unsere Systeme von vornherein so, dass die Identität des Einzelnen gewahrt bleibt. So vermeiden wir, Stand heute, etwas mangels Datenschutz im Nachhinein korrigieren zu müssen.“

Bis es mehr ausgebildete Fachkräfte in Data Science gibt, wird es noch einige Jahre dauern. Zum idealen Profil von Daten-Wissenschaftler*innen (Data Scientist) gehören nach Angaben der Professorin umfassende Kenntnisse in Mathematik, Stochastik, Informatik (vor allem Algorithmen und Maschinelles Lernen) sowie Visual Analytics, also der Visualisierung von Informationen. Weitere notwendige Fähigkeiten sind Kommunikation, Management und Organisation sowie Interesse an einer Naturwissenschaft oder Medizin („Anwendungsdomäne“).

(Text: Monika Rößiger)

Weitere Informationen
 

Pressemitteilung vom 8.12.2020: HAW Hamburg ist neuer Partner der Graduiertenschule DASHH

www.dashh.org

Department Informatik

Das Experten-Team der HAW Hamburg in der Helmholtz-Graduiertenschule „DASHH“

  • Prof. Marina Tropmann-Frick ist Datenanalytikerin mit den Schwerpunkten Modellierung, Engineering und Mining. 
  • Prof. Thomas C. Schmidt hat sich in der verteilten Sensorik und Datenvorverarbeitung im Internet der Dinge spezialisiert. 
  • Prof. Peer Stelldinger nähert sich den Problemen von der Theorie und entwickelt Algorithmen zum Maschinellen Lernen
  • Prof. Jan Sudeikat fokussiert praktische Probleme in der Entwicklung adaptiver (Steuerungs-)Systeme. 

Im Rahmen der DASHH-Graduiertenschule planen die Forscher*innen der HAW Hamburg ebenfalls die Durchführung von interdisziplinären Promotionsprojekten.

Kontakt

HAW Hamburg
Fakultät Technik und Informatik
Department Informatik
Prof. Dr.  Marina Tropmann-Frick
Marina.Tropmann-Frick (at) haw-hamburg (dot) de

Prof. Dr. Thomas C. Schmidt
T.Schmidt (at) haw-hamburg (dot) de

Prof. Dr. Peer Stelldinger
Peer.Stelldinger (at) haw-hamburg (dot) de

Prof. Dr. Jan Sudeikat
Jan.Sudeikat (at) haw-hamburg (dot) de

Für Rückfragen der Medien:

Dr. Katharina Jeorgakopulos
Pressesprecherin und Pressereferentin
T +49 40 428 75 91 32
presse (@) haw-hamburg.de

x