von Torsten Bronger

Eine neue Ära beginnt in der Wissenschaft. Bislang gab es drei grundlegende Methoden: Die Theorie, die bereits im Altertum betrieben wurde. Das Experiment, das spätestens seit Galilei etabliert ist. Und schließlich die Simulation, deren Siegeszug parallel zu dem der Computer stattfand.

Seit einigen Jahren schickt sich eine vierte Methode an, die Wissenschaft zu revolutionieren: Die Datenwissenschaft. Ergebnisse der drei anderen Methoden werden hier mittels Algorithmen verknüpft, um neue Erkenntnisse zu gewinnen. Wir stehen hier noch am Anfang und loten die Möglichkeiten aus, aber schon jetzt ist absehbar, dass viele wesentliche Innovationen über Datenwissenschaft entstehen werden.

Im Kern ist dabei jeder Forscher auch Datenwissenschaftler, wenn Rohdaten aus Experimenten oder Simulationen ausgewertet werden. Allerdings erweitert sich diese Tätigkeit rapide sowohl quantitativ (es findet eine Explosion der Datenmengen statt) als auch qualitativ (es werden global verteilte Datenquellen herangezogen und grundlegend neue Analysetechniken erforscht).

Was ist Forschungsdatenmanagement?

Torsten Bronger arbeitet als Forschungsdatenmanager in der Zentralbibliothek des Forschungszentrums Jülich. Quelle: FZJ

Forschungsdatenmanagement definiert man am besten über sein Ziel: Die Effizienz der datengetriebenen Forschung soll gesteigert werden, und zwar durch das Vermeiden unnötiger Hemmnisse und unnötiger Arbeit. Der Forscher soll sich mit wissenschaftlichen Ergebnissen befassen und nicht mit Datenhaltung und Datenformaten. Wenn der Forscher die Daten, die ihm helfen würden, nicht finden kann, hat das Forschungsdatenmanagement versagt. Ebenso, wenn er die Daten zwar findet, aber nicht versteht. Und erst recht, wenn die mangelhafte Beschreibung der Daten andere Forschende oder einen selbst zu Fehlschlüssen oder falschen Analysen verleitet. Ein weiteres Ziel von Forschungsdatenmanagement ist, Reproduzierbarkeit und Wiederverwendbarkeit von Ergebnissen zu steigern.

Dementsprechend gab es immer schon Forschungsdatenmanagement, in einigen Bereichen mehr, in anderen weniger. Es rückt allerdings seit einigen Jahren in den Fokus, weil klar wird, dass es die Voraussetzungen ist um mit großen, heterogenen und komplex strukturierten Daten umzugehen.

Es beginnt ganz klein. Ein Doktorand hat ein Experiment aufgebaut. Zur Steuerung des Versuchs hat er vorhandene Steuersoftware angepasst. Und schon muss er viele kleine Entscheidungen treffen: Pro Lauf eine Datei, oder mehrere? Wie benenne ich die Dateien? Welches Dateiformat wähle ich? Soll ich bei Datentabellen die Spaltenbedeutungen in jede Datei hineinschreiben, oder reicht es, wenn ich das einmal irgendwo dokumentiere?

Ein Stockwerk darüber sitzt gerade seine Chefin in einer Besprechung über die Datenhaltung des Instituts. Die Gruppenleiter kommen mit vielen Vorschlägen: Alles in ein Windows-Netzlaufwerk, oder in eine SQL-Datenbank, oder in ein elektronisches Laborbuch? Wenn Netzlaufwerk, wie soll dessen Verzeichnisstruktur aussehen? Wenn SQL-Datenbank, wie sollen Verknüpfungen zwischen Experimenten realisiert werden? Wenn elektronisches Laborbuch, welches? Muss es angepasst werden?

Ein weiteres Stockwerk darüber beginnt ein Datenwissenschaftler eines anderen Institutes ein neues Projekt. Er möchte weltweite Wetter- und Aerosol-Daten mit Lichtspektrum-abhängigen Effizienzdaten verschiedener Photovoltaik-Technologien kombinieren, um die besten Standorte für neue Solaranlagen zu ermitteln. Leider sind einige der Daten, die er benötigt, nirgends publiziert. Er kann sie also nicht finden, geschweige denn, auf sie zugreifen. Dabei hätten die ursprünglichen Forscher nichts gegen eine Nachnutzung der Daten mit Zitation oder sogar Ko-Autorenschaft. Hier hätte ein vorausschauendes Forschungsdatenmanagement die Zusammenarbeit und das Gewinnen neuer Erkenntnisse ermöglicht.

Forschungsdatenmanagement bedeutet, Daten von einem selbst oder von anderen derart generisch, verständlich und vollständig zu organisieren und zu dokumentieren, dass selbst Nutzungen, die man nicht im Traum antizipiert hat, ermöglicht werden.

 

Was macht ein Forschungsdatenmanager?

Ein Forschungsdatenmanager unterstützt gutes Forschungsdatenmanagement. Dies kann auf vielen Ebenen geschehen, einschließlich der oben skizzierten.

Auf der Institutsebene vermittelt ein Forschungsdatenmanager Handlungsempfehlungen (Best Practices) und berät die Forscher bei der Optimierung der Handhabung ihrer Daten, wie beispielsweise der Speicherung, der Datenorganisation oder den korrespondierenden Analyseprozessen. Das können Vorträge sein, die in den Instituten gehalten werden und an die sich Besprechungen anschließen, in denen konkrete Probleme im Detail behandelt werden. Idealerweise entwickelt sich daraus ein dauerhaftes Beratungsverhältnis, welches nicht selten zur Entwicklung von maßgeschneiderten Lösungen für die Bedarfe des Instituts führt.

Auf Ebene einer Forschungsinstitution werden zentrale Dienste eingerichtet, betrieben und weiterentwickelt. Das kann ein IT-Service wie ein Repositorium sein, in dem Forschungsdaten veröffentlicht werden, oder ein Schulungs-Curriculum, in dem Mitglieder der Institution Kenntnisse im Datenmanagement erwerben können.

Auf nationaler und europäischer Ebene gibt es viele Aktivitäten, in denen Forschungsdatenmanager tätig sind. Hier geht es vor allem um Gremienarbeit, in der Prozesse zum Forschungsdatenmanagement über nationale und disziplinäre Grenzen hinweg harmonisiert werden. Ein Ziel ist es, ein „Google für Forschungsdaten“ zu bauen. Ein weiteres ist, Standards, Werkzeuge, Dienste und Prozesse zu konzipieren, die es Forschenden ermöglichen, ihre Daten mit praktisch vertretbarem Aufwand nachnutzbar zu gestalten.

Grundsätzlich ist ein Forschungsdatenmanager immer an der Nahtstelle zur Wissenschaft unterwegs. Er muss dieselbe Sprache wie die Forscher sprechen, um sie unterstützen zu können. Häufig ist er gleichzeitig Wissenschaftler, denn das Gebiet des Datenmanagements ist selbst ein Forschungsgebiet, das jung und dynamisch ist und erschlossen werden will.

Wie wird man Forschungsdatenmanager?

Die besten persönlichen Voraussetzungen als Forschungsdatenmanager hat man, wenn man wissenschaftlich tätig war und sich dabei mit Datenhaltung beschäftigt hat. Bei einigen entwickelt sich dabei Interesse nicht nur am wissenschaftlichen Nutzen von Daten, sondern auch dem Umgang mit Daten an sich. Wenn dann noch eine Affinität zu Informationstechnologie hinzukommt sowie Kommunikationsfähigkeit und der Servicegedanke, kann man eine Karriere im Forschungsdatenmanagement ins Auge fassen.

Gelegentlich kommt die Frage auf, wie groß die IT-Affinität sein muss. Ist es nötig, programmieren zu können oder Server administrieren zu können? Nein, aber man sollte wissen, was in diesen Bereichen machbar ist. Nur so kann man IT-Dienste entwerfen und gemeinsam mit Software-Entwicklern und Technikern die Implementierung und den Betrieb dieser Dienste sicherstellen.

Gelegenheit dazu gibt es reichlich. Deutschland und die EU sind an Digitalisierung sehr interessiert, und Corona hat dieses Interesse noch verstärkt. Es wird viel Geld investiert. Allein in Deutschland wird dieser Prozess im Rahmen der Nationalen Forschungsdaten-Infrastruktur (NFDI) mit 90 Millionen Euro pro Jahr gefördert, die European Open Science Cloud (EOSC) hat in den vergangenen zwei Jahren mit einem Budget von 600 Millionen Euro gearbeitet. Hinzu kommen die nationalen Digitalisierungsprojekte der Mitgliedsstaaten.

Ganz konkret startet die NFDI zum 1. Oktober 2020, und in der Folge wird es deutschlandweit eine dreistellige Zahl von Stellenausschreibungen geben. Weitere ähnlich große Förderrunden folgen 2021 und 2022. Programme wie NFDI oder EOSC sind auf Nachhaltigkeit ausgelegt, sollen also die Zukunftsfähigkeit der Forschung dauerhaft sicherstellen. Damit bieten viele Stellen im Datenmanagement auch eine langfristige Perspektive.

Das Team des FDM-Projektes an der Zentralbibliothek. Quelle: FZJ

Wie wird sich das Gebiet in den nächsten Jahren entwickeln?

Das Forschungsdatenmanagement befindet sich vor seinem ersten Umbruch. Bislang war es dominiert von großen IT-Infrastrukturen, die nur wenigen Disziplinen zugutekommen. Außerdem lag der Fokus auf der Publikation von Daten. Nun aber soll es von den Forschern in der Breite eingesetzt werden, und auch unpublizierte Daten – der so genannte „Long Tail“ – sollen einbezogen sein.

Dafür ist es nötig, Forschende als Kunden zu verstehen und in den Mittelpunkt zu rücken. Die NFDI dreht sogar den Spieß um und macht die Forscher zu den Treibern des Digitalisierungsprozesses, während die Forschungsdatenmanager die daraus sich ergebenen Bedarfe umsetzen. Es bleibt dabei genug Gestaltungsspielraum, der diese Umsetzung zu einer äußerst abwechslungsreichen und herausfordernden Aufgabe macht.

In den kommenden Jahren wird die Bedeutung von Forschungsdatenmanagement weiter zunehmen. Statt eines Wildwuchses an Aktivitäten ist ein koordiniertes Vorgehen notwendig, und gleichzeitig müssen Antworten auf schwierige Fragen gefunden werden: Wie bringen wir gutes Datenmanagement in die tägliche Arbeit eines jeden Forschers? Wie stellen wir sicher, dass Daten auch nach Jahren von anderen Forschern nachgenutzt werden können? Wie können Forscher bequem und zuverlässig Forschungsdaten anderer finden und nachnutzen? Wie weit kann man das automatisieren? Und wie können Forscher Datenpublikationen für die Sichtbarkeit ihrer Arbeit und für die eigene Karriere nutzen?

Ein aufstrebendes Gebiet an der Nahtstelle zwischen IT und Wissenschaft, Mitgestalten auf allen Ebenen, Servicegedanke, Forschen für das Forschen – Forschungsdatenmanagement ist eine der vielseitigsten Tätigkeiten, die der Wissenschaftsbetrieb bietet. Werden Sie Mitstreiter!

 

Gastblogger

About Gastblogger

This post was written by a guest contributor.

No Comments

Be the first to start a conversation

Leave a Reply

  • (will not be published)