Räum doch mal auf! Navigation durch den „Datenwald“: DataPLANT – eine Dateninfrastruktur für komplexe Daten aus der Pflanzenforschung

Mit immer schnelleren und hochauflösenden Techniken und immer besseren Computern und intelligenteren Analyseansätzen werden auch in der Pflanzenforschung große Mengen an umfangreichen wissenschaftlichen Datensätzen erzeugt. Das ist ein toller Fortschritt, mit hohem Nutzen für die Wissenschaft und die Gesellschaft! Dies führt jedoch zu einer Vielzahl an Daten aus den verschiedensten Bereichen, die mit den unterschiedlichsten Techniken gewonnen werden, bei denen man am Ende doch auch den Überblick verlieren kann. Mit den großen, komplexen Datensätzen der heutigen Wissenschaft wird es zudem immer schwieriger, Zusammenhänge herzustellen und zu erkennen und die Ergebnisse zu deuten. Deshalb wird unter Beteiligung vieler Wissenschaftler für den Bereich der Pflanzenforschung eine gemeinsame Dateninfrastruktur entwickelt. Hier sollen Daten gesammelt, überprüft, angepasst und über eingebaute Methoden verständlich sichtbar gemacht werden. Diese Dateninfrastruktur soll für alle zugänglich und nutzbar sein. Der Institutsbereich Bioinformatik (IBG-4) ist an dem von der Deutschen Forschungsgemeinschaft (DFG) im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) geförderten Konsortium DataPLANT beteiligt, das am 01.Oktober 2020 offiziell mit seinen Arbeiten beginnen wird.

In der Pflanzenforschung werden molekulare Grundlagen (z.B. Gene und deren Ausprägung) erforscht, die Pflanzenwachstum, den Ernteertrag und die Biomasseproduktion sowie die Anpassung der Pflanzen an Umweltbedingungen bestimmen. Auch die Vielfalt von Nutzpflanzenvarietäten oder Wildsorten wird unter Erzeugung von großen Datensätzen erforscht. Dabei werden große, komplexe und umfassende Datenmengen erzeugt, die in Datenbanken und durch Visualisierung (Veranschaulichung) verwaltet, verknüpft und interpretierbar gemacht werden müssen. Oft können mit den großen, umfassenden Datensätzen auch mehr Fragen beantwortet werden als im ersten Ansatz bei ihrer Erhebung geplant. Andere Wissenschaftler können solche Daten erneut heranziehen und auch mit weiteren Daten kombinieren, um Antworten auf wissenschaftliche Fragen zu erhalten. Ein effektives Forschungsdatenmanagement zur Erhebung, zum Austausch und zur Verarbeitung von Forschungsdaten ist dabei essentiell. Um die Daten für alle nutzbar zu machen und vergleichbar vorliegen zu haben, müssen die Aufnahme und Verwaltung der Daten standardisiert werden. Für eine effiziente Standardisierung im Hinblick auf die Datenqualitätskontrolle und die Kompatibilität von Daten und Arbeitsabläufen ist eine integrative Lösung erforderlich. Dabei sollen Daten nach den sogenannten „FAIR Prinzipien“ („Findable, Accessible, Interoperable, and Re-usable“) „auffindbar“, „zugänglich“, „kompatibel“ und „wiederverwendbar“ sein. Deshalb wird mit DataPLANT eine gemeinsam erstellte und offen nutzbare Dateninfra- und Servicestruktur für die moderne Pflanzenforschung aufgebaut.

Kartoffelblüte und DataPLANT. Quelle A. Wiese-Klinkenberg und DataPLANT (Logo)

Forschungsdaten können nach den FAIR-Prinzipien mit minimalem Zusatzaufwand eingeordnet und entnommen werden und so den gesamten Forschungszyklus in der modernen Pflanzenbiologie unterstützen. So kann die Nutzung der erhobenen und gespeicherten Forschungsdaten beschleunigt und auch vervielfältigt werden. DataPLANT ermöglicht den Austausch interdisziplinärer Sachkenntnis und die Verknüpfung unterschiedlicher analytischer Ergebnisse. DataPLANT treibt den digitalen Wandel und auch eine „Demokratisierung“ der Forschungsdaten im Bereich der Pflanzenforschung auf nationaler Ebene voran. Damit wird der Fortschritt in der Pflanzenforschung für Nahrungssicherheit, Ressourceneffizienz, Biomasseproduktion und Bioökonomie stimuliert und unterstützt.

Unter Leitung von Prof. Björn Usadel ist der Institutsbereich Bioinformatik (IBG-4) an dem neuen Forschungsverbund „DataPLANT“ beteiligt, welcher durch die Deutsche Forschungsgemeinschaft (DFG) initial für 5 Jahre mit insgesamt fast 10 Millionen Euro gefördert wird. DataPLANT ist eines von insgesamt neun Konsortien der Nationalen Forschungsdateninfrastruktur (NFDI), die sich mit der systematischen Erschließung, nachhaltigen Sicherung und Zugänglichkeit der Datenbestände von Wissenschaft und Forschung, sowie der (inter-)nationalen Vernetzung befasst und bereits 2020 starten. Das neu gegründete Konsortium „DataPLANT“ soll eine Service- und Dateninfrastruktur entwickeln, mit der die moderne Pflanzenforschung große Datenmengen erfassen und bereitstellen kann. Prof. Björn Usadel ist einer der Co-Sprecher des Konsortiums. Schwerpunkte am Standort Jülich werden die Entwicklung der geplanten Pflanzenforschungs-(Meta‑)Datenstandards, die Sicherstellung einer Datenqualität unter Einbezug der Vollständigkeit der Metadaten, sowie die Interoperabilität zur Gewährleistung der (Wieder-)Verwendbarkeit der Forschungsdaten sein.

DataPLANT wird eine nachhaltige, nutzerorientierte Infrastruktur bereitstellen, die abgestimmt in den übergreifenden NFDI Aktivitäten eingebettet ist. DataPLANT wird von der Uni Freiburg koordiniert und federführend von den Universitäten Tübingen und Kaiserslautern sowie dem Forschungszentrum Jülich bearbeitet. Partner sind Institute und Universitäten in Berlin, Bielefeld, Bochum, Düsseldorf, Hohenheim, Konstanz, München und Potsdam.

Mehr zu DataPLANT und zur Liste aller beteiligten Institutionen: https://nfdi4plants.de/

Räum doch mal auf! Navigation durch den „Datenwald“: DataPLANT – eine Dateninfrastruktur für komplexe Daten aus der Pflanzenforschung

About IBG-4 Bioinformatik

No Comments

Leave a Reply

Bioökonomie

Kategorien

Beiträge

Jülich Blogs

Active Blogs

Blogroll