In den letzten Jahren hat sich im medizinischen Forschungsbereich der Trend etabliert, populations-basierte Studien mit einer sehr großen Anzahl an Versuchspersonen durchzuführen. Je mehr Probanden untersucht werden, desto mehr Daten stehen den Forschern für ihre Analysen zur Verfügung. Das ist die Voraussetzung um Fragen wie „welchen Einfluss hat der Lebensstil auf die Gesundheit“ oder „welchen Zusammenhang gibt es zwischen der Genetik und bestimmten Erkrankungen“ erforschen zu können. Deshalb gibt es weltweit viele Konsortien, die darauf abzielen, möglichst große und repräsentative Stichproben zu erheben, um besonders gut gesicherte Rückschlüsse und Zusammenhänge im Bereich der Gesundheitsforschung ziehen zu können. Den größten Gesundheitsdatensatz stellt die britische UK Biobank Kohorte dar, die in den vergangenen Jahren gesundheitsbezogene Daten von 500.000 Probanden im Alter von 40 bis 69 Jahren erhoben hat, um neue wissenschaftliche Erkenntnisse über häufige und lebensbedrohliche Krankheiten – wie Krebs, Herzerkrankungen und Schlaganfall – zu gewinnen und so die Gesundheit der Bevölkerung zu verbessern. Zusätzlich werden seit 2014 von prospektiv 100.000 Probanden dieser Stichprobe unter anderem Magnetresonanztomographieaufnahmen des Gehirns, des Herzens und des Abdomens erstellt. Solche umfassenden Datensätze, die Forschern weltweit zugänglich gemacht werden, ermöglichen es, die Auswirkungen verschiedener Einflüsse auf die Entwicklung unterschiedlichste Erkrankungen genauer zu beleuchten. 

Obwohl dieser Trend sehr förderlich ist, stellen die Speicherung und Verarbeitung dieser enormen Datenmengen die Forscher auch vor komplexe Probleme. Die erste Schwierigkeit betrifft die Beschaffung der Daten. Das Herunterladen der Daten aus einer Cloud würde Wochen oder sogar Monate dauern, weshalb sie häufig auf großen Festplatten gespeichert und per Kurier verschickt werden. 

Wenn die Forscher die Daten endlich erhalten haben, besteht die nächste Herausforderung darin, einen Computer zu finden, der den Anforderungen der Speicherung gerecht wird. Sogar hochrangige Supercomputer könnten entweder mit dem benötigten Speicherplatz oder der Anzahl der abzuspeichernden Dateien überfordert sein. Wenn ein Datensatz die rechnergestützten Kapazitätsgrenzen in unterschiedlichen Dimensionen überschreitet, erschwert dies die Prozessierung ungemein. 

Eine weitere Anforderung an die Wissenschaft ist, dass Forschungsergebnisse besonders reproduzierbar, also wiederholbar und vertrauenswürdig sein sollen. Erst wenn eine Replikationsstudie die Berechnungen einer anderen Studie wiederholt und zu ähnlichen bzw. gleichen Ergebnissen kommt wie die Erst-Studie, erlangt diese Glaubwürdigkeit. Das ist allerdings bei großen Datensätzen besonders schwierig, da sie oft besonders strengen Datenschutzbestimmungen unterliegen und sie dadurch nicht ohne Weiteres mit anderen Forschern geteilt werden dürfen. Zudem sind viele der gängigen Softwaretools nicht öffentlich zugänglich, weshalb sie nicht jedem Wissenschaftler zur Verfügung stehen, was wiederum die Replikation von Studien erschwert.

Zusammenfassend werden Wissenschaftler bei der Analyse umfangreicher Datensätze mit einigen Herausforderungen konfrontiert. Die Beschaffung der Daten ist bereits relativ aufwendig. Zudem können die Anforderungen des Datensatzes die Hardware überfordern, weshalb ein Computer gefunden werden muss, der leistungsfähig genug ist und diesem Bedarf gerecht wird. Die nächste Schwierigkeit besteht darin, die Ergebnisse überprüfbar und transparent darzulegen, sodass andere Forscher die durchgeführten Analyseschritte nachvollziehen und sie wiederholen können, um die Ergebnisse zu verifizieren. 

Um dafür eine Lösung zu finden, haben Kollegen unseres Instituts basierend auf dem Neurobildgebungsdatensatz der UK Biobank, der zum Zeitpunkt des Projekts die Daten von etwa 42.000 Probanden umfasste, eine ganz besondere Prozessierungstechnik entwickelt. Für diese Technik haben sie ein System verwendet, das die gesamte Provenienz, also die Dokumentation darüber, woher das Datenmaterial stammt und mit welchen Prozessen und Methoden (Code, Softwaretools etc.) es verarbeitet wurde, erfasst. Eine solch detaillierte Dokumentation ist wichtig, um Reproduzierbarkeit zu ermöglichen. Die Besonderheit hier besteht darin, dass die Provenienz vom Computer ausgelesen und die vergangene Analyse automatisch wiederausgeführt werden kann, ohne mit den beteiligten Wissenschaftlern Rücksprache über die verwendeten Verarbeitungsschritte und deren Reihenfolge halten zu müssen. Das befähigt uns beispielsweise dazu, Analysen nach einer Erweiterung des zugrunde liegenden Datensatzes automatisch zu wiederholen oder die Reproduzierbarkeit unserer Ergebnisse zu prüfen.

Überblick über die Verknüpfung von DataLad-Datensätzen durch Verarbeitung und Wiederverwendung.

Für die Entwicklung dieses Workflows haben unsere Wissenschaftler auf etablierte Softwarewerkzeuge aus Industrie und Wirtschaft (bspw. Git, HTCondor, SLURM) sowie lokal am Forschungszentrum Jülich entwickelte Software zum Datenmanagement (DataLad) zurückgegriffen. Dadurch werden Erkenntnisse aus der Industrie mit Erkenntnissen aus der Wissenschaft vereint, um unsere Forschung besonders reproduzierbar und skalierbar zu machen und dadurch insgesamt ihre Qualität zu steigern.

Als Grundlage für die Prozessierungstechnik haben unsere Wissenschaftler Software Container gewählt. Dies sind Softwareumgebungen, die ein minimales Betriebssystem und alle wichtigen Programme, die für eine Analyse benötigt werden, enthalten. In einem solchen Software Container können Analysen durchgeführt werden, ohne dass die notwendigen Programme auf dem Computer installieren sein müssen. Außerdem können sie mit anderen Personen geteilt werden, um ihnen die richtige Softwareumgebung einfach zur Verfügung zu stellen. Zum einen können dadurch für die Analyse auch nicht freiverfügbare Softwaretools genutzt werden und zum anderen sind die Analysen Hardware unabhängig, sodass Replikationsstudien nicht nur auf großen Supercomputern, sondern auch auf Laptops durchgeführt werden können.

Prozessprovenienz eines einzelnen Vorgangs, seine Erzeugung und erneute Ausführung.

Der gesamte Prozess ist komplett generisch, also auf alle möglichen Forschungsbereiche (wie z. B. Geowissenschaften, Politikwissenschaften, Wirtschaftswissenschaften etc.) anwendbar und nicht an bestimmte Datensätze, Analyseschritte, oder Softwaretools gebunden. Die Anwendung an einem so großen Datensatz, wie dem der UK Biobank, zeigt, dass das erstellte und öffentlich zur Verfügung gestellte Tool sehr gut auf wirklich große Datensätze anwendbar ist. 

Zu Visualisierungszwecken haben unsere Kollegen ein Video erstellt, das eindrucksvoll die Dimension einer Datenanalyse dieses Ausmaßes und auch die immense Leistungsfähigkeit der rechnergestützten Infrastruktur, die am Forschungszentrum Jülich existiert, demonstriert: Zwischen Minute 00:20 und 01:20 ist die Analyse auf dem high-throughput compute cluster unseres Instituts visualisiert, und ab Minute 01:20 ist die Prozessierung auf dem Supercomputer JURECA dargestellt. Hier kommen Sie zum Video: https://www.youtube.com/watch?v=UsW6xN2f2jc

Um anderen Neurowissenschaftlern die Komplexität der Datenanalysen, die an unserem Institut durchgeführt werden, näher zu bringen, haben wir das Video bei der diesjährigen Brain Art Competition des alljährlichen Meetings der Organization for Human Brain Mapping (OHBM) eingereicht und in der Kategorie Video/Animation den zweiten Platz belegt! 

Das Preprint zur Publikation ist hier zu finden: https://www.biorxiv.org/content/10.1101/2021.10.12.464122v1

Currently, no other topic influences our lives as much as COVID-19. Many shops are closed, events have been cancelled, social distancing is en vogue, etc. Wherever possible, home office has been set up to continue working as best as possible. This is the case in our institute as well.

The Forschungszentrum Jülich is very close to the Heinsberg district, one of the most affected areas in Germany. As the risk of virus spread is very high with around 6000 employees, important measures to contain it were taken at an early stage. Business trips were scaled down further and further, the canteen was closed, events with more than 40 people were prohibited and finally, basic operations were introduced.
In our institute, the Institute of Neuroscience and Medicine (INM-7), home office was already implemented at the beginning of March, which means that week 7 of home office is coming to an end. We have turned our lab completely virtual and luckily this has come with only minimal compromises in terms of science and supervision. After a short period of getting used to the new situation, everyone has become familiar with it.

In the current situation four new colleagues have started working in our institute. It is quite bizarre that they have already been working for a month, but have not been on site yet – but even that is feasible. Only for parents the situation is a bit more difficult, because they have to take care of their children besides their work.

In order to allow for social exchange, we have set up a virtual meeting room called INM-7 kitchen so that we don’t have to give up our common coffee break. We also meet every Tuesday evening for a social video conference while having a few drinks. Even our institute seminars can be held online, which works surprisingly well (given that more than 60 people are joining). Moreover, using virtual conferences, it is way easier to invite external speakers to our seminar. As a platform we use the app Zoom, but we want to switch to another one, because there are considerable security concerns. Once we tried “BigBlueButton”, but some colleagues had problems with it (at least when 60+ participants took part). Now we are looking for an alternative. Do you have any tips for us? Which app do you use and how well do you get along with it?

My conclusion after 7 weeks of home office: Fortunately, it is going surprisingly well and it is becoming more and more normal to work from home. Nevertheless, I’m really looking forward to finally meet my colleagues in real life again.

How about you? Are you doing home office and if so, how do you cope with that?
Stay healthy! Many greetings from our home offices

As the year 2019 slowly draws to a close, it is time to look back on the past 12 months.

During the last year, a lot of things happened in our institute. We started in January with approximately 41 colleagues and now we have grown to 63 colleagues. We have gained two new groups one is called “Psychoinformatics”, which focuses on the interface of neuroscience, psychology and computer science and the combination of classical experimental methodology with machine learning methods. This group is headed by Michael Hanke, who was appointed professor at the Heinrich Heine University Düsseldorf in the domain of Systematic Analysis of Brain Organization. The other one “Biomarker Development” led by Jürgen Dukart aims to identify, validate and integrate novel neuroimaging and digital biomarkers that can be applied for early detection and treatment evaluation of changes in brain organization in advanced age as well as in neurological and psychiatric diseases.

Psychoinformatics group led by Michael Hanke.

 

Biomarker Development group led by Jürgen Dukart.

 

At this point I would also like to mention that Anne Latz Anne successfully completed her doctorate with the title “Neural correlates of age-related changes in cognitive action control” this year. Moreover, Sofie Valk was selected as the winner of the SANS Poster Award for her poster on “Neurogenetic markers of personality” at the annual meeting of the Social & Affective Neuroscience Society in May.

With more than 40 published papers and highly future oriented topics our scientific development was enormous and very innovative this year. One of the most important topics is the use of machine-learning approaches to train predictive models for inference on phenotypical characteristics of new, individual subjects from brain imaging data. For example, Susanne Weis has found that the gender of subjects can be predicted by applying machine learning approaches to resting state data. Additionally, Ji Chen observed a new way of describing schizophrenia by the application of machine learning approaches. He identified a four-factor structure representing negative, positive, affective, and cognitive symptoms as the most stable and generalizable representation of psychopathology. In the next year we would like to investigate the application of machine learning and artificial intelligence even more to improve diagnosis and prognosis of psychiatric diseases.

A special highlight this year was the “Tag der Neugier” tat the Forschungszentrum, which gave more than 28,000 visitors the chance to take a look behind the scenes of research. At our institute, the guests were invited to perform several neuropsychological tests and personality questionnaires and compare their performance to those of others to find out what it feels like to be in such a neuropsychological testing situation. Moreover, from young to old, all visitors were fascinated by our inflatable brain, in which we gave talk and explained our research topics with posters. The absolute highlight, however, was the station where the visitors had to balance on a balance board while their movement parameters were measured using an app programmed by Jürgen Dukart’s group. Doing so, we wanted to show that smartphones and wearables record movements very sensitively and that this information can in turn be used as an objective tool for symptom evaluation and as a measure for disease progression. Below you can find a video that gives you an overview what happened at the Tag der Neugier at our institute.

I am very satisfied with the past year and hope that 2020 will be just as exciting, eventful and successful. Now I just want to wish you a Merry Christmas and a Happy New Year!

 

In June several colleagues of our institute visited the 25th Annual Meeting of the Organization for Human Brain Mapping (OHBM) in Rome. The aim of this international organization is to improve the understanding of the brain’s anatomical and functional organization by means of neuroimaging. Here, researchers from different domains like MRI, fMRI, PET, EEG/MEG and other cutting edge approaches such as electrophysiology, preclinical imaging, neuroepidemiology and genetics come together to present their research findings or methods by means of symposia, keynote lectures or posters. Moreover, especially for PhD students, educational courses and a hackathon are provided to promote education in human brain organization. With by now more than 4000 attendees, this conference belongs to one of the biggest ones in its field.

 

When I started my bachelor in psychology, I fell in love with the brain and its functions immediately. I was so passionate about it that next to my studies I engaged in voluntary internships and worked as a student assistant in several studies. I think that neuroscience is a highly interesting domain as researches have the opportunity to investigate their own scientific questions with the possibility to revolutionize our understanding of the human brain one day. However, what I realized during my studies is that most of the students were female whereas later on, higher positions are mainly engaged by men. Due to some underlying reasons it might be difficult for women to keep female majority with progressing career.