Bioinformatikprojekt erschließt verborgene Datenschätze

Eine automatisierte Reanalyse soll mehr aus den Informationen in internationalen Datenbanken herausholen.

PRODI – Zentrum für Proteindiagnostik am 22. September 2021

Julian Uszkoreit und Michael Turewicz (rechts) im Serverraum, © RUB, Marquard

Die Proteinforschung erzeugt riesige Datenmengen, die in internationalen Datenbanken gesammelt werden. Die darin vorhandenen Informationen sind teils noch nicht ausgewertet und somit versteckt und bei Suchen nicht auffindbar. Das will ein Team um Dr. Julian Uszkoreit und Dr. Michael Turewicz vom Zentrum für Proteindiagnostik Prodi und dem Medizinischen Proteomcenter der Ruhr-Universität Bochum (RUB) ändern. Sie planen eine automatisierte Reanalyse der eingespeisten Daten. Das von ihnen geleitete Projekt „Increasing the translational value of public proteomics datasets: Automatic metadata-driven reanalysis in cloud infrastructures“ wird für zwei Jahre von ELIXIR gefördert.

ELIXIR ist ein europäisches Bioinformatik-Netzwerk, das die Daten aus öffentlich geförderten Forschungsprojekten der Lebenswissenschaften und die entsprechenden Datenbanken managt, sowie eine große internationale Plattform für viele andere Bioinformatik-Services und -Kooperationen darstellt. Das Projekt startet mit einem Kick-Off-Meeting am 24. September 2021.

Daten unter neuen Aspekten auswerten

Daten, die in der Massenspektrometrie-basierten Proteinforschung weltweit gewonnen werden, werden in internationalen Datenbanken gesammelt. Jeder Datensatz wird dafür nach bestimmten Standards aufbereitet und mit einer Beschreibung versehen, die zum Beispiel Auskunft darüber gibt, von welchem Organismus das Protein stammt, mit welchem Gerät die Daten gewonnen wurden und welche Einstellungen daran vorgenommen wurden. So können auch andere Forschende auf die Information zugreifen und für eigene Arbeiten nutzen. „Allerdings ist es oft so, dass man nur finden kann, wonach man sucht“, sagt Julian Uszkoreit. Die Datensätze beinhalten weit mehr Informationen, als man zurzeit auswerten kann.

Das Team des Projekts will es daher ermöglichen, eine automatisierte Reanalyse aller in die Datenbank eingespeisten Datensätze vorzunehmen, um auch schlummernde Informationen nutzbar zu machen. „Kommt eine neue Analysetechnik auf den Markt oder werden neue Entdeckungen veröffentlicht, kann man die vorhandenen Daten sozusagen mit einer neuen Brille betrachten und unter neuen Aspekten auswerten“, erklärt er. „Das kann auch automatisiert durch Cloud-Technologie geschehen.“ „Damit ist dieses Projekt ein Beispiel dafür, wie ein gutes Management von Forschungsdaten und moderne IT-Technologien zu neuen oder verbesserten Forschungsergebnissen führen können“, so Michael Turewicz.

Gesundheitsforschung

Bioinformatikprojekt erschließt verborgene Datenschätze

Eine automatisierte Reanalyse soll mehr aus den Informationen in internationalen Datenbanken herausholen.

Daten unter neuen Aspekten auswerten

Im Überblick

Gesundheitsinnovation

Ruhrmedizin