Hauptinhalt

Data Hub

Netzwerkhub
Foto: Colourbox.de / Andrey Cherkasov

Die Gewinnung wissenschaftlicher Ergebnisse basiert auf der (computergestützten) Auswertung von Daten. Um den Herausforderungen für ein qualitativ hochwertiges Forschungsdatenmanagement optimal zu begegnen, koordiniert die Philipps-Universität Marburg eine datenschutzkonforme und hoch performante Plattform für das aktive Datenmanagement - der DataHub.

Der Data Hub ist ein Infrastrukturangebot, das eng mit Forschenden zusammen entwickelt wurde, insbesondere den Forschenden der Exzellenzclusteriniative „The Adaptive Mind“. TAM wird von der Justus-Liebig-Universität geleitet, und es ist ein gemeinsames Vorhaben mit der UMR und der TU Darmstadt. Die Federführung für den DataHub liegt bei der UMR.

Der Data Hub unterstützt angeschlossene Forschende durch:

  • Zentrale Speicher- und Rechenressourcen: MaSC / MaRC3
  • Dienste, die eine effiziente Nutzung dieser Ressourcen ermöglichen, insbesondere GitLab, JupyterHub und DSpace
  • Unterstützung bei der projektgerechten Nutzung der Dienste, durch Policies, Trainings und Support

Der DataHub stellt damit eine Kompilation von Hard- und Software dar, die es ermöglicht, entlang des Forschungsdatenlebenszyklus von Beginn an nachvollziehbar und transparent Daten zu planen, zu erheben, zu beschreiben, zu verarbeiten, zu teilen und zu publizieren. Dabei streben wir zunehmend eine stärkere technische Integration der Instrumente an. Zudem werden Vorgaben des Datenschutzes beim Teilen sensibler Daten gewahrt. Der DataHub fördert damit inter- und transdisziplinäre Forschung sowie Anwendungen der künstlichen Intelligenz. Insgesamt werden die Wissenschaftler*innen an der Philipps-Universität Marburg somit durch den DataHub in die Lage versetzt, ihre Forschungsdaten auffindbar (Findable), zugänglich (Accessible), interoperabel (Interoperable) und wiederverwendbar (Reusable) - also FAIR zu machen.

Rechen- und Speicherinfrastruktur

Die Rechenressourcen des Data Hub sind in einen größeren High Performance Computing (HPC)-Cluster, den Marburg Compute Cluster (MaRC3), integriert und werden von diesem verwaltet. Je nach Bedarf und Erfahrung gibt es verschiedene Möglichkeiten, auf die Rechenressourcen zuzugreifen und diese zu nutzen. Zum Beispiel können Sie über den JupyterHub (https://marc3.jupyter.uni-marburg.de) per Webbrowser (HTTPS) drauf zugreifen, der Ihnen die Nutzung von JupyterLab / Jupyter Notebooks für umfassende, mehrsprachige Data Science ermöglicht. Benutzer*innen mit erhöhten Anforderungen an die Rechenleistung können eine SSH-Verbindung herstellen und mit der Linux-Shell von MaRC3 interagieren. 
GitLab ermöglicht eine versionierte Speicherung und gemeinsame Nutzung von Code und Daten (letzteres unter Verwendung von Git-LFS).

Versionskontrolle und Nachverfolgung der Datenherkunft

Der Data Hub nutzt Git-Technologie zur Versionskontrolle und Verfolgung der Datenherkunft sowie Einrichtungs-/Supportdienste wie GitLab, die in Verbindung mit Git-LFS effiziente Arbeitsabläufe mit Git ermöglichen. Während Git für die gemeinsame Arbeit an Code (und Text im Allgemeinen) optimiert ist, ist Git-LFS für die Arbeit auch an großen Binärdaten (wie Videos oder andere Aufzeichnungen) optimiert und ermöglicht Ihnen das Teilen und Veröffentlichen Ihrer Daten.

Datenorganisation und -beschreibung

Um das Verständnis und die Wiederverwendung von Daten und Code zu erleichtern, sind einige gemeinsame Prinzipien der Datenorganisation und -beschreibung einzuhalten. Wir empfehlen größeren Forschergruppen deshalb, sich auf gemeinsame interne Richtlinien und Standards zu die Daten zu einigen, in Abstimmung mit den im jeweiligen Fach geltenden Empfehlungen. Gerne unterstützen wir dabei.

Der Data Hub wird vom Servicezentrum koordiniert. Für weitere Informationen kontaktieren Sie das DataHub-Team unter .

Sie interessieren sich für Services und Tools aus dem Bereich Forschungsdatenmanagement? Erfahren Sie mehr unter Services und Tools.