Veröffentlichung von Forschungsdaten eines DFG-Projektes auf Zenodo – Ein Selbstversuch

Jede wissenschaftliche Einrichtung stellt – in der Regel basierend auf Empfehlungen von Drittmittelgebern wie der DFG – an sich den Anspruch, nach den Regeln guter wissenschaftlicher Praxis zu arbeiten. Hierzu heißt es beispielweise in den Regeln für die TU Dortmund:

Hierzu gehört es, lege artis zu arbeiten, korrekte Angaben zu machen, geistiges Eigentum anderer zu achten sowie andere in ihrer Forschungstätigkeit nicht zu beeinträchtigen. […]
Im Zusammenhang der Veröffentlichung schließt dies insbesondere Folgendes ein:
– Die nachvollziehbare Beschreibung der angewandten Methoden,
– die vollständige Dokumentation aller im Forschungsprozess erhobenen und für die Veröffentlichung relevanten Daten,
– eine nachprüfbare Darstellung der Forschungsergebnisse […]

Was bedeuten diese Forderungen nun für ein Projekt?

Die TU Dortmund hat bereits seit mehr als 15 Jahren ein Repositorium auf dem neben Hochschulschriften auch Projektberichte und andere Berichtsformen im Sinne des Open Access veröffentlicht werden können. Die fortschreitende Digitalisierung der Wissenschaftsdisziplinen erfordert aber heute weit mehr als “nur” die Archivierung textueller Daten. Zunehmend werden auch die zur Publikation führenden sogenannten Primär- oder Rohdaten digital erzeugt bzw. erfasst. Diese zu erschließen und zu archivieren ist eine nicht triviale Herausforderung.

In den letzten Jahren wurden weltweit Projekte begonnen, die sich zum Ziel genommen haben, eine Infrastruktur für Forschungsdaten aufzubauen. Während einige Forschungsgebiete eigene Data Center oder Data Journals (z.B. Pangaea oder F1000 Research) gegründet haben, sind kleinere Forschungsbereiche eher auf der Strecke geblieben. Diese Lücke möchten nun Plattformen wie Zenodo, Dryad Digital Repository oder figshare schließen. Aber auch immer mehr Zeitschriftenverlage bieten die Möglichkeit der Datenablage an. ((Hier ist aber Vorsicht geboten, da die Verlage teilweise fragwürdige Nutzungslizenzen vereinbaren wollen.))

Für einen Teil der Ergebnisse des DFG-Projekts ArcheoInf, an dem die Universitäsbibliothek Dortmund beteiligt war, habe ich die Plattform Zenodo getestet und die Datensätze sowie die im Projekt entstandene Software dort archiviert.

ArcheoInf-Logo

Das Projekt ArcheoInf und das zu archivierende Material der beteiligten Bibliotheken
Zum Projekt ArcheoInf wurde bereits an einigen Stellen publiziert ((vgl. u.a. Open Data und Linked Data in einem Informationssystem für die Archäologie / Maike Lins, Hans-Georg Becker. In: (Open) Linked Data in Bibliotheken / hrsg. von Patrick Danowski, Adrian Pohl. De Gruyter Saur, 2013. – S. 201-223. DOI: 10.1515/9783110278736.201 )). Deshalb soll hier nur kurz über das Projekt selber berichtet werden.

Das Projekt wurde im Rahmen des Programms “Themenorientierte Informationsnetze” seit dem Jahr 2008 von der Deutschen Forschungsgemeinschaft gefördert. Neben dem Archäologischen Institut der Georg-August-Universität Göttingen, dem Lehrstuhl für Software-Technologie der Technischen Universität Dortmund sowie dem Fachbereich Geoinformatik/Geodäsie der Hochschule Bochum arbeiteten die Universitätsbibliotheken Dortmund und Bochum in diesem Projekt an der Entwicklung eines Informationssystems für die Archäologie.

ArcheoInf zielte auf eine Verfügbarmachung wissenschaftlicher Forschungsdaten – also Karten, Bilder, Texte, schlicht alle zu den beteiligten archäologischen Grabungs- und Surveyprojekten verfügbaren Informationen – im Netz über eine einzige Oberfläche und von jedem Ort der Welt erreichbar. Es sollten hier nicht die Projekte isoliert durchsuchbar sein, sondern in einer Weise miteinander verknüpft werden, dass projektübergreifend Informationen zu einem gesuchten Thema gefunden und verbunden werden können.

Trotz des von Fachwissenschaftlern artikulierten Bedarfs einer derartigen Lösung, hat sich während der Projektlaufzeit gezeigt, dass die Freigabe von Projektdaten zur Bereitstellung über ein solches Portal aus verschiedenen Gründen häufig nicht zu erreichen ist. Insbesondere wurde deutlich, dass den Fachwissenschaftlern zunächst an Werkzeugen gelegen ist, die eine qualitativ hochwertige Verarbeitung von Primärdaten ermöglicht und diese somit erst publizierbar werden.

Das Resultat war, dass ArcheoInf kein Datenmaterial zur Verfügung stand und steht, mit dem einerseits die zu entwickelnden Instrumente ausgebaut werden konnten und andererseits eine oben beschriebene Plattform mit Inhalt gefüllt werden konnte. Dies gilt in besonders hohem Maße für archäologische Forschungsdaten, aber auch für die mit diesen verknüpften bibliographischen Daten.

Trotz dieser Schwierigkeiten ist es dem Projektteam gelungen, Werkzeuge, Programme und Datenmaterial zu entwickeln, um ein prototypisches Informationssystem zu erstellen.

Die am Projekt beteiligten Bibliotheken hatten unter anderem die Aufgabe, ein Dokumentenrepositorium – insbesondere für graue Literatur – mindestens aber eine Bibliographie der in den auf der ArchoInf-Plattform bereitgestellten Projekte zur Verfügung zu stellen. Dabei wurde schon sehr früh entschieden, dass als gemeinsamer Nenner das bibliographische Datenformat MODS dienen soll. Ferner wurden die Daten einerseits für die Indexierung in einer auf Apache Solr basierenden Suchmaschine und andererseits mittels der CIDOC CRM-Ontologien für die Verwendung als Linked Data aufbereitet.

Zenodo-Logo

Zenodo – An open digital repository for everyone and everything that isn’t served by a dedicated service
OpenAIRE und CERN haben dieses Repositorium im Jahr 2013 gestartet. Das von der Europäischen Kommission unterstützte Repositorium bietet einen zentralen Ort für die Speicherung und Recherche von Forschungsdaten und dient zusätzlich als
Orphan Repository für Publikationen, für die kein passendes institutionelles oder disziplinäres Repositorium zur Verfügung steht.

Auf der Webseite von Zenodo wird die Plattform wie folgt beschrieben:

Zenodo is an open dependable home for the long-tail of science, enabling researchers to share and preserve any research outputs in any size, any format and from any science.

Damit eignet sich die Plattform vor allem für die Archivierung von Materialien institutsübergreifender und kleinerer Projekte.

Zu den Funktionen gehören:

  • Community Collections inkl. OAI-PMH-Schnittstelle
  • Vergabe von bzw. Nachnutzung bereits vorhandener DOIs
  • flexible Lizensierung der Daten
  • Archivierung von GitHub-Software-Repositorien
  • Reporting zu Drittmittelgebern (derzeit nur EU-Projekte via OpenAIRE)

Zenodo speichert die beim Upload angegebenen Metadaten intern im MARC-Format ab, welches als ZENODO Metadata Schema dokumentiert ist. Als Exportformate stehen MARCXML, Dublin Core und DataCite Metadata Schema gemäß der OpenAIRE Guidelines zur Verfügung. Fachliche Metadaten (z.B. DDI Metadata zur Beschreibung von sozial- und wirtschaftswissenschaftlichen Daten) werden nicht erfasst.

Die Metadaten sind bis auf die E-Mail-Adressen unter der CC0-Lizenz veröffentlicht und können über OAI-PMH abgerufen werden (vgl. auch die Policy von Zenodo).

ArcheoInf auf Zenodo
Die Möglichkeit, eine Community Collection – also für eine spezielle Gruppe oder ein Projekt ein eigenes Repositorium – aufzusetzen, machte für ArcheoInf ohne Zweifel Sinn. So habe ich die Community Collection “ArcheoInf Projekt” angelegt, um dort die zum Projekt gehörigen Daten abzulegen.

Wie bereits oben beschreiben, haben die am Projekt beteiligten Bibliotheken vor allem bibliographische Datensätze für zwei Anwendungsszenarien aufbereitet. Auf Zenodo habe ich für jede “Projektbibliographie” ein Datenpaket bestehend aus den angereicherten MODS-Daten, den für die Indexierung in Apache Solr erzeugten und den Linked Data als RDF/XML abgelegt.

Die Datensätze haben durch die Ablage auf Zenodo einen DOI bekommen. Somit sind die Daten nun wie folgt publiziert:

Die Beschreibung der Datensätze sieht die Möglichkeit vor, Verknüpfungen zu anderen Publikationen zu erstellen. Beispielsweise ist es möglich, Datensätze als Supplement zu einer textuellen Publikation in Beziehung zu setzen. Von dieser Möglichkeit habe ich bei den fünf Datensätzen gebrauch gemacht, in dem ich sie als Supplements zu den beiden Publikationen von Maike Lins und mir im Sammelwerk “(Open) Linked Data in Bibliotheken” zugeordnet habe. Insbesondere in dem Beitrag “Open Data und Linked Data in einem Informationssystem für die Archäologie” wird auf die Erzeugung dieser Daten eingegangen und das Verfahren sowie die Verwendung der Daten beschrieben.

Die im Rahmen des Projektes entstandene Software zur Erzeugung bzw. Konvertierung der bibliographischen Daten wurde in einem Repositorium “ArcheoInf” auf GitHub abgelegt. Zenodo bietet die Möglichkeit, die Releases aus dem GitHub-Repositorium automatisch als zip-Archiv zu archvieren und diesem ebenfalls einen DOI zu vergeben. Die finale Version der Software zur Erzeugung bzw. Konvertierung der bibliographischen Daten in ArcheoInf hat nun den DOI 10.5281/zenodo.11177.

Fazit
Um die Grundsätze der guten wissenschatlichen Arbeit im Sinne der eigenen Einrichtung aber auch der Drittmittelgeber zu erfüllen, ist die Plattform Zenodo sehr gut geeignet – insbesondere wenn es keine fachbezogene oder institutionelle Alternative gibt. Ein wesentlicher Vorteil von Zenodo liegt in der abgesicherten dauerhaften Finanzierung durch EU-Mittel und dem Betrieb durch das mit großen Datenmengen erfahrene CERN. Auch die Vergabe von DOIs und der automatischen Meldung der Publikationen an Drittmittelgeber (bisher nur für EU-Projekte via OpenAIRE) sind für Aspekte wie Sichtbarkeit und Vereinfachung von Verwaltungsaufgaben von Vorteil.
Ein Nachteil könnte sein, dass eine Beschreibung der Daten mittels fachspezifischer Metadaten fehlt. Allerdings ist fast davon auszugehen, dass es in einem Fachgebiet mit einem speziellen Metadatenschema auch ein Datenrepositorium exisitert (nach schlagen kann man dies im Verzeichnis Registry of Research Data Repositories (re3data).

“Wissenswelten neu gestalten” — Eindrücke vom 5. BID-Kongress in Leipzig

Vom 11. bis 14. März fand in Leipzig der 5. Bibliothekskongress unter dem Motto “Wissenswelten neu gestalten” statt. Neben den wie immer äußerst interessanten Randgesprächen, habe ich mich in diesem Jahr den Themenfeldern “Forschungsdokumentation”, “Zukunft der Verbünde” und “neue Wege in der Erschließung” gewidmet.

Die Rolle der Bibliotheken bei der Forschungsdokumentation
Jede wissenschaftliche Einrichtung stellt an sich den Anspruch, nach den Regeln guter wissenschaftlicher Praxis zu arbeiten. Hierzu heißt es beispielweise in den Regeln für die TU Dortmund:

Hierzu gehört es, lege artis zu arbeiten, korrekte Angaben zu machen, geistiges Eigentum anderer zu achten sowie andere in ihrer Forschungstätigkeit nicht zu beeinträchtigen. […]
Im Zusammenhang der Veröffentlichung schließt dies insbesondere Folgendes ein:
– Die nachvollziehbare Beschreibung der angewandten Methoden,
– die vollständige Dokumentation aller im Forschungsprozess erhobenen und für die Veröffentlichung relevanten Daten,
– eine nachprüfbare Darstellung der Forschungsergebnisse […]

Neben dieser grundlegenden Motivation für die Forschungsdokumentation müssen Wissenschaftlerinnen und Wissenschaftler immer wieder für verschiedenste Zwecke ihre Forschungsaktivitäten neu erfassen und dokumentieren. Genannt seien hier beispielhaft Akkreditierungen, externe Evaluationen, aber auch bei der Beantragung von Projekten, Sonderforschungsbereichen und Exzellenz-Clustern. Wie wichtig ein einheitliches Vorgehen bei der Forschungsdokumentation ist, zeigt auch das vor wenigen Wochen veröffentlichte Papier “Empfehlungen zu einem
Kerndatensatz Forschung
” des Wissenschaftsrates.
Seit Jahren unterstützen Bibliotheken einen Teilaspekt der Forschungsdokumentation durch die Bereitstellung von institutionellen Repositorien für die Veröffentlichung von Dokumenten.
Allerdings ist bekannt, dass eine weitreichende Nutzung durch die Wissenschaftlerinnen und Wissenschaftler in den meisten Fällen bisher nicht zu beobachten ist. Die Session “Quo vadis Repositorien in Deutschland?” – veranstaltet von der DINI-AG Elektronisches Publizieren (12.03.2013 13:30-17:30) – ging daher der Frage nach, wohin die Reise mit den institutionellen Repositorien geht.
Nach der Vorstellung weiterer Ergebnisse aus dem “Census der Open Access Repositorien in Deutschland 2012” (erste ernüchternde Ergebnisse wurden bereits auf der InetBib-Tagung in Berlin vorgestellt), wurde durch weitere Impulsreferate der Trend erkennbar, dass institutionelle Repositorien immer häufiger als für sich stehende Systeme abgelöst werden und viel mehr als Teil einer Plattform zur Forschungsdokumentation eingesetzt werden. So wurden Systeme gezeigt, die als Bibliographien die Publikationsleistungen der Wissenschaftlerinnen und Wissenschaftler einer Einrichtung möglichst vollständig dokumentieren und das Repositorium im Hintergrund “nur noch” die zugehörigen Dokumente liefert. Rund um diese Bibliographien lassen sich wesentlich leichter Mehrwertdienste anbieten, die den Forschenden u.a. bei der Zusammenstellung von Publikationslisten für die verschiedensten Anwendungszenarien unter die Arme greifen.
In der Session “Forschungsdaten sammeln und strukturieren” (12.03.2013 09:00-12:00) wurde der Trend zu allumfassenden Plattformen zur Forschungsdokumentation ebenfalls sichtbar, wobei hier noch der Aspekt der Sammlung und Aufbewahrung von Forschungsdaten hinzukam.

Was die Rolle von wissenschaftlichen Bibliotheken beim Aufbau von virtuellen Forschungsumgebungen angeht, gibt es verschiedene Ansichten. Doch davon unabhängig, ist das Thema Forschungsdaten und deren Infrastrukturen sehr relevant für die tägliche Arbeit.
Den Bibliotheken fällt – insbesondere durch die Fachreferentinnen und Fachreferenten – die Rolle zu, als Ansprechpartner und Berater für die Wissenschaftlerinnen und Wissenschaftler zu fungieren. Fragen nach geeigneten Metadaten für Forschungsdaten und zu für das Fachgebiet geeigneten Repositorien sowie virtuellen Forschungsumgebungen werden im Alltag immer häufiger gestellt. Dabei sehen die Forschenden die Bibliotheken als genau die richtigen Ansprechpartner an, da diese sich seit jeher mit Metadaten beschäftigen und durch den Betrieb von institutionellen Repositorien in der Regel auch Publikations- und Archivierungsservices für Dokumente bereithalten.
Es verwundert daher nicht, dass das Thema Forschungsdaten einen wichtigen Teil im Programm des Bibliothekskongresses in Leipzig bildete. Ein aus meiner Sicht sehr wichtiger Beitrag wurde durch die Session “Forschungsdaten-Repositorien – Infrastrukturen zur dauerhaften Zugänglichkeit von Forschungsdaten” am Montagmorgen (11.03.2013 09:00-11:30 ) geliefert.
Die Session gab eine Einführung in das Themenfeld und stellte Typen und Entwicklungen der heterogenen Landschaft der Forschungsdaten-Repositorien vor. Weiterhin wurden Stand und Entwicklung des von der DFG geförderten Projektes re3data.org vorgestellt und diskutiert. Das Projekt verfolgt das Ziel, Forschungsdaten-Repositorien in einem web-basierten Verzeichnis zu erschließen und so eine Orientierung über bestehende Datensammlungen zu bieten.
Am Beispiel der Aktivitäten der Humboldt-Universität zu Berlin stellte Elena Simukovic heraus, dass es für eine gute Forschungsdokumentation einer Kooperation zwischen dem Hochschulreferat für Forschung, der Bibliothek, dem Rechenzentrum und des jeweiligen Fachbereichs bedarf. Ferner sollte sich die Einrichtung ein Bild darüber verschaffen, wie sich die Wissenschaftlerinnen und Wissenschaftler über die Fachgebiete verteilen. Daraus können dann Schlussfolgerungen in Bezug auf die Notwendigkeit von eigenen institutionellen Forschungsdateninfrastrukturen gezogen werden. Denn eines dürfte schnell klar werden: eine allumfassende Versorgung bei der Sammlung und Archivierung von Forschungsdaten durch eine Universität ist kaum realisierbar. Diese Entwicklung zeigte auch Jana Porsche vom IST Austria in der Session “Forschungsdaten sammeln und strukturieren” auf.

Es lässt sich resümieren, dass das Thema Forschungsdaten und virtuelle Forschungsumgebungen auf jeden Fall für wissenschaftliche Bibliotheken relevant ist. In welcher Form – ob eher beratend oder sogar als Infrastruktur – ist sicherlich von der jeweiligen Einrichtung anhängig.

Neue Wege der Erschließung
Neben Vorträgen rund um die Entwicklungen zum neuen Katalogisierungsregelwerk RDA (Resource, Description and Access) gab es auch Vorträge zu automatischen Erschließungsverfahren. Ich möchte hier den Workshop “Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten” (13.03.2013 09:00-12:00) hervorheben. In diesem Workshop wurde anschaulich dargestellt, welche neuen Möglichkeiten die als Open Data veröffentlichten bibliographischen Metadaten in Bezug auf die Anreicherung und Korrektur derselbigen bieten. Als Beispiele wurden u.a. Statistiken und Analysen zur Verwendung von RSWK/RVK, der Aufbau von Konkordanzen zwischen Klassifikationssystemen oder die teilautomatische Normierung von bisher als Freitext erfasster Informationen genannt. Solche Verfahren werden mit der stetig wachsenden Verbreitung der Discovery Services bzw. der dahinter liegenden großen Indizes immer wichtiger, da diese Daten häufig weder normiert noch sachlich erschlossen sind.
In der Veranstaltung blieb es aber nicht nur bei Lippenbekenntnissen, sondern es wurde auch ein Open Source-Framework zur Verarbeitung von großen Metadatenmengen vorgestellt. Die Software Metafacture wurde im Rahmen des Projektes CultureGraph entwickelt und stellt ein niederschwelliges Framework zur Metadatenanalyse und Konvertierung dar.

Zukunft der Verbünde
Die Entscheidung über die Vergabe der DFG-Mittel zur Neuausrichtung überregionaler Informationsservices und insbesondere die Entscheidung, welche Richtung die Bibliotheksdateninfrastruktur und die lokalen Bibliothekssysteme (Ausschreibung “Themenfeld 1”) einschlagen sollen, sorgte doch an einigen Stellen für Diskussionen und sogar ein gewisses Knistern war zu vernehmen. Es konkurrierten hier zwei Ansätze, die unterschiedlicher kaum sein konnten. Beide Ansätze wurden in der Session “Die Bibliotheksverbünde auf dem Weg in die Zukunft – Serviceleistungen und Dienste für Bibliotheken” vorgestellt (13.03.2013 13:30-15:30) und teils kontrovers diskutiert.
Wer nun gewonnen hat, kann auf den Seiten der DFG nachgelesen werden. Ich enthalte mich jetzt hier weiterer Kommentare …

Weitere Informationen:
Empfehlungen zu einem Kerndatensatz Forschung des Wissenschaftsrates
Pressemitteilung der DINI zu den “Empfehlungen zu einem Kerndatensatz Forschung”
Beiträge BID 2013 im Opus-Server