Veröffentlichung von Forschungsdaten eines DFG-Projektes auf Zenodo – Ein Selbstversuch

Jede wissenschaftliche Einrichtung stellt – in der Regel basierend auf Empfehlungen von Drittmittelgebern wie der DFG – an sich den Anspruch, nach den Regeln guter wissenschaftlicher Praxis zu arbeiten. Hierzu heißt es beispielweise in den Regeln für die TU Dortmund:

Hierzu gehört es, lege artis zu arbeiten, korrekte Angaben zu machen, geistiges Eigentum anderer zu achten sowie andere in ihrer Forschungstätigkeit nicht zu beeinträchtigen. […]
Im Zusammenhang der Veröffentlichung schließt dies insbesondere Folgendes ein:
– Die nachvollziehbare Beschreibung der angewandten Methoden,
– die vollständige Dokumentation aller im Forschungsprozess erhobenen und für die Veröffentlichung relevanten Daten,
– eine nachprüfbare Darstellung der Forschungsergebnisse […]

Was bedeuten diese Forderungen nun für ein Projekt?

Die TU Dortmund hat bereits seit mehr als 15 Jahren ein Repositorium auf dem neben Hochschulschriften auch Projektberichte und andere Berichtsformen im Sinne des Open Access veröffentlicht werden können. Die fortschreitende Digitalisierung der Wissenschaftsdisziplinen erfordert aber heute weit mehr als „nur“ die Archivierung textueller Daten. Zunehmend werden auch die zur Publikation führenden sogenannten Primär- oder Rohdaten digital erzeugt bzw. erfasst. Diese zu erschließen und zu archivieren ist eine nicht triviale Herausforderung.

In den letzten Jahren wurden weltweit Projekte begonnen, die sich zum Ziel genommen haben, eine Infrastruktur für Forschungsdaten aufzubauen. Während einige Forschungsgebiete eigene Data Center oder Data Journals (z.B. Pangaea oder F1000 Research) gegründet haben, sind kleinere Forschungsbereiche eher auf der Strecke geblieben. Diese Lücke möchten nun Plattformen wie Zenodo, Dryad Digital Repository oder figshare schließen. Aber auch immer mehr Zeitschriftenverlage bieten die Möglichkeit der Datenablage an.1

Für einen Teil der Ergebnisse des DFG-Projekts ArcheoInf, an dem die Universitäsbibliothek Dortmund beteiligt war, habe ich die Plattform Zenodo getestet und die Datensätze sowie die im Projekt entstandene Software dort archiviert.

ArcheoInf-Logo

Das Projekt ArcheoInf und das zu archivierende Material der beteiligten Bibliotheken
Zum Projekt ArcheoInf wurde bereits an einigen Stellen publiziert2. Deshalb soll hier nur kurz über das Projekt selber berichtet werden.

Das Projekt wurde im Rahmen des Programms „Themenorientierte Informationsnetze“ seit dem Jahr 2008 von der Deutschen Forschungsgemeinschaft gefördert. Neben dem Archäologischen Institut der Georg-August-Universität Göttingen, dem Lehrstuhl für Software-Technologie der Technischen Universität Dortmund sowie dem Fachbereich Geoinformatik/Geodäsie der Hochschule Bochum arbeiteten die Universitätsbibliotheken Dortmund und Bochum in diesem Projekt an der Entwicklung eines Informationssystems für die Archäologie.

ArcheoInf zielte auf eine Verfügbarmachung wissenschaftlicher Forschungsdaten – also Karten, Bilder, Texte, schlicht alle zu den beteiligten archäologischen Grabungs- und Surveyprojekten verfügbaren Informationen – im Netz über eine einzige Oberfläche und von jedem Ort der Welt erreichbar. Es sollten hier nicht die Projekte isoliert durchsuchbar sein, sondern in einer Weise miteinander verknüpft werden, dass projektübergreifend Informationen zu einem gesuchten Thema gefunden und verbunden werden können.

Trotz des von Fachwissenschaftlern artikulierten Bedarfs einer derartigen Lösung, hat sich während der Projektlaufzeit gezeigt, dass die Freigabe von Projektdaten zur Bereitstellung über ein solches Portal aus verschiedenen Gründen häufig nicht zu erreichen ist. Insbesondere wurde deutlich, dass den Fachwissenschaftlern zunächst an Werkzeugen gelegen ist, die eine qualitativ hochwertige Verarbeitung von Primärdaten ermöglicht und diese somit erst publizierbar werden.

Das Resultat war, dass ArcheoInf kein Datenmaterial zur Verfügung stand und steht, mit dem einerseits die zu entwickelnden Instrumente ausgebaut werden konnten und andererseits eine oben beschriebene Plattform mit Inhalt gefüllt werden konnte. Dies gilt in besonders hohem Maße für archäologische Forschungsdaten, aber auch für die mit diesen verknüpften bibliographischen Daten.

Trotz dieser Schwierigkeiten ist es dem Projektteam gelungen, Werkzeuge, Programme und Datenmaterial zu entwickeln, um ein prototypisches Informationssystem zu erstellen.

Die am Projekt beteiligten Bibliotheken hatten unter anderem die Aufgabe, ein Dokumentenrepositorium – insbesondere für graue Literatur – mindestens aber eine Bibliographie der in den auf der ArchoInf-Plattform bereitgestellten Projekte zur Verfügung zu stellen. Dabei wurde schon sehr früh entschieden, dass als gemeinsamer Nenner das bibliographische Datenformat MODS dienen soll. Ferner wurden die Daten einerseits für die Indexierung in einer auf Apache Solr basierenden Suchmaschine und andererseits mittels der CIDOC CRM-Ontologien für die Verwendung als Linked Data aufbereitet.

Zenodo-Logo

Zenodo – An open digital repository for everyone and everything that isn’t served by a dedicated service
OpenAIRE und CERN haben dieses Repositorium im Jahr 2013 gestartet. Das von der Europäischen Kommission unterstützte Repositorium bietet einen zentralen Ort für die Speicherung und Recherche von Forschungsdaten und dient zusätzlich als
Orphan Repository für Publikationen, für die kein passendes institutionelles oder disziplinäres Repositorium zur Verfügung steht.

Auf der Webseite von Zenodo wird die Plattform wie folgt beschrieben:

Zenodo is an open dependable home for the long-tail of science, enabling researchers to share and preserve any research outputs in any size, any format and from any science.

Damit eignet sich die Plattform vor allem für die Archivierung von Materialien institutsübergreifender und kleinerer Projekte.

Zu den Funktionen gehören:

  • Community Collections inkl. OAI-PMH-Schnittstelle
  • Vergabe von bzw. Nachnutzung bereits vorhandener DOIs
  • flexible Lizensierung der Daten
  • Archivierung von GitHub-Software-Repositorien
  • Reporting zu Drittmittelgebern (derzeit nur EU-Projekte via OpenAIRE)

Zenodo speichert die beim Upload angegebenen Metadaten intern im MARC-Format ab, welches als ZENODO Metadata Schema dokumentiert ist. Als Exportformate stehen MARCXML, Dublin Core und DataCite Metadata Schema gemäß der OpenAIRE Guidelines zur Verfügung. Fachliche Metadaten (z.B. DDI Metadata zur Beschreibung von sozial- und wirtschaftswissenschaftlichen Daten) werden nicht erfasst.

Die Metadaten sind bis auf die E-Mail-Adressen unter der CC0-Lizenz veröffentlicht und können über OAI-PMH abgerufen werden (vgl. auch die Policy von Zenodo).

ArcheoInf auf Zenodo
Die Möglichkeit, eine Community Collection – also für eine spezielle Gruppe oder ein Projekt ein eigenes Repositorium – aufzusetzen, machte für ArcheoInf ohne Zweifel Sinn. So habe ich die Community Collection „ArcheoInf Projekt“ angelegt, um dort die zum Projekt gehörigen Daten abzulegen.

Wie bereits oben beschreiben, haben die am Projekt beteiligten Bibliotheken vor allem bibliographische Datensätze für zwei Anwendungsszenarien aufbereitet. Auf Zenodo habe ich für jede „Projektbibliographie“ ein Datenpaket bestehend aus den angereicherten MODS-Daten, den für die Indexierung in Apache Solr erzeugten und den Linked Data als RDF/XML abgelegt.

Die Datensätze haben durch die Ablage auf Zenodo einen DOI bekommen. Somit sind die Daten nun wie folgt publiziert:

Die Beschreibung der Datensätze sieht die Möglichkeit vor, Verknüpfungen zu anderen Publikationen zu erstellen. Beispielsweise ist es möglich, Datensätze als Supplement zu einer textuellen Publikation in Beziehung zu setzen. Von dieser Möglichkeit habe ich bei den fünf Datensätzen gebrauch gemacht, in dem ich sie als Supplements zu den beiden Publikationen von Maike Lins und mir im Sammelwerk „(Open) Linked Data in Bibliotheken“ zugeordnet habe. Insbesondere in dem Beitrag „Open Data und Linked Data in einem Informationssystem für die Archäologie“ wird auf die Erzeugung dieser Daten eingegangen und das Verfahren sowie die Verwendung der Daten beschrieben.

Die im Rahmen des Projektes entstandene Software zur Erzeugung bzw. Konvertierung der bibliographischen Daten wurde in einem Repositorium „ArcheoInf“ auf GitHub abgelegt. Zenodo bietet die Möglichkeit, die Releases aus dem GitHub-Repositorium automatisch als zip-Archiv zu archvieren und diesem ebenfalls einen DOI zu vergeben. Die finale Version der Software zur Erzeugung bzw. Konvertierung der bibliographischen Daten in ArcheoInf hat nun den DOI 10.5281/zenodo.11177.

Fazit
Um die Grundsätze der guten wissenschatlichen Arbeit im Sinne der eigenen Einrichtung aber auch der Drittmittelgeber zu erfüllen, ist die Plattform Zenodo sehr gut geeignet – insbesondere wenn es keine fachbezogene oder institutionelle Alternative gibt. Ein wesentlicher Vorteil von Zenodo liegt in der abgesicherten dauerhaften Finanzierung durch EU-Mittel und dem Betrieb durch das mit großen Datenmengen erfahrene CERN. Auch die Vergabe von DOIs und der automatischen Meldung der Publikationen an Drittmittelgeber (bisher nur für EU-Projekte via OpenAIRE) sind für Aspekte wie Sichtbarkeit und Vereinfachung von Verwaltungsaufgaben von Vorteil.
Ein Nachteil könnte sein, dass eine Beschreibung der Daten mittels fachspezifischer Metadaten fehlt. Allerdings ist fast davon auszugehen, dass es in einem Fachgebiet mit einem speziellen Metadatenschema auch ein Datenrepositorium exisitert (nach schlagen kann man dies im Verzeichnis Registry of Research Data Repositories (re3data).

  1. Hier ist aber Vorsicht geboten, da die Verlage teilweise fragwürdige Nutzungslizenzen vereinbaren wollen. []
  2. vgl. u.a. Open Data und Linked Data in einem Informationssystem für die Archäologie / Maike Lins, Hans-Georg Becker. In: (Open) Linked Data in Bibliotheken / hrsg. von Patrick Danowski, Adrian Pohl. De Gruyter Saur, 2013. – S. 201-223. DOI: 10.1515/9783110278736.201 []

FRBRoo — eine Anwendung

In den letzten Jahren habe ich mich im Rahmen des von der DFG geförderten Projektes „ArcheoInf – Informationszentrum für die Archäologie“ mit dem CIDOC CRM und der zugehörigen Erweiterung FRBRoo beschäftigt.

Ziel des Projektes war es, „Primärdaten archäologischer Forschung, die bisher in heterogenen Datenstrukturen vorgehalten wurden, unter Wahrung ihrer Autonomie in einer gemeinsamen Umgebung web-basiert verfügbar“ zu machen. Mit den archäologischen Primärdaten sollten bibliothekarische Informationen und Dienstleistungen sowie geoinformatisches Datenmaterial verbunden werden.

Aufgrund der als „Best Practice“ einzuordnenden Erfahrungen aus den britischen Strukturen zur Erhaltung des kulturellen Erbes (z.B. English Heritage, British Museum), war uns sehr früh bewusst, dass ein System wie ArcheoInf nur auf Basis des CIDOC CRM gelingen kann.

Was ist das CIDOC CRM?

Beim CIDOC Conceptual Reference Model handelt es sich um eine Norm (ISO 21127:2006) für den kontrollierten Austausch von Informationen im Bereich des kulturellen Erbes. Die Ontologie soll unter anderem von Archiven, Bibliotheken und Museen zur Verbesserung der Verfügbarkeit von Wissen angewandt werden. Es wurde vom CIDOC, einem der 30 internationalen Komitees des International Council of Museums (Internationalen Museumsrats, ICOM) entwickelt.

Mit dem CIDOC CRM wird das Ziel verfolgt, die vielfältigen Informationen im Bereich des kulturellen Erbes gemeinsam zu erfassen und einen allgemeinen Rahmen ihrer formalen Semantik zur Verfügung zu stellen, damit jede Information dieses Bereichs den Begriffen des CIDOC CRM zugeordnet wer-den kann. Auf diese Weise werden wichtige Voraussetzungen für die Informationsintegration geschaffen, da auf der Grundlage des CIDOC CRM Werkzeuge zur Schematransformation und -integration entwickelt werden können.

Das CRM beruht auf zwei Hierarchien von Entitäten und Eigenschaften und erlaubt ein hohes Maß an semantischer Präzision. Es eignet sich daher als eine Art Zwischenformat, dessen Verwendung die Anzahl der notwendigen Mappings dramatisch reduziert, wenn verschiedene Quellformate und mehrere Zielsprachen benötigt werden. Die wichtigste Eigenschaft des CIDOC CRM ist allerdings die Ereigniszentriertheit, d.h. es wird davon ausgegangen, dass jedes Objekt nur dann existiert, wenn vorher ein Ereignis stattgefunden hat, welches das Objekt zum Resultat hat.

Aber es fehlen Strukturen für bibliographische Daten!

Das CRM erlaubt Mappings beliebiger Datenmodelle. Für einige der im Bereich des kulturellen Erbes einschlägigen Modelle liegen generische Mappings vor, die von den Entwicklern des CRM veröffentlicht wurden. Die im Rahmen des CRM-Entwicklungsprojekts entworfenen Mappings für Dublin Core (DC), Encoded Archival Description (EAD), Lightweight Information Describing Objects (LIDO) und anderer Modelle und Formate orientieren sich an den im CRM-Entwicklungsprozess ausgearbeiteten Empfehlungen.

FRBRoo ist die objektorientierte Version der FRBR (siehe auch Tillet: What is FRBR? und Wiesenmüller: Zehn Jahre ‚Functional Requirements for Bibliographic Records‘) und ermöglicht die gemeinsame Darstellung von Bibliotheks- und Museumsdokumentation. Damit ist es möglich, interoperable Informationssysteme für alle Nutzerinnen und Nutzer zu implementieren, die ein Interesse daran haben, auf gemeinsame oder verwandte Inhalte kultureller Einrichtungen zuzugreifen.

Mit der Entwicklung der FRBRoo ging eine gegenseitige Anreicherung der FRBR und des CIDOC CRM einher:

  • Ergänzung der FRBR um Zeit und Ereignisse,
  • begriffliche Abklärung der Entität Manifestation,
  • explizite Modellierung von Aufführungen und Aufzeichnungen, die in den FRBR erwähnt sind,
  • Ergänzung des CRM durch die Entität Werk und
  • Ergänzung des CRM durch einen Identifikator-Vergabeprozess.

FRBRoo fügt damit den FRBR die dynamischen Aspekte des CRM hinzu. Ferner erlaubt es, aufgrund der netzartigen Struktur des CRM, bibliographische Informationen in Linked Data Kontexte zu übertragen.

FRBR, Serials und die fehelende Manifestation

Spätestens mit der Frage nach „FRBR and Serials“ innerhalb des lobid.org-Projektes des hbz, habe ich mich entschlossen, mehr über meine Ergebnisse zum CRM und zu FRBRoo zu berichten.

In den nächsten Beiträgen dieses Blogs werde ich auf Basis der Publikationsformen nach dem bibliothekarischen Standardwerk „Bibliothekarisches Grundwissen“ die Sichtweise der FRBRoo darstellen und zeigen, dass die Fragestellungen bzgl. der „Serials“ sich damit beantworten lassen.

Weiterlesen: