Veröffentlichung von Forschungsdaten eines DFG-Projektes auf Zenodo – Ein Selbstversuch

Jede wissenschaftliche Einrichtung stellt – in der Regel basierend auf Empfehlungen von Drittmittelgebern wie der DFG – an sich den Anspruch, nach den Regeln guter wissenschaftlicher Praxis zu arbeiten. Hierzu heißt es beispielweise in den Regeln für die TU Dortmund:

Hierzu gehört es, lege artis zu arbeiten, korrekte Angaben zu machen, geistiges Eigentum anderer zu achten sowie andere in ihrer Forschungstätigkeit nicht zu beeinträchtigen. […]
Im Zusammenhang der Veröffentlichung schließt dies insbesondere Folgendes ein:
– Die nachvollziehbare Beschreibung der angewandten Methoden,
– die vollständige Dokumentation aller im Forschungsprozess erhobenen und für die Veröffentlichung relevanten Daten,
– eine nachprüfbare Darstellung der Forschungsergebnisse […]

Was bedeuten diese Forderungen nun für ein Projekt?

Die TU Dortmund hat bereits seit mehr als 15 Jahren ein Repositorium auf dem neben Hochschulschriften auch Projektberichte und andere Berichtsformen im Sinne des Open Access veröffentlicht werden können. Die fortschreitende Digitalisierung der Wissenschaftsdisziplinen erfordert aber heute weit mehr als “nur” die Archivierung textueller Daten. Zunehmend werden auch die zur Publikation führenden sogenannten Primär- oder Rohdaten digital erzeugt bzw. erfasst. Diese zu erschließen und zu archivieren ist eine nicht triviale Herausforderung.

In den letzten Jahren wurden weltweit Projekte begonnen, die sich zum Ziel genommen haben, eine Infrastruktur für Forschungsdaten aufzubauen. Während einige Forschungsgebiete eigene Data Center oder Data Journals (z.B. Pangaea oder F1000 Research) gegründet haben, sind kleinere Forschungsbereiche eher auf der Strecke geblieben. Diese Lücke möchten nun Plattformen wie Zenodo, Dryad Digital Repository oder figshare schließen. Aber auch immer mehr Zeitschriftenverlage bieten die Möglichkeit der Datenablage an. ((Hier ist aber Vorsicht geboten, da die Verlage teilweise fragwürdige Nutzungslizenzen vereinbaren wollen.))

Für einen Teil der Ergebnisse des DFG-Projekts ArcheoInf, an dem die Universitäsbibliothek Dortmund beteiligt war, habe ich die Plattform Zenodo getestet und die Datensätze sowie die im Projekt entstandene Software dort archiviert.

ArcheoInf-Logo

Das Projekt ArcheoInf und das zu archivierende Material der beteiligten Bibliotheken
Zum Projekt ArcheoInf wurde bereits an einigen Stellen publiziert ((vgl. u.a. Open Data und Linked Data in einem Informationssystem für die Archäologie / Maike Lins, Hans-Georg Becker. In: (Open) Linked Data in Bibliotheken / hrsg. von Patrick Danowski, Adrian Pohl. De Gruyter Saur, 2013. – S. 201-223. DOI: 10.1515/9783110278736.201 )). Deshalb soll hier nur kurz über das Projekt selber berichtet werden.

Das Projekt wurde im Rahmen des Programms “Themenorientierte Informationsnetze” seit dem Jahr 2008 von der Deutschen Forschungsgemeinschaft gefördert. Neben dem Archäologischen Institut der Georg-August-Universität Göttingen, dem Lehrstuhl für Software-Technologie der Technischen Universität Dortmund sowie dem Fachbereich Geoinformatik/Geodäsie der Hochschule Bochum arbeiteten die Universitätsbibliotheken Dortmund und Bochum in diesem Projekt an der Entwicklung eines Informationssystems für die Archäologie.

ArcheoInf zielte auf eine Verfügbarmachung wissenschaftlicher Forschungsdaten – also Karten, Bilder, Texte, schlicht alle zu den beteiligten archäologischen Grabungs- und Surveyprojekten verfügbaren Informationen – im Netz über eine einzige Oberfläche und von jedem Ort der Welt erreichbar. Es sollten hier nicht die Projekte isoliert durchsuchbar sein, sondern in einer Weise miteinander verknüpft werden, dass projektübergreifend Informationen zu einem gesuchten Thema gefunden und verbunden werden können.

Trotz des von Fachwissenschaftlern artikulierten Bedarfs einer derartigen Lösung, hat sich während der Projektlaufzeit gezeigt, dass die Freigabe von Projektdaten zur Bereitstellung über ein solches Portal aus verschiedenen Gründen häufig nicht zu erreichen ist. Insbesondere wurde deutlich, dass den Fachwissenschaftlern zunächst an Werkzeugen gelegen ist, die eine qualitativ hochwertige Verarbeitung von Primärdaten ermöglicht und diese somit erst publizierbar werden.

Das Resultat war, dass ArcheoInf kein Datenmaterial zur Verfügung stand und steht, mit dem einerseits die zu entwickelnden Instrumente ausgebaut werden konnten und andererseits eine oben beschriebene Plattform mit Inhalt gefüllt werden konnte. Dies gilt in besonders hohem Maße für archäologische Forschungsdaten, aber auch für die mit diesen verknüpften bibliographischen Daten.

Trotz dieser Schwierigkeiten ist es dem Projektteam gelungen, Werkzeuge, Programme und Datenmaterial zu entwickeln, um ein prototypisches Informationssystem zu erstellen.

Die am Projekt beteiligten Bibliotheken hatten unter anderem die Aufgabe, ein Dokumentenrepositorium – insbesondere für graue Literatur – mindestens aber eine Bibliographie der in den auf der ArchoInf-Plattform bereitgestellten Projekte zur Verfügung zu stellen. Dabei wurde schon sehr früh entschieden, dass als gemeinsamer Nenner das bibliographische Datenformat MODS dienen soll. Ferner wurden die Daten einerseits für die Indexierung in einer auf Apache Solr basierenden Suchmaschine und andererseits mittels der CIDOC CRM-Ontologien für die Verwendung als Linked Data aufbereitet.

Zenodo-Logo

Zenodo – An open digital repository for everyone and everything that isn’t served by a dedicated service
OpenAIRE und CERN haben dieses Repositorium im Jahr 2013 gestartet. Das von der Europäischen Kommission unterstützte Repositorium bietet einen zentralen Ort für die Speicherung und Recherche von Forschungsdaten und dient zusätzlich als
Orphan Repository für Publikationen, für die kein passendes institutionelles oder disziplinäres Repositorium zur Verfügung steht.

Auf der Webseite von Zenodo wird die Plattform wie folgt beschrieben:

Zenodo is an open dependable home for the long-tail of science, enabling researchers to share and preserve any research outputs in any size, any format and from any science.

Damit eignet sich die Plattform vor allem für die Archivierung von Materialien institutsübergreifender und kleinerer Projekte.

Zu den Funktionen gehören:

  • Community Collections inkl. OAI-PMH-Schnittstelle
  • Vergabe von bzw. Nachnutzung bereits vorhandener DOIs
  • flexible Lizensierung der Daten
  • Archivierung von GitHub-Software-Repositorien
  • Reporting zu Drittmittelgebern (derzeit nur EU-Projekte via OpenAIRE)

Zenodo speichert die beim Upload angegebenen Metadaten intern im MARC-Format ab, welches als ZENODO Metadata Schema dokumentiert ist. Als Exportformate stehen MARCXML, Dublin Core und DataCite Metadata Schema gemäß der OpenAIRE Guidelines zur Verfügung. Fachliche Metadaten (z.B. DDI Metadata zur Beschreibung von sozial- und wirtschaftswissenschaftlichen Daten) werden nicht erfasst.

Die Metadaten sind bis auf die E-Mail-Adressen unter der CC0-Lizenz veröffentlicht und können über OAI-PMH abgerufen werden (vgl. auch die Policy von Zenodo).

ArcheoInf auf Zenodo
Die Möglichkeit, eine Community Collection – also für eine spezielle Gruppe oder ein Projekt ein eigenes Repositorium – aufzusetzen, machte für ArcheoInf ohne Zweifel Sinn. So habe ich die Community Collection “ArcheoInf Projekt” angelegt, um dort die zum Projekt gehörigen Daten abzulegen.

Wie bereits oben beschreiben, haben die am Projekt beteiligten Bibliotheken vor allem bibliographische Datensätze für zwei Anwendungsszenarien aufbereitet. Auf Zenodo habe ich für jede “Projektbibliographie” ein Datenpaket bestehend aus den angereicherten MODS-Daten, den für die Indexierung in Apache Solr erzeugten und den Linked Data als RDF/XML abgelegt.

Die Datensätze haben durch die Ablage auf Zenodo einen DOI bekommen. Somit sind die Daten nun wie folgt publiziert:

Die Beschreibung der Datensätze sieht die Möglichkeit vor, Verknüpfungen zu anderen Publikationen zu erstellen. Beispielsweise ist es möglich, Datensätze als Supplement zu einer textuellen Publikation in Beziehung zu setzen. Von dieser Möglichkeit habe ich bei den fünf Datensätzen gebrauch gemacht, in dem ich sie als Supplements zu den beiden Publikationen von Maike Lins und mir im Sammelwerk “(Open) Linked Data in Bibliotheken” zugeordnet habe. Insbesondere in dem Beitrag “Open Data und Linked Data in einem Informationssystem für die Archäologie” wird auf die Erzeugung dieser Daten eingegangen und das Verfahren sowie die Verwendung der Daten beschrieben.

Die im Rahmen des Projektes entstandene Software zur Erzeugung bzw. Konvertierung der bibliographischen Daten wurde in einem Repositorium “ArcheoInf” auf GitHub abgelegt. Zenodo bietet die Möglichkeit, die Releases aus dem GitHub-Repositorium automatisch als zip-Archiv zu archvieren und diesem ebenfalls einen DOI zu vergeben. Die finale Version der Software zur Erzeugung bzw. Konvertierung der bibliographischen Daten in ArcheoInf hat nun den DOI 10.5281/zenodo.11177.

Fazit
Um die Grundsätze der guten wissenschatlichen Arbeit im Sinne der eigenen Einrichtung aber auch der Drittmittelgeber zu erfüllen, ist die Plattform Zenodo sehr gut geeignet – insbesondere wenn es keine fachbezogene oder institutionelle Alternative gibt. Ein wesentlicher Vorteil von Zenodo liegt in der abgesicherten dauerhaften Finanzierung durch EU-Mittel und dem Betrieb durch das mit großen Datenmengen erfahrene CERN. Auch die Vergabe von DOIs und der automatischen Meldung der Publikationen an Drittmittelgeber (bisher nur für EU-Projekte via OpenAIRE) sind für Aspekte wie Sichtbarkeit und Vereinfachung von Verwaltungsaufgaben von Vorteil.
Ein Nachteil könnte sein, dass eine Beschreibung der Daten mittels fachspezifischer Metadaten fehlt. Allerdings ist fast davon auszugehen, dass es in einem Fachgebiet mit einem speziellen Metadatenschema auch ein Datenrepositorium exisitert (nach schlagen kann man dies im Verzeichnis Registry of Research Data Repositories (re3data).

“Bibliotheken: Wir öffnen Welten” — Eindrücke vom Bibliothekartag 2014 in Bremen

Vom 3. bis 6. Juni fand in Bremen der 103. Bibliothekartag unter dem Motto “Bibliotheken: Wir öffenen Welten” statt. Auch in diesem Jahr waren die Gespräche am Rande äusserst interessant und inspirierend und übertrafen die Vorträge in Sachen Informationsgehalt doch teilweise erheblich. Doch es gab auch Highlights unter den Beiträgen …

Es war nur eine Frage der Zeit, bis die Forderung nach Openness die Sessions erreichte. Am deutlichsten formulierte es Felix Lohmeier von SLUB Dresden. Er plädierte in diesem Vortrag für eine Positionierung der “Bibliotheken als Wächter für den (dauerhaft) freien Zugang zum Wissen”. Auf die heutige Zeit angewendet erfordert dies – so Lohmeier weiter – “eine konsequente Ausrichtung des eigenen Handelns an den Prinzipien von Open Science und Open Data”. Dem kann man eigentlich nur uneingeschränkt zustimmen!

Stand in Sachen Openness
Adrian Pohl hat einen sehr guten Überblick über den aktuellen Stand vorgestellt. In “Bibliotheken: Wir öffnen Daten. Zum Stand der Entwicklung einer offenen Dateninfrastruktur” stellte er dar, dass schon viel erreicht wurde, aber auch, dass noch viel geschehen muss.

Postiv fiel in Bremen auf, dass immer mehr IT-basierte Projekte dazu tendieren, die Systeme als offene Infrastrukturen zu denken und aufzubauen, wobei immer mehr offene Schnittstellen (z.B. das API der Deutschen Digitalen Bibliothek oder von lobid.org) und sogar Open Source Software (z.B. die neuen Entwicklungen rund um Qucosa an der SLUB Dresden, invenio und auch wieder lobid.org) angeboten werden.

Während am Rande des Bibliothekartags zwei neue OA-Zeitschriften für die Bibliotheks- und Informationswelt gegründet wurden (“Informationspraxis – Die Open Access-Zeitschrift der Fachcommunity aus Bibliothek, Archiv und Informationswesen” ((Webseite der “Informationspraxis”)) und “o-bib. Das offene Bibliotheksjournal / herausgegeben vom VDB” ((o-bib, Pressemitteilung))) wurde in den Sessions zu Open Access deutlich, dass in anderen Bereichen Open Access schon erwachsen wird. Ein Beispiel dafür stellte Dirk Pieper in seinen Ausführungen “Open-Access-Clearing-Stelle an der Universität Bielefeld. Ein Beitrag zur Verstetigung von Publikationsfonds” vor.

Insgesamt hat sich die Reise wieder einmal gelohnt. Wir dürfen gespannt sein, ob das diesjährige Motto bis zum nächsten Treffen der Bibliothekarinnen und Bibliothekare – vom 26. bis 29. Mai 2015 in Nürnberg – wirklich gelebt wird.

Publishing — the Modern Way

Translated by André Hagenbruch / Deutsche Version Deutsche Version

I have been a supporter of the open movement for a few years: Research results particularly from publicly funded projects and facilities have to be provided to the public within the meaning of the Open Definition. It’s unacceptable that the taxpayer should have to pay several times for such research.

The more the publishers misappropriate the topic of open access, the more perverse practices arise. For example, authors are not allowed to self-publish preprints by their publishers under the pretence of the forthcoming open version despite the horrendous fees they paid for Open Access publishing. On top of that publishers don’t even reduce subscription costs (even though the authors do the most of the work anyway when publishing) …

I have come to think that I, as a member of an academic library, should go as a good example and publish my findings at least as green road Open Access publications. But unfortunately, the publishing practices of German Library and Information Sciences don’t adhere to this way of thinking, despite the many preachers advocating Open Access publishing…

In addition to the practical experience I wondered whether this actual practice in publication is still timely. There is certainly no easy nor general answer to that.
We live in a time in which one is almost permanently online, lives in social networks, and tries to discuss issues in these networks or on Google, Bing and so forth in a cooperative and open way. Increasingly we see that researchers document their findings and questions on blogs and discuss these by using the comment functions. Is there a better way of review than this?
At such a time it seems to me the classic publishing practices for the latest research findings are outdated, especially in a relatively soft science as is library and information science.

I have now decided to go handle this blog in this way. The advantage for me is the fact that I can make time-independent and smaller results of my work (topics of my blog) directly available to the public and discuss them. But there will certainly be situations where “old school” publications are useful for me and the community 😉

In this sense I am looking forward to feedback!

Publizieren mal zeitgemäß

English Version English Version

Ich bin seit Jahren Anhänger der Open-Bewegung: Forschungsergebnisse insbesondere von aus öffentlich finanzierten Projekten und Einrichtungen müssen der Öffentlichkeit im Sinne der Open Definition zur Verfügung gestellt werden. Es kann nicht sein, dass der Steuerzahler mehrfach für solche Forschung bezahlen muss.

Je mehr die Verlage das Thema Open Access für sich entdecken, desto perversere Praktiken entstehen. Da werden Preprints mit dem Verweis auf die spätere offene Version nicht erlaubt, horende Kosten bei den Autoren erhoben und trotzdem die Subskriptionskosten nicht reduziert (und das, obwohl die Autoren sowieso schon die meiste Arbeit beim Publizieren leisten) …

Ich war bisher der Meinung, dass ich als Angehöriger einer wissenschaftlichen Bibliothek mit gutem Beispiel voran gehe, in dem ich meine Ergebnisse mindestens auf dem grünen Weg offen zur Verfügung stelle.
Leider stellt mir selbst die Publikationspraxis in der Bibliotheks- und Informationswissenschaft immer wieder ein Bein – und das, obwohl wir in unserer Branche immer als Prediger in Sachen Open Access auftreten …

Neben den Erfahrungen aus der Praxis stellte ich mir auch die Frage, ob diese Publikationspraxis eigentlich noch zeitgemäß ist. Diese Frage lässt sich sicherlich nicht verallgemeinernd beantworten.
Wir leben in einer Zeit, in der man quasi immer online ist, sich in sozialen Netzwerken bewegt und Fragestellungen in diesen Netzwerken oder bei Google, Bing und Co. versucht kooperativ und offen zu diskutieren. Immer häufiger sieht man, dass Forscherinnen und Forscher ihre Ergebnisse und Fragestellungen in Blogs dokumentieren und über die Kommentarfunktionen diskutieren. Gibt es eine bessere Art des Reviews?
In einer solchen Zeit scheint mir die klassische Publikationspraxis für aktuelle Forschungsergebnisse, gerade in einer relativ weichen Wissenschaft wie sie die Bibliotheks- und Informationswissenschaft ist, überholt zu sein.

Ich habe mich nun entschlossen, mit diesem Blog ebenfalls diesen Weg zu gehen. Der Vorteil liegt für mich vor allem darin, dass ich zeitlich unabhängig auch kleinere Ergebnisse meiner Arbeit (Themen meines Blogs) direkt der Öffentlichkeit zur Verfügung stellen und diskutieren kann. Das soll allerdings nicht heißen, dass es nicht auch noch “old school” Publikationen von mir geben kann 😉

In diesem Sinne freue ich mich auf Feedback!