Bestandsnachweise mit einem CIDOC CRM-Application Profile

Auf meinen Beitrag Bestandsnachweise von Bibliotheken als Linked Data gab es einige Anmerkungen. Neben einigen Retweets wurde insbesondere die Komplexität des CRM angesprochen. Beispielhaft greife ich hier eine Reaktion von Karen Coyle (@karencoyle) in der Mailing-Liste der Schema Bib Extend Community Group heraus ((Mail vom 22.11.2013 im Mailarchiv)): “[…] Although a friend and I were joking the other day that FRBRoo diagrams look frighteningly like a London Tube Map. […]”.

Auch in vielen Gesprächen am Rande der SWIB13 zeigt sich, dass die Akzeptanz für die CIDOC CRM-Welt an der vermeintlichen Komplexität des Modells scheitert. Auf der SWIB13 zeigte sich aber auch, dass an einigen Stellen neue Ontologien entstehen, deren Inhalte auch schon im CIDOC CRM abgebildet sind. ((Ich meine hier nicht die zahlreichen “Application Profiles” sondern die tatsächlich neuen Ontologien.))

Sicherlich sieht der Ansatz im CIDOC CRM recht komplex aus. Doch was bleibt letztlich davon übrig, wenn beispielsweise für eine wissenschaftliche Bibliothek die zugehörige Universität bzw. die Bibliothek selbst die administrativen Informationen der Einrichtung als Linked Open Data bereitstellt?

Meine bisherigen Betrachtungen zeigen die Mächtigkeit des Modells und die Zusammenhänge für bibliographische Informationen eher abstrakt. Ich werde mich daher nun mit der Frage auseinandersetzen, ob auf Basis des CIDOC CRM ein “Application Profile” definierbar ist, welches tatsächlich anwendbar ist. Im Sinne der Unterscheidung zwischen Referenz- und Anwednungsontologie ((Zur Anwendung des CIDOC CRM als Referenzontologie bzw. Anwendungsontologie vergleiche auch Hohmann, Georg (2010): Die Anwendung des CIDOC CRM für die semantische Wissensrepräsentation in den Kulturwissenschaften. In: Ohly, Peter; Sieglerschmidt, Jörn (eds.): Wissensspeicher in digitalen Räumen. Nachhaltigkeit, Verfügbarkeit, semantische Interoperabilität. Proceedings der 11. Tagung der Deutschen Sektion der Internationalen Gesellschaft für Wissensorganisation Konstanz 20.-22. Februar 2008. Würzburg: Ergon. pp. 210-222.)) sollte es möglich sein, ein “Application Profile” auf Basis des CRM zu definieren, welches im Retrieval durch das CIDOC CRM als Referenzontologie nutzbar wird.

Im folgenden entwickelt sich eine Beschreibung der Bestandsnachweise, bei der die Komplexität des auf dem CIDOC CRM basierenden Modells durch eine “Aufgabenteilung” deutlich abnimmt.

“Man-Made Features” und “Sites”
Wie im Beitrag über die Bestandsnachweise beschrieben, lässt sich mittels der CRM-Entität E27_Site ((CRM: “This class comprises pieces of land or sea floor.”)), E26_Physical_Feature ((CRM: “This class comprises identifiable features that are physically attached in an integral way to particular physical objects.”)) und E25_Man-Made_Feature ((CRM: “This class comprises physical features that are purposely created by human activity, such as scratches, artificial caves, artificial water channels, etc.”)) eine beliebige Örtlichkeit beschreiben.
Die folgenden Beispiele zeigen einige Datensätze für die TU Dortmund.

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix ecrm: <http://erlangen-crm.org/120111/> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix org: <http://www.w3.org/ns/org#>
@prefix lgd: <http://linkedgeodata.org/page/triplify/> .
@prefix osm: <http://www.openstreetmap.org/> .
@prefix data: <http://data.ub.tu-dortmund.de/resource/> .

data:site/TUDortmundUniversity 
  a ecrm:E27_Site , org:Site ;
  skos:prefLabel "Technische Universität Dortmund"@de , "TU Dortmund University"@en ;
  skos:altLabel "TU Dortmund" , "Universität Dortmund"@de , "Dortmund University"@en ;
  rdfs:isDefinedBy data:site/TUDortmundUniversity/about.rdf ;
  ecrm:P46i_forms_part_of lgd:relation1829065 ;
  ecrm:P46_is_composed_of data:site/NorthernCampus , data:site/SouthernCampus ;
  org:siteOf data:gnd/16039348-6 .
data:site/NorthernCampus 
  a ecrm:E27_Site, org:Site ;
  skos:prefLabel "Campus Nord"@de , "Northern Campus"@en ;
  rdfs:isDefinedBy data:site/NorthernCampus/about.rdf ;
  ecrm:P46i_forms_part_of data:site/TUDortmundUniversity ;
  ecrm:P46_is_composed_of data:feature/VP_76 , ... , data:feature/EF_50 ;
  owl:sameAs lgd:way130972690 ;
  rdfs:seeAlso osm:way/130972690 .
data:feature/VP_76
  a ecrm:E25_Man-Made_Feature, org:Site ;
  skos:prefLabel "Vogelpothsweg 76" ;
  skos:altLabel "Zentralbibliothek"@de , "Central Library"@en , "ZB"@de , "CL"@en , "VP 76" ;
  rdfs:isDefinedBy data:feature/VP_76/about.rdf ;
  ecrm:P46i_forms_part_of data:site/NorthernCampus ;
  ecrm:P46_is_composed_of data:feature/VP_76/ThirdFloor , ... , data:feature/VP_76/BasementLevel2 ;
  owl:sameAs lgd:way17059611 ;
  rdfs:seeAlso osm:way/17059611 . 
  org:siteOf data:organisation/DE-290 , data:organisation/DE-290/GB1 , ... .

Um präzise Lagerangaben bei Bestandsnachweisen zu beschreiben, sind weitere Kenntnisse innerhalb von Gebäuden, z.B. über Abschnitte oder Etagen, notwendig. Diese lassen sich mittels CRM als E25_Man-Made_Feature beschreiben. Die folgenden Beispiele zeigen das dritte Obergeschoss, das zweite Untergeschoss sowie den Zeitschriftenlesesaal im Erdgeschoss des Gebäudes Vogelpothsweg 76 (VP_76) auf Campus Nord.

data:feature/VP_76/ThirdFloor
  a ecrm:E25_Man-Made_Feature , org:Site ;
  skos:prefLabel "3. Obergeschoss"@de , "Third Floor"@en ;
  skos:altLabel "3.OG"@de ;
  rdfs:isDefinedBy data:feature/VP_76/ThirdFloor/about.rdf ;
  ecrm:P46i_forms_part_of data:feature/VP_76 ;
  ecrm:P46_is_composed_of data:collection/290/0/Sn .
data:feature/JournalsReadingRoom
  a ecrm:E25_Man-Made_Feature , org:Site ;
  skos:prefLabel "Zeitschriftenlesesaal"@de , "Journals Reading Room"@en ;
  ecrm:P46i_forms_part_of data:feature/VP_76/GroundFloor .
]  .

Damit auch Aussagen in Bezug auf eine der dem Ort zugeordneten Organisation getroffen werden können, sind die Objekte auch vom Typ Site der W3C Organization Ontology.

Sammlungen in der Bibliothek
Die physischen Bestände sind in Bibliotheken in der Regel systematisch in Sammlungsbereiche geordnet, z.B. als Sektionen basierend auf einer Systematik wie die Dewey Decimal Classification (DDC). Der Charakter dieser Sammlungen findet sich in der CRM-Entität E78_Collection wieder und kann mittels der Eigenschaft “forms part of” einem “Feature” und mittels “has current or former curator” einer Einrichtung zugeordnet werden.
Die folgenden Code-Beispiele zeigen einerseits die Signaturgruppe Sn, welche in der “Freihand”-Sammlung verortet ist und andererseits die “Lehrbuchsammlung”. Beide sind Teil der gesamten Sammlung der Zentralbibliothek.

data:collection/290/0
  a ecrm:E78_Collection ;
  skos:prefLabel "Central Library"@en , "Zentralbibliothek"@de ;
  skos:altLabel "ZB"@de , "CL"@de ;
  rdfs:isDefinedBy data:collection/290/0/about.rdf ;
  ecrm:P46i_forms_part_of data:feature/VP_76 ;
  ecrm:P109_has_current_or_former_curator data:organisation/DE-290/Fachreferate .
data:collection/290/0/1
  a ecrm:E78_Collection ;
  skos:prefLabel "Freihand"@de ;
  rdfs:isDefinedBy data:collection/290/0/1/about.rdf ;
  ecrm:P46i_forms_part_of data:collection/290/0 ;
  ecrm:P46i_forms_part_of (data:feature/VP_76/SecondFloor data:feature/VP_76/ThirdFloor) ;  
  ecrm:P109_has_current_or_former_curator data:organisation/DE-290/Fachreferate .
data:collection/290/0/1/Sn
  a ecrm:E78_Collection ;
  skos:prefLabel "Signaturgruppe Sn"@de , "Shelf Mark Sn"@en ;
  rdfs:isDefinedBy data:collection/290/0/1/Sn/about.rdf ;
  ecrm:P46i_forms_part_of data:collection/290/0/1 ;
  ecrm:P46i_forms_part_of data:feature/VP_76/ThirdFloor; ;
  ecrm:P109_has_current_or_former_curator data:organisation/DE-290/Fachreferate/Informatik .
data:collection/290/0/2
  a ecrm:E78_Collection ;
  skos:prefLabel "Textbook Collection"@en , "Lehrbuchsammlung"@de ;
  rdfs:isDefinedBy data:collection/290/0/2/about.rdf ;
  ecrm:P46i_forms_part_of data:collection/290/0 ;
  ecrm:P46i_forms_part_of data:feature/VP_76/GroundLevel; ;
  ecrm:P109_has_current_or_former_curator data:organisation/DE-290/Fachreferate .

Bestandsnachweise konkret
Die bisherigen Daten werden nach ihrer initialen Erstellung relativ selten aktualisiert und stehen somit als administrative Daten bei der
Beschreibung der Bestandsnachweise zur Verlinkung zur Verfügung. Also was bleibt nun noch konkret für den eigentlichen Bestandsnachweis zu tun?
Das folgende Beispiel zeigt, dass bis auf die individuelle Signatur und den Status der zur Verfügung stehenden Services nur noch Links zu erfassen sind. Folgende Links werden benötigt ((Für die mit * gekennzeichneten Links vgl. den Abschnitt “WEM + I im CIDOC CRM-Universum” in Bestandsnachweise von Bibliotheken als Linked Data.)):

  • Link zum Besitzer
  • Link zur Kollektion
  • Link zur Manifestation*
  • Link zur Publication Expression*
  • ggf. Link zum Production Event*
data:item/13000956
  a efrbroo:F5_Item ;
  skos:prefLabel "Sn 23555" ;
  rdfs:isDefinedBy data:item/13000956/about.rdf ;
  ecrm:P52_has_current_owner data:organisation/DE-290 ;
  ecrm:P46I_forms_part_of data:collection/290/0/1/Sn ;
  efrbroo:R7_is_example_of data:manifestation/32d8f198-5ec0-4afc-8fe9-0b0388852459 ;
  efrbroo:R6_carries data:expression/c90e09d7 ;
  efrbroo:R28i_was_produced_by data:event/32d8f198-5ec0-4afc-8fe9-0b0388852459 ;
  ecrm:P70i_is_documented_in data:item/13000956/about.rdf .

Fazit und Ausblick
Die vermeintliche Komplexität der Modelle mittels CIDOC CRM und seinen Erweiterungen im Beitrag “Bestandsnachweise von Bibliotheken als Linked Data” lässt sich somit bei genauerer Betrachtung in die vier Bereiche location, organization, collection und holding aufteilen und somit erheblich reduzieren.

Für die tatsächliche Erfassungsarbeit der Bestände durch Bibliothekarinnen und Bibliothekare können in dieser Form sehr einfach gehaltene Formulare dienen, die an den Linking-Felder mit “autosuggest“-Funktionen hinterlegt sind. Im Sinne der Forderung von Dorothea Salo bei der SWIB 13 ((vgl. z.B. mein Tagungsbericht “In LOD we trust” – Ein Bericht von der SWIB13)) nach Tools, wäre das ein sehr wertvolles Szenario und ein wesentlicher Schritt vom “Cataloging” zum “Catalinking“.

Veröffentlichung von Forschungsdaten eines DFG-Projektes auf Zenodo – Ein Selbstversuch

Jede wissenschaftliche Einrichtung stellt – in der Regel basierend auf Empfehlungen von Drittmittelgebern wie der DFG – an sich den Anspruch, nach den Regeln guter wissenschaftlicher Praxis zu arbeiten. Hierzu heißt es beispielweise in den Regeln für die TU Dortmund:

Hierzu gehört es, lege artis zu arbeiten, korrekte Angaben zu machen, geistiges Eigentum anderer zu achten sowie andere in ihrer Forschungstätigkeit nicht zu beeinträchtigen. […]
Im Zusammenhang der Veröffentlichung schließt dies insbesondere Folgendes ein:
– Die nachvollziehbare Beschreibung der angewandten Methoden,
– die vollständige Dokumentation aller im Forschungsprozess erhobenen und für die Veröffentlichung relevanten Daten,
– eine nachprüfbare Darstellung der Forschungsergebnisse […]

Was bedeuten diese Forderungen nun für ein Projekt?

Die TU Dortmund hat bereits seit mehr als 15 Jahren ein Repositorium auf dem neben Hochschulschriften auch Projektberichte und andere Berichtsformen im Sinne des Open Access veröffentlicht werden können. Die fortschreitende Digitalisierung der Wissenschaftsdisziplinen erfordert aber heute weit mehr als “nur” die Archivierung textueller Daten. Zunehmend werden auch die zur Publikation führenden sogenannten Primär- oder Rohdaten digital erzeugt bzw. erfasst. Diese zu erschließen und zu archivieren ist eine nicht triviale Herausforderung.

In den letzten Jahren wurden weltweit Projekte begonnen, die sich zum Ziel genommen haben, eine Infrastruktur für Forschungsdaten aufzubauen. Während einige Forschungsgebiete eigene Data Center oder Data Journals (z.B. Pangaea oder F1000 Research) gegründet haben, sind kleinere Forschungsbereiche eher auf der Strecke geblieben. Diese Lücke möchten nun Plattformen wie Zenodo, Dryad Digital Repository oder figshare schließen. Aber auch immer mehr Zeitschriftenverlage bieten die Möglichkeit der Datenablage an. ((Hier ist aber Vorsicht geboten, da die Verlage teilweise fragwürdige Nutzungslizenzen vereinbaren wollen.))

Für einen Teil der Ergebnisse des DFG-Projekts ArcheoInf, an dem die Universitäsbibliothek Dortmund beteiligt war, habe ich die Plattform Zenodo getestet und die Datensätze sowie die im Projekt entstandene Software dort archiviert.

ArcheoInf-Logo

Das Projekt ArcheoInf und das zu archivierende Material der beteiligten Bibliotheken
Zum Projekt ArcheoInf wurde bereits an einigen Stellen publiziert ((vgl. u.a. Open Data und Linked Data in einem Informationssystem für die Archäologie / Maike Lins, Hans-Georg Becker. In: (Open) Linked Data in Bibliotheken / hrsg. von Patrick Danowski, Adrian Pohl. De Gruyter Saur, 2013. – S. 201-223. DOI: 10.1515/9783110278736.201 )). Deshalb soll hier nur kurz über das Projekt selber berichtet werden.

Das Projekt wurde im Rahmen des Programms “Themenorientierte Informationsnetze” seit dem Jahr 2008 von der Deutschen Forschungsgemeinschaft gefördert. Neben dem Archäologischen Institut der Georg-August-Universität Göttingen, dem Lehrstuhl für Software-Technologie der Technischen Universität Dortmund sowie dem Fachbereich Geoinformatik/Geodäsie der Hochschule Bochum arbeiteten die Universitätsbibliotheken Dortmund und Bochum in diesem Projekt an der Entwicklung eines Informationssystems für die Archäologie.

ArcheoInf zielte auf eine Verfügbarmachung wissenschaftlicher Forschungsdaten – also Karten, Bilder, Texte, schlicht alle zu den beteiligten archäologischen Grabungs- und Surveyprojekten verfügbaren Informationen – im Netz über eine einzige Oberfläche und von jedem Ort der Welt erreichbar. Es sollten hier nicht die Projekte isoliert durchsuchbar sein, sondern in einer Weise miteinander verknüpft werden, dass projektübergreifend Informationen zu einem gesuchten Thema gefunden und verbunden werden können.

Trotz des von Fachwissenschaftlern artikulierten Bedarfs einer derartigen Lösung, hat sich während der Projektlaufzeit gezeigt, dass die Freigabe von Projektdaten zur Bereitstellung über ein solches Portal aus verschiedenen Gründen häufig nicht zu erreichen ist. Insbesondere wurde deutlich, dass den Fachwissenschaftlern zunächst an Werkzeugen gelegen ist, die eine qualitativ hochwertige Verarbeitung von Primärdaten ermöglicht und diese somit erst publizierbar werden.

Das Resultat war, dass ArcheoInf kein Datenmaterial zur Verfügung stand und steht, mit dem einerseits die zu entwickelnden Instrumente ausgebaut werden konnten und andererseits eine oben beschriebene Plattform mit Inhalt gefüllt werden konnte. Dies gilt in besonders hohem Maße für archäologische Forschungsdaten, aber auch für die mit diesen verknüpften bibliographischen Daten.

Trotz dieser Schwierigkeiten ist es dem Projektteam gelungen, Werkzeuge, Programme und Datenmaterial zu entwickeln, um ein prototypisches Informationssystem zu erstellen.

Die am Projekt beteiligten Bibliotheken hatten unter anderem die Aufgabe, ein Dokumentenrepositorium – insbesondere für graue Literatur – mindestens aber eine Bibliographie der in den auf der ArchoInf-Plattform bereitgestellten Projekte zur Verfügung zu stellen. Dabei wurde schon sehr früh entschieden, dass als gemeinsamer Nenner das bibliographische Datenformat MODS dienen soll. Ferner wurden die Daten einerseits für die Indexierung in einer auf Apache Solr basierenden Suchmaschine und andererseits mittels der CIDOC CRM-Ontologien für die Verwendung als Linked Data aufbereitet.

Zenodo-Logo

Zenodo – An open digital repository for everyone and everything that isn’t served by a dedicated service
OpenAIRE und CERN haben dieses Repositorium im Jahr 2013 gestartet. Das von der Europäischen Kommission unterstützte Repositorium bietet einen zentralen Ort für die Speicherung und Recherche von Forschungsdaten und dient zusätzlich als
Orphan Repository für Publikationen, für die kein passendes institutionelles oder disziplinäres Repositorium zur Verfügung steht.

Auf der Webseite von Zenodo wird die Plattform wie folgt beschrieben:

Zenodo is an open dependable home for the long-tail of science, enabling researchers to share and preserve any research outputs in any size, any format and from any science.

Damit eignet sich die Plattform vor allem für die Archivierung von Materialien institutsübergreifender und kleinerer Projekte.

Zu den Funktionen gehören:

  • Community Collections inkl. OAI-PMH-Schnittstelle
  • Vergabe von bzw. Nachnutzung bereits vorhandener DOIs
  • flexible Lizensierung der Daten
  • Archivierung von GitHub-Software-Repositorien
  • Reporting zu Drittmittelgebern (derzeit nur EU-Projekte via OpenAIRE)

Zenodo speichert die beim Upload angegebenen Metadaten intern im MARC-Format ab, welches als ZENODO Metadata Schema dokumentiert ist. Als Exportformate stehen MARCXML, Dublin Core und DataCite Metadata Schema gemäß der OpenAIRE Guidelines zur Verfügung. Fachliche Metadaten (z.B. DDI Metadata zur Beschreibung von sozial- und wirtschaftswissenschaftlichen Daten) werden nicht erfasst.

Die Metadaten sind bis auf die E-Mail-Adressen unter der CC0-Lizenz veröffentlicht und können über OAI-PMH abgerufen werden (vgl. auch die Policy von Zenodo).

ArcheoInf auf Zenodo
Die Möglichkeit, eine Community Collection – also für eine spezielle Gruppe oder ein Projekt ein eigenes Repositorium – aufzusetzen, machte für ArcheoInf ohne Zweifel Sinn. So habe ich die Community Collection “ArcheoInf Projekt” angelegt, um dort die zum Projekt gehörigen Daten abzulegen.

Wie bereits oben beschreiben, haben die am Projekt beteiligten Bibliotheken vor allem bibliographische Datensätze für zwei Anwendungsszenarien aufbereitet. Auf Zenodo habe ich für jede “Projektbibliographie” ein Datenpaket bestehend aus den angereicherten MODS-Daten, den für die Indexierung in Apache Solr erzeugten und den Linked Data als RDF/XML abgelegt.

Die Datensätze haben durch die Ablage auf Zenodo einen DOI bekommen. Somit sind die Daten nun wie folgt publiziert:

Die Beschreibung der Datensätze sieht die Möglichkeit vor, Verknüpfungen zu anderen Publikationen zu erstellen. Beispielsweise ist es möglich, Datensätze als Supplement zu einer textuellen Publikation in Beziehung zu setzen. Von dieser Möglichkeit habe ich bei den fünf Datensätzen gebrauch gemacht, in dem ich sie als Supplements zu den beiden Publikationen von Maike Lins und mir im Sammelwerk “(Open) Linked Data in Bibliotheken” zugeordnet habe. Insbesondere in dem Beitrag “Open Data und Linked Data in einem Informationssystem für die Archäologie” wird auf die Erzeugung dieser Daten eingegangen und das Verfahren sowie die Verwendung der Daten beschrieben.

Die im Rahmen des Projektes entstandene Software zur Erzeugung bzw. Konvertierung der bibliographischen Daten wurde in einem Repositorium “ArcheoInf” auf GitHub abgelegt. Zenodo bietet die Möglichkeit, die Releases aus dem GitHub-Repositorium automatisch als zip-Archiv zu archvieren und diesem ebenfalls einen DOI zu vergeben. Die finale Version der Software zur Erzeugung bzw. Konvertierung der bibliographischen Daten in ArcheoInf hat nun den DOI 10.5281/zenodo.11177.

Fazit
Um die Grundsätze der guten wissenschatlichen Arbeit im Sinne der eigenen Einrichtung aber auch der Drittmittelgeber zu erfüllen, ist die Plattform Zenodo sehr gut geeignet – insbesondere wenn es keine fachbezogene oder institutionelle Alternative gibt. Ein wesentlicher Vorteil von Zenodo liegt in der abgesicherten dauerhaften Finanzierung durch EU-Mittel und dem Betrieb durch das mit großen Datenmengen erfahrene CERN. Auch die Vergabe von DOIs und der automatischen Meldung der Publikationen an Drittmittelgeber (bisher nur für EU-Projekte via OpenAIRE) sind für Aspekte wie Sichtbarkeit und Vereinfachung von Verwaltungsaufgaben von Vorteil.
Ein Nachteil könnte sein, dass eine Beschreibung der Daten mittels fachspezifischer Metadaten fehlt. Allerdings ist fast davon auszugehen, dass es in einem Fachgebiet mit einem speziellen Metadatenschema auch ein Datenrepositorium exisitert (nach schlagen kann man dies im Verzeichnis Registry of Research Data Repositories (re3data).

“Bibliotheken: Wir öffnen Welten” — Eindrücke vom Bibliothekartag 2014 in Bremen

Vom 3. bis 6. Juni fand in Bremen der 103. Bibliothekartag unter dem Motto “Bibliotheken: Wir öffenen Welten” statt. Auch in diesem Jahr waren die Gespräche am Rande äusserst interessant und inspirierend und übertrafen die Vorträge in Sachen Informationsgehalt doch teilweise erheblich. Doch es gab auch Highlights unter den Beiträgen …

Es war nur eine Frage der Zeit, bis die Forderung nach Openness die Sessions erreichte. Am deutlichsten formulierte es Felix Lohmeier von SLUB Dresden. Er plädierte in diesem Vortrag für eine Positionierung der “Bibliotheken als Wächter für den (dauerhaft) freien Zugang zum Wissen”. Auf die heutige Zeit angewendet erfordert dies – so Lohmeier weiter – “eine konsequente Ausrichtung des eigenen Handelns an den Prinzipien von Open Science und Open Data”. Dem kann man eigentlich nur uneingeschränkt zustimmen!

Stand in Sachen Openness
Adrian Pohl hat einen sehr guten Überblick über den aktuellen Stand vorgestellt. In “Bibliotheken: Wir öffnen Daten. Zum Stand der Entwicklung einer offenen Dateninfrastruktur” stellte er dar, dass schon viel erreicht wurde, aber auch, dass noch viel geschehen muss.

Postiv fiel in Bremen auf, dass immer mehr IT-basierte Projekte dazu tendieren, die Systeme als offene Infrastrukturen zu denken und aufzubauen, wobei immer mehr offene Schnittstellen (z.B. das API der Deutschen Digitalen Bibliothek oder von lobid.org) und sogar Open Source Software (z.B. die neuen Entwicklungen rund um Qucosa an der SLUB Dresden, invenio und auch wieder lobid.org) angeboten werden.

Während am Rande des Bibliothekartags zwei neue OA-Zeitschriften für die Bibliotheks- und Informationswelt gegründet wurden (“Informationspraxis – Die Open Access-Zeitschrift der Fachcommunity aus Bibliothek, Archiv und Informationswesen” ((Webseite der “Informationspraxis”)) und “o-bib. Das offene Bibliotheksjournal / herausgegeben vom VDB” ((o-bib, Pressemitteilung))) wurde in den Sessions zu Open Access deutlich, dass in anderen Bereichen Open Access schon erwachsen wird. Ein Beispiel dafür stellte Dirk Pieper in seinen Ausführungen “Open-Access-Clearing-Stelle an der Universität Bielefeld. Ein Beitrag zur Verstetigung von Publikationsfonds” vor.

Insgesamt hat sich die Reise wieder einmal gelohnt. Wir dürfen gespannt sein, ob das diesjährige Motto bis zum nächsten Treffen der Bibliothekarinnen und Bibliothekare – vom 26. bis 29. Mai 2015 in Nürnberg – wirklich gelebt wird.

“In LOD we trust” – Ein Bericht von der SWIB13

Wie die Zeit vergeht … Ich habe es endlich geschafft, auch meine Eindrücke von der SWIB 13 in Worte zu fassen. Viel Spaß damit!

In diesem Im letzten Jahr feierte die Konferenz “Semantic Web in Bibliotheken” – kurz SWIB – in Hamburg ihren fünften Geburtstag. ((Website; Twitterarchiv))
Ich hatte für mich den Schwerpunkt auf die Bereiche Datenanalyse, Linking und Distribution gelegt, da es für mich jetzt, nach der Zeit der Datenmodellierung, in die Phase der konkreten Datenerzeugung und Veröffentlichung geht.

Vorkonferenz/Workshops:
Schon bei der Anmeldung zur SWIB hatte ich die schwere Entscheidung zu treffen, welchen Workshop ich besuchen soll. Zum einen waren da die beiden Workshops zur Datenanalyse und -aufbereitung mittels Catmandu ((Webseite des LibreCat-Projekts inkl. Backbone Catmandu)) bzw. MetaFacture, deren Verwendung unsere Datenqualität erheblich verbessern könnten. Zum anderen war da der Workshop zum Thema Provanance Metadata, dessen Inhalte für die Publikation und Verwendung von Linked Data relevant sind.
Entschieden habe ich mich letztlich für den Workshop zu “Analysis of Library Metadata with Metafacture” von Christoph Böhme, da die Datenanalyse und -aufbereitung der nächste notwendige Schritt vor der Veröffentlichung der Daten darstellt. Für MetaFacture habe ich mich entschieden, weil das Tool zum einen im Projekt lobid.org des hbz und zum anderen von CultureGraph verwendet wird und beide Projekte bzw. Plattformen für uns als UB Dortmund eine gewisse Relevanz haben.

MetaFacture ist ein Tool zur Analyse und Aufbereitung von Metadaten. Entwickelt wurde das Tool im Rahmen des Projekts “CultureGraph” und setzt auf Einfachheit in der Anwendung. Es besteht dabei aus zwei Komponenten: Flux und Metamorph.
Die Idee des Werkzeugs ist, dass Daten durch sogenannte Pipes geleitet werden, dessen Module für kleine Aufgaben zuständig sind.
Das folgende Beispiel einer Flux-Datei illustriert diese Idee:

"in-file"
|open-file
|decode-pica
|morph("morph.xml")
|encode-json
|write("out-file");

Im Schritt morph wird die eigentliche Arbeit an den Daten definiert. Dazu dient eine XML-Datei, die mittels einfacher Befehle Daten manipulieren kann.

<?xml version="1.0" encoding="UTF-8"?>
 <metamorph xmlns="http://www.culturegraph.org/metamorph"
  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
  version="1" entityMarker=".">	
  <rules>
    <combine name="" value="${ID}, ${Lastname}, ${Firstname}, ${Birthdate}, ${Birthplace}" flushWith="record">
      <data source="_id" name="ID" />
      <data source="Firstname" />
      <data source="Lastname" />
      <data source="Birthdate" />
      <data source="Birthplace" />
    </combine>
  </rules>	
 </metamorph>

MetaFacture liefert schon ein paar Decoder und Encoder mit, sodass beispielsweise MARC-Daten einfach in Triples umgewandelt werden können.

Der Workshop hatte diese Bezeichnung wirklich verdient. Es wurde in kurzen und mit jeder Einheit inhaltlich anspruchsvolleren Abschnitten die Funktionsweise erläutert. Zwischen den Theorieabschnitten war sehr viel Zeit für praktische Übungen. Der Workshop kann daher nur als gelungen bewertet werden.

“Bringing People to Linked Data”
Der erste Tag der Hauptkonferenz startete mit einer ausgezeichneten Keynote von Dorothea Salo ((@LibSkrat, zur Person, Abstract)).
Sie thematisierte in ihrem sehr unterhaltsamen Vortrag “Soylent SemWeb Is People! Bringing People to Linked Data” das Verhältnis zwischen Bibliothekaren und Linked Data insbesondere aus Sicht der Ausbildung. Sie kam dabei zu dem Schluss, dass für die Akzeptanz von Linked Data in Bibliotheken dringend Anwendungen entwickelt werden müssen, um den Bibliothkaren aber auch den Entscheidern das Thema näher zubringen und die Vorteile aufzuzeigen (dies gilt insbesondere für öffentliche und “One-Person”-Bibliotheken ((In öffentlichen, Museums- oder Archiv-Bibliotheken und in OPLs sind häufig sogar MARC und MAB zu “oversized”. Gerade hier kann mit neuen Systemen auf Linked Data-Basis viel erreicht werden. Der Vortrag “The ‘OpenCat’ Prototype: Linking Public Libraries to National Datasets” von Agnès Simon (Bibliothèque nationale de France) stellte auch genau diese Gruppe von Bibliotheken in den Fokus.))). Es ist für Linked Data nicht sonderlich förderlich, wenn hier die gleichen Fehler wie bei der Einführung von XML oder Institutional Repositories gemacht werden. Es wurde in ihrer Keynote nochmals sehr deutlich, dass die Sicht der Anwender der neuen Tools essentiell für den Erfolg der Produkte sind. ((Als Beispiele nannte Salo, dass Institutional Repositories ohne die Wissenschaftler entwickelt und monierte, dass bisher Linked Data ohne die Bibliothekare stattfand, die die Daten letztlich erzeugen müssen bzw. sollten.))
In ihren Ausführungen legte Salo den Fokus bei Linked Data ganz deutlich auf die Generierung neuer Daten und nicht nur auf die Veröffentlichung von Altdaten als Linked Data.
Dorothea Salo hat es mit Ihrer Keynote geschafft, dass das folgende Progeamm der SWIB immer wieder auf dieses Forderung bezug genommen hat, wobei sich deutlich gezeigt hat, dass die geforderte Richtung bereits eingeschlagen wurde.

“From Cataloging to Catalinking”
In seinem Vortrag “Linked Data for Libraries: Great Progress, but What Is the Benefit?” betrachtete Richard Wallis (OCLC) ((@rjw, zur Person, Abstract)) das Bibliotheksnutzerverhalten und stellte fest, dass Linked Data den Bibliotheken hilft, die Nutzerinnen und Nutzer dort zu erreichen, wo sie ihr Bedürfnis nach Informationen (zu) stillen (versuchen). Er stellte unter anderem die Frage, wie nach einem Wikipedia-Artikel gesucht wird. Nicht sonderlich überraschend ist die Antwort:

“Ich geben meinen Suchbegriff in Google ein und ergänze um den Begriff ‘wikipedia’. Der erste Treffer ist dann das Gesuchte.”

Wenn man sich diese Aussage durch den Kopf gehen lässt, stellt man fest, dass die aktuellen Entwicklungen in den Bibliotheken rund um die Discovery Systeme nicht zukunftsweisend sind. Die Discovery Systeme in der heutigen Form sind somit maximal eine alternativlose Brückentechnologie auf dem Weg der Bibliotheken ins Web. Um so wichtiger ist die Aufgabe von Bibliotheken bzw. Bibliothearinnen und Bibliothekaren die releveanten Daten als Linked Open Data für das Semantic Web bereitzustellen, also “From Cataloging to Catalinking”.
Wallis stellte in diesem Zusammenhang die “schema.org”-Initiative ((schema.org)) vor, in der sich mittlerweise ein Untergruppe mit der Darstellung von bibliographischen Informationen beschäftigt. ((W3C Schema Bib Extend Community Group))
Die Frage nach einer möglichen Kollision mit der BIBFRAME-Initiative beantwortete Wallis mit der Feststellung, dass im Linked Data-Kontext verschiedene Modelle miteinander kollaborieren und nicht konkurieren.

Die aktuellen Entwicklungen rund um BIBFRAME wurden in der folgenden Session von Lars G. Svensson vorgestellt. ((Abstract))

“Decentralisation, Distribution, Disintegration”
Mit der Sicht von Richard Wallis auf bibliographische Daten ist klar, dass Linked Data ein dezentralisiertes System ist und somit eher “small data” als “big data”. Auch Martin Malmsten stellte in seinem Beitrag “Decentralisation, Distribution, Disintegration – towards Linked Data as a First Class Citizen in Libraryland” diesen Ansatz in den Vordergrund.

Martin Malmsten @ SWIB13

Martin Malmsten @ SWIB13

“In LOD we trust”
Der Workshop zum Thema Provanance Metadata wurde nun schon zum zweiten Mal bei der SWIB angeboten. Während der SWIB zeigte sich in vielen Bereichen, dass die Ebene der Vertrauenswürdigkeit im “Semantic Web Layer Cake” immer mehr in den Fokus rückt.

Semantic Web Layer Cake (w3c)

Semantic Web Layer Cake (w3c)

Die beiden letztgenannten Beiträge zusammengefasst ergeben somit die Erkenntnis, dass unter der Tatsache “Linked Data = Small Data” die Bereitstellung von “Provenance Metadata” eine notwendige Bedingung für “Trust” in der Linked Open Data Cloud und im Semantic Web ist.

Fazit
Die Konferenz war super 🙂 Die Entwicklung von einer lokalen zu einer internationalen Konferenz zeigt, wie wichtig das Thema “Semantic Web” bzw. “Linked Data” in Bibliotheken ist und das die Bibliothekswelt eine entscheidene Rolle darin spielt.

Um Entscheider und Bibliothekare für das Thema zu begeistern sind dringend konkrete Anwendungen notwendig, die die Vorteile näher bringen und nicht auf RDF-Level agieren. Allerdings handelt es sich hierbei um ein Henne-Ei-Problem: es müssen erst Modelle und Daten erzeugt werden, um erste Anwendungen zeigen zu können; es werden aber nur Ressourcen dazu geschaffen, wenn man zeigen kann, warum Linked Data wichtig und nützlich ist.

Martin Malmsten @ SWIB13

Martin Malmsten @ SWIB13

Es kann den Teilnehmern der Tagung und anderen Kolleginnen und Kollegen nicht hoch genug angerechnet werden, dass sie mit soviel Engagement und ohne große Ressourcen die Vorarbeiten leisten.

Weitere lesenswerte Tagungsberichte: