Wissenschaftliche Prinzipien in den Digital Humanities Teil 4

von NORDfor

Nachhaltigkeit in den Digital Humanities

Von Sven M. Kraus, Ingrid M. Heiene, Balduin Landolt, Elisabeth Magin

Die vorliegende Reihe von Blogposts ist das Ergebnis eines Workshops »Advancing Digital Humanities in Old Norse Studies«, der vom 03. bis 05. Juli 2019 am Nordeuropa-Institut der Humboldt-Universität zu Berlin stattfand. Organisiert von Sven Kraus wurde der Workshop großzügig gefördert von der derzeitigen Inhaberin der Henrik-Steffens-Gastprofessur, Prof. Dr. Marie-Theres Federhofer.

Anlass des Workshops war das Bedürfnis, sich für das Aufgleisen eigener Projekte mit anderen Forschenden austauschen zu können. An dem Workshop nahmen fünf Nachwuchsforschende (Sven M. Kraus, Ingrid M. Heiene, Balduin Landolt, Elisabeth Magin und Jade J. Sandstedt) mit Projekten aus den Fachbereichen Runologie/Archäologie, diachrone generative Syntaxforschung, korpusbasierte historische Phonologie, stilometrische Handschriftenkunde und mittelalterliche Kulturgeschichte teil. Im Laufe der drei Workshoptage wurden methodologische Probleme innerhalb und außerhalb der eigenen Projekte identifiziert und hierfür Lösungsansätze entwickelt.

Ziel der vorliegenden Blogpostreihe »Digital Humanities« mit ihren fünf Beiträgen zu Fachdisziplinen, Methodenbewusstsein, Transparenz, Nachhaltigkeit und Best practices ist es, diese Lösungsvorschläge zu sammeln und damit best practices für die Arbeit mit digitalen Werkzeugen und Methoden in den Geisteswissenschaften vorzuschlagen. Diese sollen es anderen Wissenschaftler_innen erleichtern, künftige Forschungsprojekte von Anfang an methodisch stringent zu konzipieren.


Wir fordern einen kritisch-reflektierenden Umgang mit den Werkzeugen und Methoden der Digital Humanities, denn auch für diese gelten die Grundsätze der Wissenschaftlichkeit. Daher haben wir zwölf Prinzipien zusammengestellt, die unserer Meinung nach die Wahrung wissenschaftlicher Grundsätze in den Digital Humanities sicherstellen und eine angemessen kritische Auseinandersetzung ermöglichen. Diese verstehen wir nicht als vollständiges Kompendium, sondern vielmehr als Vorschlag und Debattenbeitrag in der derzeit stattfindenden Etablierung der Digital Humanities in den bestehenden Fachkulturen. In den Posts dieser Reihe (verlinkte Titel für die Teile 1,3, 4 5. Einfügen) sind diese Prinzipien inklusive Begründung aufgeführt. In knapp zusammengefasster Form sind sie noch einmal unter »Best practices « zu finden.

Nachvollziehbarkeit von Schlussfolgerungen und Reproduzierbarkeit von Resultaten ist in allen Wissenschaften grundlegend. Um die Reproduzierbarkeit einer Studie zu ermöglichen, ist es notwendig, die Forschungsdaten zugänglich zu machen. Dies wirft die Frage auf, wie, wo und in welcher Form die Daten sinnvollerweise publiziert werden. Entscheidend ist, dass dies von Anfang an nachhaltig angelegt ist, im Sinne der sustainability wie auch der reusability. Langfristige Verwendbarkeit der Daten muss hierbei die Prämisse sein. Allerdings reicht für eine nachhaltige Anlage von Daten die reine Speicherung nicht aus, sie müssen auch weiterhin abrufbar und interpretierbar sein. Die Daten im Hintergrund nützen wenig, solange keine Schnittstelle existiert, über die sie verfügbar sind.

SPEICHERUNG UND REUSABILITY VON ANFANG AN MITDENKEN In erster Linie ist es zentral, während der Laufzeit des Projektes selbst Zugriff auf und Kontrolle über die Daten zu haben. Die Langzeitarchivierung und der Fortbestand der Daten können aber besser garantiert werden, wenn der Unterhalt in institutioneller Hand ist. Hier können etwa Universitätsbibliotheken oder universitäre Datenzentren entsprechende Infrastruktur bieten. Bei öffentlich finanzierten Projekten ist open data inzwischen meist ohnehin eine Auflage, ebenso wie das Entwerfen eines Datenmanagementplans vor Projektbeginn. Dies sollte als Chance verstanden werden, von Anfang an über die in den beiden vorhergehenden Blogposts (Methodenbewusstsein, Transparenz) besprochenen Anforderungen wie auch den Weiterbestand der Daten nach Projektende nachzudenken, da beides oft Hand in Hand geht. Ein einmal gewähltes Datenmodell umzustrukturieren, um es besser für andere zugänglich zu machen, ist oft sehr arbeitsintensiv und kaum praktikabel. 

Die Struktur und Form der Daten muss natürlich in erster Linie dem eigenen Projekt entsprechend sinnvoll sein. Im Sinne der Wiederverwertbarkeit der Daten sollte aber angestrebt werden, sich an gängigen Standards zu orientieren und ein möglichst flexibles Datensystem zu wählen. Dieses sollte es idealerweise ermöglichen, nicht nur die eigene Forschungsfrage zu beantworten, sondern auch für andere Fragestellungen nutzbar sein. Eingehende Dokumentation ermöglicht anderen Forschenden eine fundierte Entscheidung, ob Daten und Datenstruktur für ihre Forschung verwertbar sind, dies schließt Metadaten mit ein; für Interoperabilität mit anderen Systemen ist sie unumgänglich.

STANDARDS FÜR ZITIERBARKEIT Wenn die Datensammlung nach der Veröffentlichung noch Veränderungen unterliegt, muss auf jeden Fall eine Form der Versionierung implementiert werden, einerseits zur Qualitätssicherung, andererseits um die Referenzierung und Zitation auch älterer Versionen zu ermöglichen. Die verschiedenen Versionen des Datensatzes, idealerweise sogar die Versionen jedes Datenpunktes, müssen über PIDs (Persistent Identifiers) eindeutig referenzierbar sein. Deshalb sollte bei der Organisation und Ablage von Daten so weit wie möglich auf etablierte Strukturen zurückgegriffen werden: Hier wäre etwa an Zusammenschlüsse wie DARIAH oder RDA ebenso zu denken wie an das Forschungsdatenmanagement der eigenen Hochschule. Um solche Infrastrukturen nicht neu aufbauen zu müssen, lohnt sich der Rückgriff auf etablierte Systeme; so können Daten beispielsweise in einem öffentlichen Git-Repositorium – z.B. auf GitHub – einfach geteilt, versioniert und referenziert werden.

VERWALTUNG Handelt es sich bei den Daten hingegen etwa um ein Korpus, das auch nach Abschluss des eigenen Projekts – etwa von anderen Forschenden oder Institutionen – weiter angereichert werden soll, muss geklärt werden, wer die Daten weiter verwaltet und kuratiert. Anderen Forschenden direkten Schreibzugriff zu gewähren, kann aus Qualitätssicherungsgründen problematisch sein, da nicht garantiert werden kann, dass diese mit der Struktur und Aufbereitung der Daten ausreichend vertraut sind. Die Daten selbst zu kuratieren kann eine langfristige Verpflichtung darstellen und viel Arbeitsaufwand zur Folge haben. Bei institutioneller Anbindung ist fraglich, ob die Institution die Kompetenzen und Ressourcen hat, die Daten zu kuratieren. Auch hier sollte jedoch die Zusammenarbeit mit den Institutionen im Vordergrund stehen, um eine bessere Sichtbarkeit der Forschungsdaten zu gewährleisten. Dies beinhaltet auch, nicht frei zur Verfügung stehende Daten an geeigneter Stelle bekannt zu machen.

LESBARKEIT Ferner ist eine plattform- und softwareunabhängige Form und Präsentation der Daten anzustreben. Idealerweise bietet ein System eine menschenlesbare Web-Oberfläche, einen Export in standardisierten Datenformaten (z.B. TEI XML, csv, txt) und eine API (Application Programming Interface)für direkten programmatischen Zugriff auf die Daten.

Die nachhaltigste Möglichkeit, eine langfristige Verfügbarkeit von Projektdaten inklusive des Codes sicherzustellen, ist, diese von vornherein unter einer Open-Source-Lizenz, wie bswp. Creative Commons, zu veröffentlichen. Dadurch wird die Funktionsweise nachvollziehbar und eine Weiterentwicklung durch Dritte möglich. Eine solche kontinuierliche Nutzung, Adaption und Weiterentwicklung ist der beste Garant für eine langfristige Nutzbarkeit und Verfügbarkeit und sollte daher unbedingt angestrebt werden.

PROBLEME UND MÖGLICHKEITEN GROSSER KORPORA Ein Trend, der in den Digital Humanities zu beobachten ist und dem auch wir uns nicht entziehen können, ist das Streben nach immer größeren Datensätzen. Häufig werden Fragestellungen so konzipiert, dass sie nur mittels enormer Datensätze zu beantworten sind. Hierin verbergen sich zwei Herausforderungen. Zum einen ist es sehr zeit- und arbeitsaufwändig, qualitativ hochwertige Forschungsdaten zu erzeugen. Zum anderen entstehen so immer wieder Korpora, die angelegt wurden, um ein ganzes Feld abzubilden, jedoch uneinheitliche Nomenklaturen verwenden, auch wenn sie sich zum Teil an dieselben Standards halten.

Was bisher fehlt, ist ein eindeutiger Standard für Nomenklaturen, welcher universell anwendbar und verständlich ist. Man denke hierbei an die Werkverzeichnisse, wie sie aus den Musikwissenschaften bekannt sind. Hier wurde ein eindeutiger Standard geschaffen, der umfassend verbreitet ist. Ein ähnlicher Standard, der eine eindeutige Identifikation einzelner Artefakte und Referenzen darauf ermöglicht, fehlt derzeit nicht nur für die Projekte der beteiligten Autor_innen, sondern unserer Meinung nach auch in weiten Teilen der jeweiligen Forschungsfelder.

Hierbei kommt den universitären Institutionen, bspw. den Universitätsbibliotheken, eine tragende Rolle zu. Solche Institutionen verfügen über die Expertise und Infrastruktur, Standards mit zu entwickeln und zu verwalten. Es sollte unserer Meinung nach insbesondere die Zusammenarbeit zwischen einzelnen Fachmilieus, Projekten und den Universitätsbibliotheken intensiviert werden, um sicherzustellen, dass Projektdaten der Geisteswissenschaften langfristig verfügbar bleiben. Im Laufe dieses Prozesses hätten die Bibliotheken die Möglichkeit, auf die Ausformung der Forschungsdaten in der Gestalt einzuwirken, dass eine möglichst universell verwendbare Nomenklatur eingehalten wird.

Einige Bibliotheken und Universitäten haben hier bereits Strukturen etabliert, andere müssen sie erst noch aufbauen. Wir jedenfalls sind der Meinung, dass es maßgeblich von der Zusammenarbeit mit den Bibliotheken in Fragen der Standardisierung und Langzeitverfügbarkeit abhängt, ob das Experiment Digital Humanities zukunftsfähig ist.

Übersicht Blogbeiträge der Reihe »Wissenschaftliche Prinzipien in den Digital Humanities«

Teil 1: Wissenschaftliche Prinzipien in den Digital Humanities: Digital Humanities und die Fachdisziplinen

Teil 2: Wissenschaftliche Prinzipien in den Digital Humanities: Methodenbewusstsein

Teil 3: Wissenschaftliche Prinzipien in den Digital Humanities: Transparenz in den Digital Humanities

Teil 4: Wissenschaftliche Prinzipien in den Digital Humanities: Nachhaltigkeit in den Digital Humanities

Teil 5: Wissenschaftliche Prinzipien in den Digital Humanities: Best practices

Über die Autor_innen der Blogpostreihe

Elisabeth Maria Magin, PhD war bis 2021 Doktorandin an der University of Nottingham mit Anbindung an der Universität Bergen, wo die Runeninschriften gelagert sind, welche die Grundlage für ihre runologische Datenbank bilden. In ihrer Doktorarbeit hat sie untersucht, wie SQL-basierte Datenbanken dazu genutzt werden können, größere Korpora von Runeninschriften im Hinblick auf die soziale Identität der Runenritzer zu analysieren.

Ingrid M. F. Heiene ist Doktorandin an der NTNU – Technisch-Naturwissenschaftliche Universität Norwegens, und untersucht Entwicklungen in Nominalphrasensyntax, Kasusmorphologie und Bestimmtheitsmorphologie in mittelnorwegischen Diplomen aus einem generativen Standpunkt.

Balduin Landolt studierte in Basel und Reykjavik Skandinavistik und Germanistik, derzeit plant er ein Doktorat zur digitalen Erschließung komplexer handschriftlicher Textüberlieferungen. Daneben arbeitet er als Software Developer beim Data and Service Center for the Humanities (DaSCH) in Basel.

Sven Kraus studierte Skandinavistik und European Studies an der Humboldt-Universität zu Berlin, der Universität Bergen und der Europa-Universität Viadrina Frankfurt (Oder). Seit September 2019 promoviert er in Basel zu Übersetzung und Kulturtransfer im Nordwesteuropa des 13. Jahrhunderts und verbindet dabei philologische Betrachtungsweisen mit experimentellen Ansätzen der Digital Humanities.

Schlagwörter: