Wissenschaftliche Prinzipien in den Digital Humanities Teil 3

von NORDfor

Transparenz in den Digital Humanities

Von Sven M. Kraus, Ingrid M. Heiene, Balduin Landolt, Elisabeth Magin

Die vorliegende Reihe von Blogposts ist das Ergebnis eines Workshops »Advancing Digital Humanities in Old Norse Studies« , der vom 03. bis 05. Juli 2019 am Nordeuropa-Institut der Humboldt-Universität zu Berlin stattfand. Organisiert von Sven Kraus wurde der Workshop großzügig gefördert von der derzeitigen Inhaberin der Henrik-Steffens-Gastprofessur, Prof. Dr. Marie-Theres Federhofer.

Anlass des Workshops war das Bedürfnis, sich für das Aufgleisen eigener Projekte mit anderen Forschenden austauschen zu können. An dem Workshop nahmen fünf Nachwuchsforschende (Sven M. Kraus, Ingrid M. Heiene, Balduin Landolt, Elisabeth Magin und Jade J. Sandstedt) mit Projekten aus den Fachbereichen Runologie/Archäologie, diachrone generative Syntaxforschung, korpusbasierte historische Phonologie, stilometrische Handschriftenkunde und mittelalterliche Kulturgeschichte teil. Im Laufe der drei Workshoptage wurden methodologische Probleme innerhalb und außerhalb der eigenen Projekte identifiziert und hierfür Lösungsansätze entwickelt.

Ziel der vorliegenden Blogpostreihe »Digital Humanities« mit ihren fünf Beiträgen zu Fachdisziplinen, Methodenbewusstsein, Transparenz, Nachhaltigkeit und Best practices ist es, diese Lösungsvorschläge zu sammeln und damit best practices für die Arbeit mit digitalen Werkzeugen und Methoden in den Geisteswissenschaften vorzuschlagen. Diese sollen es anderen Wissenschaftler_innen erleichtern, künftige Forschungsprojekte von Anfang an methodisch stringent zu konzipieren.


Wie in den zwei vorgehenden Teilen dieser Blogpostreihe unterstrichen worden ist, ist Ambiguität ein essenzieller Bestandteil geisteswissenschaftlicher Forschung und oft Ausgangspunkt der Fragestellung. Eine Zeichensequenz aus einem Manuskript kann oft auf verschiedene Weisen normalisiert, oder eine Abkürzung in mehrere unterschiedliche Wörter aufgelöst werden. Eine Möglichkeit, mit dieser Ambiguität umzugehen, setzt eine vorhergehende Analyse der konkreten Stelle voraus, mit einer abschließenden Entscheidung, welcher Deutung man sich selbst als Forschende anschließt. Dieser Prozess ist jedoch sehr zeitaufwendig und hat einen weiteren Nachteil, da das fertige Produkt, die Datensammlung, suggerieren kann, die darin enthaltene Auflösung sei die einzig mögliche. Auf diese Art und Weise wird eine Objektivität vorgetäuscht, die so nicht existiert. 

MEHRDEUTIGKEITSVERLUST VERMEIDEN Solches Vorgehen verunmöglicht die Untersuchung von Mehrdeutigkeiten. Dass dies nicht schon lange weitgehend problematisiert worden ist, mag daher rühren, dass systematische Datensammlungen zuerst in den Naturwissenschaften weite Verbreitung fanden, wo die Eindeutigkeit von Daten den Normalfall darstellt. Diese Herangehensweise an Daten und deren Dimensionen ist für die Geisteswissenschaften allerdings nicht immer zielführend und Eindeutigkeit nicht immer überhaupt wünschenswert: Alle unsere Daten sind naturgemäß von einem gewissen Grad an Subjektivität geprägt, der ihnen auch dann zu eigen bleibt, wenn sie in eine Datensammlung eingehen. Dies sehen wir keineswegs als Nachteil, ganz im Gegenteil, solange dies von Beginn an klargestellt wird.

Linguistik, Literaturwissenschaft, Runologie und Archäologie sind Disziplinen, in denen verschiedene mögliche Interpretationen von immenser Bedeutung für die wissenschaftliche Auseinandersetzung mit Artefakten sind, von unterschiedlichen Klassifizierungen gar nicht zu reden. Wir sind der Meinung, dass es daher wissenschaftlich nicht nur vertretbar, sondern sogar notwendig ist, diese unterschiedlichen Interpretationen auch in Datensammlungen abzubilden.

Eine solche Vorgehensweise verlangt selbstverständlich eine andere Art von technischer Umsetzung als die Beschränkung auf eine einzige Interpretation. Noch wichtiger verlangt sie eine klare Vorstellung von der Art der Daten, mit denen man arbeitet. Es muss ein explizites Bewusstsein dafür vorhanden sein, dass alle Daten in der Sammlung Interpretationen sind, was auch dementsprechend dokumentiert werden muss. Dies ist technologisch beispielsweise dadurch machbar, dass in der Datenstruktur selbst Raum nicht nur für konkurrierende Deutungen, sondern auch Literaturangaben reserviert wird. Dieser Vorgang, wie auch der Einbezug von unterschiedlichen Deutungen, entspricht traditioneller geisteswissenschaftlicher Vorgehensweise. Wir sehen keinen Grund, weshalb man dieser Tradition nicht auch in Bezug auf Datensammlungen treu bleiben kann. Eine künstlich verknappte Datensammlung ist nur von beschränktem Mehrwert.

NACHVOLLZIEHBARKEIT Transparenz und Nachvollziehbarkeit von Schlussfolgerungen sind für jede Art von wissenschaftlicher Arbeit zwingend und erforderlich und in allen Disziplinen Standard. Es sollte daher offensichtlich sein, warum Quellenangaben für Primärquellen und verschiedene Interpretationen auch in eine Datensammlung, ob als SQL-Datenbank oder XML-Datei, gehören. Wenn digitale Werkzeuge verwendet werden, muss jedoch zusätzlich auch die Methode der Datensammlung und -strukturierung dokumentiert werden. Für andere Forschende muss klar nachvollziehbar und verständlich sein, wie Datenaufnahme und -modellierung gehandhabt wurden. Weiterhin muss klar definiert sein, welche Art von Daten unter welchen Begriffen zusammengefasst worden ist und wie diese Begriffe definiert worden sind. Ebenso müssen sämtliche Änderungen am Datenmodell dokumentiert werden, vor allem wenn diese tiefgreifenden Veränderungen des bisherigen Modells darstellen, beispielsweise indem Versionsnummern vergeben werden.

Nicht zuletzt sollte auch die Wahl des Werkzeugs auf fachlicher Ebene begründbar sein. Um bei dem in den vorgehenden Posts genannten Beispiel zu bleiben: SQL und XML sind beide als Werkzeuge legitim (für eine Einführung in XML s. »Introduction to XML« in Digital Humanities Workbench: https://www2.fgw.vu.nl/werkbanken/dighum/tools/xml/xml-introduction.php (Stand: 16.08.2021). Für eine Einführung in SQL s. Ramsay, 2004: http://digitalhumanities.org:3030/companion/view?docId=blackwell/9781405103213/9781405103213.xml&chunk.id=ss1-3-3&toc.id=0&brand=9781405103213_brand (Stand: 16.08.2021)). Sie unterscheiden sich aber grundlegend in ihrer Funktionsweise. Die Entscheidung, das eine Werkzeug dem anderen vorzuziehen, sollte nicht auf der Basis getroffen werden, womit man vertrauter ist, sondern welches Werkzeug die entsprechenden Funktionen bietet, um die Forschungsfrage beantworten zu können. So sind beispielsweise für Forschungsfragen, die einen hohen Anteil statistischer Berechnungen erfordern, SQL-Datenbanken weit besser geeignet, während XML sehr viel mehr Freiheiten in Bezug auf Datenstrukturen bietet. Diesbezügliche Überlegungen mit Hinblick auf die Forschungsfrage ebenso offenzulegen wie die Primär- und Sekundärquellen, sollte allgemeiner Standard sein. Nur auf diese Art und Weise kann gewährleistet werden, dass man der Art der Daten und der Forschungsfrage gerecht wird, während die gründliche Dokumentation (in naturwissenschaftlichen Fächern bereits Standard) anderen Forschern sowohl ermöglicht, die Ergebnisse zu reproduzieren, als auch, mit den Daten weitere Forschung zu betreiben. Hierbei sollten Open Source und Open Access der Maßstab sein: Nicht nur die Daten, sondern auch der Code sollten einsehbar sein, da es sich auch dabei um einen Teil der Forschung handelt. 

Die Möglichkeit, Ergebnisse zu reproduzieren (oder Interpretationen über eine Argumentationskette nachzuvollziehen), ist eine der wichtigsten Voraussetzungen für wissenschaftliches Arbeiten, und die Dokumentation von Methode, Vorgehensweise und konkreter Umsetzung auch von technischen Werkzeugen wie Datenbanken ist daher wichtig. Doch für vollständige Transparenz sollten auch die Daten selbst nach Abschluss einer wissenschaftlichen Arbeit zugänglich gemacht werden. Wie dies bewerkstelligt werden kann, wird im nächsten Teil (4) besprochen.

Übersicht Blogbeiträge der Reihe »Wissenschaftliche Prinzipien in den Digital Humanities«

Teil 1: Wissenschaftliche Prinzipien in den Digital Humanities: Digital Humanities und die Fachdisziplinen

Teil 2: Wissenschaftliche Prinzipien in den Digital Humanities: Methodenbewusstsein

Teil 3: Wissenschaftliche Prinzipien in den Digital Humanities: Transparenz in den Digital Humanities

Teil 4: Wissenschaftliche Prinzipien in den Digital Humanities: Nachhaltigkeit in den Digital Humanities

Teil 5: Wissenschaftliche Prinzipien in den Digital Humanities: Best practices

Über die Autor_innen der Blogpostreihe

Elisabeth Maria Magin, PhD war bis 2021 Doktorandin an der University of Nottingham mit Anbindung an der Universität Bergen, wo die Runeninschriften gelagert sind, welche die Grundlage für ihre runologische Datenbank bilden. In ihrer Doktorarbeit hat sie untersucht, wie SQL-basierte Datenbanken dazu genutzt werden können, größere Korpora von Runeninschriften im Hinblick auf die soziale Identität der Runenritzer zu analysieren.

Ingrid M. F. Heiene ist Doktorandin an der NTNU – Technisch-Naturwissenschaftliche Universität Norwegens, und untersucht Entwicklungen in Nominalphrasensyntax, Kasusmorphologie und Bestimmtheitsmorphologie in mittelnorwegischen Diplomen aus einem generativen Standpunkt.

Balduin Landolt studierte in Basel und Reykjavik Skandinavistik und Germanistik, derzeit plant er ein Doktorat zur digitalen Erschließung komplexer handschriftlicher Textüberlieferungen. Daneben arbeitet er als Software Developer beim Data and Service Center for the Humanities (DaSCH) in Basel.

Sven Kraus studierte Skandinavistik und European Studies an der Humboldt-Universität zu Berlin, der Universität Bergen und der Europa-Universität Viadrina Frankfurt (Oder). Seit September 2019 promoviert er in Basel zu Übersetzung und Kulturtransfer im Nordwesteuropa des 13. Jahrhunderts und verbindet dabei philologische Betrachtungsweisen mit experimentellen Ansätzen der Digital Humanities.

Schlagwörter: