Bibliotheca Eugeniana Digital ist ein von der Österreichischen Akademie der Wissenschaften (ÖAW) im Rahmen des go!digital 3.0-Programms gefördertes Kooperationsprojekt zwischen der Österreichischen Nationalbibliothek und der Universität für Weiterbildung Krems.
Die Edition ist ein integraler Bestandteil des umfassenden Projekts Bibliotheca Eugeniana Digital zur digitalen Rekonstruktion und Visualisierung der Privatbibliothek Prinz Eugens von Savoyen. Sie dient als eine der verschiedenen Disseminationsformen des Projekts und ermöglicht die weiterführende Erschließung der Sammlung durch Wissenschaft und Forschung.
Die Editionsplattform konzentriert sich auf die digitale Edition der zentralen Bibliothekskataloge, und bietet wo möglich Verknüpfungen in den modernen Bibliothekskatalog der ÖNB. So können die Werke der Bibliothek Prinz Eugens im heutigen Bestand gefunden werden.
Ziel des Projekts Bibliotheca Eugeniana Digital ist die digitale Rekonstruktion und visuelle Darstellung von Prinz Eugens Büchersammlung (UNESCO „Memory of Austria“), einer der berühmtesten Sammlungen der Barockzeit, die seit 1738 Teil der habsburgischen Hofbibliothek, heute der Österreichischen Nationalbibliothek (ÖNB), ist. Trotz der Größe und Wichtigkeit der Sammlung sind weder ihre exakte Zusammensetzung, noch ihr Umfang, noch die Standorte der gedruckten Bücher in den Sammlungen der ÖNB vollständig analysiert. Da dieses Unterfangen zu umfangreich und komplex für traditionelle Herangehensweisen ist, verwendet Bibliotheca Eugeniana Digital Werkzeuge und Methoden aus den Digitalen Geisteswissenschaften und den Data Sciences für eine systematische digitale Rekonstruktion und visuelle Exploration dieser Bibliothek. Somit soll die Zusammensetzung und Geschichte anhand unterschiedlicher Quellen untersucht werden.
Der Bibliothekskatalog der Bibliothek Prinz Eugens wurde vermutlich von Eugens Bibliothekar Étienne Boyet verfasst. Er befindet sich heute in der Sammlung von Handschriften und alten Drucken der ÖNB in zweifacher Ausführung mit den Signaturengruppen Cod. 14376–14380 und Cod. 13963–13966*.
Cod. 14376 | Cod. 13963 |
Cod. 14377 | Cod. 13964 |
Cod. 14378 | Cod. 13965 |
Cod. 14379 | Cod. 13966 |
Cod. 14380 | Cod. 13966* |
Da der Katalog mit den Signaturen Cod. 14376–14380 mit zusätzlichen Eintragungen versehen ist, die auf eine bibliothekarische Nutzung in Verbindung der Hofbibliothek hinweisen, wurde dieser als Primärquelle für das Projekt gewählt. Seine fünf Bände sind jeweils ca. 500 Seiten lang. Alle Bände setzen sich aus einzelnen Einträgen zu verschiedenen Büchern oder Buchreihen zusammen, wobei die Einträge in den Bänden Cod. 14376–14378 nach Sachgebieten (Wissensklassen) in Anlehnung an übliche Fachsystematiken der Zeit geordnet sind, während die Einträge in Cod. 14379 alphabetisch nach Autorennamen und in Cod. 14380 alphabetisch nach Buchtitel geordnet sind. Inhaltlich doppeln die zwei letztgenannten Bände die Einträge der Bände Cod. 14376–14378, die Titel sind jedoch stark verkürzt und Angaben zum Erscheinungsjahr und Drucker sind oft unvollständig.
Da die übergeordnete Zielsetzung des Projekts die digitale Erschließung und Rekonstruktion der Bibliotheca Eugeniana ist, wurde die Erstellung einer digitalen Edition im Rahmen des Projekts lediglich für die Bände Cod. 14376–14378 geplant. Hierzu wurde der Kataloginhalt maschinell transkribiert und das Ergebnis anschließend überprüft und mit Tags versehen.
Die Bände Cod. 14379 und Cod. 14380 werden nach Möglichkeit in einem weniger aufbereiteten Zustand, jedoch ebenfalls zumindest mit maschinell erstellter HTR, über die Editionsplattform bereitgestellt.
In einem ersten Schritt werden die von der Österreichischen Nationalbibliothek erstellten Digitalisate in Transkribus, einer Software für Handschrifterkennung (eng. Handwritten Text Recognition, oft abgekürzt mit HTR) eingespeist. Auf Basis des von Transkribus zur Verfügung gestellten Modells „Transkribus German handwriting M1“ (Modell-Id 35909) und einigen mit diesem Modell gelesenen und anschließend manuell korrigierten Seiten, die als Groundtruth verwendet wurden, wurde ein eigenes, auf die Haupt-Schreiberhand des Katalogs angepasstes, HTR-Modell trainiert.
Das daraus resultierende Modell („BED_TestModel3“, Id 49656) wurde auf die Bände Cod. 14376–14378 angewendet. Im Anschluss wurden die durch Transkribus maschinell transkribierten Texte noch manuell nachgeprüft und mit erstem Markup versehen (Unterstreichung, Durchstreichung, Ergänzung, Hoch- und Tiefstellung sowie Hinzufügungen anderer Schreiberhände oder mit anderem Schreibmaterial).
Nach Abschluss der manuellen Überprüfung wurden die Daten im TEI-XML-Format aus Transkribus exportiert (eine Datei je Katalogband). Unter Verwendung der Programmiersprache Python (und Jupyter Notebooks) wurden Skripte erstellt, welche eine automatisierte Layoutanalyse und Auszeichnung der folgenden Merkmale ermöglichten:
Seitenzahl. Die Seitenzahl steht rechts oder links oben (je nachdem ob es sich um eine rechte oder linke Seite handelt) und ist entweder eine römische (im Inhaltsverzeichnis) oder arabische (im restlichen Katalog) Ziffer. Für eine automatisierte Zuordnung verwenden wir daher die folgende Charakterisierung einer Textregion: Enthält eine einzelne Zeichenfolge ohne Leerzeichen aus arabischen oder römischen Ziffern (Ausnahmefall: kleingeschriebene lateinische Buchstaben als Zusatz im Inhaltsverzeichnis), x-Koordinate entweder niedriger als 20% oder höher als 80% der Bildbreite, y-Koordinate niedriger als 10% der Bildhöhe.
Formatsangabe. Die Formatsangabe befindet sich unterhalb der Seitenzahl und unterscheidet folgende Formate: Folio, Quarto und Octavo (und alle kleineren Formate, bezeichnet als „min. forma“). Diese werden durch ein kontrolliertes Vokabular ausgedrückt. Dabei können bis zu zwei Formatsangaben am oberen Seitenrand stehen (kombiniert durch „&“). Für die automatisierte Zuordnung einer Textregion sind also folgende Merkmale relevant: Koordinaten ähnlich der Seitenzahl (etwas weiter innen bzw. außen und etwas weiter unten) sowie einstellige Zahl an Wörtern aus folgender Liste: in, folio, quarto, octavo, Octavo, &, min., forma, formâ. Es ist jedoch zu beachten, dass in einem Eintrag zusätzlich eine Formatangabe stehen kann, welche Vorrang hat gegenüber der Angabe pro Seite.
Wissensklasse. In der ersten Zeile auf jeder Seite (bis auf Inhaltsverzeichnis) wird zentriert die Wissensklasse ausgegeben. Da das Inhaltsverzeichnis manuell erfasst wurde, sind die Wissensklassen allesamt bekannt:
Unterkategorie der Wissensklasse. Die zweite Zeile auf jeder Seite enthält je Wissensklasse eine Unterkategorie, welche ebenso manuell erfasst wurde. Wir verweisen auf die Unterseite Inhaltsverzeichnis des hs. Katalogs für eine Auflistung, da diese sehr umfangreich ist. Ebenso wie für die Wissensklasse verwenden wir die ungefähre Position der Unterkategorie und das kontrollierte Vokabular für die automatisierte Zuordnung.
Katalogeinträge. Nachdem die zuvor genannten Merkmale automatisiert bestimmt wurden, sollen die übrigen (bisher ohne Merkmal ausgezeichneten) Zeilen/Textregionen zu Einheiten zusammengeschlossen werden, die den Buchbänden entsprechen. Dies soll ermöglicht werden durch zum einen den Einzug der jeweils zweiten Zeile pro Eintrag und zum anderen durch den größeren Zeilenabstand der ersten Zeile eines Eintrags zum darüberliegenden. Für die automatisierte Zuordnung von Zeilen zu einem Eintrag gehen wir daher wie folgt vor. Zunächst wird eine Zeile als neuer Eintrag identifiziert, wenn sie keine andere Auszeichnung aus den zuvor genannten Kategorien hat, ausreichend nah am linken Bildrand ist und ausreichend Abstand zur vorherigen Zeile hat. Die darauf folgenden Zeilen sind dann diesem Eintrag hinzuzufügen, wenn sie genug Einzug aufweisen und keinen zu großen Abstand zur vorherigen Zeile haben. Textzeilen, die aus diesem Schema fallen (wie etwa Randnotizen) sollen nicht extra ausgezeichnet werden. Für die korrekte Lesereihenfolge ist zunächst eine Sortierung der Textregionen zuerst nach x- und danach nach y-Koordinate nötig. Um Zeilen mit und ohne Einzug zu unterscheiden wurde eine statistische Analyse je Seite durchgeführt. Die Details des gesamten Prozesses können im entsprechenden Notebook XML_Aufbereitung.ipynb nachgelesen werden.
Erschließung der Einträge. In Zukunft sollen in einer weiteren Ausbaustufe der digitalen Edition die Einträge inhaltlich erschlossen werden, sodass die Felder Titel, Autor, Veröffentlichungsjahr, Ort, Drucker einzeln ausgezeichnet und durchsuchbar werden.
Für die Weiterbearbeitung der Daten wird in diesem Projekt Visual Studio Code (VSC) verwendet.
Die XML-Daten der Katalogbände werden nach dem Export aus Transkribus für das Editionsteam im GitLab der ÖNB Labs verwaltet. Durch die Versionierung mit git ist eine kollaborative Verarbeitung möglich. Einzelne Versionsschritte der edierten Dateien in TEI-XML werden durch die Versionsverwaltung ebenfalls dokumentiert.
Eine wichtige Grundlage für die Veröffentlichung des handschriftlichen Katalogs der Bibliotheca Eugeniana sind die Forschungen der ÖNB im digitalen Bereich und die Entwicklung der nachhaltigen Infrastruktur für digitale Editionen an der ÖNB (ÖNB-DE). Sie stellt Projekten eine Veröffentlichungsplattform und ein modulares Design zum Aufbau der Editionswebsites zur Verfügung. (Mehr dazu siehe: Technische Dokumentation.) Der Prototyp der Editionsplattform wurde mit dem von Bernhard Fetz und Roland Innerhofer geleiteten, digitalen Editionsprojekt „Andreas Okopenko: Tagebücher“ entwickelt.
Im Rahmen des Projektes wurden neben der Edition noch verschiedene weitere Outputs erzeugt, die für die Öffentlichkeit und Forschung frei zur Verfügung stehen. Neben der Projektwebsite mit allgemeinen Details zum Projekt ermöglicht eine Visualisierung des Mittelovals des Prunksaals einen explorativen Einstieg in die Bibliotheca Eugeniana.
Genauere Informationen zum Projektverlauf und -entscheidungen, sowie große Teile des Codes in Jupyter-Notebooks befinden sich im BED GitLab Repository.