Editionsrichtlinien

Transkription

Automatische Transkriptions-Vorarbeit

Die Transkription der Kataloge wurde mit Transkribus erzeugt und dann manuell nachkorrigiert. Genauere Informationen hierzu finden sich unter Projektinformation.

Buchstaben und Worte

Alle Worte werden unabhängig von ihrer Richtigkeit so transkribiert, wie sie notiert sind. Es werden keine redaktionellen Korrekturen oder Varianten vorgenommen. Die ursprüngliche Schreibweise wurde hierbei beibehalten, sodass beispielsweise als "v" geschriebene "u" auch so transkribiert wurden. Auch die Interpunktion wird wie im Original übernommen.

Groß- und Kleinschreibung

Groß- und Kleinbuchstaben wurden manuell nachkorrigiert, wenn die Transkriptionssoftware offensichtlicherweise einen Fehler gemacht hat. Im Fall von ambivalenter Schreibung wurde die ursprüngliche Transkription beibehalten

Abbreviationen und Ligaturen

Abbreviationen und Ligaturen werden weder ausgeschrieben noch Auflösungen bereitgestellt. Sie sind teilweise mit "." abgekürzt, auch inmitten des Wortes.

Sonderzeichen wie zB. für "æ" (Ligatur) sind aus der Transkribus-Tastatur "Latin-1 Supp" entnommen (?).

Sonderzeichen

Die im Faksimile vorkommenden Zeichen werden wie folgt dargestellt:

  • In der Vorlage vorhandene "&" werden als solche Transkribiert
  • Ein Bindestrich am Ende einer Zeile wird durch "¬" dargestellt
  • Notierte Silbentrennung wird durch "=" dargestellt
  • Markierungen wie x oder ⚹ (Stern) vor einer Zeile oder am Zeilenende sind möglichst genau (inkl. Hoch- bzw. Tiefstellung) abgebildet. Rötelstriche (bei fast jedem Eintrag) sind nicht abgebildet
  • Bei der Eintrags-Nummerierung haben Einser teils einen Punkt. Sie werden trotzdem als 1501 und nicht als i50i übertragen.

Direkte Transkription und Lesefassung

Während die Transkription die Zeilenumbrüche gemäß den Zeilenumbrüchen im Faksimile setzt, sind in der Lesefassung ganze Einträge zusammengezogen, um den Lesefluss nicht zu stören. Einzelne Zeichen, die angebracht wurden, um eine Fortführung einer Einheit zu markieren, wurden in letzterem ebenfalls bereinigt.

Abgesehen von den beschriebenen Änderungen konnten im Projektzeitraum keine weiteren (manuellen) Anpassungen wie etwa Ligaturauflösungen oder Wortkorrekturen vorgenommen werden.

Auszeichnungen/Tags

In verschiedenen Stadien der Editionserstellung wurden Tags vergeben. Eine Mehrfachmarkierung (zB. bei einer Unterstreichung, die gleichzeitig eine Hinzufügung ist) ist hierbei möglich.

Strukturelle Tags

Außerhalb von Transkribus wurden Tags zur Strukturierung der Seite vergeben:

  • Seitenzahl - Originale in der Handschrift enthaltene Zählung
  • Formatsangabe - Format laut Original
  • Wissensklasse - Übergeordnete Ordnung, in die sich die erfassten Bücher einordnen lassen
  • Unterkategorie der Wissensklasse - Feinere Einordnung der erfassten Bücher
  • Katalogeintrag - Einzelner Eintrag durch Layoutanalyse ermittelt, falls möglich auch mit Verweis auf einen Eintrag im modernen Bibliothekskatalog

Schreiberhände und Schreibmaterialien

Auch wenn eine genaue Auswertung bestimmter Schreiberhände den Projektrahmen überschritten hätte, wurden einige Vorarbeiten getroffen, die Forschungen dahingehend erleichtern sollen. So wurden unterschiedliche Schreibmaterialien (Rötel und Bleistift), sowie von der Hauptschreiberhand abweichende Hände als solche markiert. Nähere Informationen hierzu finden sich unter . Die vergebenen Tags (Mehrfachtaggung möglich) sind:

  • Rötel - Text, der mit Rötelstift geschrieben oder unterstrichen ist
  • Bleistift - Text, der mit Bleistift geschrieben oder unterstrichen ist
  • Hinzufügung - Text, der von einer anderen Schreiberhand eingetragen wurde
Wichtig ist zu beachten, dass hier lediglich textuelle Passagen erfasst wurden. Insbesondere Rötelstift-Markierungen vor Einträgen sind sehr häufig und konnten nicht mit aufgenommen werden.

Korrekturen und Unklarheiten

Korrekturen und Durchstreichungen seitens der Katalogschreiber, sowie Unklarheiten im Transkriptionsprozess wurden innerhalb von Transkribus mit Tags versehen:

  • Korrektur - Ausbesserungen seitens der im Katalog befindlichen Schreiberhände
  • Durchstreichung - Streichung seitens der im Katalog befindlichen Schreiberhände
  • "Unclear" - Markierung, dass ein Textelement im Transkriptionsprozess nicht mit Sicherheit transkribiert werden konnte

Textstil-Elemente

Einige von den Schreibern unternommene Textstil-Elemente wurden manuell in Transkribus hinzugefügt:

  • Superscript - Hochgestellter Text
  • Unterstreichung - Durch Schreiber oder als Hinzufügung durch Unterstreichung hervorgehobener Text

Verbindungen zum modernen Katalog

Auf Basis der Layoutanalyse (siehe Projektinformation, Abschnitt "Aufarbeitung des aus Transkribus exportierten TEI-XML") der einzelnen Seiten in Untereinheiten (Einträge) konnten Verbindungen zum modernen Katalog hergestellt werden. Dazu wurde ein Algorithmus entwickelt, der mittels Zeichenkettenähnlichkeit (String Matching) mögliche Verbindungen zum modernen Katalog vorschlägt. Diese Vorschläge wurden dann vom Editionsteam evaluiert und entweder als "sicher" oder "unsicher" bewertet beziehungsweise komplett abgelehnt. Im Folgenden wird die Vorgehensweise genauer erläutert.

Kombinieren der Metadaten

Tatsächlich wurde in der ersten Ausbaustufe ausgehend von den BE-Signaturen (die Signaturengruppe im Prunksaal der ÖNB, die traditionell mit der Bibliothek Prinz Eugens assoziiert wird) versucht eine Verbindung zu den einzelnen Einträgen im handschriftlichen Katalog herzustellen. Ursprünglich war geplant, auch in der umgekehrten Richtung Verbindungen herzustellen, was allerdings aus Zeitgründen dann nicht stattfinden konnte.

Für das Matching wurden die folgenden Felder (falls vorhanden) eines Katalogisates aus Alma (dem Bibliothekssystem der ÖNB) abgerufen und in der angegebenen Reihenfolge kombiniert:

  • Autor
  • Mitwirkender
  • Titel
  • Veröffentlichungsort
  • Veröffentlichungsdatum
Die Aneinanderreihung dieser Angaben entspricht so den Einträgen im handschriftlichen Katalog, die zumeist auf die selbe Weise aufgebaut sind.

Vergleich mittels Fuzzy-Matching

Die im vorigen Schritt erzeugten Zeichenketten konnten dann mithilfe der Python-Programmbibliothek thefuzz und unscharfem Matching (sog. Fuzzy-Matching) den Einträgen im handschriftlichen Katalog zugeordnet werden. Hierzu wurden je Katalogisat mit BE-Signatur fünf Vorschläge generiert, die in absteigender Ähnlichkeit sortiert waren. Mehr Details dazu können dem Jupyter-Notebook String_matching.ipynb im GitLab des Projekts entnommen werden.

Manuelle Kontrolle

Im Anschluss wurden schließlich alle Vorschläge manuell vom Editionsteam geprüft und die Verbindung den folgenden Kategorien zugeordnet:

  • sicher: Die Übereinstimmung zwischen handschriftlichem und modernem Katalog wurde als sicher beurteilt und so ist eine Identifikation auf Werksebene möglich.
  • unsicher: Die Übereinstimmung wurde als unsicher beurteilt, wenn es sich etwa um eine andere Ausgabe/Druck eines Werkes handelt, aber sonst eine gute Übereinstimmung gegeben ist.
  • abgelehnt/manuelle Suche: Falls keiner der fünf Vorschläge einen eindeutigen Zusammenhang aufweist, wurden diese abgelehnt und mittels einer manuellen Suche versucht, einen entsprechenden Eintrag zu finden. Aufgrund der mehrsprachigen Natur des Katalogs und der Werke in der Bibliothek, sowie der möglicherweise in einer anderen Sprache geschriebenen Beschreibung im handschriftlichen Kathalog gestaltete sich dieser Schritt als sehr zeitaufwändig.
Die Ergebnisse dieser Zuordnung wurden in die Datenbasis des Projekts integriert und auch in die TEI-XML-Dokumente, die auf dieser Seite einsehbar sind, eingespielt. So finden sich rechts in der Spalte neben den Einträgen jeweils die Verbindungen in den modernen Katalog, falls eine Zuordnung möglich war.

Reduzierter Status der digitalen Edition

Aufgrund des großen Seitenumfangs von etwa 1.500 Seiten für die drei ausgewählten Katalogbände wurde der Erschließungsgrad je Seite reduziert auf die oben beschriebenen Merkmale. Hier können zukünftige Editionsprojekte ansetzen, um je Eintrag beispielsweise folgende Auszeichnungen vorzunehmen:

  • Autor
  • Titel
  • Anzahl Bände
  • Formatsangabe (falls abweichend von der Seitenangabe)
  • Veröffentlichungsort
  • Veröffentlichungsjahr
  • Drucker/Verleger
Für die Einträge, bei denen eine Verbindung zum modernen Katalog hergestellt werden konnte (mittels String Matching, siehe oben), sind diese Informationen ebenfalls vorhanden. Die genaue Zuordnung zur Textstelle fehlt allerdings noch.


Zitiervorschlag
Mayer, Simon und Tartler, Annerose: Editionsrichtlinien. In: Eugeniana Digital. Digitale Edition des handschriftlichen Katalogs der Bibliothek Prinz Eugens. Hg. von Simon Mayer, Christoph Steindl und Annerose Tartler. Österreichische Nationalbibliothek, Wien: Release 11.11.2024. URL: https://edition.onb.ac.at/fedora/objects/o:bed.red-editionguidelines/methods/sdef:TEI/get. Online abgerufen: 09.12.2024.