Die Transkription der Kataloge wurde mit Transkribus erzeugt und dann manuell nachkorrigiert. Genauere Informationen hierzu finden sich unter Projektinformation.
Alle Worte werden unabhängig von ihrer Richtigkeit so transkribiert, wie sie notiert sind. Es werden keine redaktionellen Korrekturen oder Varianten vorgenommen. Die ursprüngliche Schreibweise wurde hierbei beibehalten, sodass beispielsweise als "v" geschriebene "u" auch so transkribiert wurden. Auch die Interpunktion wird wie im Original übernommen.
Groß- und Kleinbuchstaben wurden manuell nachkorrigiert, wenn die Transkriptionssoftware offensichtlicherweise einen Fehler gemacht hat. Im Fall von ambivalenter Schreibung wurde die ursprüngliche Transkription beibehalten
Abbreviationen und Ligaturen werden weder ausgeschrieben noch Auflösungen bereitgestellt. Sie sind teilweise mit "." abgekürzt, auch inmitten des Wortes.
Sonderzeichen wie zB. für "æ" (Ligatur) sind aus der Transkribus-Tastatur "Latin-1 Supp" entnommen (?).
Die im Faksimile vorkommenden Zeichen werden wie folgt dargestellt:
Während die Transkription die Zeilenumbrüche gemäß den Zeilenumbrüchen im Faksimile setzt, sind in der Lesefassung ganze Einträge zusammengezogen, um den Lesefluss nicht zu stören. Einzelne Zeichen, die angebracht wurden, um eine Fortführung einer Einheit zu markieren, wurden in letzterem ebenfalls bereinigt.
Abgesehen von den beschriebenen Änderungen konnten im Projektzeitraum keine weiteren (manuellen) Anpassungen wie etwa Ligaturauflösungen oder Wortkorrekturen vorgenommen werden.
In verschiedenen Stadien der Editionserstellung wurden Tags vergeben. Eine Mehrfachmarkierung (zB. bei einer Unterstreichung, die gleichzeitig eine Hinzufügung ist) ist hierbei möglich.
Außerhalb von Transkribus wurden Tags zur Strukturierung der Seite vergeben:
Auch wenn eine genaue Auswertung bestimmter Schreiberhände den Projektrahmen überschritten hätte, wurden einige Vorarbeiten getroffen, die Forschungen dahingehend erleichtern sollen. So wurden unterschiedliche Schreibmaterialien (Rötel und Bleistift), sowie von der Hauptschreiberhand abweichende Hände als solche markiert. Nähere Informationen hierzu finden sich unter . Die vergebenen Tags (Mehrfachtaggung möglich) sind:
Korrekturen und Durchstreichungen seitens der Katalogschreiber, sowie Unklarheiten im Transkriptionsprozess wurden innerhalb von Transkribus mit Tags versehen:
Einige von den Schreibern unternommene Textstil-Elemente wurden manuell in Transkribus hinzugefügt:
Auf Basis der Layoutanalyse (siehe Projektinformation, Abschnitt "Aufarbeitung des aus Transkribus exportierten TEI-XML") der einzelnen Seiten in Untereinheiten (Einträge) konnten Verbindungen zum modernen Katalog hergestellt werden. Dazu wurde ein Algorithmus entwickelt, der mittels Zeichenkettenähnlichkeit (String Matching) mögliche Verbindungen zum modernen Katalog vorschlägt. Diese Vorschläge wurden dann vom Editionsteam evaluiert und entweder als "sicher" oder "unsicher" bewertet beziehungsweise komplett abgelehnt. Im Folgenden wird die Vorgehensweise genauer erläutert.
Tatsächlich wurde in der ersten Ausbaustufe ausgehend von den BE-Signaturen (die Signaturengruppe im Prunksaal der ÖNB, die traditionell mit der Bibliothek Prinz Eugens assoziiert wird) versucht eine Verbindung zu den einzelnen Einträgen im handschriftlichen Katalog herzustellen. Ursprünglich war geplant, auch in der umgekehrten Richtung Verbindungen herzustellen, was allerdings aus Zeitgründen dann nicht stattfinden konnte.
Für das Matching wurden die folgenden Felder (falls vorhanden) eines Katalogisates aus Alma (dem Bibliothekssystem der ÖNB) abgerufen und in der angegebenen Reihenfolge kombiniert:
Die im vorigen Schritt erzeugten Zeichenketten konnten dann mithilfe der Python-Programmbibliothek thefuzz und unscharfem Matching (sog. Fuzzy-Matching) den Einträgen im handschriftlichen Katalog zugeordnet werden. Hierzu wurden je Katalogisat mit BE-Signatur fünf Vorschläge generiert, die in absteigender Ähnlichkeit sortiert waren. Mehr Details dazu können dem Jupyter-Notebook String_matching.ipynb im GitLab des Projekts entnommen werden.
Im Anschluss wurden schließlich alle Vorschläge manuell vom Editionsteam geprüft und die Verbindung den folgenden Kategorien zugeordnet:
Aufgrund des großen Seitenumfangs von etwa 1.500 Seiten für die drei ausgewählten Katalogbände wurde der Erschließungsgrad je Seite reduziert auf die oben beschriebenen Merkmale. Hier können zukünftige Editionsprojekte ansetzen, um je Eintrag beispielsweise folgende Auszeichnungen vorzunehmen: