Künstliche Intelligenz und neuronale Netze als Tor zur Vergangenheit – Die Verwendung von Transkribus im Hochschularchiv

Die KI-Forschung hat in den letzten zehn Jahren gewaltige Sprünge gemacht. Die Fortschritte in der Bilderkennung (schon mal von AI Art gehört?) und dem Natural Language Processing (man vergleiche Übersetzungsdienste wie deepL mit dem Google Übersetzer von vor 10 Jahren) haben dazu geführt, dass verschiedenste Forschungsgruppen aus Europa Systeme entwickelt haben, welche zuverlässige maschinelle Texterkennung von Handschriften ermöglichen. Was bisher mit OCR (optical character recognition) vor allem mit gleichmässiger gedruckter Schrift möglich war, ist nun zusehends auch für die obskursten Handschriften aus Quellenbeständen egal welchen Alters und welcher Provenienz möglich.

Transkribus ist eine durch die europäische Genossenschaft READ-COOP betriebene Plattform zur maschinellen Texterkennung, welche durch Training und Anwendung von Erkennungs- und Layoutmodellen den Zugang zu den in Gedächtnisinstitutionen auf aller Welt schlummernden Korpora handschriftlicher Quellen öffnet. Auf Transkribus wurden Stand November 2022 bereits über 31 Millionen Seiten an Quellenmaterial bearbeitet. Es existieren 90 öffentliche Transkriptionsmodelle, eine weitaus grössere Zahl umfasst die privaten Modelle, von denen auch einige im Hochschularchiv entwickelt wurden. Das Hochschularchiv verwendet Transkribus für die Aufbereitung verschiedener Bestände aus dem Verwaltungsarchiv und den Privatarchivbeständen. Mithilfe der künstlichen Intelligenz wird dem Menschen die mühselige händische Transkription hunderter und tausender Seiten erspart. Im idealen Fall müssen nur noch Korrekturen und eine Schlusskontrolle vorgenommen werden, was eine nicht zu unterschätzende Zeitersparnis darstellt.

Die Schulratsprotokolle sind die wichtigste Quelle des 1855 gegründeten Polytechnikums (1911 in Eidgenössische Technische Hochschule umbenannt). Sie umfassen bis 1968 die Sitzungsprotokolle, Verfügungen des Präsidenten der ETH sowie Register und Sitzungsbeilagen. Die über 100 Jahre umfassende Protokollbände sind digitalisiert und volltextdurchsuchbar auf schulratsprotokolle online. Als Anfang des 20. Jahrhunderts der schweizerische Schulrat eine Schreibmaschine anschaffte, war die Ära der handgeschriebenen Protokolle zu Ende. Die Jahre von 1854 bis 1902 sind jedoch ausschliesslich handschriftlich überliefert.

SR2_1902-Präs.-Prot.-Auszug_Transkribus
Auszug aus den Präsidialprotokollen des Schulrates 1902 (SR2:1902).

Während wir in jüngeren Jahren eher noch schreiben, wie wir es in der Schule gelernt haben, individualisiert sich die Handschrift immer mehr. Deswegen sind in Transkribus die verschiedenen Modelle für diese Individualität wichtig. Das Schriftbild im Tagebuch des Geologen Arnold Heim (1882-1965) kann man gut lesen. Da Heim aber in fremde Länder reiste, sind bei ihm die Personen- und Ortsnamen eine Herausforderung zu lesen.

Hs_494_265_91_Auszug_Transkribusjpg
Auszug aus einem Reisetagebuch von Arnold Heim von 1938 (Hs 494:265).

Oder kennen sie Ortschaften wie Tapatoean, Meulaboh und Mugò auf Sumatra? Transkribus macht zwar einen HTR-Vorschlag, aber es bedeutet noch viel sorgfältige Arbeit, diese Begrifflichkeiten mittels Recherche abzusichern. Denn für das Trainieren der Modelle sollten möglichste wenig Fehler in der Transkription vorhanden sein. Nach rund 100 Seiten ist das Modell aber schon recht ausgereift. Man kann sich als Lesender über weite Strecken recht gut zurechtfinden.

Hs_142a_148_82_Auszug_Transkribus
Joseph Wolfgang von Deschwanden auf Reisen im Jahr 1853 (Hs 142a:148).

«Werkstätte rh. Ertel. Die H.H. Ertel ab-
wesend; allein sehr freundliche Aufnahme
v. Geschäftsführer. – Hölzerne Massstäbe.
Einfache Nivellirinstrum mit Gelenk um d.
vert. Drehungsaxe u horiz. u vert. Mikro-
meterschr. mit Feder. Fernrohr nicht in
einer Gabel, sondern in halbrundem Lager.»

Joseph Wolfgang von Deschwanden (1819-1866) war der erste Direktor der heutigen ETH. Der Maschinenbauer besuchte auf seinen Reisen nicht nur mechanische Werkstätten, sondern war vielseitig interessiert. In seinen Tagebüchern sind ausführliche Beschreibungen zur Architektur und Malerei niedergeschrieben. Seine Texte sind somit mit Fachbegriffen aus seinen Interessensgebieten gespickt und er benutzt häufig Abkürzungen. Dies gepaart mit dem Schriftbild einer klassischen Schreibfeder, bei dem einzelne Buchstabenelemente nicht stets gut ausgebildet sind und einer eher schwierigen Handschrift macht es für die Software Transkribus schwierig, ein gutes Resultat zu liefern. Die Vorschläge des Programms sind teilweise recht abenteuerlich und es braucht einen ziemlichen personellen Aufwand, die Resultate nachzubearbeiten. Zudem beziehen sich die Rechtschreibung und der Wortschatz auf die Gepflogenheiten Mitte des 19. Jahrhunderts. Die bearbeitende Person braucht immer wieder Kreativität in der Internetrecherche, um die Resultate abzusichern.

Was ist nun aber das Ziel von der Behandlung der Tagebücher dieser zwei Forschenden? Die zwei Modelle sollen anhand weniger Tagebücher dieser beider Handschriften aufgestellt werden. Anschliessend können die Modelle über die restlichen Tagebücher gelegt werden. Ist das Resultat lesbar, wenn auch fehlerbehaftet, können sie bereits über e-manuscripta und andere Plattformen veröffentlicht werden. Ein grösserer Personenkreis kann somit die Forschung zu den Texten anstossen und bei Bedarf die online gestellten Texte auch verbessern.

Gibt es somit eine Zeitersparnis in der Transkription der Texte? Dies Frage kann nur mit Hilfe der Qualität und des Arbeitsaufwandes beantwortet werden. Je sorgfältiger die Transkription eines Originaltextes ist, umso mehr personellen Aufwand ist zu veranschlagen. Versteht man aber Transkribus als einen ersten vereinfachten Zugang können auch Texte mit einer Fehlerquote von 4-8% bereits ihren Dienst tun. Die Zeitersparnis ist v.a. in der Masse der Texte zu sehen. Je mehr ein Autor oder eine Autorin schrieb, desto eher lohnt sich der Aufwand für die Erstellung eines Modells zu dieser Person. Die Zeitersparnis ist auch für den Forschenden zu sehen, der sich in vollindexierten Produkten bewegen kann. Ein Aber muss aber zum Abschluss noch vermerkt werden: Es ist die Aufgabe der Forschenden die transkribierten Texte einer Qualitätskritik zu unterziehen.

Transkribus steht gratis zum Download oder zur Nutzung in der Browser-Version verfügbar: https://readcoop.eu/readsearch/

Schreibe einen Kommentar