Tesseract findet Sagittarius – Von Sternbildern und Volltexterkennung in historischen Drucken

Mit dem Atlas portatilis coelestis (Nürnberg 1723) legt Johann Leonhard Rost eine umfassende Darstellung der Astronomie seiner Zeit vor. Im zweiten Kapitel des Werks mit dem Untertitel compendiöse Vorstellung des gantzen Welt-Gebäudes beschreibt er die Astronomia Sphӕrica als denjenigen Teil der Astronomie, der sich mit der Beschreibung der scheinbaren Himmelsbewegungen beschäftigt. Der Begriff komme von der Sphӕra armillaris, einem Instrument zur Darstellung der Bewegung von Himmelskörpern, das auf Tafel 1 (Abbildung 1) abgebildet ist.

Tafel 1 Sphaera Armillaris
Abbildung 1: Sphaera Armillaris

Für die Volltexterkennung durch OCR-Software stellen historische Drucke, wie der vorliegende, eine Herausforderung dar. So führte die Wortsuche nach „Sphӕra armillari“ auf e-rara hier nicht zum gewünschten Treffer, weil die standardmässig verwendete OCR-Software in der betreffenden Zeile den Text in Antiqua-Schrift nicht erkannt hatte:

Volltext Zeile Sphaera Armillari
Abbildung 2: Textzeile mit Fraktur- und Antiquaschrift

ten Namen von der 8pkLi-L armitlsri . einem

Um in solchen Fällen künftig bessere Volltexte bereitstellen zu können, verwenden wir neu verschiedene OCR-Lösungen. Über das Modul Textlab in e-rara ist beispielsweise die Software Tesseract eingebunden. Diese ist für den vorliegenden Druck besser geeignet und liefert für diese Zeile einen fehlerfreien Volltext:

ren Namen von der Sphæra armillari , einem

Und so führt die Stichwortsuche auf e-rara jetzt zum gesuchten Ausschnitt:

Screenshot E Rara Stichwortsuche
Abbildung 3: Screenshot von e-rara mit hervorgehobenem Suchtreffer

In den folgenden Kapiteln befasst sich Rost mit der Beschreibung und Vermessung der Erdoberfläche und deren Verhältnis zum Weltraum, dessen Dimensionen er mit Bezug auf Tafel II, Figur 3 (Abbildung 4) so beschreibt (Seite 21, hier in der nicht ganz fehlerfreien OCR von Tesseract und dem Trainingsdatensatz frak2021):

Denn ob ſchon der Abſtand dieler beeden Puncten E K, eine Weite faſt von 86a , geographiſchen Meilen / oder einen halben Diameter der Erd + Kugel beträgt / welcher einen eintzigen Theil von dem Aſtronomichen Maaßſtabe ausmachet / fo iſt fie dech in Anſehung des Himmels von der Erden / vor gar nichts zu achten .

Zum Vergleich hier der Volltext unserer bisherigen OCR-Lösung (Abbyy Finereader, Frakturschrift):

Denn ob schon »der Abstand dieser bseden PunctenLlL, eine Wei»te fast von 86a. FeoZrspKischen Meilen/ oder eü.Inen halben vismeeer der Erd- Kugel betragt/ iwelcher einen eintzigen Theil von dem Mronomischen Maaßstabe ausmachet / so ist sie doch in Ansehung des Himmels von der Erben/ vor gar nichts zu achten

Tafel 2 geodätische Betrachtungen
Abbildung 4: Verhältnis Weltraum zur Erde (Figur 3)

Auf der gleichen Seite finden sich nummerische Angaben zur Grösse des Welt=Gebäudes, das Rost nach Hevelius’ Berechnung mit 176700.000000.000000.000000 Erdradien bemisst (dies entspricht übrigens 119 Billionen Lichtjahren, was zumindest die Ausdehnung des theoretisch beobachtbaren Universums um Grössenordnungen übersteigt).

Beim Vergleich der beiden Volltext-Versionen von Tesseract und Abbyy Finereader fällt auf, dass Tesseract den Text zeichengetreuer ausgibt. Im Gegensatz zu Abbyy unterscheidet Tesseract nämlich zwischen ſ und s.

Maaßstabe
Abbildung 5: Wort “Maaßstabe” in Frakturschrift

Tesseract: Maaßſtabe
Abbyy Finereader: Maaßstabe

Relevant ist dieser Unterschied insbesondere dann, wenn der Volltext von e-rara heruntergeladen und weiterverarbeitet werden soll. In der Textverarbeitung ist es dann erheblich, ob nach Maaßſtabe oder Maaßstabe gesucht wird. Wir halten es für einen Mehrwert, diese Zeichengenauigkeit beim Volltext-Download beizubehalten. Hingegen werden solche Sonderzeichen für den Suchindex auf e-rara normalisiert. Damit führt die Suche nach «maassstabe» hier zum Treffer.

Ab Kapitel 50 wendet sich Rost der Theorie zu (so wollen wir uns nun in GOtte Namen auch zur Theoric ( ibid . §, 7. ) wenden.), beginnend bei Ptolemäus, dessen System des geozentrischen Weltbildes auf Tafel VIII, Figur 52 (Abbildung 6) illustriert ist. Tafel IX stellt die Systeme von Tycho Brahe, Giovanni Riccioli (Abbildung 7) und Kopernikus dar.

Tafel 8 Systema Ptolemaicum
Abbildung 6: Systema Ptolemaicum
Tafel 9 Systema Tychonis
Abbildung 7: Systema Tychonis und Systema Riccioli

Ab Kapitel 56 folgt die Besprechnung der Planeten, angefangen mit dem obersten Haupt=Planeten dem Saturno (Seite 236) und seinen Ringen:

Da aber ſein Ring ſich gegen die Ecliptic , ſtets mit einem Winckel von 31 . Graden incliniret ; auch fein Stand in Anſehung der Erde / ſich immetzu verändert : ſo entſpringet daraus die Urſache / warum er ſich bald ſo / bald wieder anderſt præſentiret : bald aber gar nicht / ſondern an ſeiner ſtatt nur ein dunckler Strich / oder ſein Schatten / auf dem diſco des Saturni ſich ſehen läſt / geichwie wir ihn in der 64 . Figur bey A. B. C. D. E. F abgezeichnet haben . (Seite 239, korrigierter Tesseract-Volltext)

Tafel 11 Saturn
Abbildung 8: Saturn

Dem letzten Kapitel zu Fixſternen und der Galaxia folgen die Tafeln XXV-XXXVIII mit kolorierten Sternbildern. Figur 156 auf Tafel XXXIII. zeigt das Sternbild Sagittarius, in dessen Hintergrund sich mit dem supermassereichen Schwarzen Loch Sagittarius A* das Zentrum der Milchstrasse befindet, wovon Rost im 18. Jahrhundert natürlich nichts ahnte: Wie würde wohl seine Illustration des Schwarzen Lochs aussehen?

Tafel 33 Sagittarius
Abbildung 9: Sternbild Sagittarius

Johann Leonhard Rost: Atlas portatilis coelestis oder compendiöse Vorstellung des gantzen Welt-Gebäudes. Nürnberg: Weigel, 1723. ETH-Bibliothek Zürich, Rar 4193. https://doi.org/10.3931/e-rara-2514 / Public Domain Mark. – Der Volltext zu diesem Digitalisat wurde mit Tesseract und dem Trainingsdatensatz frak2021 erstellt. Er steht auf der Titelseite als Plain text, Alto XML oder im PDF zum Download zur Verfügung.

Schreibe einen Kommentar