Meine Reise aus dem Hochschularchiv ins ETH Data Archive

Das ETH Data Archive existiert seit 2012 und ist das Langzeitarchiv der ETH Zürich. Es ist das Zuhause für erhaltungswürdige Daten, wie Forschungsdaten, digitalisierte Bibliotheksbestände oder Archivalien des Hochschularchivs. Es umfasst über 20 Datenquellen, gut 220 TB an Daten und rund 20 Millionen Dateien. Weil heute der «World Digital Preservation Day» ist, wollen wir die abenteuerliche Reise einer einzelnen Datei ausgehend von ihrem Ursprung über ihre Zwischenstopps im Hochschularchiv und der Gruppe Forschungsdatenmanagement und Datenerhalt bis ins ETH Data Archive verfolgen.

Weiterlesen: Meine Reise aus dem Hochschularchiv ins ETH Data Archive

Koffer packen!

Hallo! Zuerst will ich mich einmal kurz vorstellen. Ich bin ein Vorlesungsverzeichnis der ETH Zürich. Vielleicht kennt noch jemand meine Vorfahren, diese schönen, farbigen, gedruckten Bände, die eine Übersicht über die an der ETH angebotenen Veranstaltungen gaben. Seit 2003 sind wir aber vollständig digital und eine Mitarbeiterin aus dem Hochschularchiv macht sich jedes Semester die Mühe, uns aus dem Internet herunterzuladen, damit wir ähnlich wie unsere Eltern im Hochschularchiv archiviert werden können. Besagte Archivarin sorgt dann erst einmal dafür, dass ich beim Hochschularchiv eine vorübergehende Unterkunft finde. Sie erledigt das «Check-in» und dokumentiert so die Ankunft von mir und meinen Geschwistern, die Vorlesungsverzeichnisse anderer Semester.

01 Vorlesungsverzeichnisse

Das Hochschularchiv ist aber nur meine temporäre Unterkunft. Denn bald nimmt meine Reise an meinen finalen Aufenthaltsort Fahrt auf. Begleitet werde ich dabei unter anderem von Claudia, Archivarin im Hochschularchiv der ETH Zürich, und Fabian, Datenarchivar im ETH Data Archive. Claudia ist es, die mir an meinem aktuellen Aufenthaltsort dabei hilft, mein Köfferchen zu packen. Sie hat das «Aufbereitung der Metadaten» genannt. Was ich davon mitbekommen habe, ist, dass ich nun einen neuen Namen bekommen habe und Claudia ganz viele Daten zu mir aufgeschrieben hat, wie wann ich geboren wurde oder wie gross ich bin. Einige dieser Daten habe ich selbst mitgebracht, andere wiederum wurden erst im Archiv ergänzt. Diese Angaben werden benötigt, dass man mich von meinen Geschwistern unterscheiden kann. Gewisse Dinge teile ich trotzdem noch mit meinen Geschwistern, schliesslich sind wir alle Vorlesungsverzeichnisse und durchlaufen den gleichen Weg. Aber ich bekomme eine einzigartige Signatur und sogar einen DOI, einen Digital Object Identifier – wer den kennt, kann mich auf der ganzen weiten Welt wiederfinden.

Zudem bekomme ich ein schönes neues Kleid! Als ich ins Hochschularchiv gekommen bin, war ich eine PDF-Datei, aber Fabian meinte, in diesem Format habe ich irgendwann in Zukunft ein Problem, weil man mich dann nicht mehr anschauen kann. Deshalb hat mich Claudia konvertiert und ich erstrahle nun in meinem schönen neuen PDF/A-2u Format.

02 Daten Aufbereiten

In meinem neuen Gewand und mit meinen Metadaten im Koffer bin ich nun fast schon bereit, die Reise ins ETH Data Archive anzutreten. Das Hochschularchiv und das Team Forschungsdatenmanagement und Datenerhalt haben sich nämlich dazu entschieden, den Prozess für meine Reise über einen so genannten CSV-Standardprozess zu gestalten. Deshalb muss vor Beginn meiner nächsten Reisestation zuerst noch die passende CSV-Datei mit all meinen Metadaten angelegt werden. Auch hat Claudia für die Reise passende Ordner angelegt, welche einem ganz strikten Muster folgen müssen, damit mich Fabian und seine Freunde vom ETH Data Archive automatisiert abholen können.

03 Uploadwege

Mein neues Zuhause

Fabian konnte mich also abholen. Erste Tests der Ordnerstruktur und der Metadaten waren erfolgreich und ich stehe vor der Türe meines neuen Zuhauses im ETH Data Archive und muss nun einige Gesundheitschecks durchlaufen. Zunächst wird mittels Prüfsumme gewährleistet, dass alle meine Teile vorhanden sind und es wird geschaut, ob ich allenfalls Viren in mir trage. Jetzt zeigt sich, ob die Konvertierung, welche Claudia durchgeführt hat, fehlerfrei war. Sobald das ETH Data Archive mein Gewand beziehungsweise das Dateiformat PDF/A-2u erkannt hat, werde ich bis auf die Nieren durchleuchtet. Alle meine Eigenschaften werden automatisiert ausgelesen und abgespeichert. Dabei wird geprüft, ob diese in Ordnung sind und mit der entsprechenden Dateiformatspezifikation konform sind. Bestehe ich diesen Gesundheitscheck nicht, darf ich mein neues Zuhause nicht beziehen und muss mich zuerst noch in Behandlung begeben.

04 Validation Stack

Eine solche Behandlung findet im Langzeitarchivsystem in der sogenannten «Technical Analyst Workbench» statt. Fabian analysiert dort die angezeigten Probleme. Je nach Ursache berät er sich mit Claudia, wie das Problem behoben werden kann. Fehlen etwa bestimmte Metadaten, die nachgereicht werden müssen oder gab es Fehler bei der Konvertierung? Je nachdem muss ich dann nochmals zurück zu Claudia, um eine erneute Konvertierung zu machen oder die fehlenden Metadaten in meinen Koffer zu packen. Unter Umständen befinden Claudia und Fabian das Problem aber auch als nicht schwerwiegend und lassen mich trotzdem weiterreisen. Allenfalls hinterlegen sie getroffene Entscheidungen als eine Regel bei sich, damit meine Geschwister nicht aus denselben Gründen eine Zwangspause einlegen müssen. Es kann auch sein, dass der Weg zu meinem Zuhause aus technischen Gründen nicht zugänglich ist. Auch dann lande ich im «Technical Analyst». In diesem Fall prüft Fabian zuerst die Konfiguration im Langzeitarchiv und begibt sich dann mit den technischen Spezialisten der Abteilung Data Science and Research Support auf Lösungssuche. Wenn ich schliesslich mein neues Zuhause bezogen habe, erhält Claudia einen Link, meine Adresse, damit sie weiss, wo sie mich finden kann.

Die Show beginnt

Ich wohne jetzt im Data Archive, aber hin und wieder habe ich das Vergnügen, einen Ausflug zum Virtuellen Lesesaal zu machen und mich zu präsentieren. Wer sich für mich interessiert, kann dort nach mir suchen. Da der Virtuelle Lesesaal meine Adresse kennt, kann er mich unverzüglich zu sich ordern und bietet mir die Bühne, mich richtig zu präsentieren.

05 Virtueller Lesesaal

Aktuell ist der Virtuelle Lesesaal zwar noch nicht bereit, sich, und damit auch mich, der Öffentlichkeit zu zeigen, aber schon bald – spätestens bis zum nächsten World Digital Preservation Day! – wird er live zu sehen sein und ich damit auch! Für jeden, der mich besuchen will sind bald nur noch ein paar Klicks nötig. Da kann man schon einmal schnell vergessen, wie lange die Reise war, die ich durchgemacht habe, bis ich hier gelandet bin.

Bilderverzeichnis

Illustrationen von Andres Bucher, FDD: https://andresbucher.ch/

2 Gedanken zu „Meine Reise aus dem Hochschularchiv ins ETH Data Archive“

Schreibe einen Kommentar