Kann meine Website mich überleben? – Genealogie-Feuilleton

Zur Langzeitverfügbarkeit von WEB-Publikationen

Wer wie ich regelmäßig dazu ermuntert, frühzeitig Familiengeschichten, also Teile der geplanten großen Familiengeschichte, zu veröffentlichen und dafür insbesondere Blogs und Websites als geeignet empfiehlt, kommt um Überlegungen zur Langzeitverfügbarkeit solcher Teilgeschichten nicht herum. Denn obwohl der Spruch „das Internet vergisst nichts“ in aller Munde ist, ist das Netz doch ein ungeheuer flüchtiges Medium. Die es bewohnenden Wesen, unter ihnen private Websites, verlieren sich in seinen Tiefen sobald der Schutz durch ihre verstorbenen oder sonstwie abgetauchten Besitzer endet. Mit ihnen sind auch die so wichtigen Permalinks verschwunden. Zitate anderer Autoren auf diese Websites laufen ins Leere (broken links).

Eine Methode wäre sicherlich, solche digitalen Beiträge als Vorstufe einer Veröffentlichung als Zeitschriftenaufsatz oder Buch zu verstehen und sie später in eine solche Form zu gießen, die dann in Bibliotheken überlebt. Auch das eBook wäre eine Lösung. Denn obwohl digital, erhält es per ISBN einen sicheren Platz in den Bibliotheken des Landes, immer aber in der Deutschen Nationalbibliothek (DNB), die diesen Teil unseres nationalen Erbes bewahrt.

Die Wayback Machine des Internet Archive

Zurück zu den digitalen Veröffentlichungen, bleibt als große Herausforderung die Frage, wer sich der verlassenen Blogs und Websites annimmt. Trotz vieler aus den verschiedenen kulturellen Einstellungen erwachsenden Zweifeln kommt der beste bisher bekannte Lösungsansatz aus Nordamerika. Es ist die Wayback Machine, die Suchmaschine des Internet Archive.

„Das Internet Archive ist eine digitale Bibliothek historischer Webseiten. Die Wayback Machine ist ein praktisches Tool, das den Zugriff auf dieses Archiv ermöglicht. Nicht nur für Nostalgiker ist die Wayback Machine interessant. Vor allem Webseitenbetreiber profitieren von diesem Tool.“ (Zitat). Dort auch sonst eine gute Beschreibung.

Ein großer Vorteil der teilweisen Langzeitarchivierung mittels der Wayback Machine liegt darin, dass die historischen Sites nicht lediglich in Form eines Bildes (Screenshot) vorliegen. Der Snapshot (Schnappschuss) zeigt die HTML-Version der Website zum betreffenden Zeitpunkt. Die einzelnen Links sind also anklickbar. Anders als beim Cache von Google springt man im Internet Archive nicht auf die aktuelle Online-Version der betreffenden URL, sondern auf die jeweilige historische Seite. Wie viele Informationen sie bewahrt, hängt vermutlich einerseits von der Dauer ab, die der Crawler bei der Website verweilt, andererseits von der Tiefenstaffelung der jeweiligen Seiten. Während die zweite Ebene des Verzeichnisbaums meist noch erreicht wird, bleiben die darunterliegenden Ebenen oft leer. Die Ergebnisse werden als sogenannte captures (Erfassungen) gezeigt. Einfach aufgebaute Seiten mit geringer Verschachtelung werden somit vollständiger abgebildet als komplexere Seiten.

Kleinere Betreiber privater Websites dürften sich oftmals der passiven (also ohne ihren Auftrag erfolgten) Archivierung ihrer Websites oder Teilen davon gar nicht bewusst sein. Anderen ist diese ungenehmigte Sammlung ihrer Webseiten ein Ärgernis. Das gilt besonders für weitere Crawler (siehe unten, deren Existenz den meisten von uns gar nicht bekannt sein wird.) So trifft, wer nach dem Internet Archive und seiner Suchmaschine googelt, auf mehr Beiträge dazu, wie man solche Seiten endgültig löscht, als dazu, wie man das System zum eigenen Vorteil nutzen kann. Dagegen werden sich Familienforscher, die Ihre Netzpublikationen über den Tod hinaus bewahrt wissen wollen, eher Gedanken darüber machen, wie es auch ihre Internetpräsenz in das kalifornische Internet Archive schafft.

Nostalgie

Aus den Anfängen – meine erste von WAYBack gespeicherte Site – TeuNet 2003

Heute – Gestern – Vorgestern

Beispiele der Seitenveränderungen und -entwicklungen müssen angeklickt werden.

TeuNet 2012	TeuNet 2007	*TeuNet 2003*
Feuilleton 2019	Feuilleton 2016	Feuilleton 2009

Hilfen

Für den Firefox-Browser gibt es das empfohlene Add-on „Web Archives“, mit dem man für eine aufgerufene Website die Wayback Machine aktivieren kann. Darüber hinaus findet es aber auch Snapshots anderer Crawler. (Dies sind unter anderen Webcite, Archive.is/Archive.today, Caches der Suchmaschinen Google und Bing, aber auch, zunächst erschreckend aber real, russische (Yandex) und chinesische (Sogou.com) Akteure.) Das Icon des Add-ons hat die Form eines Würfels und wird in die Navigationsleiste des Browsers eingebunden.

Wer die Speicherung des Internet-Archives nicht als Ärgernis sieht, sondern diese ausdrücklich möchte, kann bei einer noch nicht gespeicherten Seite deren URL für die Wayback Machine selbst anstoßen und dabei sogar die gewünschen Parameter auswählen.

Deutsche Nationalbibliothek

Zum Sammelauftrag der DNB gehören neben den Sammelpflichtigen Medienwerken wie Büchern, Zeitschriften, Zeitungen, etc. seit 2006 auch Netzpublikationen wie unter anderem auch E-Books und Webseiten. Zu letzteren heißt es auf der Website der DNB „Zeitschnitte ausgewählter Webpräsenzen sammeln wir mit automatisierten Webharvesting-Verfahren.“ Wegen der wohl begrenzten Kapazitäten liegt der Schwerpunkt zur Zeit nicht auf ausgesprochen privaten Websites. Wer allerdings meint, neben seinen Buchveröffentlichungen auch seine Web-Publikationen in der DNB hinterlegen zu müssen, kann hierzu mit dem zuständigen Referat Kontakt aufnehmen. Im Gegensatz zum kalifornischen Internetarchiv sind diese sogenannten Zeitschnitte nicht im Internet, aber in den Lesesälen der DNB zugänglich.

Durch Langzeitarchivierung überleben

Langzeitarchivierung erfordert komplexe technische Abläufe, die in Digitalisierungszentren beginnen, immense Speicherleistung benötigen, viel Geld verschlingen, periodisches Sichern durch Umkopieren erfordern und anschließendes Verfügbarmachen für potentielle Nutzer einschließen. Nur große Institutionen können das leisten. Zu ihnen gehören das kalifornische Non-Profit-Unternehmen ‘Internet Archive’ und die Staatliche Deutsche Nationalbibliothek. Erstere stellt ihre Inhalte frei zugänglich im Internet zur Verfügung (Motto: Our mission is to provide Universal Access to All Knowledge), letztere in ihren Lesesälen in Leipzig und Frankfurt.

Das Wissen darum sollte uns Familienforscher zu vermehrtem digitalen Publizieren ermutigen.

Siehe auch
Unser genealogisches Gedächtnis (2016)
Archivierung privater Websites im Internet (2011)