Webseiten

Eine Webseite stellt eine Ressource aus strukturiertem Text im World Wide Web (WWW) dar und besteht in ihrer einfachsten Form aus einer HTML-Datei. Sie kann via Hyperlinks mit beliebig vielen weiteren Ressourcen vernetzt sein. Webseiten sind ein integraler Bestandteil des WWW im Internet. In der Regel ist eine Webseite Teil einer Website, bzw. eines Webauftrittes, also eines zusammengeh├Ârenden Paketes von miteinander vernetzten Webseiten und weiteren Ressourcen.

In der altertumswissenschaftlichen Forschung k├Ânnen Webseiten f├╝r die ├ľffentlichkeit zug├Ąngliche Informationen beinhalten, wie etwa Blogbeitr├Ąge oder ausf├╝hrliche Projektbeschreibungen.

Der vorliegende Artikel besch├Ąftigt sich vornehmlich mit der Archivierung einzelner Webseiten und nicht mit der Archivierung ganzer Websitesysteme. Um umfangreiche Websites mit mehreren Webseiten zu archivieren, empfehlen sich Online-Speicherdienste, spezialisierte Internetarchive oder dezidierte Softwarel├Âsungen.

Langzeitformate

Webseiten k├Ânnen archiviert werden, wenn die n├Âtigen Nutzungsrechte der Inhalte vorliegen. Die Archivierung kann dabei auf verschiedene Arten erfolgen:

Als Optimum ist die Langzeitarchivierung einer Webseite in einer Form, die m├Âglichst wenig Informationsverlust garantiert und einfach umzusetzen ist, anzustreben. Webseiten bestehen zum einen aus mindestens einer strukturierten HTML-Datei, zum anderen aus beliebig vielen via Hyperlinks mit der HTML-Datei verbundenen Ressourcen, die teilweise auf demselben Webserver gespeichert sind, aber auch von jedem anderen Ort im Internet bezogen werden k├Ânnen. Dies stellt jedoch nur den theoretisch sehr einfachen Aufbau dar, praktisch bestehen Webseiten aus einer Vielzahl an weiteren strukturierten Textdateien, die etwa das Design der Website regeln (CSS-Dateien) und k├Ânnen zudem ├╝ber verschiedenste von anderen Websites bezogene und auf der Webseite eingebettete Inhalte (Videos, 3D-Modelle, interaktive Karten etc.) verf├╝gen. Eine der Hauptintentionen jedweder Webseite ist es verschiedene Informationen nach einem vorgegebenen Design in einer bestimmten Abfolge und einem bestimmten Layout dem Nutzer zu vermitteln, vergleichbar zu einer gedruckten Seite in einem Buch. Bei der Archivierung muss beachtet werden, dass f├╝r Webseiten teilweise Dateiformate verwendet werden,die f├╝r die Langzeitarchivierung dezidiert ungeeignet sind, etwa JPEGs.

Generell empfiehlt es sich, die der Webseite zugrundeliegenden Daten (z.B. Text und Bilder) als Einzeldateien jeweils separat in einem geeigneten Archivformat zu archivieren. N├Ąhere Informationen zu den Archivierungsformaten sind in den entsprechenden Kapiteln zu finden. Auch werden nicht alle multimedialen Inhalte, Webanwendungen (z.B. Web-GIS) oder ├╝ber externe Dienste eingebettete Inhalte mit jeder Archivierungsmethode gespeichert, weshalb in solchen F├Ąllen besonderes Augenmerk auf die Auswahl der zu verwendenden Methode gelegt werden muss.

Eine Webseite kann als PDF mit Hilfe des Webbrowsers und eines PDF-Generators als PDF-Datei gespeichert und anschlie├čend mit entsprechender Software in ein archivierbares PDF/A-Datei konvertiert werden. Informationen dazu finden sich im Abschnitt PDF-Dokumente. Diese Methode f├╝hrt praktisch immer zu ├änderungen des urspr├╝nglichen Layouts. Jedoch k├Ânnen mittels Plug-ins im Webbrowser oder bestimmten Softwareprogrammen Webseiten unter gro├čteiliger Wahrung des Layouts als PDF gespeichert werden. Abschlie├čend muss auch hier eine Konvertierung in das PDF/A-Format vorgenommen werden. Multimediale Inhalte (Videos, 3D-Objekte etc.) werden mit dieser Methode nicht gespeichert.

Die lokale Speicherung einer Webseite aus dem WWW mittels eines Webbrowsers ist einfach m├Âglich und wird durch alle aktuellen Webbrowser unterst├╝tzt. Hierbei gilt es jedoch, bestimmte Speicherformate zu beachten, da nicht alle in den Webbrowsern verf├╝gbaren Formate f├╝r die Archivierung geeignet sind. F├╝r die Strukturierung und Formatierung von Webseiten werden ├╝blicherweise die Hypertext Markup Language (HTML) oder die┬á Extensible Hypertext Markup Language (XHTML), sowie Cascading Style Sheets (CSS) verwendet. Es handelt sich dabei um Standards, die vom W3C entwickelt und empfohlen werden, weshalb diese in den Versionen HTML5, XHTML5 und CSS 3 f├╝r die Archivierung empfohlen werden k├Ânnen.

Es bietet sich hier also die M├Âglichkeit der Speicherung der Webseite als HTML- oder XHTML-Datei an. HTML-Dateien (und XHTML) archivieren den strukturierten Text und die Hyperlinks, jedoch nicht die verkn├╝pften Ressourcen (z.B. Bilder, multimediale Inhalte oder externe Inhalte), zudem wird hierdurch nicht das Design der Webseite, welches durch CSS geregelt wird, ├╝bernommen, da die entsprechenden Dateien nicht gespeichert werden. Um auch die verkn├╝pften und f├╝r das Design ben├Âtigte Ressourcen zu speichern, k├Ânnen diese automatisch in einen zus├Ątzlichen lokalen Ordner geladen werden. In der Regel handelt es sich dabei um HTML/XHTML- und CSS-Dateien, Grafiken, JavaScript-Dateien sowie gegebenenfalls Java Applets und Multimedia-Dateien.

Die lokale Speicherung einer Webseite in einer einzigen Datei wird mittels MIME HTML (MHTML) erm├Âglicht. Es handelt sich um ein textbasiertes Format, das in┬á RFC 2557 spezifiziert wird. In der Regel werden bei MHTML-Dateien das Layout und alle Hyperlinks vollst├Ąndig ├╝bernommen. Auch hier muss das Speichern von eingebetteten Inhalten gegebenenfalls gesondert vorgenommen werden.

Das offen dokumentierte Mozilla Archive Format (MAFF) erm├Âglicht ebenfalls die Speicherung einer Webseite in Form einer einzelnen Datei. Dabei werden die einzelnen Bestandteile in einem ZIP-Container gespeichert. Da dieses Format aktuell nur von Mozilla Firefox unterst├╝tzt wird, sollte f├╝r die Archivierung jedoch ein anderes Format vorgezogen werden. ├ähnlich verh├Ąlt es sich mit dem Format Webarchive, das derzeit jedoch nur durch Appels Safari Webbrowser unterst├╝tzt wird und daher nicht empfohlen werden kann.

Auch HTML-Dateien mit Data-URIs erm├Âglichen die Speicherung einer gesamten Webseite meist unter Beibehaltung des Layouts in einer einzigen Datei. Data-URIs erm├Âglichen es, Ressourcen in HTML einzubetten und sind in RFC 2397 definiert. Es handelt sich dabei um eine spezielle Syntax, mit der bin├Ąre Daten als ASCII-Zeichenketten kodiert werden. Da Ressourcen als Data-URIs, wie beispielsweise Bilder,┬á direkt und in menschenunlesbarer Form in die Datei integriert werden, k├Ânnen diese nicht nachgenutzt werden, weshalb von einer Speicherung als HTML mit Data-URIs f├╝r die Archivierung abgesehen werden sollte.

Eine andere h├Ąufig praktizierte, jedoch eindeutig nicht empfohlene M├Âglichkeit, stellt die Speicherung von Webseiten in der Form von Screenshots dar. Screenshots werden in der Regel im PNG- oder JPEG-Format gespeichert. Dies hat drei Nachteile: (1) Die Konvertierung erfolgt oft in das JPEG-Format, das zur Archivierung nicht geeignet ist. (2) Die Speicherung als Rastergrafik kann in manchen F├Ąllen aufgrund einer zu niedrigen Aufl├Âsung zu Qualit├Ątsverlusten f├╝hren. Au├čerdem wird Text nicht mehr als solcher erkannt und gespeichert. (3) Die Konvertierung der Webseite in eine Grafik f├╝hrt dazu, dass s├Ąmtliche Hyperlinks desintegriert werden.

Es besteht zwar hinsichtlich der Punkte (1) und (2) die M├Âglichkeit, mit entsprechender Software eine Texterkennung und anschlie├čende Speicherung als PDF/A durchzuf├╝hren, jedoch k├Ânnen hinsichtlich Punkt (3) dadurch keine Hyperlinks wiederhergestellt werden.

Ein anderer Ansatz ist die Archivierung einer Webseite ├╝ber einen spezialisierten Archivierungsdienst. Solche werden etwa durch die Bayerische Staatsbibliothek (mit Anmeldung) oder die Organisation Internet Archive angeboten. Hier werden die Webseiten auf einem Server des Archivierungsdienstes gespeichert und k├Ânnen auf diesen Plattformen wiederum ├╝ber das WWW abgerufen werden. Diese Dienste sind auch zur Archivierung ganzer Websites geeignet. F├╝r die Archivierung ganzer Websites gibt es das Format Web ARChive (WARC), das seit 2009 als ISO 28500 standardisiert ist und von dem International Internet Preservation Consortium aufbauend auf dem Format ARC entwickelt wurde. In einer WARC-Datei werden alle Seiten, Ressourcen und weitere Komponenten einer Website gespeichert.

Hinweis: Angaben zur Archivierung von Programmen in JavaScript sowie Java (Java-Applets) finden sich im Kapitel Eigene Programme und Skripte, Ausf├╝hrungen zu multimedialen Inhalten (z.B. 3D-Objekte, Audio oder Video) in den entsprechenden Kapiteln.

Format Begr├╝ndung
  PDF/A-1, PDF/A-2 PDF/A ist gezielt als stabiles, offenes und standardisiertes Format für die Langzeitarchivierung unterschiedlicher Ausgangsdateien entwickelt worden.
HTML und XHTML HTML- und XHTML-Dateien k├Ânnen als streng strukturierte Textdokumente, die vom W3C standardisiert sind, problemlos archiviert werden. Die Datei sollte wohlgeformt und in UTF-8 ohne BOM kodiert sein. Es sollte m├Âglichst HTML5 verwendet werden. Zus├Ątzliche Dateien, wie CSS, JavaScript oder andere strukturierte Textformate m├╝ssen ebenfalls archiviert werden. Eingebettete Ressourcen m├╝ssen gesondert archiviert werden.
MHTML MHTML-Dateien k├Ânnen als strukturierte Textdokumente mit genauen Spezifikationen f├╝r die Archivierung verwendet werden. Die Archivierung von eingebetteten Inhalten muss gegebenenfalls gesondert erfolgen.
WARC Web ARChive ist als ISO 28500 standardisiert und dient als Containerformat f├╝r mehrere Webseiten einer Website.
┬á MAFF Das Format erm├Âglicht die Speicherung einer ganzen Webseite samt aller zugeh├Âriger Ressourcen komprimiert und verlustfrei in einem ZIP Container und eignet sich zur Langzeitarchivierung, solange die einzelnen Ressourcen selbst in archivf├Ąhigen Formaten vorliegen und Hyperlinks entsprechend aktualisiert werden.
HTML mit Data URIs HTML-Dateien k├Ânnen als strukturierte Textdokumente, die weit verbreiteten Konventionen folgen und aufgrund der integrierten DTD, die die verwendete Struktur beschreibt, problemlos archiviert werden. Data URIs sind ebenso spezifiziert.
┬á andere PDF-Varianten Viele g├Ąngige PDF-Varianten sind nicht f├╝r die Langzeitarchivierung geeignet. Stattdessen sollten entweder die Ausgangsdateien in einem passenden Format archiviert oder eine Migration in ein PDF/A-Format vorgenommen werden.
Screenshots Screenshots eignen sich nur f├╝r die Dokumentation der Optik der Webseite, jedoch nicht f├╝r die Archivierung der Inhalte, da diese als Rastergrafik gespeichert werden und so kaum nachnutzbar sind.
Webarchive Ist ein Format von Apple, das derzeit auch nur von Safari unterst├╝tzt wird. Es ist nicht f├╝r die Archivierung geeignet.

Dokumentation

HTML, XHTML und MHTML verf├╝gen ├╝ber einen eigenen Dokumentenkopf, in dem verschiedene Metadaten eingebettet werden k├Ânnen. Es sollten Angaben zur verwendeten Zeichenkodierung, dem Titel des Dokumentes, dem/der AutorIn sowie Stichw├Ârter gemacht werden. Erg├Ąnzende Metadaten k├Ânnen zus├Ątzlich mit Hilfe eines Kommentars in den Kopfdaten der Datei eingef├╝gt werden. Auch in CSS-Dateien k├Ânnen Metadaten als Kommentar eingetragen werden.

Die hier angegebenen Metadaten sind als minimale Angabe zu betrachten und erg├Ąnzen die angegebenen Metadaten f├╝r Projekte und Einzeldateien in dem Abschnitt Metadaten in der Anwendung.

Metadatum Beschreibung
Titel Titel der Webseite
Kurzbeschreibung Kurze Beschreibung des Inhaltes.
Stichw├Ârter Schlagworte, die den Inhalt beschreiben.
Autor Name des Verfassers oder Erstellers der Datei.
Erstellungsdatum Datum der Erstellung der Datei, also der Archivierung der Webseite.
Bearbeitungsdatum Datum der letzten Bearbeitung der Webseite.
Abschaltung Webserver Datum an dem die Webseite zum letzten Mal online verf├╝gbar war.
URI Internetadresse der archivierten Webseite.
Identifikator Wenn das Dokument bereits ver├Âffentlicht wurde und einen Persistent Identifier erhalten hat, sollte dieser angegeben werden.
Sprache Angabe der im Dokument verwendeten Sprachen. Sprachkennungen nach ISO639 angeben.
Rechte Details zum Urheberrecht.
Standard Name und Version des verwendeten Standards, z.B. HTML5 und CSS 3.
Zeichenkodierung Angabe der verwendeten Zeichenkodierung, z.B. UTF-8 ohne BOM.
Beziehungen Dateien oder Ressourcen, die mit der Datei zusammenh├Ąngen, wozu auch fr├╝here Versionen geh├Âren. Bei der Archivierung einer Website mit mehreren Webseiten m├╝ssen die Beziehungen der einzelnen Seiten untereinander dokumentiert werden, beispielsweise mit einer Sitemap.
Versionsnummer Angabe der Dateiversion, bezogen auf den Inhalt. z.B. 1.3.
Software Name und Version der f├╝r die Archivierung der Seite verwendeten Programme
weitere Dateien Liste von eingebetteten Medien, die zus├Ątzlich separat gespeichert wurden. Liegt eine Dokumentationsdatei f├╝r das Dokument vor, muss diese ebenfalls genannt werden.

Weitere Inhalte

Archivierungsmethoden ┬Ě Browser ┬Ě CSS ┬Ě Dynamische Websites ┬Ě Editoren ┬Ě Funktionsweise ┬Ě HTML ┬Ě JavaScript ┬Ě Screenshots ┬Ě Speichern als HTML mit Data-URI┬Ě Speichern als MAFF ┬Ě Speichern als MHTML ┬Ě Speichern als PDF ┬Ě┬áURI ┬Ě URL ┬Ě Webbrowser ┬Ě Webseite ┬Ě Website ┬Ě Website archivieren ┬Ě WWW

Letzte Änderung: 21. M├Ąrz 2017