Webseiten

Eine Webseite stellt eine Ressource aus strukturiertem Text im World Wide Web (WWW) dar und besteht in ihrer einfachsten Form aus einer HTML-Datei. Sie kann via Hyperlinks mit beliebig vielen weiteren Ressourcen vernetzt sein. Webseiten sind ein integraler Bestandteil des WWW im Internet. In der Regel ist eine Webseite Teil einer Website, bzw. eines Webauftrittes, also eines zusammengehörenden Paketes von miteinander vernetzten Webseiten und weiteren Ressourcen.

In der altertumswissenschaftlichen Forschung k√∂nnen Webseiten f√ľr die √Ėffentlichkeit zug√§ngliche Informationen beinhalten, wie etwa Blogbeitr√§ge oder ausf√ľhrliche Projektbeschreibungen.

Der vorliegende Artikel beschäftigt sich vornehmlich mit der Archivierung einzelner Webseiten und nicht mit der Archivierung ganzer Websitesysteme. Um umfangreiche Websites mit mehreren Webseiten zu archivieren, empfehlen sich Online-Speicherdienste, spezialisierte Internetarchive oder dezidierte Softwarelösungen.

Langzeitformate

Webseiten können archiviert werden, wenn die nötigen Nutzungsrechte der Inhalte vorliegen. Die Archivierung kann dabei auf verschiedene Arten erfolgen:

Als Optimum ist die Langzeitarchivierung einer Webseite in einer Form, die m√∂glichst wenig Informationsverlust garantiert und einfach umzusetzen ist, anzustreben. Webseiten bestehen zum einen aus mindestens einer strukturierten HTML-Datei, zum anderen aus beliebig vielen via Hyperlinks mit der HTML-Datei verbundenen Ressourcen, die teilweise auf demselben Webserver gespeichert sind, aber auch von jedem anderen Ort im Internet bezogen werden k√∂nnen. Dies stellt jedoch nur den theoretisch sehr einfachen Aufbau dar, praktisch bestehen Webseiten aus einer Vielzahl an weiteren strukturierten Textdateien, die etwa das Design der Website regeln (CSS-Dateien) und k√∂nnen zudem √ľber verschiedenste von anderen Websites bezogene und auf der Webseite eingebettete Inhalte (Videos, 3D-Modelle, interaktive Karten etc.) verf√ľgen. Eine der Hauptintentionen jedweder Webseite ist es verschiedene Informationen nach einem vorgegebenen Design in einer bestimmten Abfolge und einem bestimmten Layout dem Nutzer zu vermitteln, vergleichbar zu einer gedruckten Seite in einem Buch. Bei der Archivierung muss beachtet werden, dass f√ľr Webseiten teilweise Dateiformate verwendet werden,die f√ľr die Langzeitarchivierung dezidiert ungeeignet sind, etwa JPEGs.

Generell empfiehlt es sich, die der Webseite zugrundeliegenden Daten (z.B. Text und Bilder) als Einzeldateien jeweils separat in einem geeigneten Archivformat zu archivieren. N√§here Informationen zu den Archivierungsformaten sind in den entsprechenden Kapiteln zu finden. Auch werden nicht alle multimedialen Inhalte, Webanwendungen (z.B. Web-GIS) oder √ľber externe Dienste eingebettete Inhalte mit jeder Archivierungsmethode gespeichert, weshalb in solchen F√§llen besonderes Augenmerk auf die Auswahl der zu verwendenden Methode gelegt werden muss.

Eine Webseite kann als PDF mit Hilfe des Webbrowsers und eines PDF-Generators als PDF-Datei gespeichert und anschlie√üend mit entsprechender Software in ein archivierbares PDF/A-Datei konvertiert werden. Informationen dazu finden sich im Abschnitt PDF-Dokumente. Diese Methode f√ľhrt praktisch immer zu √Ąnderungen des urspr√ľnglichen Layouts. Jedoch k√∂nnen mittels Plug-ins im Webbrowser oder bestimmten Softwareprogrammen Webseiten unter gro√üteiliger Wahrung des Layouts als PDF gespeichert werden. Abschlie√üend muss auch hier eine Konvertierung in das PDF/A-Format vorgenommen werden. Multimediale Inhalte (Videos, 3D-Objekte etc.) werden mit dieser Methode nicht gespeichert.

Die lokale Speicherung einer Webseite aus dem WWW mittels eines Webbrowsers ist einfach m√∂glich und wird durch alle aktuellen Webbrowser unterst√ľtzt. Hierbei gilt es jedoch, bestimmte Speicherformate zu beachten, da nicht alle in den Webbrowsern verf√ľgbaren Formate f√ľr die Archivierung geeignet sind. F√ľr die Strukturierung und Formatierung von Webseiten werden √ľblicherweise die Hypertext Markup Language (HTML) oder die¬† Extensible Hypertext Markup Language (XHTML), sowie Cascading Style Sheets (CSS) verwendet. Es handelt sich dabei um Standards, die vom W3C entwickelt und empfohlen werden, weshalb diese in den Versionen HTML5, XHTML5 und CSS 3 f√ľr die Archivierung empfohlen werden k√∂nnen.

Es bietet sich hier also die M√∂glichkeit der Speicherung der Webseite als HTML- oder XHTML-Datei an. HTML-Dateien (und XHTML) archivieren den strukturierten Text und die Hyperlinks, jedoch nicht die verkn√ľpften Ressourcen (z.B. Bilder, multimediale Inhalte oder externe Inhalte), zudem wird hierdurch nicht das Design der Webseite, welches durch CSS geregelt wird, √ľbernommen, da die entsprechenden Dateien nicht gespeichert werden. Um auch die verkn√ľpften und f√ľr das Design ben√∂tigte Ressourcen zu speichern, k√∂nnen diese automatisch in einen zus√§tzlichen lokalen Ordner geladen werden. In der Regel handelt es sich dabei um HTML/XHTML- und CSS-Dateien, Grafiken, JavaScript-Dateien sowie gegebenenfalls Java Applets und Multimedia-Dateien.

Die lokale Speicherung einer Webseite in einer einzigen Datei wird mittels MIME HTML (MHTML) erm√∂glicht. Es handelt sich um ein textbasiertes Format, das in¬† RFC 2557 spezifiziert wird. In der Regel werden bei MHTML-Dateien das Layout und alle Hyperlinks vollst√§ndig √ľbernommen. Auch hier muss das Speichern von eingebetteten Inhalten gegebenenfalls gesondert vorgenommen werden.

Das offen dokumentierte Mozilla Archive Format (MAFF) erm√∂glicht ebenfalls die Speicherung einer Webseite in Form einer einzelnen Datei. Dabei werden die einzelnen Bestandteile in einem ZIP-Container gespeichert. Da dieses Format aktuell nur von Mozilla Firefox unterst√ľtzt wird, sollte f√ľr die Archivierung jedoch ein anderes Format vorgezogen werden. √Ąhnlich verh√§lt es sich mit dem Format Webarchive, das derzeit jedoch nur durch Appels Safari Webbrowser unterst√ľtzt wird und daher nicht empfohlen werden kann.

Auch HTML-Dateien mit Data-URIs erm√∂glichen die Speicherung einer gesamten Webseite meist unter Beibehaltung des Layouts in einer einzigen Datei. Data-URIs erm√∂glichen es, Ressourcen in HTML einzubetten und sind in RFC 2397 definiert. Es handelt sich dabei um eine spezielle Syntax, mit der bin√§re Daten als ASCII-Zeichenketten kodiert werden. Da Ressourcen als Data-URIs, wie beispielsweise Bilder,¬† direkt und in menschenunlesbarer Form in die Datei integriert werden, k√∂nnen diese nicht nachgenutzt werden, weshalb von einer Speicherung als HTML mit Data-URIs f√ľr die Archivierung abgesehen werden sollte.

Eine andere h√§ufig praktizierte, jedoch eindeutig nicht empfohlene M√∂glichkeit, stellt die Speicherung von Webseiten in der Form von Screenshots dar. Screenshots werden in der Regel im PNG- oder JPEG-Format gespeichert. Dies hat drei Nachteile: (1) Die Konvertierung erfolgt oft in das JPEG-Format, das zur Archivierung nicht geeignet ist. (2) Die Speicherung als Rastergrafik kann in manchen F√§llen aufgrund einer zu niedrigen Aufl√∂sung zu Qualit√§tsverlusten f√ľhren. Au√üerdem wird Text nicht mehr als solcher erkannt und gespeichert. (3) Die Konvertierung der Webseite in eine Grafik f√ľhrt dazu, dass s√§mtliche Hyperlinks desintegriert werden.

Es besteht zwar hinsichtlich der Punkte (1) und (2) die M√∂glichkeit, mit entsprechender Software eine Texterkennung und anschlie√üende Speicherung als PDF/A durchzuf√ľhren, jedoch k√∂nnen hinsichtlich Punkt (3) dadurch keine Hyperlinks wiederhergestellt werden.

Ein anderer Ansatz ist die Archivierung einer Webseite √ľber einen spezialisierten Archivierungsdienst. Solche werden etwa durch die Bayerische Staatsbibliothek (mit Anmeldung) oder die Organisation Internet Archive angeboten. Hier werden die Webseiten auf einem Server des Archivierungsdienstes gespeichert und k√∂nnen auf diesen Plattformen wiederum √ľber das WWW abgerufen werden. Diese Dienste sind auch zur Archivierung ganzer Websites geeignet. F√ľr die Archivierung ganzer Websites gibt es das Format Web ARChive (WARC), das seit 2009 als ISO 28500 standardisiert ist und von dem International Internet Preservation Consortium aufbauend auf dem Format ARC entwickelt wurde. In einer WARC-Datei werden alle Seiten, Ressourcen und weitere Komponenten einer Website gespeichert.

Hinweis: Angaben zur Archivierung von Programmen in JavaScript sowie Java (Java-Applets) finden sich im Kapitel Eigene Programme und Skripte, Ausf√ľhrungen zu multimedialen Inhalten (z.B. 3D-Objekte, Audio oder Video) in den entsprechenden Kapiteln.

Format Begr√ľndung
¬† PDF/A-1, PDF/A-2 PDF/A ist gezielt als stabiles, offenes und standardisiertes Format f√ľr die Langzeitarchivierung unterschiedlicher Ausgangsdateien entwickelt worden.
HTML und XHTML HTML- und XHTML-Dateien k√∂nnen als streng strukturierte Textdokumente, die vom W3C standardisiert sind, problemlos archiviert werden. Die Datei sollte wohlgeformt und in UTF-8 ohne BOM kodiert sein. Es sollte m√∂glichst HTML5 verwendet werden. Zus√§tzliche Dateien, wie CSS, JavaScript oder andere strukturierte Textformate m√ľssen ebenfalls archiviert werden. Eingebettete Ressourcen m√ľssen gesondert archiviert werden.
MHTML MHTML-Dateien k√∂nnen als strukturierte Textdokumente mit genauen Spezifikationen f√ľr die Archivierung verwendet werden. Die Archivierung von eingebetteten Inhalten muss gegebenenfalls gesondert erfolgen.
WARC Web ARChive ist als ISO 28500 standardisiert und dient als Containerformat f√ľr mehrere Webseiten einer Website.
  MAFF Das Format ermöglicht die Speicherung einer ganzen Webseite samt aller zugehöriger Ressourcen komprimiert und verlustfrei in einem ZIP Container und eignet sich zur Langzeitarchivierung, solange die einzelnen Ressourcen selbst in archivfähigen Formaten vorliegen und Hyperlinks entsprechend aktualisiert werden.
HTML mit Data URIs HTML-Dateien können als strukturierte Textdokumente, die weit verbreiteten Konventionen folgen und aufgrund der integrierten DTD, die die verwendete Struktur beschreibt, problemlos archiviert werden. Data URIs sind ebenso spezifiziert.
¬† andere PDF-Varianten Viele g√§ngige PDF-Varianten sind nicht f√ľr die Langzeitarchivierung geeignet. Stattdessen sollten entweder die Ausgangsdateien in einem passenden Format archiviert oder eine Migration in ein PDF/A-Format vorgenommen werden.
Screenshots Screenshots eignen sich nur f√ľr die Dokumentation der Optik der Webseite, jedoch nicht f√ľr die Archivierung der Inhalte, da diese als Rastergrafik gespeichert werden und so kaum nachnutzbar sind.
Webarchive Ist ein Format von Apple, das derzeit auch nur von Safari unterst√ľtzt wird. Es ist nicht f√ľr die Archivierung geeignet.

Dokumentation

HTML, XHTML und MHTML verf√ľgen √ľber einen eigenen Dokumentenkopf, in dem verschiedene Metadaten eingebettet werden k√∂nnen. Es sollten Angaben zur verwendeten Zeichenkodierung, dem Titel des Dokumentes, dem/der AutorIn sowie Stichw√∂rter gemacht werden. Erg√§nzende Metadaten k√∂nnen zus√§tzlich mit Hilfe eines Kommentars in den Kopfdaten der Datei eingef√ľgt werden. Auch in CSS-Dateien k√∂nnen Metadaten als Kommentar eingetragen werden.

Die hier angegebenen Metadaten sind als minimale Angabe zu betrachten und erg√§nzen die angegebenen Metadaten f√ľr Projekte und Einzeldateien in dem Abschnitt Metadaten in der Anwendung.

Metadatum Beschreibung
Titel Titel der Webseite
Kurzbeschreibung Kurze Beschreibung des Inhaltes.
Stichwörter Schlagworte, die den Inhalt beschreiben.
Autor Name des Verfassers oder Erstellers der Datei.
Erstellungsdatum Datum der Erstellung der Datei, also der Archivierung der Webseite.
Bearbeitungsdatum Datum der letzten Bearbeitung der Webseite.
Abschaltung Webserver Datum an dem die Webseite zum letzten Mal online verf√ľgbar war.
URI Internetadresse der archivierten Webseite.
Identifikator Wenn das Dokument bereits veröffentlicht wurde und einen Persistent Identifier erhalten hat, sollte dieser angegeben werden.
Sprache Angabe der im Dokument verwendeten Sprachen. Sprachkennungen nach ISO639 angeben.
Rechte Details zum Urheberrecht.
Standard Name und Version des verwendeten Standards, z.B. HTML5 und CSS 3.
Zeichenkodierung Angabe der verwendeten Zeichenkodierung, z.B. UTF-8 ohne BOM.
Beziehungen Dateien oder Ressourcen, die mit der Datei zusammenh√§ngen, wozu auch fr√ľhere Versionen geh√∂ren. Bei der Archivierung einer Website mit mehreren Webseiten m√ľssen die Beziehungen der einzelnen Seiten untereinander dokumentiert werden, beispielsweise mit einer Sitemap.
Versionsnummer Angabe der Dateiversion, bezogen auf den Inhalt. z.B. 1.3.
Software Name und Version der f√ľr die Archivierung der Seite verwendeten Programme
weitere Dateien Liste von eingebetteten Medien, die zus√§tzlich separat gespeichert wurden. Liegt eine Dokumentationsdatei f√ľr das Dokument vor, muss diese ebenfalls genannt werden.

Weitere Inhalte

Archivierungsmethoden · Browser · CSS · Dynamische Websites · Editoren · Funktionsweise · HTML · JavaScript · Screenshots · Speichern als HTML mit Data-URI· Speichern als MAFF · Speichern als MHTML · Speichern als PDF · URI · URL · Webbrowser · Webseite · Website · Website archivieren · WWW

Das Internet verbindet weltweit verschiedene Computer-Netzwerke. Systeme wie das WWW als Internetdienst ermöglichen dabei den Austausch der Daten. Das WWW selbst ist wiederum ein System aus Hypertexten und Hypermedia im Internet, das via HTTP als Protokoll kommuniziert. Eine Webseite ist in der Regel eine HTML-Datei mit Verweisen, die als Hyperlinks entweder auf andere Stellen im selben Dokument oder auf beliebig viele weitere Ressourcen im WWW verweist. Webseiten bilden die einzelnen Bestandteile einer Website und können sowohl als Homepage (resp. Startseite) als auch in Form jeder beliebigen anderen Seite innerhalb einer Website enthalten sein. Webseiten als HTML-Dokumente können nicht ausschließlich nur im WWW auftreten, sondern etwa auch lokal vorliegen.

Grundsätzliche Funktionsweise

web_funktion.png

In dem Webbrowser (1) erfolgt die Eingabe der URI oder der Klick auf einen Hyperlink (2). Der Webbrowser bezieht die IP-Adresse vom DNS-Server (3). Mit der IP-Adresse wird beim entsprechenden Web-Server das gew√ľnschte Dokument angefragt und zur Verf√ľgung gestellt (4,5). Das angeforderte Dokument wird vom Browser empfangen (6) und dargestellt (7).
In dem Webbrowser (1) erfolgt die Eingabe der URI oder der Klick auf einen Hyperlink (2). Der Webbrowser bezieht die IP-Adresse vom DNS-Server (3). Mit der IP-Adresse wird beim entsprechenden Web-Server das gew√ľnschte Dokument angefragt und zur Verf√ľgung gestellt (4,5). Das angeforderte Dokument wird vom Browser empfangen (6) und dargestellt (7).
Das generelle Vorgehen zum Abrufen einer Webseite in Form einer HTML-Datei kann schematisiert wie folgt beschrieben werden: Nach dem √Ėffnen des Webbrowsers (1) erfolgt die Eingabe der URI (z.B. http://www.ianus-fdz.de/) bzw. der Klick auf einen Hyperlink (2). Dies bewirkt, dass der Webbrowser anhand der in der URI enthaltenen Domain (z.B. www.ianus-fdz.de) die Internet Protocol (IP) Adresse von einem Domain Name System (DNS) Server bezieht (3); den Datenaustausch regelt das Transmission Control Protocol (TCP). Jedes Ger√§t, mit dem eine Internetverbindung hergestellt werden kann, verf√ľgt √ľber eine IP-Adresse, die eine eindeutige Identifikation des Ger√§tes erm√∂glicht. Anhand der IP-Adresse fragt nun der Webbrowser als Web-Client um das gew√ľnschte HTML-Dokument beim entsprechenden Web-Server, auf dem das Dokument gespeichert ist, an (4). Der Web-Server stellt nun das angeforderte HTML-Dokument zur Verf√ľgung (5), welches vom Webbrowser empfangen (6) und dargestellt wird (7). Siehe dazu die nebenstehende Abbildung.

Dies ist nur ein grunds√§tzlicher √úberblick hinsichtlich der wichtigsten Elemente. Ausf√ľhrlichere Informationen finden sich auf https://wiki.selfhtml.org/wiki/Grundlagen. Zur Geschichte des Internets und WWW existieren zahlreiche Abhandlungen, siehe hierf√ľr etwa detailliert https://wiki.selfhtml.org/wiki/Grundlagen/Entstehung_des_Internet.

Webbrowser

Ein Webbrowser ist ein Computerprogramm zum Abrufen sowie Darstellen von Ressourcen (HTML-Dokumente, multimediale Inhalte, ganze Webanwendungen etc.) und ist die Schnittstelle zwischen dem Nutzer und dem WWW. Er erm√∂glicht das sequenzielle Abrufen und Betrachten von Webseiten unter Verwendung von Hyperlinks im WWW (surfen), wobei es keine Rolle spielt, ob eine anzuzeigende Ressource √ľber das WWW oder lokal zur Verf√ľgung gestellt wird. F√ľr die Darstellung der Ressourcen k√∂nnen Plug-ins herangezogen werden. Ein Webbrowser erm√∂glicht zudem die Speicherung von Dateien und Programmen aus dem Internet auf dem Computer. Heutige Webbrowser unterst√ľtzen die Anzeige mehrerer Fenster gleichzeitig in Form von Tabs (Registerkarten, Reiter). Beliebte aktuelle Webbrowser sind Google Chrome, Mozilla Firefox, Microsoft Internet Explorer, Apple Safari und Opera: http://www.w3schools.com/browsers/

URIs

Uniform Resource Identifiers (URI, einheitlicher Bezeichner f√ľr Ressourcen) erm√∂glichen die Identifikation einer Ressource (z. B. einer Webseite oder eines PDF-Dokumentes) im Internet. Im Bereich des WWW treten URIs vor allem als Uniform Resource Locators (URL, einheitlicher Quellenanzeiger, also die eigentlichen "Internetadressen", z. B. http://www.ianus-fdz.de/) undUniform Resource Names (URN, einheitlicher Name f√ľr Ressourcen) auf: URLs definieren dabei im WWW den Ort einer Ressource, URNs benennen die Ressource selbst. Eine URN kann mit einer oder mehreren URLs verkn√ľpft sein, etwa wenn dieselbe Ressource an verschiedenen Speicherorten verf√ľgbar ist. Unter anderem verwenden Nationalbibliotheken URNs als Persistente Identifikatoren zur Kennzeichnung von Onlinepublikationen: Die Deutsche Nationalbibliothek hat beispielsweise das Dokument "Policy f√ľr die Vergabe von URNs im Namensraum urn:nbn:de" mit der URN <urn:nbn:de:101-2012121200> ausgestattet. Man ben√∂tigt f√ľr gew√∂hnlich einen URN-Resolver, der die zum URN geh√∂rige(n) URL(s) anzeigt, um an die gew√ľnschte Ressource zu gelangen. Die Deutsche Nationalbibliothek bietet einen solchen unter der URI http://nbn-resolving.org/ an, wo f√ľr die URN <urn:nbn:de:101-2012121200> (= "Name")¬† die URL http://d-nb.info/1029114455/34 (= "Adresse") angegeben wird. Detaillierte Informationen zu URIs, URLs, URNs und persistenten Identifikatoren sind in dem "Abschlussbericht Testbed 'Persistent Identifiers'" zu finden.

Webseiten

Unter der Verwendung von HTML, CSS, JavaScript sowie weiteren Ressourcen, z. B. Rastergrafiken, Vektorgrafiken, Video- oder Audiodateien werden Webseiten erstellt. Die einzelnen Ressourcen können in verschiedenen Ordnern oder sogar an verschiedenen Orten liegen. Eine Webseite besteht hierbei aus drei grundsätzlichen Schichten: der Struktur, dem Layout und dem Verhalten. Die Struktur bzw. der Aufbau wird durch HTML organisiert, CSS definiert das Layout der Webseite und JavaScript bestimmt, wie sich die Webseite bei Interaktionen des Nutzers verhält. Weitere Informationen dazu finden sich auf https://wiki.selfhtml.org/wiki/HTML/Tutorials/Trennung_von_Inhalt,_Pr%C3...

HTML

Bei Hypertext Markup Language (HTML) handelt es sich um eine Auszeichnungssprache, durch die Dokumente strukturiert beschrieben werden k√∂nnen. HTML kann zur Erstellung von Webseiten aber auch zur Erstellung von lokalen Dokumenten verwendet, ausgedruckt oder mit Hilfe synthetischer Stimmen barrierefrei f√ľr Menschen mit Sehbeeintr√§chtigungen auf Audio-Systemen ausgegeben werden. Webbrowser visualisieren die Auszeichnungsbefehle unter eventueller Ber√ľcksichtigung von CSS-Dateien und machen so das Dokument menschenlesbar. Ein Kernelement von HTML ist die Verf√ľgbarkeit von Verweisen in Form von Hyperlinks, durch die andere Stellen im selben Dokument, aber auch andere Ressourcen im WWW und im Internet aufgerufen werden k√∂nnen.

Der aktuelle Standard f√ľr HTML-Dateien ist HTML5 und wird mit einer Dokumenttypdeklaration am Beginn der HTML-Datei angegeben. Da HTML im ASCII-Zeichensatz verfasst wird, eignen sich Text-Editoren bzw. spezialisierte HTML-Editoren zur Bearbeitung. HTML5 verwendet als Standardzeichensatz UTF-8, was auch beibehalten werden sollte.

Das Grundger√ľst einer HTML Datei besteht aus:

  • Der Dokumenttypdeklaration in der Form <!DOCTYPE html> f√ľr HTML5.
  • Dem HTML-Wurzelelement <html>, welches den Inhalt der HTML-Datei umklammert.
  • Dem Kopfelement <head>, welches die Kopfdaten (z.B. das verpflichtende Titelelement) beinhaltet. Auch ist hier der geeignete Ort f√ľr allgemeine Kommentare zum HTML Dokument (z.B. Metadaten). Die Kopfdaten werden im Browser nicht angezeigt.
  • Dem Titelelement <title> als Teil des <head>, welches verpflichtend anzugeben ist.
  • Dem K√∂rperelement <body>, das den anzuzeigenden Inhalt enth√§lt.

Dieser Aufbau gestaltet sich in HTML folgendermaßen:

<!DOCTYPE html>
<html>
    <head>
        <title></title>
    <!-- Kommentare -->
    </head>
    <body>
        anzuzeigender Inhalt
    </body>
</html>

Bei HTML-Dokumenten können zusätzliche Informationen wie z.B. Metadaten als Kommentare an beliebiger Stelle eingegeben werden, wie etwa der <head>-Bereich. Kommentare werden durch die Zeichenfolge <!-- eingeleitet und durch die Zeichenfolge --> abgeschlossen. Sie werden von einem Webbrowser generell nicht angezeigt, können jedoch mittels eines Texteditors dargestellt werden.

Ein kurzes Beispieldokument mit rudiment√§ren Metadaten in HTML, das in einem Webbrowser den Text "Test√ľberschrift: Dies ist ein einfaches Beispiel" anzeigt, k√∂nnte wie folgt aussehen:

<!DOCTYPE html>
<html>
    <head>
        <meta charset="utf-8">
        <meta name="description" content="Ein Beispieldokument">
        <meta name="keywords" content="example, html, dai, ianus">
        <meta name="author" content ="Dominik Hagmann">
        <title>Beispieldokument</title>
        <!-- Weitere Metadaten: Erstellt: 11.2016, Lizenz: CC-BY -->
    </head>
    <body>
¬†¬† ¬†¬†¬† ¬†<h1>Test√ľberschrift: </h1>
        <p>Dies ist ein einfaches Beispiel.</p>
    </body>
</html>

CSS

Cascading Style Sheets (CSS) dienen zur Formatierung von HTML- und XML-Dokumenten. HTML-Dokumente besitzen einige vom jeweiligen Browser vorgegebene Formatierungen, etwa hinsichtlich der Gestaltung der √úberschriften oder der Hyperlinks. Mittels CSS k√∂nnen deutlich umfangreichere Designs erzeugt werden; CSS-Dateien, die die Formatierung regeln, sind f√ľr professionelles Web-Design von h√∂chster Bedeutung. CSS erm√∂glicht die Formatierung aller HTML-Elemente sowie zahlreicher weiterer Bestandteile, die nicht in HTML enthalten sind. Wahlweise kann mittels CSS global das gesamte Design auf einmal bestimmt oder aber auch die Formatierung einzelner HTML-Objekte individuell definiert werden. F√ľr CSS eignen sich dieselben Editoren wie f√ľr HTML.

Durch einen Selektor wird in der CSS-Datei ein Element angewählt und der Wert der Eigenschaft definiert. Dies geschieht in der Form "`Selektor \{Eigenschaft : Wert; \}"'. Folgendes Beispiel färbt alle Buchstaben eines Absatzes blau ein:

p {color: blue; }

JavaScript

Bei JavaScript (nicht zu verwechseln mit den Programmiersprachen Java und JScript) handelt es sich um eine Implementation der Skriptsprache ECMAScript und ist die am weitesten verbreitete Programmiersprache f√ľr Webseiten. Mittels JavaScript k√∂nnen Webseiten um Zusatzfunktionen erg√§nzt werden. Dabei kann der JavaScript Code abh√§ngig von dessen Einsatzzweck direkt in der HTML-Datei im Head oder Body eingebettet oder in einer separaten Datei mit der Endung .js vorhanden sein. Allgemein empfiehlt es sich, JavaScript extern als js-Datei zu speichern und in dem HTML-Dokument mittels einer Skriptreferenz darauf zu referenzieren.

JavaScript stattet Webseiten mit Elementen aus, durch die der User mit der Webseite interagieren kann. Ein Beispiel f√ľr eine solche Interaktion auf einer Webseite ist, per Mausklick auf einen Button den Inhalt von Textabschnitten zu √§ndern: http://www.w3schools.com/js/tryit.asp?filename=tryjs_whereto_head. In diesem Beispiel ist das Skript in HTML eingebettet:

<!DOCTYPE html>
<html>
    <head>
        <script>
            function myFunction() {
                document.getElementById("Beispiel").innerHTML=
                    "... der nun verändert wurde ;-)";
            }
        </script>
    </head>
    <body>
        <h1>Beispiel zu JavaScript</h1>
¬†¬† ¬†¬†¬† ¬†<p id="Beispiel">Dies ist der urspr√ľngliche Text...</p>
        <button type="button" onclick="myFunction()">
¬†¬† ¬†¬†¬† ¬†¬†¬† ¬†Bitte dr√ľcken
        </button>
    </body>
</html>

Ist der Code in einer separaten Datei gespeichert, benötigt man eine Skriptreferenz:

<script src="Beispielskript.js"></script>

Aufgrund des Umfangs wird nicht weiter auf JavaScript im Speziellen eingegangen. Weiterf√ľhrende Informationen finden sich beispielsweise auf https://wiki.selfhtml.org/wiki/JavaScript/Tutorials/Einf%C3%BChrung

Dynamische Websites

Wenn die angezeigten Inhalte einer Webseite aus einer zugrunde liegenden Datenbank stammen, handelt es sich um eine dynamische Webseite. Bei dem Besuch einer dynamischen  Webseite wird also nicht ein fertiges statisches HTML-Dokument abgerufen, sondern ein anzuzeigendes HTML-Dokument wird ad-hoc und individuell aus den Einträgen in der Datenbank generiert. Mit Hilfe von Content-Management-Systemen (CMS), wie beispielsweise Joomla, Drupal, Typo3 oder WordPress, können die Inhalte solcher Websites auch ohne HTML-Kenntnisse verwaltet und gepflegt werden.

F√ľr die Archivierung von vollst√§ndigen CM-Systemen gelten umfangreichere Anforderungen, als bei der Archivierung einzelner, zum Zeitpunkt des Aufrufes, statischer Webseiten daraus. Es muss beispielsweise entschieden werden, ob der gesamte Funktionsumfang der Website oder lediglich die darin enthaltenen Informationen gesichert werden sollen.

In diesem Abschnitt werden Programme und Editoren vorgestellt, um eine Webseite zu bearbeiten.¬† Neben einer allgemeinen √úbersicht der Archivierungsm√∂glichkeiten, wird auf die verschiedene M√∂glichkeiten eingegangen, um Webseiten als PDF, MHTML, MAFF oder HTML mit Data-URIs zu archivieren. Auch Archivierungsm√∂glichkeiten f√ľr gesamte Websites werden vorgestellt, sowie einige Hinweise zu Screenshots gegeben. Zahlreiche Hinweise finden sich auch im Praxisabschnitt des Kapitels Textdokumente.

Editoren

Um HTMl, CSS und JavaScript Dateien von Webseiten zu bearbeiten, wird ein Texteditor ben√∂tigt. Eine ausf√ľhrliche √úbersicht bietet der Abschnitt Praxis im Kapitel Textdokumente. Zus√§tzlich zu den dort besprochenen Editoren existieren spezielle Editoren f√ľr das Webdesign, unter Umst√§nden mit WYSIWYG-Modi, bzw. m√§chtige Code-Editoren, die umfangreiche M√∂glichkeiten zur Codeerstellung bieten, jedoch oftmals auch das n√∂tige Hintergrundwissen hinsichtlich der verwendeten Sprache und deren Syntax verlangen. Ein Beispiel f√ľr einen WYSIWYG-Editor ist Adobe Muse CC, Beispiele f√ľr professionelle Code-Editoren sind Adobe Dreamweaver CC und Sublime Text von Jon Skinner wobei es sich jeweils um propriet√§re Softwarel√∂sungen handelt. Die Systeme von Adobe sind f√ľr Windows und Mac OS verf√ľgbar, Sublime Text zus√§tzlich f√ľr Linux.

Frei verf√ľgbare Alternativen stellen Aptana Studio, SeaMonkey und¬† BlueGriffon dar, die alle f√ľr Windows, Mac OS und Linux verf√ľgbar sind. Aptana Studio bietet Werkzeuge zur Erstellung von HTML, CSS und JavaScript. SeaMonkey und BlueGriffon haben einen WYSIWYG-Editor.

Archivierungsmethoden

Die Archivierung einer Webseite wird schnell und einfach durch ihre Konvertierung in eine PDF-Datei und anschließende Speicherung als PDF/A-Datei bewerkstelligt. Sie kann auf unterschiedliche Weise mittels des Webbrowsers, durch eigene Online-Konvertierungsdienste oder spezielle Softwareprogramme erfolgen.

Alternativ kann eine Speicherung und Archivierung der Webseite als HTML-Datei mit Data URIs, MHTML-Datei oder MAFF-Container vorgenommen werden. Hierbei ist zu beachten, dass nicht alle Webbrowser alle Formate unterst√ľtzen bzw. ein vorhergehendes Entpacken der komprimierten Webseite n√∂tig ist. Eine √úbersicht der unterst√ľtzten Formate f√ľr aktuelle Webbrowser ist in den folgenden Tabellen gegeben.

Webbrowser Data-URI MAFF MHTML PDF
Chrome (54.0.x) ‚úď (‚úď)* ‚úď ‚úď
Edge ‚úď (‚úď)* ‚úē ‚úď
Firefox (49.0.x) ‚úď ‚úď (‚úď)** ‚úď
Internet Explorer (11.x) ‚úď (‚úď)* ‚úď ‚úď
Opera (40.0.x) ‚úď (‚úď)* ‚úď ‚úď
Safari (10.0.x) ‚úď (‚úď)* (‚úď)** ‚úď
Vivaldi (1.4.x) ‚úď (‚úď)* ‚úď ‚úď
*vorheriges Entpacken **PlugIn benötigt
Webbrowser Data-URI MAFF MHTML PDF
Chrome (54.0.x) (‚úď)* (‚úď)* ‚úď** ‚úď
Firefox (49.0.x) ‚úē ‚úď ‚úď* ‚úď
Internet Explorer (11.x) ‚úē ‚úē ‚úď ‚úď
Opera (40.0.x) ‚úē* ‚úē ‚úď ‚úď
Safari (10.0.x) ‚úē ‚úē ‚úē ‚úď
Vivaldi (1.4.x) ‚úē ‚úē ‚úď** ‚úď
*PlugIn benötigt **MHTML muss aktiviert werden

Eine weitere Methode stellt die Archivierung der Webseite durch spezielle Archivierungsdienste (z.B. Internet Archive https://archive.org/web/) dar.

Allen Methoden ist gemein, dass sie f√ľr gew√∂hnlich keine multimedialen (und extern von anderen Webseiten) eingebundene Inhalte (Video, 3D-Modelle) in die PDF-Datei integrieren. Derartige Inhalte m√ľssen in der Regel separat archiviert werden.

Archivierung als PDF

Jeder Webbrowser ermöglicht das Ausdrucken einer Webseite, durch Verwendung eines PDF-Druckers. Anschließend  kann das PDF in PDF/A konvertiert werden. Nähere Informationen zur Generierung von PDF-Dateien findet sich im Praxisteil des Kapitels PDF-Dokumente.

Diese Methode stellt sicher, dass alle Informationen der angezeigten Webseite (exklusive multimedialer Inhalte, etwa Videos oder eingebettete 3D-Modelle) gespeichert und anschlie√üend archiviert werden kann. Je nach Webseite, Webbrowser und PDF-Drucker variiert das Ergebnis jedoch hinsichtlich der √úbernahme des Layouts. Meist k√∂nnen direkt im Browser oder in den Einstellungen des PDF-Generators f√ľr den Ausdruck typische Parameter konfiguriert werden: Druck der gesamten Webseite oder eines Auszugs, definiert durch die Seitenzahlen, Hoch- oder Querformat, Druck in Farbe oder Graustufen/Schwarz-Wei√ü, Papierformat, Seitenr√§nder, Aufl√∂sung, Hintergrundgrafiken, Kopf- und Fu√üzeilen (diese enthalten in der Regel das Datum des Ausdrucks und die URI der ausgedruckten Webseite). Eingeschr√§nkte Formatierungen k√∂nnen besonders durch die Anpassung der R√§nder, des verwendeten Papierformats und dessen Orientierung vorgenommen werden.

Spezielle Plug-Ins f√ľr Webbrowser erm√∂glichen es, die Webseite auch unter Beibehaltung des Layouts als PDF-Datei zu speichern. Sie bieten oftmals umfangreiche Optionen hinsichtlich der gew√ľnschten PDF-Datei, so z.B. die Speicherung als ein langes, durchgehendes Dokument im Format der Webseite, was die Adaptierung der Webseite auf ein bestimmtes Format (z.B. A4) und die damit verbundene Aufsplittung der Webseite in ein mehrseitiges PDF-Dokument obsolet macht. Anschlie√üend kann diese wieder in eine PDF/A konvertiert werden. Je nach verwendetem Webbrowser und Plug-in sowie besuchter Webseite k√∂nnen die Ergebnisse zwischen Original und Kopie variieren. Den PDF-Dateien werden zudem meistens Angaben zum verwendeten Plug-in in Form eines Wasserzeichens hinzugef√ľgt. Derzeit aktuelle Plug-ins sind etwa "Firefox Web2PDF Converter", "Save as PDF" sowie "FireShot". Das Angebot an solchen Plug-ins ist sehr vielf√§ltig, umfangreich und schnelllebig; diese und weitere Plug-ins k√∂nnen von den jeweiligen auf Webbrowsererweiterungen spezialisierten Onlinestores der einzelnen Anbieter bezogen werden.

Eine weitere M√∂glichkeit bietet die Konvertierung einer Webseite durch einen Online-Konvertierungsdienst, etwa Web2PDF. Nach der Eingabe der URI der zu konvertierenden Webseite wird ein PDF-Dokument generiert und zum Download angeboten. Je nach Webseite und Konvertierungsdienst k√∂nnen die Ergebnisse zwischen Original und Kopie variieren. Den PDF-Dateien werden zudem meistens Angaben zum verwendeten Plug-in in Form eines Wasserzeichens hinzugef√ľgt. Im Anschluss an den Download kann die PDF-Datei zu einer PDF/A-Datei konvertiert und archiviert werden.

web_pdf.png

Das Glossar der IT-Empfehlungen als Screenshot (links), als mit dem Browser erzeugte PDF-Datei (mitte) und als mittels dem "`Save as PDF"'-Plug-in erzeugtes PDF (rechts).
Das Glossar der IT-Empfehlungen als Screenshot (links), als mit dem Browser erzeugte PDF-Datei (mitte) und als mittels dem "`Save as PDF"'-Plug-in erzeugtes PDF (rechts).

Spezielle (kommerzielle) Programme wie die Literaturverwaltungssoftware Citavi beherrschen ebenso das Speichern von Webseiten unter Beibehaltung des Layouts als PDF. Auch bietet etwa Adobe Acrobat Pro DC eine Option zur Konvertierung von Webseiten in ein PDF-Dokument.

Archivierung als MHTML

web_vivaldi.png

Einstellungen im Webbrowser Vivaldi
Einstellungen im Webbrowser Vivaldi
MHTML-Dateien k√∂nnen mit Webbrowsern erstellt und ge√∂ffnet werden. Auch mit Texteditoren k√∂nnen MHTML-Dateien angesehen werden. Jedoch ben√∂tigen Firefox und Safari noch ein Plug-in. Bei den Webbrowsern Chrome und Vivaldi muss zuvor MHTML in den experimentellen Funktionen aktiviert werden: Bei Chrome wird hierf√ľr chrome://flags/, bei Vivaldi vivaldi://flags in die Adresszeile eingegeben und die entsprechende Funktion aktiviert. Ein Neustart des Webbrowsers wird danach ben√∂tigt. Im Head der MHTML-Dateien k√∂nnen Metadaten mittels eines Texteditors eingetragen werden. Der Inhalt wie auch das Layout und alle Hyperlinks werden bei MHTML-Dateien in der Regel vollst√§ndig √ľbernommen.

web_mhtml.png

Der Quellcode einer MHTML-Datei. Rechts ist der Code einer eingebetteten Grafik zu sehen.
Der Quellcode einer MHTML-Datei. Rechts ist der Code einer eingebetteten Grafik zu sehen.

Archivierung als MAFF-Datei

Die Speicherung einer Webseite als MAFF-Datei wird derzeit nur von Mozilla Firefox mittels des Plug-ins "Mozilla Archive Format, with MHT and Faithful Save" unterst√ľtzt. MAFF-Dateien k√∂nnen nur von Mozilla Firefox mit diesem Plug-in ge√∂ffnet werden. Alle weiteren, aktuellen Webbrowsern k√∂nnen MAFF_Dateien √∂ffnen, indem sie mittels eines Datenkompressionsprogramms entpackt werden.

Archivierung als HTML mit Data-URI

Alle aktuellen Webbrowser k√∂nnen HTML-Dateien mit Data-URIs √∂ffnen. Derzeit beherrscht nur der Webbrowser Google Chrome die Speicherung von Webseiten als HTML-Dateien mit Data-URIs mittels des Plug-ins "`SingleFile"'. Eine alte Version des gleichen Plug-ins existiert auch f√ľr fr√ľhere Versionen des Webbrowsers Opera.¬† Im Head der HTML-Dateien mit Data-URLs k√∂nnen Metadaten mittels eines Texteditors eingetragen werden. Der Inhalt wie auch das Layout und alle Hyperlinks werden bei HTML-Dateien mit Data-URIs in der Regel vollst√§ndig √ľbernommen.

web_datauri.png

Links der Quellcode einer HTML-Datei mit Data-URIs. Rechts die Darstellung im Browser. Eindeutig erkennbar ist die vollständige Übernahme des Inhalts samt der Hyperlinks sowie die vollständige Übernahme des Designs. Der blau unterstrichene Codeblock ist eine Data-URI eines Bildes.
Links der Quellcode einer HTML-Datei mit Data-URIs. Rechts die Darstellung im Browser. Eindeutig erkennbar ist die vollständige Übernahme des Inhalts samt der Hyperlinks sowie die vollständige Übernahme des Designs. Der blau unterstrichene Codeblock ist eine Data-URI eines Bildes.

Archivierung von Websites

web_wayback.png

Screenshot der Webseite von IANUS in Google Chrome im Vollbild (oben) und ein Abbild der Webseite auf Internet Archive. Eindeutig erkennbar ist die vollständige Übernahme des Inhalts samt der Hyperlinks sowie die vollständige Übernahme des Designs.
Screenshot der Webseite von IANUS in Google Chrome im Vollbild (oben) und ein Abbild der Webseite auf Internet Archive. Eindeutig erkennbar ist die vollständige Übernahme des Inhalts samt der Hyperlinks sowie die vollständige Übernahme des Designs.
Webseiten k√∂nnen durch Websitearchivierungsdienste archiviert werden, wie sie durch die Bayerische Landesbibliothek (auf Antrag) oder Internet Archive angeboten werden. Dabei erfolgt die Speicherung einer Webseite auf einem Server dieser Dienste und kann √ľber das Internet abgerufen werden. Man gibt dazu die URI der zu archivierenden Seite¬† bei dem Archivierungsdienst an und wird kurz darauf auf die archivierte Seite unter einer neuen URI weitergeleitet. Es kann sowohl die einzelne Webseite als auch die gesamte (oder ein Gro√üteil) der gesamten Website archiviert werden. Metadaten m√ľssen separat z.B. in Form einer XML-Datei, die auch den Link zur archivierten Seite enth√§lt, gespeichert werden. Da Websitearchivierungsdienste wie Internet Archive das WWW auch selbstst√§ndig durchsuchen und Websites archivieren, kann die zu archivierende Webseite bereits auf dieser Plattform gesichert worden sein. Dies wird durch die Archivierungsdienste jedoch gesondert ausgewiesen und hindert nicht daran, die Webseite zus√§tzlich ein weiteres Mal zu archivieren. Plug-ins wie "`Archiveror"' f√ľr Google Chrome oder Mozilla Firefox erm√∂glichen die Archivierung einer Webseite direkt aus dem Browser heraus auf Internet Archive.

Dezidierte Softwarel√∂sungen wie Wget oder Heritrix erm√∂glichen den automatisierten Abruf aller zu einer Website geh√∂renden Komponente. Sie wurden prim√§r f√ľr Linux entwickelt, k√∂nnen aber auch auf anderen Betriebssystemen verwendet werden. Beide sind frei verf√ľgbar und k√∂nnen die gefundenen Ressourcen als WARC-Datei speichern.

Screenshots von Webseiten

Die Speicherung von Webseiten in der Form von Screenshots ist nicht f√ľr die Archivierung geeignet, ist aber ein gutes Hilfsmittel, um das urspr√ľngliche Aussehen der Webseite zu dokumentieren. Screenshots k√∂nnen mit Hilfe der Screenshot-Funktion des Computers, spezieller Screenshot Software (z.B. Microsofts Snipping Tool) oder durch eigene, auf die Verarbeitung von Webseiten spezialisierte Plug-ins f√ľr Webbrowser erzeugt werden. W√§hrend f√ľr gew√∂hnlich mit der Screenshot Funktion des Computers der gesamte Bildschirm bzw. aktive Fenster und mit Screenshot Softwarel√∂sunge zus√§tzlich einzelne Bildauschnitte als Grafiken gespeichert werden k√∂nnen, fertigen erw√§hnte Plug-ins einen Screenshot der gesamten Webseite oder eines ausgew√§hlten Teiles davon an. Screenshots werden durch die erw√§hnten Funktionen und Programme in der Regel im PNG- oder JPEG-Format gespeichert.

U. Ackermann -- C. Berner -- N. Elbert -- J. Kett -- K. K. Ko√ßer -- N. von der Hude -- M. Wiegand, Policy f√ľr die Vergabe von URNs im Namensraum urn:nbn:de (2012)
http://d-nb.info/1029114455/34

N. Br√ľgger, Archiving Websites. General Considerations and Strategies (Aarhus 2005)
http://cfi.au.dk/fileadmin/www.cfi.au.dk/publikationer/archiving_undersi...

Archaeology Data Service ‚Äď- Digital Antiquity, Documents and Digital Texts: A Guide to Good Practice. Section 2. Creating Texts and Documents
http://guides.archaeologydataservice.ac.uk/g2gp/TextDocs_2

Archaeology Data Service ‚Äď- Digital Antiquity, Documents and Digital Texts: A Guide to Good Practice. Section 3. Archiving Texts and Documents
http://guides.archaeologydataservice.ac.uk/g2gp/TextDocs_3

DOI (Hrsg.), DOI Handbook
https://www.doi.org/hb.html

A. Rauber -- H. Liegmann, Webarchivierung zur Langzeiterhaltung von Internet-Dokumenten, in: H. Neuroth -- A. Oßwald -- R. Scheffel -- S. Strathmann -- K. Huth (Hrsg.) nestor Handbuch. Eine kleine Enzyklopädie der digitalen Langzeitarchiverung. Version 2.3 (2010) Kap. 17.9
http://www.nestor.sub.uni-goettingen.de/handbuch

S. M. Schafer, HTML, XHTML, and CSS Bible 4(Indianapolis 2008)

M. Sch√§fer, Einf√ľhrung in JavaScript ‚Äď Deutschsprachige Dokumentation der Programmiersprache JavaScript
http://molily.de/js/

SELFHTML-Wiki, Glossar
https://wiki.selfhtml.org/wiki/Kategorie:Glossar

M. Trognitz, Abschlussbericht Testbed "`Persistent Identifiers"' (2013)
http://www.ianus-fdz.de/attachments/download/560/Testbed-Persistent%20Id...

W3C (Hrsg.), CSS
https://www.w3.org/Style/CSS

W3C (Hrsg.), DOM
https://www.w3.org/DOM

W3C (Hrsg.), HTML
https://www.w3.org/html

W3C
https://www.w3c.org

W3schools
http://www.w3schools.com/default.asp

Formatspezifikationen

Tools und Programme

Webseiten - Diskussion

Haben Sie Anregungen, √Ąnderungsw√ľnsche oder Erg√§nzungen zu dem Kapitel? Dann k√∂nnen Sie diese als Diskussionsbeitrag formulieren. Um die Funktion zu nutzen, ist eine Anmeldung erforderlich.

Bitte geben Sie möglichst genau an, worauf Sie sich beziehen.

Das IANUS-Team pr√ľft die Diskussionsbetr√§ge regelm√§√üig und arbeitet diese bei Relevanz in die IT-Empfehlungen ein.

Letzte Änderung: 21. M√§rz 2017