PDF-Dokumente - Vertiefung

Eine wesentliche Eigenschaft und St√§rke von PDF-Dateien ist die Tatsache, dass sie ganz unterschiedliche Inhalte enthalten k√∂nnen. So lassen sich neben Texten und Navigationshilfen, wie etwa Inhaltsverzeichnisse mit Textankern, auch andere Informationen wie Bilder, Verktorgrafiken, 3D-Visualisierungen, Tabellen, Pr√§sentationen oder GIS-Karten einbinden, die zusammen mit allen urspr√ľnglich verwendeten Layoutmerkmalen gespeichert werden. Daher werden die meisten Publikationen wie elektronische Zeitschriften oder Infomaterialien auf Webseiten √ľblicherweise als PDF-Dateien zur Verf√ľgung gestellt. Bei der Langzeitarchivierung von Dateien spielt das PDF/A-Format eine besondere Rolle. In dessen Spezifikation wird unter anderem vorgeschrieben, Schriften in das Dokument einzubetten und Farben ger√§teneutral zu definieren. Auf diese Weise wird gew√§hrleistet, dass das originale Aussehen eines Dokuments wie in der urspr√ľnglichen Anwendung und wie vom Autor intendiert erhalten bleibt. Die Intention von PDF-Dateien ist insofern die Erhaltung der urspr√ľnglichen Darstellung, nicht aber der urspr√ľnglichen Bearbeitungsfunktionalit√§ten.

Um eine m√∂glichst gro√üe Authentizit√§t einer PDF-Datei zu erlangen, sind die M√∂glichkeiten zur nachtr√§glichen Bearbeitung sehr begrenzt. Es k√∂nnen Kommentare hinzugef√ľgt, Seiten eingebunden oder gel√∂scht, oder Textstellen geschw√§rzt werden. Eingeschr√§nkt sind Ver√§nderungen der eigentlichen Inhalte oder des Layouts m√∂glich, wie z. B. √Ąnderungen von Farben in einem Foto oder Umformulierungen von Texten. Als Nachteil ergibt sich daraus, dass die urspr√ľngliche Funktionalit√§t der nach PDF/A konvertierten Datei verloren geht und eine Nachnutzung der Inhalte wenn √ľberhaupt nur mit Qualit√§tsverlusten m√∂glich ist. So k√∂nnen beispielsweise tabellarische Daten aus einer PDF-Datei nicht ohne einen zus√§tzlichen Mehraufwand in eine neue Tabelle √ľbernommen werden, wobei Bearbeitungsfehler auftreten k√∂nnen.

Da aber zunehmend Softwarel√∂sungen existieren, die diese Einschr√§nkungen der nachtr√§glichen Bearbeitung aufl√∂sen oder umgehen, w√§chst der Bedarf an Schutzmechanismen gegen ungewollte √Ąnderungen durch Dritte. Dazu z√§hlen beispielsweise die Festlegung von einfachen Nutzungseinschr√§nkungen, wie etwa die Erlaubnis zum Drucken, zum Kopieren von Inhalten oder zur Bearbeitung der im PDF gespeicherten Metadaten, oder die Vergabe von Passw√∂rtern. F√ľr Dateien, bei denen eine Langzeitarchivierung vorgesehen ist, d√ľrfen allerdings keine Schutzfunktionen verwendet werden, damit sie ohne Hindernisse jederzeit nutzbar sind. Falls notwendig k√∂nnen Einschr√§nkungen als Lizenzhinweise formuliert werden; die Authentizit√§t eines Dokumentes kann durch Signaturen, Zeitstempel und/oder digitale Pr√ľfsummen gew√§hrleistet werden.

Inhalte

Dateien im PDF-Format k√∂nnen durch unterschiedliche Anwendungen erzeugt werden und daher ganz unterschiedliche Inhalte enthalten und darstellen. F√ľr jede Dateiart gibt es spezifische Aspekte, die es zu beachten gilt, insbesondere dass einige Inhalte nicht mit den Vorgaben von PDF/A vereinbar sind.

Texte: Standardm√§√üig sind in PDF-Readern bereits 14 Schriftarten verf√ľgbar. Es lassen sich aber auch weitere in ein PDF-Dokument einbetten, um eine korrekte Darstellung zu gew√§hrleisten. Mithilfe von OCR-Software kann in PDF-Dokumenten eine nachtr√§gliche Texterkennung durchgef√ľhrt werden.

Bilder: Wie bei normalen Rastergrafiken können auch in PDF-Dateien eingebettete Bilder durch spezielle Kompressionsverfahren in ihrer Speichergröße reduziert und in ihrer Auflösung heruntergerechnet werden. Bei fast allen Verfahren ist dies mit einem Informationsverlust verbunden, der vor allem die Genauigkeit und Qualität der Anzeige betrifft.

Vektorgrafiken: Vektorgrafiken in PDF-Dateien können wie die Ausgangsdateien frei skaliert werden.

3D: Es gibt zwei PDF-Formate, in die 3D-Dateien eingebettet und mit Adobe Reader geöffnet und betrachtet werden können. Auf diese Weise lassen sich auch 3D-Objekte austauschen und mit einfachen Funktionen bedienen, z. B. in der Ansicht drehen, Lichteinstellungen verändern oder Aufsichten und Schnittflächen erzeugen.

PDF-Varianten

PDF-Dateien sind inzwischen ein sehr weit verbreitetes Austauschformat, das in ganz unterschiedlichen Kontexten Verwendung findet. Um eine gleichbleibende Qualit√§t zu gew√§hrleisten, wurden f√ľr die h√§ufigsten Anwendungsf√§lle mehrere Normen und Standards festgelegt:

  • PDF/X - Format f√ľr die √úbermittlung von Druckvorlagen (seit 2001)
  • PDF/A - Format f√ľr die elektronische Archivierung (ISO 19005-1 seit 2005)
  • PDF/E - Format f√ľr technische Dokumente aus den Bereichen Ingenieurwesen, Architektur und Geo-Informationssysteme. Dieses Format besitzt die F√§higkeit zur interaktiven Darstellung von 3D-Objekten. Einzelteile k√∂nnen gedreht, auseinandergezogen, ein- oder ausgeblendet werden (ISO 24517 seit 2008)
  • PDF/UA - Richtlinien zum Aufbau eines barrierefreien Dokuments im PDF-Format (seit 2008)
  • PDF/VT - Format f√ľr den Einsatz im hochvolumigen und Transaktionsdruck (seit 2010)

Mehrere PDF-Standards lassen sich miteinander verbinden. Gen√ľgt eine Datei dem PDF/X-Standard, eignet sie sich als digitale Druckunterlage. Erf√ľllt diese Datei zus√§tzlich den PDF/UA-Standard, kann sie als barrierefreies PDF von Screenreader-Programmen verarbeitet werden.

Das Archivierungsformat PDF/A

Von den verschiedenen existierenden PDF-Formaten ist nur das PDF/A-Format ein sicheres und stabiles Archivformat, das speziell f√ľr die elektronische Langzeitarchivierung von Dokumenten definiert und publiziert wurde. Die klar festgelegten und als Standard allgemein anerkannten Regeln schreiben vor, welche Bestandteile in einer PDF-Datei enthalten sein m√ľssen und welche nicht zul√§ssig sind, um mit dem PDF/A-Standard konform zu gehen. W√§hrend einige Inhaltstypen wie Texte, Bilder, Zeichnungen, Tabellen und Schriften standardkonform in PDF/A-Dateien eingebunden werden k√∂nnen, sind andere Inhalte wie 3D-Objekte, Audio- und Video-Sequenzen, Flash-Animationen oder Scripte nicht erlaubt. Ebenso darf eine PDF/A-Datei keine externen oder dynamischen Inhalte enthalten, die in einem Viewer geladen werden m√ľssen. Beispielsweise werden URL-Links nur als Zeichenkette, nicht aber als aktive Verkn√ľpfung gespeichert. Enth√§lt eine PDF-Datei nicht zul√§ssige Inhalte, kann sie nicht nach PDF/A konvertiert werden. Eine Validierung, ob eine vorliegende Datei dem g√ľltigen PDF/A-Format entspricht, ist √ľber entsprechende Pr√ľfwerkzeuge m√∂glich und wird im Praxisteil beschrieben.

Insgesamt sind aktuell drei, aufeinander aufbauende Versionen von PDF/A-Formaten zu unterscheiden, von denen PDF/A-1 und PDF/A-2 echte Archivformate sind, da sie das Dokument in einem stabilen Zustand konservieren. Bei PDF/A-3 handelt es sich hingegen um einen Container, in den beliebige Dateiformate eingebettet werden k√∂nnen. Der gro√üe Vorteil liegt also darin, dass editierbare Originaldateien in das Dokument integriert werden k√∂nnen. Es gibt allerdings keine Garantie, dass die angeh√§ngten Dateien auch k√ľnftig alle angezeigt werden k√∂nnen. F√ľr die automatische Weiterverarbeitung besteht die M√∂glichkeit einer Integration von Daten im XML-Format.

Da es bislang keine Vorgabe √ľber die Datenformate gibt, die in eine PDF/A-3-Datei eingebettet werden d√ľrfen - erlaubt sind beispielsweise auch nicht offene, nicht standardisierte und nicht zukunftssichere Formate - h√§ngt die Frage der Archivierbarkeit einer PDF/A-3-Datei vor allem von ihrem Inhalt ab. Es wird daher aktuell diskutiert, ob PDF/A-3 als Format f√ľr das Archival Information Package (AIP) nach ISO 14721:2012 OAIS geeignet ist.

F√ľr alle Varianten des PDF/A-Formates gilt, dass Schriften und Zeichen direkt in die Datei eingebettet werden. Ebenso werden Sonderzeichen und Formeln verl√§sslich dargestellt. Auch Schriftsysteme wie Chinesisch oder Arabisch werden auf allen Ger√§ten richtig wiedergegeben. F√ľr die korrekte Anzeige von Farben werden festgelegte ICC-Profile verwendet. In PDF/A Dokumenten ist grunds√§tzlich eine Volltextsuche m√∂glich, auch wenn es sich um ein gescanntes Dokument handelt. Zus√§tzlich kann auch eine digitale Texterkennung (OCR) integriert werden. √úber die vergebenen XMP-Metadaten sind erweiterte Suchoptionen verf√ľgbar.

PDF/A-1 (seit 2005)

  • Bilder, Grafiken, verwendete Schriftzeichen etc. m√ľssen im PDF/A-Dokument selbst eingebettet sein
  • pr√§zise, plattformunabh√§ngig kodierte Farbangaben mittels ICC-Profilen
  • Verwendung von XMP f√ľr Dokument-Metadaten
  • keine transparenten Elemente
  • keine Kompression
  • keine PDF-Ebenen, Aktionen und JavaScript
  • kein Passwortschutz
  • Einbettung von Signaturen und Hyperlinks m√∂glich
  • Konformit√§tsstufen a und b

PDF/A-2 (seit 2011)

identisch zu PDF/A-1 mit zusätzlichen Möglichkeiten:

  • erlaubt Kompression mit JPEG2000, transparente Elemente und PDF-Ebenen
  • erm√∂glicht Einbettung von OpenType-Fonts
  • unterst√ľtzt digitale Signaturen in √úbereinstimmung mit den PAdES (PDF Advanced Electronic Signatures)
  • Dateianh√§nge: Einbettung von PDF/A-1 und PDF/A-2 Dateien m√∂glich
  • Konformit√§tsstufen a, b und u

PDF/A-3 (seit 2012)

identisch zu PDF/A-2 mit zusätzlichen Möglichkeiten:

  • Einbettung von beliebigen Dateien m√∂glich (z. B. die Ursprungsdatei aus der ein PDF/A-3 erstellt wurde)
  • keine Gew√§hrleistung, dass die Anh√§nge zu einem sp√§teren Zeitpunkt verarbeitet werden k√∂nnen

Konformitätsstufen bei PDF/A

Die Qualität der archivierten Dokumente wird durch verschiedene Konformitätsstufen bezeichnet. Die Stufen sind abhängig von Eingangsmaterial und Verwendungszweck und ihre Bezeichnung wird an das Ende des PDF/A-Formates angehängt, z. B. "PDF/A-1a".

Stufe b (basic): Das Dokument sieht bei späterer Verarbeitung unverändert aus.

Stufe u (unicode): Das Dokument sieht bei späterer Verarbeitung unverändert aus. Zusätzlich wird der gesamte Text in Unicode abgebildet. Es besteht die Möglichkeit, Text zu durchsuchen und zu extrahieren.

Stufe a (accessible/zug√§nglich): Das Dokument sieht bei sp√§terer Verarbeitung unver√§ndert aus. Der gesamte Text wird in Unicode abgebildet. Es besteht die M√∂glichkeit, Text zu durchsuchen und zu extrahieren. Zus√§tzlich bleiben die Struktur des Dokuments und die nat√ľrliche Lesereihenfolge erhalten. Das Dokument ist somit barrierefrei und kann mithilfe von Screenreader-Programmen vorgelesen werden.

Letzte Änderung: 3. Juni 2015