PDF-Dokumente - Vertiefung

Eine wesentliche Eigenschaft und St├Ąrke von PDF-Dateien ist die Tatsache, dass sie ganz unterschiedliche Inhalte enthalten k├Ânnen. So lassen sich neben Texten und Navigationshilfen, wie etwa Inhaltsverzeichnisse mit Textankern, auch andere Informationen wie Bilder, Verktorgrafiken, 3D-Visualisierungen, Tabellen, Pr├Ąsentationen oder GIS-Karten einbinden, die zusammen mit allen urspr├╝nglich verwendeten Layoutmerkmalen gespeichert werden. Daher werden die meisten Publikationen wie elektronische Zeitschriften oder Infomaterialien auf Webseiten ├╝blicherweise als PDF-Dateien zur Verf├╝gung gestellt. Bei der Langzeitarchivierung von Dateien spielt das PDF/A-Format eine besondere Rolle. In dessen Spezifikation wird unter anderem vorgeschrieben, Schriften in das Dokument einzubetten und Farben ger├Ąteneutral zu definieren. Auf diese Weise wird gew├Ąhrleistet, dass das originale Aussehen eines Dokuments wie in der urspr├╝nglichen Anwendung und wie vom Autor intendiert erhalten bleibt. Die Intention von PDF-Dateien ist insofern die Erhaltung der urspr├╝nglichen Darstellung, nicht aber der urspr├╝nglichen Bearbeitungsfunktionalit├Ąten.

Um eine m├Âglichst gro├če Authentizit├Ąt einer PDF-Datei zu erlangen, sind die M├Âglichkeiten zur nachtr├Ąglichen Bearbeitung sehr begrenzt. Es k├Ânnen Kommentare hinzugef├╝gt, Seiten eingebunden oder gel├Âscht, oder Textstellen geschw├Ąrzt werden. Eingeschr├Ąnkt sind Ver├Ąnderungen der eigentlichen Inhalte oder des Layouts m├Âglich, wie z. B. ├änderungen von Farben in einem Foto oder Umformulierungen von Texten. Als Nachteil ergibt sich daraus, dass die urspr├╝ngliche Funktionalit├Ąt der nach PDF/A konvertierten Datei verloren geht und eine Nachnutzung der Inhalte wenn ├╝berhaupt nur mit Qualit├Ątsverlusten m├Âglich ist. So k├Ânnen beispielsweise tabellarische Daten aus einer PDF-Datei nicht ohne einen zus├Ątzlichen Mehraufwand in eine neue Tabelle ├╝bernommen werden, wobei Bearbeitungsfehler auftreten k├Ânnen.

Da aber zunehmend Softwarel├Âsungen existieren, die diese Einschr├Ąnkungen der nachtr├Ąglichen Bearbeitung aufl├Âsen oder umgehen, w├Ąchst der Bedarf an Schutzmechanismen gegen ungewollte ├änderungen durch Dritte. Dazu z├Ąhlen beispielsweise die Festlegung von einfachen Nutzungseinschr├Ąnkungen, wie etwa die Erlaubnis zum Drucken, zum Kopieren von Inhalten oder zur Bearbeitung der im PDF gespeicherten Metadaten, oder die Vergabe von Passw├Ârtern. F├╝r Dateien, bei denen eine Langzeitarchivierung vorgesehen ist, d├╝rfen allerdings keine Schutzfunktionen verwendet werden, damit sie ohne Hindernisse jederzeit nutzbar sind. Falls notwendig k├Ânnen Einschr├Ąnkungen als Lizenzhinweise formuliert werden; die Authentizit├Ąt eines Dokumentes kann durch Signaturen, Zeitstempel und/oder digitale Pr├╝fsummen gew├Ąhrleistet werden.

Inhalte

Dateien im PDF-Format k├Ânnen durch unterschiedliche Anwendungen erzeugt werden und daher ganz unterschiedliche Inhalte enthalten und darstellen. F├╝r jede Dateiart gibt es spezifische Aspekte, die es zu beachten gilt, insbesondere dass einige Inhalte nicht mit den Vorgaben von PDF/A vereinbar sind.

Texte: Standardm├Ą├čig sind in PDF-Readern bereits 14 Schriftarten verf├╝gbar. Es lassen sich aber auch weitere in ein PDF-Dokument einbetten, um eine korrekte Darstellung zu gew├Ąhrleisten. Mithilfe von OCR-Software kann in PDF-Dokumenten eine nachtr├Ągliche Texterkennung durchgef├╝hrt werden.

Bilder: Wie bei normalen Rastergrafiken k├Ânnen auch in PDF-Dateien eingebettete Bilder durch spezielle Kompressionsverfahren in ihrer Speichergr├Â├če reduziert und in ihrer Aufl├Âsung heruntergerechnet werden. Bei fast allen Verfahren ist dies mit einem Informationsverlust verbunden, der vor allem die Genauigkeit und Qualit├Ąt der Anzeige betrifft.

Vektorgrafiken: Vektorgrafiken in PDF-Dateien k├Ânnen wie die Ausgangsdateien frei skaliert werden.

3D: Es gibt zwei PDF-Formate, in die 3D-Dateien eingebettet und mit Adobe Reader ge├Âffnet und betrachtet werden k├Ânnen. Auf diese Weise lassen sich auch 3D-Objekte austauschen und mit einfachen Funktionen bedienen, z. B. in der Ansicht drehen, Lichteinstellungen ver├Ąndern oder Aufsichten und Schnittfl├Ąchen erzeugen.

PDF-Varianten

PDF-Dateien sind inzwischen ein sehr weit verbreitetes Austauschformat, das in ganz unterschiedlichen Kontexten Verwendung findet. Um eine gleichbleibende Qualit├Ąt zu gew├Ąhrleisten, wurden f├╝r die h├Ąufigsten Anwendungsf├Ąlle mehrere Normen und Standards festgelegt:

  • PDF/X - Format f├╝r die ├ťbermittlung von Druckvorlagen (seit 2001)
  • PDF/A - Format f├╝r die elektronische Archivierung (ISO 19005-1 seit 2005)
  • PDF/E - Format f├╝r technische Dokumente aus den Bereichen Ingenieurwesen, Architektur und Geo-Informationssysteme. Dieses Format besitzt die F├Ąhigkeit zur interaktiven Darstellung von 3D-Objekten. Einzelteile k├Ânnen gedreht, auseinandergezogen, ein- oder ausgeblendet werden (ISO 24517 seit 2008)
  • PDF/UA - Richtlinien zum Aufbau eines barrierefreien Dokuments im PDF-Format (seit 2008)
  • PDF/VT - Format f├╝r den Einsatz im hochvolumigen und Transaktionsdruck (seit 2010)

Mehrere PDF-Standards lassen sich miteinander verbinden. Gen├╝gt eine Datei dem PDF/X-Standard, eignet sie sich als digitale Druckunterlage. Erf├╝llt diese Datei zus├Ątzlich den PDF/UA-Standard, kann sie als barrierefreies PDF von Screenreader-Programmen verarbeitet werden.

Das Archivierungsformat PDF/A

Von den verschiedenen existierenden PDF-Formaten ist nur das PDF/A-Format ein sicheres und stabiles Archivformat, das speziell f├╝r die elektronische Langzeitarchivierung von Dokumenten definiert und publiziert wurde. Die klar festgelegten und als Standard allgemein anerkannten Regeln schreiben vor, welche Bestandteile in einer PDF-Datei enthalten sein m├╝ssen und welche nicht zul├Ąssig sind, um mit dem PDF/A-Standard konform zu gehen. W├Ąhrend einige Inhaltstypen wie Texte, Bilder, Zeichnungen, Tabellen und Schriften standardkonform in PDF/A-Dateien eingebunden werden k├Ânnen, sind andere Inhalte wie 3D-Objekte, Audio- und Video-Sequenzen, Flash-Animationen oder Scripte nicht erlaubt. Ebenso darf eine PDF/A-Datei keine externen oder dynamischen Inhalte enthalten, die in einem Viewer geladen werden m├╝ssen. Beispielsweise werden URL-Links nur als Zeichenkette, nicht aber als aktive Verkn├╝pfung gespeichert. Enth├Ąlt eine PDF-Datei nicht zul├Ąssige Inhalte, kann sie nicht nach PDF/A konvertiert werden. Eine Validierung, ob eine vorliegende Datei dem g├╝ltigen PDF/A-Format entspricht, ist ├╝ber entsprechende Pr├╝fwerkzeuge m├Âglich und wird im Praxisteil beschrieben.

Insgesamt sind aktuell drei, aufeinander aufbauende Versionen von PDF/A-Formaten zu unterscheiden, von denen PDF/A-1 und PDF/A-2 echte Archivformate sind, da sie das Dokument in einem stabilen Zustand konservieren. Bei PDF/A-3 handelt es sich hingegen um einen Container, in den beliebige Dateiformate eingebettet werden k├Ânnen. Der gro├če Vorteil liegt also darin, dass editierbare Originaldateien in das Dokument integriert werden k├Ânnen. Es gibt allerdings keine Garantie, dass die angeh├Ąngten Dateien auch k├╝nftig alle angezeigt werden k├Ânnen. F├╝r die automatische Weiterverarbeitung besteht die M├Âglichkeit einer Integration von Daten im XML-Format.

Da es bislang keine Vorgabe ├╝ber die Datenformate gibt, die in eine PDF/A-3-Datei eingebettet werden d├╝rfen - erlaubt sind beispielsweise auch nicht offene, nicht standardisierte und nicht zukunftssichere Formate - h├Ąngt die Frage der Archivierbarkeit einer PDF/A-3-Datei vor allem von ihrem Inhalt ab. Es wird daher aktuell diskutiert, ob PDF/A-3 als Format f├╝r das Archival Information Package (AIP) nach ISO 14721:2012 OAIS geeignet ist.

F├╝r alle Varianten des PDF/A-Formates gilt, dass Schriften und Zeichen direkt in die Datei eingebettet werden. Ebenso werden Sonderzeichen und Formeln verl├Ąsslich dargestellt. Auch Schriftsysteme wie Chinesisch oder Arabisch werden auf allen Ger├Ąten richtig wiedergegeben. F├╝r die korrekte Anzeige von Farben werden festgelegte ICC-Profile verwendet. In PDF/A Dokumenten ist grunds├Ątzlich eine Volltextsuche m├Âglich, auch wenn es sich um ein gescanntes Dokument handelt. Zus├Ątzlich kann auch eine digitale Texterkennung (OCR) integriert werden. ├ťber die vergebenen XMP-Metadaten sind erweiterte Suchoptionen verf├╝gbar.

PDF/A-1 (seit 2005)

  • Bilder, Grafiken, verwendete Schriftzeichen etc. m├╝ssen im PDF/A-Dokument selbst eingebettet sein
  • pr├Ązise, plattformunabh├Ąngig kodierte Farbangaben mittels ICC-Profilen
  • Verwendung von XMP f├╝r Dokument-Metadaten
  • keine transparenten Elemente
  • keine Kompression
  • keine PDF-Ebenen, Aktionen und JavaScript
  • kein Passwortschutz
  • Einbettung von Signaturen und Hyperlinks m├Âglich
  • Konformit├Ątsstufen a und b

PDF/A-2 (seit 2011)

identisch zu PDF/A-1 mit zus├Ątzlichen M├Âglichkeiten:

  • erlaubt Kompression mit JPEG2000, transparente Elemente und PDF-Ebenen
  • erm├Âglicht Einbettung von OpenType-Fonts
  • unterst├╝tzt digitale Signaturen in ├ťbereinstimmung mit den PAdES (PDF Advanced Electronic Signatures)
  • Dateianh├Ąnge: Einbettung von PDF/A-1 und PDF/A-2 Dateien m├Âglich
  • Konformit├Ątsstufen a, b und u

PDF/A-3 (seit 2012)

identisch zu PDF/A-2 mit zus├Ątzlichen M├Âglichkeiten:

  • Einbettung von beliebigen Dateien m├Âglich (z. B. die Ursprungsdatei aus der ein PDF/A-3 erstellt wurde)
  • keine Gew├Ąhrleistung, dass die Anh├Ąnge zu einem sp├Ąteren Zeitpunkt verarbeitet werden k├Ânnen

Konformit├Ątsstufen bei PDF/A

Die Qualit├Ąt der archivierten Dokumente wird durch verschiedene Konformit├Ątsstufen bezeichnet. Die Stufen sind abh├Ąngig von Eingangsmaterial und Verwendungszweck und ihre Bezeichnung wird an das Ende des PDF/A-Formates angeh├Ąngt, z. B. "PDF/A-1a".

Stufe b (basic): Das Dokument sieht bei sp├Ąterer Verarbeitung unver├Ąndert aus.

Stufe u (unicode): Das Dokument sieht bei sp├Ąterer Verarbeitung unver├Ąndert aus. Zus├Ątzlich wird der gesamte Text in Unicode abgebildet. Es besteht die M├Âglichkeit, Text zu durchsuchen und zu extrahieren.

Stufe a (accessible/zug├Ąnglich): Das Dokument sieht bei sp├Ąterer Verarbeitung unver├Ąndert aus. Der gesamte Text wird in Unicode abgebildet. Es besteht die M├Âglichkeit, Text zu durchsuchen und zu extrahieren. Zus├Ątzlich bleiben die Struktur des Dokuments und die nat├╝rliche Lesereihenfolge erhalten. Das Dokument ist somit barrierefrei und kann mithilfe von Screenreader-Programmen vorgelesen werden.

Letzte Änderung: 3. Juni 2015