Textdokumente - Praxis

Dieser Abschnitt liefert Hinweise zum Umgang mit Textdokumenten und Textdateien in der Praxis. Es wird erläutert, was bei der Speicherung von Textdokumenten mit Formatierungsangaben zu beachten ist und wie Schriftarten eingebettet werden können. Speziell für Textdateien werden Texteditoren und das Einstellen der Zeichenkodierung thematisiert. Auch Hinweise zur Ergänzung und Extraktion von Metadaten werden gegeben. Für die Digitalisierung von Texten wurden die wichtigsten Informationen aus den DFG-Praxisregeln "Digitalisierung" zusammengefasst.

Textdokumente mit Formatierungsangaben

Textdokumente mit Formatierungsangaben, wie verschiedene Schriftgrößen, Fett- oder Kursivschreibung, oder in welche zusätzlich Medien, wie Bilder, Tabellen oder Videos integriert sind, erfordern eine besondere Aufmerksamkeit bei der Speicherung. Das gilt insbesondere wenn bestimmte Formatierungen von Textelementen mit einer Bedeutung verbunden sind und die Authentizität des Erscheinungsbildes, also das Aussehen des Dokumentes, wichtig ist, denn dasselbe Dokument könnte auf verschiedenen Systemen unterschiedlich dargestellt werden.

Für die Bearbeitung von Textdokumenten mit Formatierungsangaben und eingebetteten Medien gibt es dezidierte Textverarbeitungsprogramme, wie OpenOffice Writer, LibreOffice Writer oder Microsoft Word. OpenOffice und LibreOffice speichern Textdokumente standardmäßig im ODT-Format. Seit 2007 speichert Microsoft Word im DOCX-Format. Beide Formate sind offen dokumentiert, basieren auf XML und sind für die Langzeitarchivierung geeignet. In allen genannten Programmen ist die Zeichenkodierung bereits auf UTF-8 voreingestellt.

Eingebettete Bilder oder andere Medien sollten zusätzlich als separate Dateien in einem geeigneten Langzeitformat gespeichert werden. Dies stellt sicher, dass die Qualität der ursprünglichen Datei erhalten bleibt.

Die Darstellung von Textdokumenten kann auf verschiedenen Computern unterschiedlich ausfallen, was vor allem an unterschiedlichen Einstellungen liegt. Wenn bestimmte Schriftarten auf einem System fehlen, werden sie automatisch ersetzt, was ebenfalls zu unterschiedlichen Darstellungsweisen führt. Daher sollten nach Möglichkeit die verwendeten Schriftarten eingebettet werden, was im nächsten Unterabschnitt erläutert wird.

Eine stabile systemübergreifende Darstellung von Textdokumenten kann nur mittels Konvertierung in ein PDF-Dokument gewährleistet werden. Für die Langzeitspeicherung sollte PDF/A verwendet werden. Hinweise zum Erstellen von PDF- und PDF/A-Dokumenten sind im Praxisteil zu PDF-Dokumenten zu finden.

Einbettung von Schriftarten

Da das optische Erscheinungsbild eines Textdokumentes unter anderem von den verwendeten Schriftarten abhängt, kann die Einbettung derselben ratsam sein. Dabei muss darauf geachtet werden, dass die Lizenzen für die verwendeten Fonts vorhanden sind.

Ab Version 4.1 können in LibreOffice die benutzten Fonts in das ODT-Format eingebettet werden. Dazu im Menü auf "Datei > Eigenschaften" gehen, in dem Dialog den Reiter "Schriftart" anwählen und dort den Haken bei "Schriftarten ins Dokument einbetten" setzen. Dieser Vorgang muss für neue oder andere Dokumente wiederholt werden.

Auch in Microsoft Word ist diese Einstellung für das DOCX-Format möglich. Dazu auf "Datei > Optionen" gehen, in dem Dialog den Punkt "Speichern" auf der linken Seite auswählen und einen Haken bei "Schriftarten in der Datei einbetten" setzen. Diese Einstellung ist ebenfalls nur für das aktuelle Dokument gültig und muss bei anderen Dokumenten bei Bedarf wiederholt werden.

Werden Textdokumente als PDF exportiert, so werden die verwendeten Schriftarten automatisch eingebettet. Aktuell funktioniert die Einbettung von Fonts in andere Dateiformate als PDF nicht völlig fehlerfrei.

Texteditoren und Editoren fĂĽr Auszeichnungssprachen

FĂĽr die Bearbeitung von Textdateien wie TXT, XML oder HTML sind einfache spezialisierte Texteditoren am besten geeignet. In den verschiedenen Betriebssystemen ist ĂĽblicherweise mindestens ein Texteditor vorinstalliert, wie beispielsweise Editor oder Notepad bei Microsoft Windows. Im Vergleich zu Textverarbeitungsprogrammen ist der Funktionsumfang bei Texteditoren deutlich kleiner, was bei reinen Textdateien aber kein Nachteil ist.

Gerade für den täglichen Umgang mit Textdateien empfiehlt sich die Verwendung von leistungsfähigen Editoren, die neben ausgefeilten Suchfunktionen auch Autovervollständigung oder für Auszeichnungssprachen Syntaxhervorhebung bieten. Für Mac OS X gibt es beispielsweise TextWrangler und für Windows Notepad++ als kostenlose Angebote. Eine umfangreiche vergleichende Liste von Texteditoren ist auf Wikipedia zu finden.

Für den regelmäßigen Umgang mit einem bestimmten Format, wie etwa HTML oder XML, können weiter spezialisierte Editoren praktisch sein.

Einstellen der Zeichenkodierung

Wenn keine besonderen Anforderungen dagegen sprechen, sollte Unicode fĂĽr die Zeichenkodierung verwendet werden. Dabei sollte UTF-8 ohne BOM bevorzugt werden.

In modernen Textverarbeitungsprogrammen, die DOCX oder ODT speichern, ist dies fĂĽr die genannten Formate voreingestellt und muss nicht explizit angepasst werden.

Bei der Bearbeitung von Textdateien mit Texteditoren muss auf die richtigen Einstellungen und Speicheroptionen geachtet werden. Insbesondere wenn eine Datei auf verschiedenen Geräten bearbeitet wird, ist es wichtig, dass die ursprünglichen Dateieinstellungen, wie eben die Zeichenkodierung, beibehalten werden.

In Notepad++ kann für alle neuen Dateien eine Zeichenkodierung vorgegeben werden. Dazu im Menü auf "Einstellungen > Optionen" klicken und unter "Neue Dateien" die gewünschte Kodierung auswählen. Wird eine vorhandene Textdatei mit Notepad++ geöffnet und bearbeitet, werden beim Speichern die ursprünglichen Einstellungen der Datei üblicherweise beibehalten. Die Kodierung einer vorhandenen Datei kann über den Menüpunkt "Kodierung > Konvertiere zu..." geändert werden.

text_notepadMarkierung.png

Screenshot von Notepad++ mit einer geöffneten XML-Datei. Die Menüpunkte Einstellungen und Kodierung wurden hervorgehoben. Im unteren rechten Bereich ist die Anzeige der verwendeten Zeichenkodierung gekennzeichnet.
Screenshot von Notepad++ mit einer geöffneten XML-Datei. Die Menüpunkte Einstellungen und Kodierung wurden hervorgehoben. Im unteren rechten Bereich ist die Anzeige der verwendeten Zeichenkodierung gekennzeichnet.

In TextWrangler ist diese Option unter "TextWrangler > Preferences > Text Encoding" zu finden. Auch hier werden die Einstellungen der Zeichenkodierung einer vorhandenen Datei beibehalten. Zusätzlich besteht die Möglichkeit die Zeichenkodierung zu ändern, indem eine Datei über "File > Reopen Using Encoding" und der gewünschten Kodierung geöffnet wird.

text_wranglerMarkierung.png

Screenshot von TextWrangler mit einer geöffneten XML-Datei. Die Menüpunkte TextWrangler und File wurden hervorgehoben. Im unteren linken Bereich ist die Anzeige der verwendeten Zeichenkodierung gekennzeichnet.
Screenshot von TextWrangler mit einer geöffneten XML-Datei. Die Menüpunkte TextWrangler und File wurden hervorgehoben. Im unteren linken Bereich ist die Anzeige der verwendeten Zeichenkodierung gekennzeichnet.

Metadaten bearbeiten und ergänzen

In der Regel werden nur wenige Metadaten automatisch in Textdokumenten von Textverarbeitungsprogrammen wie Microsoft Word, OpenOffice Writer oder LibreOffice Writer angelegt und gespeichert. Dazu gehören vor allem technische Informationen, wie Dateigröße, Dateiname, Erstellungs- und Änderungsdatum. Auch eine Statistik mit der Anzahl der Zeichen, Wörter, Absätze etc. wird erstellt. Als Autor wird der für das jeweilige Programm angegebenen Nutzername gespeichert. Über die Menüpunkte "Datei > Informationen > Eigenschaften" bzw. "Datei > Eigenschaften" lassen sich die Angaben anpassen und ergänzen. Beispielsweise kann ein Titel, Schlagworte und ein Beschreibungstext eingefügt werden. Zusätzliche Angaben können unter "Anpassen" bzw. "Benutzerdefinierte Eigenschaften" aus einer Liste gewählt und ausgefüllt werden. Darüber hinausgehende Informationen wie beispielsweise ein Identifikator oder Angaben zur Lizenz, können in einer getrennten Text- oder XML-Datei hinterlegt werden. Ausführlichere Angaben sind in "Verfahren zur Produktion interoperabler Metadaten in digitalen Dokumentenverarbeitungsprozessen" von Alexander Haffner (2011) zu finden.

Bei Textdokumenten bietet sich die Möglichkeit, neben einem Deckblatt auch einen Innentitel mit den relevanten Metadaten zu integrieren. Hier können zusätzlich ein Zitierhinweis und eine längere Versionshistorie untergebracht werden. Ein Beispiel für solch einen Innentitel findet sich am Anfang der PDF-Version dieser Empfehlungen.

In reinen Textdateien, wie TXT oder plain text, können keine Metadaten als Eigenschaften in das Dateiformat integriert werden. Es besteht jedoch die Möglichkeit, sie mit in das Dokument einzutragen oder eine separate Datei anzulegen. Auszeichnungssprachen bieten zu diesem Zweck meist einen eigens dafür vorgesehenen Bereich am Beginn der Datei, den sogenannten Kopfbereich oder Header.

Tools wie beispielsweise das Metadata Extraction Tool oder eines der Tools, die auf forensicswiki.org gelistet sind, können verwendet werden, um Metadaten zu extrahieren und in separaten Dateien zu speichern.

Digitalisate

FĂĽr die Digitalisierung von analogen SchriftstĂĽcken mittels eines Scanners gibt es ausfĂĽhrliche Hinweise in den DFG-Praxisregeln "Digitalisierung".

Eine kurze Ăśbersicht aus dem oben angegebenen Dokument ist in der folgenden Tabelle zu finden:

Größe des kleinsten signifikanten Zeichens Auflösung
bis 1 mm min. 400 dpi
ab 1,5 mm min. 300 dpi
Die Speicherung erfolgt in Form unkomprimierter Baseline TIFF-Dateien

Um zu verdeutlichen, dass von der Vorlage nichts abgeschnitten wurde, sollten Seiten immer vollständig mit einem umlaufenden Rand gesichert werden.

Der Scan eines Textdokumentes ist zunächst eine digitale Rastergrafik, die erst durch optische Zeichenerkennung (OCR, von engl. Optical Character Recognition) oder Transkription zu einem digitalen Textdokument wird. Mit OCR bearbeitete Texte benötigen eine Angabe zur Genauigkeit der Buchstaben in Prozent. Ab Seite 30 der Praxisregeln wird die Ermittlung der Buchstabengenauigkeit beschrieben.

Die DFG-Praxisregeln beziehen sich teilweise auf die Richtlinien der Federal Agencies Digitization Guidelines Initiative (FADGI), die in englischer Sprache in dem Dokument "Technical Guidelines for Digitizing Cultural Heritage Materials: Creation of Raster Image Master Files" zu finden sind.

Bei der Neubeschaffung eines Scanners muss darauf geachtet werden, dass er die Mindestanforderungen fĂĽr den jeweiligen Digitalisierungszweck erfĂĽllt.

Letzte Änderung: 3. Mai 2017