Textdokumente - Vertiefung

Texdokumente und Textdateien bestehen aus einer Folge von Zeichen, die W├Ârter, S├Ątze und Abs├Ątze bilden. Auf Maschinenebene werden diese Zeichen durch Zahlenwerte gespeichert und die Zeichenkodierung beschreibt, welcher Zahlenwert f├╝r welches Zeichen steht.

Wie ein Zeichen dargestellt wird, h├Ąngt von der verwendeten Schriftart, dem sogenannten Font ab, der einen Satz an Bildern f├╝r die verschiedenen Schriftzeichen bereitstellt.

Die Inhalte von Textdateien k├Ânnen durch die Verwendung einer Auszeichnungssprache strukturiert und beschrieben werden und somit auch eine maschinelle Verarbeitung erm├Âglichen.

Zeichenkodierung und Zeichensatz

Zur korrekten Darstellung der Zeichen in einem Textdokument muss der Computer wissen, welche Zeichenkodierung (encoding) verwendet wird. Auf Maschinenebene wird ein Zeichen als eine Folge von Nullen und Einsen, in Form von Bytes gespeichert, die wiederum bestimmte Zahlenwerte angeben. Diese Zahlenwerte k├Ânnen in Abh├Ąngigkeit der Zeichenkodierung unterschiedlich interpretiert werden.

Eine Zeichenkodierung kann abstrakt als eine Tabelle verstanden werden, in der einer bestimmten Zeichenmenge, dem Zeichensatz, Zahlenwerte zugeordnet werden. Beispielsweise hat der Buchstabe A in dem American Standard Code for Information Interchange (ASCII) den dezimalen Zahlenwert von 65. Der ASCII-Zeichensatz besteht aus insgesamt 128 Zeichen die jeweils mit einem Byte gespeichert werden. Er enth├Ąlt keine diakritischen Zeichen, wie etwa ├Ą, oder gar andere Schriften, weshalb verschiedene Erweiterungen der ASCII-Kodierung entwickelt wurden, um insgesamt 256 verschiedene Zeichen zu kodieren.

Beispiele f├╝r diese Erweiterungen sind ISO 8859-1 f├╝r lateinische Schriften oder ISO 8859-7 f├╝r das griechische Alphabet. In beiden Zeichenkodierungen hat das Zeichen A jeweils den Wert 65. Jedoch stellt der Wert 228 in ISO 8859-1 das Zeichen ├Ą und in ISO 8859-7 das Zeichen ╬┤ dar. Die Angabe der verwendeten Zeichenkodierung ist entscheidend daf├╝r, ob auf dem Bildschirm ├┤├ą├Ě├ş├ž oder ¤ä╬Á¤ç╬Ż╬Ě dargestellt wird.

In der Vergangenheit war es besonders schwierig, wenn in einem Text gleichzeitig Umlaute und griechische Buchstaben verwendet werden sollten, da jede ASCII-Erweiterung jeweils nur insgesamt 256 Zeichen kodiert und einem Dokument nicht mehr als eine Zeichenkodierung zugewiesen werden kann. Deshalb wurde Unicode entwickelt.

Unicode ist ein Zeichensatz, in dem aktuell f├╝r 113.021 Zeichen aus 123 Schriftsystemen eindeutige Codepunkte (code points) zugewiesen werden. Die Codepunkte werden mittels einer hexadezimalen Zahl und einem vorangestellten U+ dargestellt, wie beispielsweise U+00C4 f├╝r ├Ą. Zugleich stellt dieser Zeichensatz die Umsetzung von dem in ISO 10646 beschriebenen universellen Zeichensatz Universal Character Set dar.

Um den Unicode-Zeichensatz in einem System anwenden zu k├Ânnen, wurden Zeichenkodierungen definiert, die unter dem Namen Unicode Transformation Format (UTF) subsumiert werden. Zu den h├Ąufigsten geh├Âren dabei UTF-8 und UTF-16, die im Web und in verschiedenen Betriebssystemen eine gro├če Verbreitung gefunden haben. Der Unterschied besteht dabei in der Zahl der pro Zeichen verwendeten Bytes. Eine Besonderheit von UTF-8 besteht darin, dass die Bytedarstellungen der ersten 128 Zeichen denen der 128 Zeichen des ASCII-Zeichensatzes entspricht.

Das Unicode-Zeichen U+FEFF gibt am Anfang des kodierten Dokumentes an, in welcher Reihenfolge die Bytes angeordnet sind. Diese Bytereihenfolge-Markierung (engl. byte order mark) wird als BOM abgek├╝rzt und ist bei der Verwendung von UTF-16 und UTF-32 zwingend in der Datei erforderlich. Zus├Ątzlich kann das BOM ein Hinweis auf die Verwendung von UTF-Kodierungen sein, jedoch wird von dessen Verwendung au├čer f├╝r UTF-16 und UTF-32 abgeraten.

Schriftart

Das optische Erscheinungsbild eines Textdokumentes h├Ąngt vorwiegend von den verwendeten Schriftarten (Fonts) ab. Es handelt sich dabei um die elektronische Form von Schriftarten, die f├╝r jedes Zeichen eine Raster- oder Vektorgrafik zur Verf├╝gung stellt.

Nicht auf jedem Rechner sind die gleichen Schriftarten installiert. Wenn ein Textdokument auf einem anderen System ge├Âffnet wird, wo die Schriftarten nicht verf├╝gbar sind, werden diese automatisch durch andere ersetzt. Das kann zu Inkonsistenzen der Dokumentdarstellung auf unterschiedlichen Systemen f├╝hren, weil beispielsweise W├Ârter, S├Ątze oder Abs├Ątze von einer Seite auf die n├Ąchste oder vorhergehende wandern, was f├╝r die Referenzierung von Inhalten problematisch ist.

Daher muss f├╝r Dokumente, deren optischer Eindruck erhalten bleiben soll, zumindest der verwendete Font in den Metadaten angegeben werden. Wenn es das Format erlaubt, kann der Font auch in die Datei eingebettet werden, was im Praxisteil erl├Ąutert wird.

Auszeichnungssprachen

Der Inhalt von reinen Textdateien kann durch die Verwendung von Auszeichnungssprachen (Markup Languages) n├Ąher beschrieben werden. Beispielsweise k├Ânnen verschiedene Gliederungsebenen mit Hilfe von bestimmten Auszeichnungselementen (auch Tags) annotiert werden. Wie diese Tags aussehen und wie sie angewendet und kombiniert werden k├Ânnen, beschreibt eine Dokumentgrammatik.

Abstrakt k├Ânnen Tags mit Etiketten verglichen werden, die einzelne W├Ârter, Wortgruppen oder ganze Textbereiche umschlie├čen. Die Abbildung veranschaulicht, wie mit einem Tag die Zeichenkette "24-28" als Gr├Â├čenangabe etikettiert wird. Das Tag besteht aus einem ├Âffnenden Teil vor und einem schlie├čendem Teil nach der fraglichen Zeichenkette, wobei das schlie├čende Element zus├Ątzlich durch einen Schr├Ągstrich gekennzeichnet ist.

text_tag-web.png

Die Zeichenkette '24-28' wird durch das Umschlie├čen mit einem Tag als Gr├Â├čenangabe gekennzeichnet.
Die Zeichenkette '24-28' wird durch das Umschlie├čen mit einem Tag als Gr├Â├čenangabe gekennzeichnet.

Mit Auszeichnungssprachen wird das Aussehen eines Textdokumentes von dessen Struktur und Inhalt getrennt. Beispielsweise basieren Webseiten auf HTML-Dateien in denen ├ťberschriften, Abs├Ątze, Links etc. mit Tags gekennzeichnet werden, die den Inhalt strukturieren. Wie dann beispielsweise die ├ťberschriften formatiert werden, h├Ąngt von einer zus├Ątzlichen Datei mit Formatierungsangaben ab, die austauschbar ist.

Die Grundlage vieler heute verwendeter Auszeichnungssprachen bildet die Standard Generalized Markup Language (SGML, Normierte Verallgemeinerte Auszeichnungssprache), die seit 1986 ein ISO-Standard (ISO 8879) ist. Die Regeln f├╝r die zu verwendenden Auszeichnungselemente und deren Kombinationsm├Âglichkeiten sind ├╝blicherweise in einer externen Datei hinterlegt und werden zu Beginn der Datei in der Dokumenttypdeklaration angegeben. Bei SGML handelt es sich dabei um die sogenannte Dokumenttypdefinition (DTD).

Eine Anwendung von SGML ist die Hypertext Markup Language (HTML, Hypertext-Auszeichnungssprache), welche als Grundlage von Webseiten eine sehr gro├če Verbreitung gefunden hat. HTML wird vom World Wide Web Consortium (W3C) und der Web Hypertext Application Technology Working Group (WHATWG) gepflegt und entwickelt. Die aktuellste Version ist HTML5.

Eine Teilmenge von SGML bildet die Extensible Markup Language (XML, Erweiterbare Auszeichnungssprache) und erlaubt im Gegensatz zu HTML die Definition von eigenen Auszeichnungselementen, um beliebige Strukturen annotieren zu k├Ânnen. De facto wurde SGML von der einfacher anwendbaren XML verdr├Ąngt. Auch XML wird vom W3C gepflegt und entwickelt. XML bildet die Grundlage von vielen weiteren Dateiformaten wie ODT, DOCX, SVG etc. F├╝r XML-Dateien gibt es als Alternative zu einer DTD die M├Âglichkeit der Verwendung eines XML Schemas (XSD, XML Schema Definiton).

Auszeichnungssprachen kennzeichnen implizite Informationen, die nur f├╝r den menschlichen Leser verst├Ąndlich sind, explizit. Dadurch wird ein Dokument maschinenlesbar und eine automatische Verarbeitung von semantisch annotierten Informationen in Texten m├Âglich. Beispielsweise kann eine M├╝nze mit Tags beschrieben werden, die das Material, das Gewicht, die Gr├Â├če, den Avers und Revers kennzeichnen. So wei├č auch ein Computerprogramm, welche Zeichenfolge in einer Datei sich auf das Material oder das Gewicht einer M├╝nze bezieht.

text_muenzexml-web.png

Tetradrachme; Objektnummer 18214973 M├╝nzkabinett - Staatliche Museen zu Berlin, Lizenz: CC-BY-NC-SA 3.0 mit einer Beschreibung in XML-Form. Das Material, das Gewicht, die Gr├Â├če, der Avers und der Revers sind mit Tags gekennzeichnet. Zus├Ątzlich ist die Ma├čeinheit von Gewicht und Gr├Â├če als Attribut angegeben.
Tetradrachme; Objektnummer 18214973 M├╝nzkabinett - Staatliche Museen zu Berlin, Lizenz: CC-BY-NC-SA 3.0 mit einer Beschreibung in XML-Form. Das Material, das Gewicht, die Gr├Â├če, der Avers und der Revers sind mit Tags gekennzeichnet. Zus├Ątzlich ist die Ma├čeinheit von Gewicht und Gr├Â├če als Attribut angegeben.

Speziell f├╝r die Geistes-, Sozial- und die Sprachwissenschaften wird von der Text Encoding Initiative (TEI) ein auf XML basierendes Dokumentenformat entwickelt, das den Austausch von maschinenlesbaren Texten unterst├╝tzen und standardisieren soll. Die aktuelle Version ist P5.

Es gibt weitere Auszeichnungssprachen, die speziell die Darstellung der Dokumente beschreiben, also definieren, wie ein Dokument auf dem Bildschirm oder gedruckt aussehen soll. Beispiele hierf├╝r sind das Textsatzsystem TeX mit dem Makropaket LaTeX, PDF oder PostScript.

Es ist erforderlich, dass alle Dateien, die Auszeichnungssprachen verwenden, wohlgeformt und valide sind. Wohlgeformt meint das Einhalten der Regeln der jeweiligen Auszeichnungssprache. Die Validit├Ąt bezieht sich auf die verwendete Grammatik und gilt insbesondere f├╝r SGML-, HTML- und XML-Dateien. Beispielsweise muss eine XML-Datei einen Verweis auf eine DTD oder ein XML Schema enthalten und auch die dadurch vorgegebene Struktur einhalten, um als valide zu gelten.

Letzte Änderung: 3. Mai 2017