Das PDF - wir können nicht ohne es auskommen
Nicht alle Dokumentenformate haben es geschafft, sich zu einem Standard zu entwickeln, und halten bei weitem nicht, was sie versprechen. Was können oder sollten wir also von einem Format erwarten? Was sind die wichtigsten Qualitätsmerkmale eines Formats und wie kann man herausfinden, ob ein Format "gut" ist? Wo lauern die Gefahren und wie können wir sie vermeiden? Die Wahl des Formats ist sehr wichtig, insbesondere im Bereich der Langzeitarchivierung. Dokumente, die über mehrere Jahre in einem ungeeigneten Format oder in schlechter Qualität archiviert wurden, können schwerwiegende Folgen haben.
Ursprüngliche Quelle
PDF und die ISO-Normen
Wenn es um die Archivierung geht, hebt sich ein Format von den anderen ab: PDF, das native Format von Adobe Acrobat. Ursprünglich für den plattform- und softwareunabhängigen Austausch von Dokumenten konzipiert, hat sich das PDF-Format in den letzten 21 Jahren fest etabliert und wird heute von fast jedem Softwarehaus, das elektronische Dokumente erstellt, eingesetzt. Die zunehmende Nutzung des PDF-Formats hat aber auch die Befürchtung geweckt, dass eine Abhängigkeit von Adobe entsteht. Um dieses Problem zu lösen, haben sich Adobe und einige Anwender und Industrieunternehmen dazu verpflichtet, PDF zum Industriestandard zu machen und in den ISO-Gremien weiterzuentwickeln. Das erste Ergebnis dieser Initiative war die Veröffentlichung der Norm ISO 32000-1 im Jahr 2008, die auf der Version PDF 1.7 von Adobe basiert. Die ISO arbeitet derzeit an der PDF 2.0-Version.
Der im Laufe der Jahre stark gewachsene Funktionsumfang von PDF ist nicht für jeden Anwendungsbereich geeignet oder notwendig. Aus diesem Grund hat die ISO eine Reihe von Unternormen entwickelt, die auf dem PDF-Standard basieren und speziell auf die wichtigsten Anwendungen zugeschnitten sind.

Die Normen PDF/X, PDF/A, PDF/E, PDF/VT und PDF/UA sind keine separaten Dateiformate. Stattdessen basieren sie auf der übergeordneten Norm PDF 1.7, die die Anforderungen und Verbote für den jeweiligen Verwendungszweck definiert. Diese Regeln schränken den Funktionsumfang von PDF 1.7 entsprechend ein und bilden eine definierte Teilmenge.

PDF für die elektronische Langzeitarchivierung
Obwohl PDF für den Austausch von Dokumenten unabhängig vom Betriebssystem oder der Software des Erstellers/Betrachters entwickelt wurde, ist das Format allein nicht für die Archivierung geeignet. Aus diesem Grund wurde PDF/A entwickelt.
PDF/A ist die Bezeichnung für eine Reihe von Standards, die die Eigenschaften von PDF-Dateien für die elektronische Langzeitarchivierung von Dokumenten beschreiben. Die Standards sollen sicherstellen, dass die archivierten Dokumente langfristig zugänglich bleiben und dass sie selbstdokumentierend, eindeutig, durchsuchbar und mit Metadaten beschrieben sind. Aus diesen Gründen ist die Verschlüsselung verboten, müssen Schriftarten und Farbprofile eingebettet, alternative und dynamische Inhalte entfernt und Verweise auf externe Inhalte entfernt werden.
Eine PDF-Datei kann auch mehreren Unterstandards gleichzeitig entsprechen. Dies ist besonders wichtig bei der Archivierung von PDF/X- und PDF/VT-konformen Dateien, die auch dem PDF/A-Standard entsprechen müssen. Der Funktionsumfang einer Datei, die die Konformität mit mehreren Normen erfordert, ist daher auf die Anzahl der Funktionen beschränkt, die die einzelnen Normen bieten.
Format vs. Format
PDF ist ein sehr leistungsfähiges Format, aber keineswegs ein Allrounder. Eine große Anzahl von Formaten wurde für bestimmte Anwendungen optimiert (siehe Abb. 3).
Wenn es darum geht, die Vor- und Nachteile von Dateiformaten zu beschreiben, greifen viele Autoren automatisch auf PDF zurück und veröffentlichen informierte - und manchmal auch weniger informierte - Vergleiche zwischen diesen Formaten und PDF. Um den Vergleich so fair wie möglich zu gestalten, sollten wir jedoch den Verwendungszweck nicht aus den Augen verlieren. Vergleiche sind nur dann sinnvoll, wenn sich die Anwendungsbereiche überschneiden, womit wir bei den am häufigsten diskutierten Bereichen wären.

Eingehende Post
Wenn es um Bilder in gescannten Dokumenten geht, ist TIFF weder besser noch schlechter als PDF. Die Vorteile von PDF kommen erst dann zum Tragen, wenn es zusätzliche Anforderungen gibt, die über die reine Darstellung der Seite hinausgehen. Außerdem sollte ein TIFF-Archiv nicht blindlings in ein PDF-Archiv migriert werden, wenn kein Mehrwert den Aufwand kompensiert. Die Kriterien für eine Migration von TIFF nach PDF sind in Abb. dargestellt. 4.
Arbeitsunterlagen
Office-Formate werden am häufigsten für Arbeitsdokumente verwendet. OOXML ist das native Format von Word, Excel und PowerPoint. Es ist jedoch nicht möglich, einen fairen Vergleich zwischen OOXML und PDF anzustellen. OOXML wurde für die Erstellung und Bearbeitung von Dokumenten entwickelt. Es enthält Strukturinformationen und stellt lesbaren Text zur Verfügung (Kopieren/Einfügen). PDF als Autorenformat oder gar als geeignet für die Bearbeitung zu bezeichnen, wäre ziemlich gewagt. Andererseits punktet PDF als Format mit seinem festen Layout und seiner Archivierbarkeit, wofür OOXML definitiv nicht geeignet ist, auch wenn manche Anwender das gerne glauben würden.
Die Teilmengen von XPS und PDF/A sind jedoch vergleichbar und haben viele Gemeinsamkeiten, wie z. B. statische Inhalte. Das Motiv für die Entwicklung von XPS war die Beseitigung von Inkompatibilitäten zwischen dem Dokumentenformat und dem Betriebssystem. Das XPS-Grafikmodell ist zum Beispiel dasselbe wie das neue WPF-Grafiksubsystem in Vista. Genauer gesagt sind XPS-Elemente eine Untermenge von XAML, der in WPF enthaltenen Beschreibungssprache für Dokumente und Benutzeroberflächen.

Gerade dieses Beispiel zeigt, wie wichtig die Streuung eines Formats ist. PDF/A ist heute der De-facto-Standard für die Archivierung; XPS ist dagegen fast unbekannt. Ähnliche Schlussfolgerungen lassen sich auch für das Microsoft-unabhängige Office-Format ODF ziehen.
Ausgehende Post
Druckdatenströme im PostScript-, PCL- und AFP-Format werden manchmal direkt archiviert, in der Regel jedoch nach der Konvertierung in TIFF (COLD). In den letzten Jahren wurde immer wieder davon gesprochen, das sogenannte "Tiffing" durch die PDF/A-Konvertierung zu ersetzen. Kriterien wie Dateigröße (notwendig für die Einbettung von Schriftarten), Konvertierungsaufwand und Endqualität spielen eine wichtige Rolle. Für PostScript und PCL gibt es keinen Archivierungsstandard, aber es wird derzeit an einem AFP/A-Standard als Alternative zu PDF/A gearbeitet.
Diese Überlegungen sind besonders wichtig für Unternehmen, die eine eigene Archivierungslösung für ausgehende Post einführen wollen. Wird eine unternehmensweite Archivierungslösung bevorzugt, so ist PDF/A in der Regel die naheliegende Wahl.
Dateiformate
TIFF: Austauschformat für Rasterbilder (Scannen, Archivierung)
PostScript/PCL: Seitenbeschreibungssprache für den Druck
PDF: Austausch von Dokumenten mit festem Layout und interaktiven Elementen
AFP: Transaktionsdruck mit variablen Daten
Büroformate: Proprietäres Format für Arbeitsdokumente innerhalb des Unternehmens
OOXML: XML-basiertes Open-Office-Format von Microsoft
ODF: Offenes Office-Format im Wettbewerb mit Microsoft
XML: Speicherung von objektorientierten Daten mit Bezug auf ein Schema
XMP: Erweiterbares Metadatenformat auf der Grundlage von
XPS: XML-basierte Seitenbeschreibungssprache von Microsoft
EPUB: Format für die Online-Veröffentlichung von Dokumenten
PRC: Speicherung von 3D-Daten und Attributen
Multimedia: Zahlreiche Formate für Audio- und Videostreaming
3D-Daten für die Konstruktion
Für 3D-Daten, die interaktiv manipuliert und mit Beschreibungen (z. B. Stücklisten) angereichert werden können, gibt es einen ISO-Standard namens PRC (Product Representation Compact). PRC kann in PDF eingebettet werden und ist ein wichtiges Merkmal des PDF/E-Standards. PDF/E-2 ist so konzipiert, dass konforme Dateien direkt archiviert werden können.
Metadaten
Es gibt zahlreiche proprietäre Formate für Metadaten, und oft werden sie direkt im Archivsystem gespeichert. Es wird jedoch dringend empfohlen, ein Standardformat zu verwenden. Die ISO bietet das auf XML basierende XMP (Extensible Metadata Platform) an, das in nahezu jedes Bildformat (z.B. JPEG und TIFF) eingebettet werden kann und ein wichtiger Bestandteil von PDF/A ist. Darüber hinaus können XML-Daten direkt in PDF/A-3 eingebettet werden, beispielsweise für die elektronische Rechnungsstellung (ZUGFeRD).
Multimedia
Audio- und Videodateien können natürlich auch archiviert werden, entweder einzeln oder als eingebettete Datenströme in PDF und anderen Formaten. Derzeit gibt es jedoch keine allgemein anerkannten Standards für diese Formate, obwohl sich dies in Zukunft ändern könnte, da EPUB, ein Format für elektronische Veröffentlichungen, eine treibende Rolle spielt.
Archivierung - ist PDF/A die Lösung?
In einer Welt der elektronischen Dokumente wird PDF/A die meisten Anforderungen an Dateiformate erfüllen. Dies gilt jedoch bei weitem nicht für das gesamte Archivgut. Insbesondere für interaktive Kommunikationsmittel wie Websites, Programme und multimediale Inhalte werden neue Normen benötigt. Den ISO-Experten dürfte also die Arbeit in nächster Zeit nicht ausgehen.