Das PDF – darauf können wir nicht verzichten
Nicht alle Dokumentformate haben es geschafft, einen Standard zu werden, und sie liefern bei weitem nicht das, was sie versprechen. Was können oder sollten wir von einem Format erwarten? Was sind die wichtigsten Qualitätsmerkmale eines Formats und wie können wir herausfinden, ob ein Format ‚gut‘ ist? Wo lauern die Gefahren und wie können wir sie vermeiden? Die Wahl des Formats ist sehr wichtig, insbesondere im Bereich der langfristigen Archivierung. Dokumente, die über mehrere Jahre in einem ungeeigneten Format oder in schlechter Qualität archiviert wurden, können schwerwiegende Konsequenzen haben.
Ursprüngliche Quelle
PDF und die ISO-Standards
Wenn es um die Archivierung geht, sticht ein Format aus den anderen hervor: PDF, das native Format von Adobe Acrobat. Ursprünglich für den Austausch von Dokumenten unabhängig von Plattform oder Software entwickelt, hat sich PDF in den letzten 21 Jahren fest etabliert und wird mittlerweile von fast jedem Softwarehaus implementiert, das elektronische Dokumente erzeugt. Doch die zunehmende Nutzung von PDF hat auch die Befürchtung einer Abhängigkeit von Adobe geweckt. Um dies zu überwinden, haben sich Adobe und einige Nutzer sowie Industrieunternehmen verpflichtet, PDF zum Industriestandard zu machen und es durch die ISO-Gremien weiterzuentwickeln. Das erste Ergebnis dieser Initiative war die Veröffentlichung des ISO 32000-1-Standards im Jahr 2008, basierend auf Adobes PDF 1.7-Version. Die ISO arbeitet derzeit an der Version PDF 2.0.
Das Funktionsspektrum von PDF, das sich im Laufe der Jahre erheblich vergrößert hat, ist nicht für jeden Anwendungsbereich geeignet oder notwendig. Deshalb hat ISO eine Reihe von Unterstandards entwickelt, die auf dem PDF-Standard basieren und speziell auf die wichtigsten Anwendungen zugeschnitten sind.
Die PDF/X-, PDF/A-, PDF/E-, PDF/VT- und PDF/UA-Standards sind keine separaten Dateiformate. Stattdessen basieren sie auf dem übergeordneten PDF 1.7-Standard, der die Anforderungen und Verbote für die beabsichtigte Nutzung in jedem Fall definiert. Diese Regeln schränken entsprechend den Funktionsumfang von PDF 1.7 ein und bilden eine definierte Teilmenge.
PDF für die langfristige elektronische Archivierung
Obwohl PDF für den Austausch von Dokumenten unabhängig vom Betriebssystem oder der Software des Erstellers/Betrachters entwickelt wurde, ist das Format allein nicht für die Archivierung geeignet. Deshalb wurde PDF/A entwickelt.
PDF/A ist der Name einer Reihe von Standards, die die Eigenschaften von PDF-Dateien für die langfristige elektronische Archivierung von Dokumenten beschreiben. Zweck der Standards ist es, sicherzustellen, dass die archivierten Dokumente langfristig zugänglich bleiben und dass sie selbstbeschreibend, eindeutig, durchsuchbar und mit Metadaten versehen sind. Aus diesen Gründen ist Verschlüsselung verboten, Schriftarten und Farbprofile müssen eingebettet werden, alternative und dynamische Inhalte müssen entfernt werden, und Verweise auf externe Inhalte müssen entfernt werden.
Eine PDF-Datei kann auch mehreren Unterstandards gleichzeitig entsprechen. Dies ist besonders wichtig, wenn PDF/X- und PDF/VT-konforme Dateien archiviert werden müssen, die ebenfalls den PDF/A-Standard erfüllen müssen. Die Funktionalität einer Datei, die die Konformität mit mehreren Standards erfordert, wird daher auf die Anzahl der Funktionen beschränkt, die von den einzelnen Standards angeboten werden.
Format vs. Format
PDF ist ein sehr leistungsfähiges Format, aber bei weitem kein Alleskönner. Eine große Anzahl von Formaten wurde für spezifische Anwendungen optimiert (siehe Abb. 3).
Wenn es darum geht, die Vor- und Nachteile von Dateiformaten zu beschreiben, schauen viele Autoren automatisch auf PDF und veröffentlichen fundierte – und manchmal weniger fundierte – Vergleiche zwischen diesen Formaten und PDF. Um den Vergleich so fair wie möglich zu gestalten, sollten wir die beabsichtigte Verwendung nicht aus den Augen verlieren. Vergleiche machen nur dann Sinn, wenn sich die Anwendungsbereiche überschneiden, was uns zu den am häufigsten diskutierten Bereichen bringt.
Eingehende E-Mail
Wenn es um Bilder in gescannten Dokumenten geht, ist TIFF weder besser noch schlechter als PDF. Die Vorteile von PDF werden erst dann offensichtlich, wenn es zusätzliche Anforderungen gibt, die über die bloße Darstellung der Seite hinausgehen. Darüber hinaus sollte ein TIFF-Archiv nicht blind in ein PDF-Archiv migriert werden, wenn kein Mehrwert den Aufwand rechtfertigt. Die Kriterien für eine Migration von TIFF zu PDF sind in Abb. dargestellt. 4.
Arbeitsdokumente
Office-Formate werden am häufigsten für Arbeitsdokumente verwendet. OOXML ist das native Format von Word, Excel und PowerPoint. Es ist jedoch nicht möglich, einen fairen Vergleich zwischen OOXML und PDF zu ziehen. OOXML wurde entwickelt, um Dokumente zu erstellen und zu bearbeiten. Es enthält Informationsstruktur und macht lesbaren Text verfügbar (kopieren/einfügen). PDF als Autorenformat oder sogar als geeignet zum Bearbeiten zu beschreiben, wäre ziemlich gewagt. Andererseits punktet das PDF-Format mit seinem festen Layout und seiner Eignung für die Archivierung, für die OOXML definitiv nicht geeignet ist, auch wenn einige Benutzer das gerne hätten.
Die Untergruppen XPS und PDF/A sind jedoch vergleichbar und haben viele Dinge gemeinsam, wie z.B. statische Inhalte. Das Motiv hinter der Entwicklung von XPS war es, Inkompatibilitäten zwischen dem Dokumentenformat und dem Betriebssystem zu beseitigen. Der XPS-Grafikmodell ist dasselbe wie der neue WPF-Grafikunterstützungs in Vista. Genauer gesagt sind XPS-Elemente ein Untermenge von XAML, der Beschreibungsprache für Dokumente und Benutzeroberflächen, die in WPF enthalten sind.
Dieses Beispiel zeigt insbesondere die Bedeutung der Verbreitung eines Formats. PDF/A ist mittlerweile der de facto Standard für die Archivierung; im Gegensatz dazu ist XPS fast unbekannt. Ähnliche Schlussfolgerungen lassen sich über das Microsoft-unabhängige Office-Format ODF ziehen.
Ausgehende Post
Datenströme für den Druck im PostScript-, PCL- und AFP-Format werden manchmal direkt archiviert, üblicherweise jedoch nach der Umwandlung in TIFF (COLD). In den vergangenen Jahren wurde darüber gesprochen, das sogenannte 'Tiffing' durch eine PDF/A-Umwandlung zu ersetzen. Kriterien wie Dateigröße (notwendig für die Einbettung von Schriftarten), Umwandlungsaufwand und Endqualität spielen eine wichtige Rolle. Für PostScript und PCL gibt es keinen Archivierungsstandard, aber derzeit wird an einem AFP/A-Standard als Alternative zu PDF/A gearbeitet.
Diese Überlegungen sind besonders relevant für Unternehmen, die eine eigene Archivierungslösung für ausgehende Post implementieren möchten. Wenn eine unternehmensweite Archivierungslösung bevorzugt wird, ist PDF/A in der Regel die naheliegende Wahl.
Dateiformate
TIFF: Austauschformat für Rasterbilder (Scannen, Archivieren)
PostScript/PCL: Seitendefinitionssprache für den Druck
PDF: Austausch von Dokumenten mit fester Layout und interaktiven Elementen
AFP: Transaktionales Drucken mit variablen Daten
Office-Formate: Proprietäres Format für Arbeitsdokumente innerhalb des Unternehmens
OOXML: XML-basiertes Open Office-Format von Microsoft
ODF: Open Office-Format im Wettbewerb mit Microsoft
XML: Speicherung von objektorientierten Daten mit Bezug auf ein Schema
XMP: Erweiterbares Metadatenformat basiert auf
XPS: XML-basierte Seitendefinitionssprache von Microsoft
EPUB: Format für die Veröffentlichung von Dokumenten online
PRC: Speicherung von 3D-Daten und Attributen
Multimedia: Zahlreiche Formate für Audio- und Video-Streaming
3D-Daten für das Engineering
Eine ISO-Norm namens PRC (Product Representation Compact) ist verfügbar für 3D-Daten, die interaktiv manipuliert werden können und mit Beschreibungen (z.B. Stücklisten) angereichert sind. PRC kann in PDF eingebettet werden und ist eine wichtige Funktion des PDF/E-Standards. PDF/E-2 ist so konzipiert, dass konforme Dateien direkt archiviert werden können.
Metadaten
Es gibt zahlreiche proprietäre Formate für Metadaten, und oft werden diese direkt im Archivsystem gespeichert. Es wird jedoch dringend empfohlen, ein Standardformat zu verwenden. Die ISO bietet XMP (Extensible Metadata Platform) an, das auf XML basiert; es kann in nahezu jedes Bildformat (z.B. JPEG und TIFF) eingebettet werden und ist ein wichtiger Bestandteil von PDF/A. Darüber hinaus können XML-Daten direkt in PDF/A-3 eingebettet werden, wie zum Beispiel für die elektronische Rechnungsstellung (ZUGFeRD).
Multimedia
Audio- und Videodateien können natürlich ebenfalls archiviert werden, entweder einzeln oder als eingebettete Datenströme in PDF und anderen Formaten. Derzeit existieren jedoch keine allgemein anerkannten Standards für diese Formate, obwohl sich dies in Zukunft ändern könnte, da EPUB, ein Format für elektronische Veröffentlichungen, eine treibende Rolle spielt.
Archivierung – ist PDF/A die Lösung?
In einer Welt elektronischer Dokumente wird PDF/A zweifellos den meisten Anforderungen an Dateiformate gerecht. Aber das gilt keineswegs für alle archivierten Materialien. Insbesondere für interaktive Kommunikationsmittel wie Websites, Programme und multimediale Inhalte sind neue Standards erforderlich. Die ISO-Experten werden daher voraussichtlich nicht so bald ohne Arbeit sein.