Die Geschichte und die Entstehung des Formats PDF/A

PDF/A wird sich zweifellos als Standardlösung für die Langzeitarchivierung elektronischer Dokumente etablieren. Sie wurde am 1. Oktober 2005 als ISO-Norm veröffentlicht und hat sich seitdem aufgemacht, die Welt zu erobern. Als Schweizer Vertreter im ISO-Komitee für PDF/A ist PDF Tools Ihr kompetenter Ansprechpartner für alle Fragen rund um PDF/A. Wir helfen Ihnen gerne weiter, wenn Sie auf dieser Website keine Antworten auf Ihre speziellen Fragen finden.
Einführung in PDF/A
Hintergrund - was steckt hinter PDF/A und woher kommt es?
Am 28. September 2005 hat die International Standards Organization (ISO) eine neue Norm für die Archivierung elektronischer Dokumente verabschiedet:
ISO-19005-1 - Dokumentenmanagement - Dateiformat für elektronische Dokumente zur Langzeitarchivierung - Teil 1: Verwendung von PDF 1.4 (PDF/A-1).
Der Standard war das Ergebnis von mehr als 36 Monaten Zusammenarbeit zwischen Unternehmen und Organisationen auf der ganzen Welt.
Im Mai 2002 starteten die Association for Information and Image Management (AIIM), die National Printing Equipment Association (NPES) und die Verwaltungsbehörde für die US-Gerichte eine Initiative zur Schaffung von standardisierten Formaten für elektronisch archivierte Dokumente. Die Auftaktveranstaltung fand im Oktober 2002 statt. An der Veranstaltung nahmen PDF-Hersteller wie Adobe Systems, Library of Congress, Surety Inc., Quality Associates Inc., Appligent, Merck, EMC, PDF Sages und NARA (National Archives and Records Administration) teil. Später kamen auch Xerox, Honeywell, EDS und Glaxo Smith Kline hinzu, um nur einige zu nennen.
Die Gründer des Projekts erstellten eine erste Version und reichten ihre Empfehlung bei der ISO ein, um sie als internationale Norm registrieren zu lassen. Die ISO wies das Projekt dem Technischen Komitee TC 171 (Document Management Applications) zu. TC 171 besteht aus Vertretern von 13 Mitgliedsländern (je eine Stimme) sowie Beobachtern aus weiteren 21 Ländern. Nach zahlreichen Überprüfungen und Verbesserungen wurde die Norm im September 2005 angenommen.
Warum die PDF/A-Initiative?
Die Archivierungsformate sind von Land zu Land unterschiedlich. Die traditionellen Archivierungsmethoden (Papier, Mikrofilm, Mikrofiche) gewährleisten zwar die Reproduzierbarkeit, entsprechen aber nicht mehr dem Stand der Technik. Große Dokumente lassen sich nicht schnell rund um den Globus verschicken, und es ist äußerst schwierig, die archivierten Dokumente nach bestimmten Inhalten zu durchsuchen. Viele Organisationen richten TIFF-Archive als ersten Schritt zur elektronischen Archivierung ein. TIFF garantiert außerdem eine langfristige Reproduzierbarkeit und ist ein bewährtes Format. TIFF kann nun in global vernetzten Unternehmen schnell und einfach übertragen werden, die Suche ist jedoch nach wie vor schwierig.
An diesem Punkt begann man, über PDF nachzudenken. Es gibt eine Reihe von Gründen, warum PDF attraktiver ist als TIFF:
PDF speichert strukturierte Objekte (wie Texte, Vektorgrafiken, Rasterbilder), die eine effiziente Suche im gesamten Archiv ermöglichen. TIFF hingegen ist ein Rasterformat und muss mit einer OCR-Maschine verarbeitet werden, um eine Volltextsuche zu ermöglichen.
PDF-Dateien sind kompakter und benötigen oft nur einen Bruchteil des Speicherplatzes einer entsprechenden TIFF-Datei, oft sogar bei besserer Qualität. Die geringe Dateigröße ist besonders beim elektronischen Datenaustausch (FTP, E-Mail-Anhänge usw.) von Vorteil.
Metadaten wie Titel, Autor, Erstellungs- und Änderungsdatum, Inhalt, Schlüsselwörter usw. können direkt in das PDF-Dokument eingebettet werden. So können sie automatisch und ohne menschliches Zutun klassifiziert werden.
Die Seiteninhalte in einem PDF-Dokument sind in der Regel geräteunabhängig, d. h. unabhängig von der Rasterauflösung, dem Farbcode usw. Die Seiten werden erst bei der Reproduktion (Rendering-Prozess) auf dem Raster angezeigt. PDF-Dokumente profitieren daher auch noch nach Jahren vom technologischen Fortschritt der Ausgabegeräte wie Drucker, Monitor usw.
Der Schöpfer des PDF-De-facto-Standards, Adobe Systems, hat in den letzten dreizehn Jahren acht neue Versionen seines "PDF-Referenzhandbuchs" veröffentlicht. Mit jeder neuen Version wurde das Format um zahlreiche neue Funktionen erweitert und einige der alten Funktionen verändert. Es war daher notwendig, einen stabilen, international anerkannten Standard für die Langzeitarchivierung zu entwickeln, der auf den Adobe-eigenen PDF-Spezifikationen aufbaut. Das Ergebnis: PDF/A.
Der PDF/A-Standard
Zweck von PDF/A
Die ISO-Norm 19005 definiert ein auf PDF basierendes Dateiformat namens PDF/A. Das Format bietet einen Mechanismus, der elektronische Dokumente so darstellt, dass das visuelle Erscheinungsbild über einen längeren Zeitraum erhalten bleibt, unabhängig von den Werkzeugen und Systemen zur Erstellung, Speicherung und Reproduktion.
Diese Norm legt weder die Methoden noch die Absicht oder den Zweck der Konservierung fest. Die Norm soll damit gewährleisten, dass elektronische Dokumente auch in Zukunft in ihrem ursprünglichen Erscheinungsbild betrachtet werden können. Aus diesem Grund darf das Dokument weder indirekt noch direkt auf eine externe Quelle verweisen. Ein Beispiel wäre ein externes Bild oder eine Schriftart, die nicht in das Dokument selbst eingebettet ist.
Vergleich zwischen PDF und PDF/A
Das normale PDF-Format garantiert keine langfristige Reproduzierbarkeit oder vollständige Unabhängigkeit von der Software und dem Ausgabegerät. Um beide Prinzipien zu gewährleisten, war es notwendig, die bestehende PDF-Spezifikation sowohl einzuschränken als auch zu erweitern. Es war von Anfang an klar, dass PDF/A-1 auf einer bestehenden Version von PDF basieren musste, um die Akzeptanz eines breiten Publikums zu erreichen. Das ISO-Komitee TC 171 wählte die Adobe PDF-Referenz 1.4 als Grundlage für den PDF/A-1-Standard.
Die PDF-Referenz 1.4 wurde von Adobe in ihrem Produkt Acrobat 5 implementiert. PDF/A-1 muss als Standard alle Anforderungen dieses Dokuments erfüllen und auch bestimmte technische Einschränkungen von Acrobat 5 beachten. Die ursprüngliche PDF-Referenz und ISO 19005-1 bilden zusammen den aktuellen PDF/A-1-Standard. ISO 19005-1 zeigt nur die Unterschiede zur PDF-Referenz auf. Dementsprechend ist die PDF-Referenz 1.4 die zentrale Grundlage, um den PDF/A-1-Standard zu verstehen.
Mehrere Funktionen von PDF 1.4, wie Transparenz oder die Wiedergabe von Audio- und Videodaten, sind in der PDF/A-1-Norm verboten. Bestimmte Optionen von PDF 1.4 sind in PDF/A-1 obligatorisch: So müssen beispielsweise alle verwendeten Schriftarten in das Dokument eingebettet sein. Der PDF/A-1-Standard tut im Grunde nichts anderes, als die einzelnen Merkmale der PDF-Referenz 1.4 zu benennen und anzugeben, ob sie absolut notwendig, empfohlen, eingeschränkt oder nicht erlaubt sind.
Die PDF/A, A-1a, A-1b, A-2 "Babylon"
Der PDF/A-1 Standard ist in zwei Konformitätsstufen unterteilt: PDF/A-1a und PDF/A-1b.
PDF/A-1a (Level A Conformance) definiert die Konformität mit allen Anforderungen des PDF/A-1-Standards.
Die Mindestanforderungen für die Konformität mit PDF/A-1 sind in PDF/A-1b (Level B Conformance) enthalten. Die Anforderungen von PDF/A-1b sind im Allgemeinen ausreichend für eine eindeutige Reproduktion über einen längeren Zeitraum.
PDF/A-1a unterscheidet sich von PDF/A-1b hauptsächlich in Bezug auf die Anforderungen an die Barrierefreiheit (Paragraph 508 des US Rehabilitation Act).
PDF/A-1a garantiert, dass der Dokumententext extrahierbar ist und dass die logische Struktur des Dokuments sowie der natürliche Leseprozess des integrierten Textmaterials erhalten bleiben. Die Textextraktion ist vor allem dann von Interesse, wenn Dokumente auf mobilen Geräten (z.B. PDA) angezeigt oder im Sinne des Paragraphen 508 des US Rehabilitation Act visualisiert werden sollen. Dazu gehört die Anforderung, dass die Darstellung des Textes durch Umstrukturierung (Reflow) auf den verkleinerten Bildschirm passt. Diese Funktion ist auch als "tagged PDF" bekannt.
PDF/A-1b stellt sicher, dass Text und andere Inhalte auf Seiten einheitlich wiedergegeben werden; es ist jedoch keine Garantie dafür, dass der eingebettete Text verständlich und maschinenlesbar ist. Dem Ersteller einer PDF/A-1b-konformen Datei steht es frei, den Text in einer lesbaren Form einzubetten, auch wenn die strengeren Anforderungen gemäß der oben genannten Section 508 nicht erfüllt sind.
Für gescannte Dokumente ist die Konformität mit PDF/A-1b völlig ausreichend, auch wenn sie mit OCR verarbeitet wurden, um eine Volltextsuche zu ermöglichen.
Im Juli 2011 veröffentlichte der Technische Ausschuss einen neuen Teil der Norm: ISO 19005-2 (PDF/A-2). Während PDF/A-1 auf der PDF-Version 1.4 basiert, nutzt PDF/A-2 Funktionen, die erst in späteren PDF-Versionen bis einschließlich PDF 1.7 verfügbar wurden. Am wichtigsten ist jedoch, dass PDF/A-2 nicht mehr auf einer bestimmten Adobe PDF-Version basiert, sondern auf der ISO-Norm 32000-1.
Das ISO-Komitee veröffentlichte im Oktober 2012 die dritte Ausgabe der Norm (ISO 19005-3). PDF/A-3 enthält nur eine notwendige, aber umstrittene Änderung: PDF/A-2 ermöglichte bereits die Einbettung von PDF/A-konformen Dokumenten als Anhänge. Mit PDF/A-3 ist es jedoch erstmals möglich, beliebige Dokumentformate wie Excel-, Word-, HTML-, CAD- oder XML-Dateien einzubetten.
Verwendung des PDF/A-Standards
Wie erhalte ich eine Kopie?
Die PDF/A-Norm ISO 19005 kann auf der ISO-Website erworben werden. Kopien können auf Papier oder elektronisch im PDF-Format bestellt werden und sind wie alle anderen ISO-Normen urheberrechtlich geschützt. Es ist daher illegal, kostenlose Kopien über das Internet anzubieten. Die Norm ist derzeit nur in englischer Sprache verfügbar.
Wer sollte die Norm lesen?
Der Zweck des PDF/A-Standards ist die Unterstützung und Verbesserung von Archivierungsstrategien. Die Norm selbst ist recht technisch und kann nur von Experten mit umfassenden Kenntnissen über Seitenbeschreibungssprachen wie PostScript und PDF verstanden werden. Das Hauptdokument selbst ist klein, aber der Umfang des Basisdokuments ist sehr groß. Allein die PDF-Referenz 1.4 umfasst 1.000 Seiten, nicht eingerechnet die referenzierten Dokumente (Schrift- und Kompressionsformate, XML-Spezifikationen, ICC-Farbprofile, digitale Signaturen, RFCs usw.).
Außerdem ist die Norm allein noch keine Garantie für eine langfristige Erhaltung. Es ist empfehlenswert, einen Experten zu Rate zu ziehen, um die PDF/A-Anforderungen vollständig zu verstehen, eine darauf basierende unternehmensweite Archivierungspolitik zu implementieren und die langfristigen Ziele der Dokumentenarchivierung zu erreichen.
Welche Hilfsmittel sind verfügbar?
Werkzeuge zur Erstellung, Verarbeitung und Validierung von PDF-Dokumenten sind seit Mitte 2006 auf dem Markt erhältlich. Adobe selbst hat entsprechende Funktionen in die Version 8 von Adobe Acrobat integriert, die im Herbst 2006 veröffentlicht wurde. Microsoft bietet auch ein separat herunterladbares Plug-in für Office 2007 an, das die Erstellung von PDF/A-konformen Dateien direkt aus Office-Produkten ermöglicht. Angesichts der Vielzahl der bereits auf dem Markt befindlichen Produkte zur Erstellung von PDF/A ist es inzwischen sehr wichtig geworden, jedes erstellte PDF/A-Dokument auf korrekte PDF/A-Konformität hin zu prüfen.
PDF/A erfordert eine umfassende Lösung
Der PDF/A-Standard ist lediglich ein Bestandteil einer umfassenden Lösung. PDF/A allein ist keine Garantie für die Langzeitarchivierung oder dafür, dass die Anzeige wie vorgesehen funktioniert. PDF/A erhebt auch nicht den Anspruch, in jedem Szenario die am besten geeignete Lösung zu sein. Andererseits definiert PDF/A die spezifischen Anforderungen an elektronische Dokumente, damit diese langfristig erhalten bleiben können.
Weitere Aspekte müssen berücksichtigt werden, wenn ein PDF/A-konformes Archiv realisiert werden soll. Dazu gehören u.a. unternehmensinterne Standards und Prozesse, Qualitätsmanagement, verlässliche Datenquellen und dedizierte, auf den jeweiligen Anwendungszweck zugeschnittene Anforderungen. Insbesondere die Migration von bestehenden Papier- oder TIFF-Archiven in ein PDF/A-konformes Archiv ist eine nicht unerhebliche Aufgabe und muss daher sorgfältig geplant werden.
PDF/A-Zusammenfassung
PDF/A als neuer Archivierungsstandard
PDF/A wird voraussichtlich der neue Standard für die Archivierung elektronischer Dokumente werden. PDF ist im privaten und öffentlichen Sektor weltweit allgegenwärtig und wird bereits als Format für unzählige Zwecke akzeptiert. Die PDF/A-Norm wird dazu beitragen, dass die Nutzer Dokumente auch nach langer Zeit noch sicher reproduzieren können.
Die Einführung des PDF/A-Standards wird (wie es sich gehört) wahrscheinlich die zukünftige Entwicklung von PDF selbst beeinflussen. Unabhängig davon wird Adobe auch weiterhin Verbesserungen und neue Funktionen einführen. Beispiele sind 3-D-Modelle oder XFA für dynamische PDF-Formulare. Dies wird die Norm weiter unter Druck setzen, denn das Wesen einer Norm - insbesondere einer Archivierungsnorm - besteht darin, dass sie nicht häufig geändert wird.
Wie wird der Markt reagieren?
Wir sollten nicht erwarten, dass PDF/A-Produkte den Markt überschwemmen werden. Es erfordert ein beträchtliches Wissen, um die Technologie hinter PDF/A zu verstehen. Außerdem hat der Nutzer bei standardkonformer Software höhere Qualitätsanforderungen.
Die ersten Geräte kamen Mitte 2006 auf den Markt. Gefragt sind die PDF/A-konforme Produktion, die PDF/A-Validierung sowie die einfache Konvertierung bestehender PDF-Dokumente in konforme PDF/A-Dateien.
Das Erscheinen der ersten professionellen PDF/A-Werkzeuge hat bereits Prozesse zur Implementierung von PDF/A-konformen Archivierungssystemen angestoßen. Allzu viel Funktionalität sollte an dieser Stelle nicht erwartet werden. Es ist wahrscheinlich, dass zunächst nur ein eingeschränktes PDF/A-1b und erst später das vollständige PDF/A-1a angeboten wird.
Wie so oft bei der Einführung eines neuen Standards werden viele Produkte auf den Markt kommen, die mit der PDF/A-Konformität werben, aber die Anforderungen des Standards nicht erfüllen. Gerade in der Einführungsphase sind Fachwissen zur Bewertung und seriöse Anbieter gefragt.
Heiße Luft oder langfristige Strategie?
PDF/A wird nicht von kurzer Dauer sein. Der Bedarf an einem standardisierten Rahmen für die Archivierung mit PDF besteht schon seit mehreren Jahren. Und: PDF wird bereits in vielen Anwendungen mit Hilfe von unternehmensspezifischen Richtlinien zu diesem Zweck verwendet.
Dass Microsoft auf die Kundennachfrage reagiert und die Erstellung von PDF/A-Dokumenten direkt aus der neuesten Office-Palette ermöglicht, ist ein deutliches Signal. Die internationale Akzeptanz von PDF/A ist ungebrochen.