Alles über PDF/A für die Langzeitarchivierung
PDF/A ist der Standard für das Archivieren elektronischer Dokumente. Das Format PDF ist global weit verbreitet. Es wird sowohl im industriellen, als auch öffentlichen sowie im privaten Bereich für vielfältige Zwecke verwendet. Die PDF/A-Norm ist das passende Instrument, um die Archivierung und Reproduzierbarkeit der Dokumente langfristig zu gewährleisten.
Was ist PDF/A?
PDF/A ist ein Format, welches die Anforderungen für die Langzeitarchivierung erfüllt. Dabei vereinigen sich die Stärken des Formates PDF mit zusätzlichen spezifischen Anforderungen aus der Langzeitarchivierung.
PDF/A ist in der ISO Norm 19005 definiert und basiert auf dem Dateiformat PDF. Das Format bietet das Prinzip eines in sich geschlossenen Dokuments. Das bedeutet, dass das visuelle Erscheinungsbild eines Dokuments über einen längeren Zeitraum erhalten bleibt, unabhängig von den Werkzeugen und Systemen zur Erstellung, Speicherung und Reproduktion.
Dieser Standard legt weder die Methode noch den Sinn und Zweck der Archivierung fest. Definiert wird lediglich eine Norm für elektronische Dokumente, die garantieren soll, dass ein Dokument auch in Zukunft originalgetreu dargestellt werden kann.
Deshalb darf das Dokument weder direkt noch indirekt auf eine externe Quelle verweisen. Ein Beispiel dafür wäre ein externes Bild oder eine nicht im Dokument selbst eingebettete Schrift.
Der PDF/A-Standard besteht aus einem Regelwerk, das festlegt unter welchen Bedingungen ein Dokument PDF/A-konform ist. Dieses ist schlanker als jenes von PDF, da der PDF-Standard dessen Grundlage bildet.
Worin liegt der Unterschied zwischen PDF und PDF/A?
PDF an sich garantiert keine Langzeit-Reproduzierbarkeit, nicht einmal das Prinzip WYSIWYG (what you see is what you get). Damit beides gewährleistet ist, mussten gewisse Einschränkungen und Erweiterungen in den Standard aufgenommen werden. Um bei einem breiten Publikum akzeptiert zu werden, musste PDF/A ferner auf einer bereits existierenden PDF-Version aufbauen.
Adobe’s PDF Referenz 1.4 wurde als Grundlage für den PDF/A-Standard (ISO 19005) gewählt. Dieser sagt aus, dass PDF/A «alle Anforderungen der PDF-Referenz erfüllen muss, wie durch diesen Teil des ISO 19005 Standards ergänzt». Der Standard beschreibt also nur die Unterschiede zur Referenz.
Bestimmte, in PDF 1.4 erlaubte Funktionalität wie die Transparenz oder die Ton- und Videoreproduktion, sind aus PDF/A ausgeschlossen worden.
Es gibt andererseits in PDF 1.4 optionale Konstrukte, welche in PDF/A zwingend vorhanden sein müssen. So müssen in PDF/A beispielsweise alle sichtbar verwendeten Schriften eingebettet sein.
Kurzum: PDF/A präzisiert im Wesentlichen spezifische Eigenschaften der PDF-Referenz 1.4 und definiert, ob sie obligatorisch, empfohlen, eingeschränkt oder verboten sind.
Wo kommt PDF/A her?
Wie hat sich das PDF/A entwickelt? Wozu wurde eine PDF/A-Initiative gegründet? Wie wurden Dokumente früher archiviert?
Welche Versionen und Konformitätsstufen von PDF/A gibt es?
PDF/A ist als mehrteilige Standardreihe angelegt: PDF/A-1, PDF/A-2, PDF/A-3 und PDF/A-4. Ein später herausgegebener Typ ersetzt oder verdrängt frühere auf keine Art und Weise. Beispielsweise bleiben bereits erstellte PDF/A‑1-konforme Dokumente für die Langzeitarchivierung weiterhin gültig. Sie müssen nicht verändert werden, d. h. ein «Upgrade» nach PDF/A‑2 ist nicht notwendig.
Die PDF/A-Versionen 1-3 sind zusätzlich in zwei bis drei Konformitätsstufen unterteilt, die angeben, ob ein Dokument neben der eindeutigen visuellen Reproduzierbarkeit (Basic = b), auch den Einsatz von Unicode-Text (Unicode = u) oder die barrierefreie Verwendung (Accessibility = a) ermöglicht. Bei PDF/A-4 werden nur zwei Stufen je nach Inhalt bzw. Verwendungszweck gebildet.
Empfehlung
Sofern der Charakter von Dokumenten keinen anderen Standard nahelegt, empfiehlt PDF Tools die Archivierung im PDF/A-2-Standard. Die Konvertierung in PDF/A-2 ist mit den richtigen Software-Tools einfach und hochwertig umzusetzen. Zudem vermeidet dieser Standard Risiken, die mit unbekannten Dateianhängen einhergehen (vgl. PDF/A-3).
Für heutige Konvertierungsprozesse PDF/A-1 zu verwenden ist nicht ratsam, da dieser Standard durch fehlende Funktionalitäten, wie Transparenz, dazu führen kann, dass visuelle Veränderungen im Dokument auftreten oder die Konversion nicht umgesetzt werden kann. PDF/A-4 erscheint zudem wenig sinnvoll, da die grosse Mehrheit der heute existieren Dokumente auf PDF 1.X basieren und darum eine Konversion nach PDF/A-4 im Vergleich zu PDF/A-2 eine unnötig komplexe Konvertierung darstellen würde.
Wie werden Microsoft Office Dokumente, E‑Mails und Webseiten archiviert?
Die Archivierung von Dokumenten aus digitalen Quellen in PDF/A hat gegenüber dem Erhalt der Daten im Ursprungsformat viele Vorteile. Die Ursprungsapplikationen entwickeln sich rasant weiter. Das führt dazu, dass die Lesbarkeit und die authentische Darstellung von Daten schon nach wenigen Jahren nicht mehr gewährleistet sein kann. Hinzu kommt, dass dafür in einem Unternehmen alle genutzten Applikationen und die Plattformen, auf denen Sie betrieben wurden, erhalten werden müssten.
Wie werden PDF/A-konforme Dokumente erzeugt und verarbeitet?
Um eine Software herzustellen, welche PDF/A-konforme Dokumente erzeugt und anzeigt, ist eine genaue Kenntnis des PDF/A-Standards nötig. Dieses Wissen allein ist aber noch nicht ausreichend, um die PDF/A-bezogenen Prozesse optimal zu gestalten.
Was passiert bei der Konvertierung in PDF/A?
Die Umwandlung von einem Dokument in ein PDF/A ist eine hybride Konversion. Das heisst, dass nicht nur die PDF/A-Spezifikation die Parameter der Konversion beeinflusst, sondern auch jene des PDF-Standards selbst. Typische Beispiele sind, dass die eingebetteten Schriften und die verwendeten Farben kalibriert werden müssen. Weniger bekannt ist, dass der PDF/A-Standard zusätzliche, strengere Regeln enthält.
PDF/A wurde mit Blick auf die Dokumentenerstellung entwickelt, nicht auf die Konvertierung. Dennoch muss ein PDF-zu-PDF/A-Konverter eine neue PDF-Datei erzeugen, die den Regeln der Norm folgt. Beispiele:
Unkalibrierte Farbräume können durch kalibrierte ersetzt werden, indem für jeden der geräteabhängigen Farbräume DeviceGray, DeviceRGB und DeviceCMYK ein ICC-Farbprofil gewählt wird.
Es ist nicht notwendig, ein Output-Intent einzuführen, wenn sie nicht in der Input-Datei vorhanden ist. Wenn die Eingabedatei jedoch bereits ein Ausgabe-Profil (z.B. ein CMYK-Profil) hat, wird empfohlen, diese und die geräteabhängigen Farben, die sich darauf beziehen, beizubehalten.
Das Einbetten fehlender Schriftartenprogramme ist nur dann einfach, falls die Originalschriftart verfügbar ist, was oft nicht der Fall ist. Wenn die Schrift nicht verfügbar ist, muss sie durch eine Ersatz-Schrift ersetzt werden, die der ursprünglichen ähnlich sein sollte.
Wenn Transparenz verboten ist, wie z.B. bei PDF/A-1, dann muss der Konverter eine Art Transparenzreduzierung durchführen oder die Datei ablehnen, wenn er dies nicht kann.
Bei verbotenen Features wie JavaScript, Multimedia-Inhalten, Aktionen usw. hat der Konverter die Möglichkeit, Features zu entfernen oder die Datei auf Wunsch des Benutzers abzulehnen.
Warum muss ein PDF/A-Dokument validiert werden?
Gerade für Unternehmen ist es lebensnotwendig zu wissen, dass die PDF- und PDF/A-Dokumente, welche durch die geschäftsrelevanten Prozesse laufen, dem jeweiligen Standard auch wirklich entsprechen. Nicht überall, wo PDF/A drauf steht ist auch PDF/A drin. PDF/A ist ein Qualitätsmerkmal, welches die konforme Archivierung in einem digitalen Langzeitarchiv unterstützt. Wie kann man jedoch sicherstellen, dass die aus externen wie auch internen Quellen generierten PDF/A-Dokumente den Standard in allen Punkten einhalten?
Ein PDF-Validator prüft die Konformität eines PDF-Dokuments mit einer bestimmten Spezifikation. Das Werkzeug bietet eine Reihe von Regelsätzen – meist in Form von Profilen – an, welche die Dokumente entsprechend analysieren.
Zu welchem Zweck werden PDF/A-Dokumente signiert?
Digitale Dokumente sind heute eng mit Geschäftsprozessen verbunden. Dabei spielt die elektronische Signatur eine Schlüsselrolle. Allerdings ist das Wissen darüber dünn gesät. Elektronische Signaturen erfüllen vier wesentliche Funktionen:
Ersatz der handschriftlichen Unterschrift: Die elektronische Signatur kann der Erfordernis der handschriftlichen Unterschrift ebenso gerecht werden wie die handschriftliche Unterschrift, sofern die gesetzlichen Voraussetzungen erfüllt sind.
Integritätsschutz: Elektronische Signaturen haben einen „Versiegelungseffekt“ für digitale Dokumente, weil damit nachträgliche Veränderungen am Dokument offensichtlich werden.
Authentizität: Mit der elektronischen Signatur kann sichergestellt werden, dass die Signatur eindeutig einer natürlichen oder juristischen Person zugeordnet werden kann.
Autorisierung: Rechte und Befugnisse können im Zertifikat festgelegt und verwaltet, und damit einer Person zugeordnet werden. Die elektronische Signatur kann sicherstellen, dass Veränderungen am Dokument jederzeit erkennbar und nachvollziehbar bleibt.
Der konkrete Einsatz elektronischer Signaturen in Geschäftsprozessen hängt vom Einzelfall ab. Es ist empfehlenswert, für signierte Dokumente das Format PDF/A zu verwenden und eine Signatur-Software einzusetzen, die allen Anforderungen bezüglich gültiger Signatur und Langzeitarchivierung gerecht wird.