PDF/A aus digitalen Quellen – Archivierung von Microsoft Office Dokumenten, E‑Mail und Webseiten
PDF/A stellt als ISO-Standard sicher, dass Dokumente auch in 10, 50 oder gar 100 Jahren noch gelesen werden können. Das Format trägt damit erheblich dazu bei, ein «Digital Dark Age» zu vermeiden und Informationen aus der heutigen Zeit zu erhalten.
Einleitung über das Langzeitarchiv-Format PDF/A
Die Archivierung von Dokumenten und Daten aus digitalen Quellen in PDF/A hat gegenüber dem Erhalt der Daten im Ursprungsformat viele Vorteile. Die Ursprungsapplikationen entwickeln sich rasant weiter. Das führt dazu, dass die Lesbarkeit und die authentische Darstellung von Daten schon nach wenigen Jahren nicht mehr gewährleistet sein kann. Hinzu kommt, dass dafür in einem Unternehmen alle genutzten Applikationen und die Plattformen, auf denen Sie betrieben wurden, erhalten werden müssten. Dies ist mit erheblichen Kosten verbunden. Gerade für digital erzeugte Dokumente und Daten eignet sich PDF/A hervorragend als Format für die Langzeitarchivierung mit grossen Vorteilen bezüglich Einheitlichkeit, Durchsuchbarkeit und Wirtschaftlichkeit.
Entstehung digitaler Dokumente als Archivgut
Das ECM-Modell von AIIM unterscheidet fünf Grobprozesse im Management von Unternehmensinformationen: Dokumentenakquisition (Capture), Verarbeitung (Manage), Dokumentenaustausch (Deliver), Aufbewahrung (Preserve) und Zwischenspeicherung (Store). Diesen Prozessen können vereinfacht folgende PDF/A-Funktionalitäten zugewiesen werden:
Digitale Dokumente entstehen in allen erwähnten Prozessen, und PDF/A hat auch in allen diesen Prozessen eine Bedeutung, jedoch auf unterschiedliche Weise, wie im Nachfolgenden erläutert wird.
Was sind typische Quellen digitaler Dokumente, die später archiviert werden, und in welchen Prozessen entstehen diese?
Posteingang
Scans mit und ohne OCR (Schrifterkennung)
E‑Mail mit und ohne Anhänge
Office, Graphik und Konstruktion
MS Word, Excel, Powerpoint, Visio, etc.
Illustrator, Indesign, Photoshop, etc.
CAD: Autocad, 3D Studio Max, etc.
Elektronischer Datenaustausch
SWIFT, EDIFACT usw.
Postausgang
Druckdatenströme: PostScript, PCL, AFP, usw.
Archivmigrationen
Massen von TIFF- und anderen Dateien inkl. Erschliessungsdaten (Metadaten, Objekt-Beziehungen, usw.)
Eigenschaften analoger und digitaler Quellen
Digitale Dokumente können aus analogen und digitalen Quellen entstehen. Es gibt einige Parameter, die für die spätere Langzeitarchivierung relevant sind:
Anhand dieser Unterschiede wird klar, dass eine differenzierte Strategie bei der Behandlung unterschiedlicher Quellen – sowohl im Groben wie im Detail – nötig ist, und zwar für die Mitarbeiter von IT-Abteilungen und Records-Manager wie auch für Hersteller von Konvertierungsprodukten. Die Herausforderung liegt darin, nicht einfach ein PDF/A-konformes Dokument zu erzeugen, sondern die Quelle so zu interpretieren, dass auch das visuelle Erscheinungsbild dem Ursprungsdokument entspricht. Die nachfolgende Darstellung zeigt Resultate von Konvertierungen nach PDF/A, die formalistisch gesehen konform sind, der Quelle im visuellen Erscheinungsbild jedoch nur ungenügend entsprechen:
Korrekte und falsche Konversionen: Das Resultat war in beiden Fällen ein konformes PDF/A-Dokument, das bei falscher Konversion aber in keiner Weise dem Ursprungsdokument entsprach.
Umwandlung von digitalen Quellen nach PDF/A
Warum umwandeln?
Die Langzeitarchivierung digitaler Daten in PDF/A bietet grosse Vorteile:
Die ursprünglichen, «nativen» Applikationen und Plattformen, auf denen die Applikationen betrieben wurden, müssen nicht erhalten werden
Die Abhängigkeit von Software-Herstellern wird verringert, da sämtliche relevanten Informationen in einem ISO-normierten Format gespeichert werden, das herstellerneutral ist
Vereinfachte Bearbeitung durch die Einheitlichkeit der archivierten Daten in einem Format
Möglichkeit der Volltextsuche im gesamten Datenbestand
Diese Vorteile gehen auch mit einem nicht zu unterschätzenden wirtschaftlichen Nutzen einher.
Natürlich hat die Archivierung in PDF/A gegenüber den nativen Formaten auch einige wenige Nachteile wie beispielsweise aufgrund des Verlustes von Interaktivität oder der eingebauten «Funktionalität» des nativen Formates. Als Beispiel sei hier MS Excel angefügt, das Formeln zur Berechnung von Inhalten anbietet, die bei der Konversion verloren gehen. Es macht bei diesen Formaten deshalb durchaus Sinn, auch das Ursprungsdokument zu archivieren und die Archivierung in PDF/A als Fallback-Variante einzusetzen. Der Zeitpunkt der Archivierung kann bei «interaktiven» Dateien auch so gewählt werden, dass die Notwendigkeit zu weiteren Veränderungen kaum mehr gegeben ist (Document Lifecycle Management). Bei bestimmten Formaten (z. B. E‑Mails) ist eine Speicherung des Ursprungsdokumentes aus Conformance-Gründen möglicherweise erforderlich.
Überblick Entstehungs- und Umwandlungsprozesse
Die Erstellung von PDF/A aus proprietären Formaten wie Office-Dokumenten, CAD-Zeichnungen u.ä. erfolgt am einfachsten über einen leistungsfähigen Druckertreiber, auch PDF Producer, PDF Creator oder PDF Converter genannt (z. B. Adobe Distiller, uvm.). Dieser «Umweg» über einen Druckertreiber ist nötig, da die native Applikation bis anhin meist nicht über eine «Save to PDF»-Funktion verfügt. Bei MS Office 2007 gibt es diese Funktion inzwischen, allerdings muss hierfür ein separates Add‑in heruntergeladen werden.
Die Archivierung von E‑Mails inkl. Anhängen nach PDF/A (z. B. aus MS Outlook) ist komplexer. Es gibt bis anhin nur wenige Anbieter einer solchen Funktionalität, beispielsweise PDF Tools AG mit dem 3-Heights® Document Converter Service, der eine E‑Mail mitsamt ihren Anhängen in ein einziges PDF/A-Dokument konvertiert.
Aus Datenbanken, ERP-Systemen u. ä. wird PDF/A in der Regel über eine Export-Funktion («Save to PDF») gesteuert. Oft müssen solche Dateien nachbearbeitet werden, da sie nicht vollumfänglich dem Standard entsprechen. Eine weitere Möglichkeit ist hier die direkte, programmatische Erzeugung von PDF- und PDF/A-Dateien. Dabei können die Inhalte aus beliebigen Quellen zusammengefügt werden, beispielsweise für die Aufbereitung von personalisierten Druckerzeugnissen.
Bilder werden mit spezifischen Tools in der Regel direkt umgewandelt, wobei eine OCR-Funktionalität sowohl für die Erzeugung von Metadaten und die Durchsuchbarkeit der Texte wichtig sind. Gerade bei gescannten Dokumenten ist die Komplexität solcher Anwendungen trotzdem nicht zu unterschätzen, insbesondere in den Bereichen Formatvielfalt (z. B. Dutzende Varianten von TIFF), Farben, Schriften und Kompressions- und Segmentierungsverfahren (z. B. Mixed Raster Content).
Jede Umwandlungssoftware in allen Bereichen muss die spezifischen Gebote und Verbote von PDF/A beachten, wie die Einbettung von Fonts, Farbprofilen und Metadaten (als XMP).
Allgemeine Herausforderungen
Ganz allgemein ist man bei der Erstellung von PDF/A aus digitalen Quellen mit folgenden Herausforderungen konfrontiert:
Farben
Wenn die Farbprofile der Quellen fehlen, dann müssen Annahmen über den Farbraum getroffen werden
Schriften
Wenn Schriften (oder Glyphen) fehlen, müssen Ersatzschriften gewählt werden. Dies setzt voraus, dass der Text als Unicode vorliegt.
Transparenz
Die Verflachung von Transparenz ist komplex und kann zum Verlust von Informationen führen (Schriften, Vektoren usw.)
Ebenen, Interaktive und Multi-Media Elemente
Nur die «Druckansicht» bleibt erhalten
Aktionen
Funktionalität (JavaScripts usw.) geht verloren
Digitale Signaturen
Prüfen, Dokumentieren, neu Signieren
Umwandlung von E‑Mails
In einer E‑Mail können alle Arten von Dokumenten, verschachtelte Archive und vieles mehr (ausführbare Dateien etc.) enthalten sein. Die E‑Mail kann zudem interne oder externe Referenzen enthalten (z. B. HTML-Mails), und es sind unterschiedlichste Systeme, Schnittstellen, Dateisysteme und Datenströme involviert.
Die Archivierung von E‑Mails inklusive Anhänge ist deshalb gewissermassen die «Königsdisziplin» der Archivierung in PDF/A, müssen doch alle Herausforderungen im Zusammenhang mit der Umwandlung von ursprünglich analogen und digitalen Quellen in einem einzigen Produkt gelöst werden.
Der Lösungsansatz besteht darin, für jedes einzelne Element einer E‑Mails eine differenzierte Konvertierungsstrategie zu wählen: E‑Mail Body und Anhänge werden einzeln konvertiert und erst dann wieder zu einem einzigen Dokument zusammengeführt. In diesem PDF/A-Dokument ist jeder Anhang dann mit einem sogenannten Bookmark-Eintrag erkennbar. So ist die Struktur der E‑Mails auch später noch nachvollziehbar. Zudem gehen auch Informationen wie Inhaltsverzeichnisse von Word-Dokumenten nicht verloren. Diese werden als zweite Hierarchieebene ebenfalls in den Bookmarks abgebildet und im PDF/A entsprechend verlinkt.
Auch die Behandlung von digitalen Signaturen ist bei der Archivierung von E‑Mails eine Herausforderung.
Umwandlung von Webseiten
Das Thema der Archivierung von Webseiten ist relativ neu. Im Wesentlichen geht es darum, jederzeit Inhalte und Zustand der eigenen Webseite rechtlich vertrauenswürdig festzuhalten, um in Gerichts- oder anderen Verfahren die nötigen Beweismittel vorlegen zu können.
Die Schwierigkeit bei der Webseiten-Archivierung besteht auch darin, dass die Ausgabe über einen Druckertreiber im Normalfall nicht das authentische Erscheinungsbild repräsentiert, da die Webseiten in der Regel für den Druck speziell aufbereitet werden. Um aber ein vertrauenswürdiges Beweismittel vorlegen zu können, ist diese «Abbildungstreue» von entscheidender Bedeutung.
Von der Webseite wird deshalb mit einer «Capture»-Funktionalität ein Bild erzeugt, das mit den entsprechenden Texten und sonstigen Informationen (wie Fonts, Farbräume etc.) gewissermassen zu einem «vektorisierten, durchsuchbaren Screenshot» zusammen geführt wird. Komplex ist auch die Behandlung von externen Links und der internen Link-Struktur der Website. Zudem ist es nötig, sich auf einen Browser und eine Browser-Version festzulegen, da unterschiedliche Browser und –Versionen auch eine andere Darstellung der Webseite zur Folge haben.
Umwandlung auf Client oder Server
Bei der Frage, ob Umwandlungssoftware auf einzelnen Clients oder einem zentralen Server installiert werden soll, sind folgende Aspekte zu beachten:
Font-Handling bei Massenarchivierungen
Einzelne, individuelle PDF/A-Dokumente können direkt archiviert werden. Für die Archivierung von grossen Mengen ähnlicher PDF/A-Dokumente (z. B. Telecom-Rechnungen usw.) ergibt sich oft die Situation, dass die Dokumente die gleichen Schriften, Logos oder andere Corporate Identity Elemente enthalten, die für jedes einzelne Dokument mitarchiviert werden müssten. Das wiederholte Speichern von gemeinsamen Ressourcen (Schriften, Bilder) ist nicht erwünscht und mindert die Akzeptanz von PDF/A.
Als Lösung ist eine Erweiterung (Addin) zum Archiv-System realisierbar, welches bei der Massen-Archivierung von PDF/A Dateien die gemeinsamen Ressourcen trennt und für alle Dokumente in nur einer Instanz speichert. Beim Abrufen eines Dokuments werden die gemeinsamen Ressourcen mit dem Dokument wieder zu einem vollständigen PDF/A-Dokument abgemischt. Der Ablauf ist auch für digital signierte Dokumente realisierbar, allerdings muss das Dokument bereits bei der Signierung für die Abtrennung der Ressourcen vorbereitet werden.
Rechtssicherheit mit digitaler Signatur
Die digitale Signierung von PDF/A-Dateien, die aus digital erzeugten Dokumenten stammen, bringt in jedem Fall eine grössere Rechtssicherheit mit sich. Je nach Anwendungsfall muss man sich aber im Klaren darüber sein, was die Signatur wirklich bringt. In jedem Fall lässt sich bei einer qualifizierten elektronischen Signatur eine zweifelsfreie Aussage machen, zu welchem Zeitpunkt die Umwandlung stattgefunden hat und ob das Dokument seit der Umwandlung noch verändert wurde. Und natürlich auch, wer den Umwandlungsprozess in einem Unternehmen vorgenommen hat.
Allerdings sind damit allfällige Zweifel, welche durch die «dynamische» Quelle (z. B. eine Datenbank) eines solchen PDF/A-Dokumentes entstehen, nicht ausgeräumt. Ebenso wenig ist ein Nachweis möglich, ob das erzeugte PDF/A-Dokument tatsächlich dem Erscheinungsbild des Ursprungsdokumentes (z. B. eines Word-Dokumentes entspricht), oder ob wirklich alle im Dokument enthaltenen Informationen (z. B. Inhalte und Beilagen bei einer E‑Mail) in der PDF/A-Datei vorhanden sind. Um bei solchen Dokumenten eine Steigerung der Glaubwürdigkeit zu erreichen, ist die Zertifizierung des ganzen Prozesses nötig.
Ein Thema, das also weit über den reinen Einsatz von digitalen Signaturen hinausgeht. Solche Zertifizierungen bedingen aber ein gewisses Volumen, so dass sich diese vor allem für Dienstleister, Software- und Systemhersteller und grosse Unternehmen lohnen.
Qualitätssicherung über Validierer
«Vertrauen ist gut, Kontrolle ist besser»: Dies gilt natürlich auch für PDF/A und Produkte, die PDF/A erzeugen oder dies behaupten. Denn nicht überall, wo PDF/A draufsteht, ist auch PDF/A drin. Die Archivierung von Unternehmensdaten kann im Extremfall über die Existenz eines Unternehmens entscheiden.
Beispielsweise dann, wenn in einem Gerichtsfall die entlastenden Akten nicht oder nicht rechtzeitig bereitgestellt werden können. Deshalb ist es wichtig, Tools einzusetzen, die höchsten Qualitätsstandards genügen. Um festzustellen, ob ein Tool diese Voraussetzung erfüllt, gibt es Validatoren. Und auch diese Validatoren wollen geprüft sein. Hierfür hat die PDF Association eine frei verfügbare Testsuite erstellt, die den Standard systematisch verletzt und dabei prüft, ob ein Validierer alle Verletzungen erkennen kann.
Der Einsatz eines Validierers ist aber nicht nur bei der Evaluation eines Tools wichtig, sondern auch in den operativen Prozessen. So sollten die erzeugten PDF/A-Dokumente regelmässig mit einem Validierer auf ihre Konformität hin überprüft werden – im Sinne einer permanenten Qualitätssicherung. Denn unterschiedliche Quellen, Applikationsversionen u.ä. können zu unterschiedlichen Konvertierungsresultaten führen.
Zusammenfassung PDF/A aus digitalen Quellen
PDF/A als Format zur Archivierung digitaler Dokumente ist vorteilhaft und kann zu erheblichen Kosteneinsparungen gegenüber der Archivierung im nativen Format führen. Allerdings steckt auch hier der Teufel im Detail, und die Komplexität ist je nach Quelle der digitalen Dokumente nicht zu unterschätzen. Die Zusammenarbeit mit Spezialisten auf diesem Gebiet ist deshalb unabdingbar und kann den Anwender vor unnötigen Kosten durch fehlerhafte Prozesse u.ä. schützen. Der rasche und sichere Zugriff auf Informationen ist sowohl im Tagesgeschäft wie auch aus strategischer Sicht (z. B. bei Rechtsfällen) von grosser Bedeutung. Mängel in diesem Bereich können mit Image-Schäden oder substanziellen, finanziellen Konsequenzen einhergehen. Die Archivierungsprozesse gerade von digitalen Daten sind deshalb Chefsache.