PDF/A für digital erzeugte Dokumente - Archivierung von MS-Office-Dokumenten, E-Mails und Websites

PDF/A, eine ISO-Norm, garantiert, dass Dokumente auch in 10, 50 oder sogar 100 Jahren noch gelesen werden können. Dieses Format trägt wesentlich dazu bei, ein "digitales dunkles Zeitalter" zu vermeiden, und hilft, Daten aus der Gegenwart zu erhalten.

Einleitung

Im Vergleich zur Aufbewahrung von Daten in ihrem ursprünglichen Format bietet die Archivierung von Dokumenten und Daten aus digitalen Quellen als PDF/A viele Vorteile. Die Quellanwendungen werden rasch weiterentwickelt. Dies hat zur Folge, dass bereits nach wenigen Jahren die Lesbarkeit und die authentische Darstellung der Daten nicht mehr gewährleistet werden kann. Darüber hinaus muss ein Unternehmen alle verwendeten Anwendungen und alle Plattformen, auf denen sie betrieben werden, pflegen. Dies ist mit erheblichen Kosten verbunden. Auch für Dokumente und Dateien, die digital erstellt werden, ist PDF/A eine hervorragende Wahl für die Langzeitarchivierung und bietet große Vorteile in Bezug auf Einheitlichkeit, Recherchierbarkeit und Kosteneffizienz.

Entwicklung von digitalen Dokumenten als Archivmaterial

Das ECM-Modell von AIIM unterscheidet zwischen fünf Hauptprozessen bei der Verwaltung von Geschäftsinformationen: Erfassen, Verwalten, Bereitstellen, Bewahren und Speichern von Dokumenten. Diese Prozesse lassen sich einfach den folgenden PDF/A-Funktionen zuordnen:

In allen genannten Prozessen werden digitale Dokumente erstellt und auch PDF/A ist in all diesen Prozessen von Bedeutung, wenn auch auf unterschiedliche Weise, wie im Folgenden erläutert wird.

Was sind die typischen Quellen für digitale Dokumente, die später archiviert werden, und in welchen Prozessen entstehen diese?

  • Posteingang

    • Scans mit oder ohne OCR (optische Zeichenerkennung)

    • E-Mails mit oder ohne Anhänge

  • Büro, Grafik und Konstruktion

    • MS Word, Excel, Powerpoint, Visio, usw.

    • Illustrator, Indesign, Photoshop, usw.

    • CAD: Autocad, 3D Studio Max, usw.

  • Elektronischer Datenaustausch

    • SWIFT, EDIFACT, usw.

  • Ausgangskorb

    • Druckdatenströme: PostScript, PCL, AFP, usw.

  • Archivmigrationen

    • Massen von TIFF- und anderen Dateien, einschließlich Quelldaten (Metadaten, Objektbeziehungen usw.)

Eigenschaften von analogen und digitalen Quellen

Digitale Dokumente können aus analogen und digitalen Quellen hervorgehen. Einige Parameter sind für die spätere Langzeitarchivierung von Bedeutung:

Aus diesen Unterschieden wird deutlich, dass wir für den Umgang mit verschiedenen Quellen unterschiedliche Strategien benötigen, sowohl in den Grundzügen als auch im Detail. Diese Strategien sind sowohl für die Mitarbeiter von IT-Abteilungen, den Records Manager als auch für Hersteller von Konvertierungsprodukten erforderlich. Die Herausforderung besteht hier nicht nur darin, ein Dokument zu erstellen, das dem PDF/A-Standard entspricht, sondern die Quelle so zu interpretieren, dass das visuelle Erscheinungsbild dem Originaldokument entspricht. Das folgende Diagramm zeigt die Ergebnisse von Konvertierungen nach PDF/A, deren Form dem Standard entspricht, deren visuelles Erscheinungsbild aber nicht ausreichend mit dem der Quelle übereinstimmt:

Richtige und falsche Konvertierungen: In beiden Fällen war das Ergebnis ein Dokument, das PDF/A-konform ist, aber im Falle einer fehlerhaften Konvertierung in keiner Weise dem Originaldokument entspricht.

Konvertierung digitaler Quellen in PDF/A

Warum konvertieren?

Die Langzeitarchivierung von digitalen Daten in PDF/A bietet große Vorteile:

  • Der Nutzer muss die ursprünglichen "nativen" Anwendungen und die Plattformen, auf denen die Anwendungen laufen, nicht pflegen.

  • Die Benutzer sind weniger von den Softwareherstellern abhängig, da alle relevanten Informationen in einem ISO-standardisierten Format gespeichert werden, das herstellerunabhängig ist.

  • Vereinfachte Bearbeitung, da die archivierten Daten in einem Format standardisiert sind.

  • Option zur Durchführung einer Volltextsuche in allen gespeicherten Daten.

  • Diese Vorteile haben auch einen nicht zu unterschätzenden wirtschaftlichen Nutzen.

Natürlich hat die Archivierung in PDF/A im Vergleich zu den nativen Formaten auch einige Nachteile, zum Beispiel den Verlust der Interaktivität oder der eingebauten "Funktionalität" des nativen Formats. MS Excel kann hier als Beispiel dienen. MS Excel bietet Berechnungsformeln für Inhalte, die bei der Konvertierung verloren gehen. Daher ist es bei diesen Formaten immer sinnvoll, auch das Originaldokument zu archivieren und die Archivierung in PDF/A als Fallback-Variante zu nutzen.

Bei "interaktiven" Dateien kann der Zeitpunkt der Archivierung so gewählt werden, dass kaum noch Änderungen vorgenommen werden müssen (Document Lifecycle Management). Bei bestimmten Formaten, z. B. E-Mails, muss das Originaldokument aus Gründen der Konformität gespeichert werden.

Übersicht Entwicklungs- und Konvertierungsprozesse

Der einfachste Weg, PDF/A aus proprietären Formaten wie Office-Dokumenten, CAD-Zeichnungen usw. zu erstellen, ist die Verwendung eines effektiven Druckertreibers, auch bekannt als PDF Producer, PDF Creator oder PDF Converter (z. B. Adobe Distiller usw.). Dieser "Umweg" über einen Druckertreiber ist notwendig, weil die meisten nativen Anwendungen bisher keine "Save to PDF"-Funktion haben. Diese Funktion ist jetzt auch für MS Office 2007 verfügbar, muss aber als separates Add-In heruntergeladen werden.

Die Archivierung von E-Mails einschließlich Anhängen in PDF/A (z. B. aus MS Outlook) ist komplexer. Derzeit gibt es nur wenige Anbieter mit dieser Art von Funktionalität. PDF Tools AG hat den 3-Heights® Document Converter entwickelt, der ein E-Mail und dessen Anhänge in ein einziges PDF/A-Dokument umwandelt.

Aus Datenbanken, ERP-Systemen usw. wird PDF/A in der Regel über eine Exportfunktion ("Save to PDF") gesteuert. Oft müssen diese Dateien nachbearbeitet werden, weil sie nicht vollständig der Norm entsprechen. Eine weitere Möglichkeit ist die direkte, programmatische Erstellung von PDF- und PDF/A-Dateien. Dabei können die Inhalte aus beliebigen Quellen zusammengeführt werden, zum Beispiel für die Verarbeitung personalisierter Drucksachen. Die PDFLib GmbH ist einer der führenden Anbieter dieser Werkzeuge.

Für die Konvertierung von Bildern werden in der Regel spezielle Tools verwendet, wobei eine OCR-Funktion für die Erstellung von Metadaten und für die Durchsuchbarkeit der Texte wichtig ist. Trotzdem darf man auch bei gescannten Dokumenten die Komplexität solcher Anwendungen nicht unterschätzen, insbesondere in den Bereichen Mehrfachformate (z. B. Dutzende von TIFF-Varianten), Farben, Schriftarten sowie Kompressions- und Segmentierungsverfahren wie Mixed Raster Content (MRC).

Jede Konvertierungssoftware muss in allen Bereichen die spezifischen Ge- und Verbote von PDF/A berücksichtigen, zum Beispiel die Einbettung von Schriften, Farbprofilen und Metadaten (als XMP).

Allgemeine Herausforderungen

Generell sind wir bei der Erstellung von PDF/A aus digitalen Quellen mit folgenden Herausforderungen konfrontiert:

  • Farben: Wenn die Farbprofile der Quellen fehlen, müssen Annahmen über den Farbraum getroffen werden

  • Schriftarten: Wenn Schriftarten (oder Glyphen) fehlen, müssen Ersatzschriftarten ausgewählt werden. Dazu muss der Text ein Unicode-Text sein

  • Transparenz: Die Transparenzreduzierung ist komplex und kann zum Verlust von Informationen (Schriftarten, Vektoren usw.) führen.

  • Niveaus, interaktive und multimediale Elemente: Nur die "Druckvorschau" bleibt erhalten

  • Handlungen: Funktionalität (JavaScripts usw.) geht verloren

  • Digitale Signaturen: Muss erneut geprüft, dokumentiert und unterschrieben werden

Konvertierung von E-Mails

Eine E-Mail kann alle Arten von Dokumenten, verschachtelte Archive und vieles mehr (ausführbare Dateien usw.) enthalten. Darüber hinaus kann die E-Mail interne oder externe Verweise enthalten (z. B. HTML-Mails) und es sind verschiedene Systeme, Schnittstellen, Dateisysteme und Datenströme beteiligt. Der Prozess der Archivierung von E-Mails inklusive Anhängen ist somit quasi die "Königsdisziplin" der Archivierung in PDF/A, da alle Herausforderungen im Zusammenhang mit der Konvertierung von ursprünglich analogen oder digitalen Quellen mit einem einzigen Produkt gelöst werden müssen.

Um dieses Problem zu lösen, muss für jedes einzelne Element einer E-Mail eine andere Konvertierungsstrategie gewählt werden: Der E-Mail-Text und die Anhänge werden einzeln konvertiert und erst dann zu einem einzigen Dokument zusammengeführt. In diesem PDF/A-Dokument kann dann jeder Anhang über einen so genannten Lesezeicheneintrag identifiziert werden. Auf diese Weise kann die Struktur der E-Mails auch später noch nachvollzogen werden. Zudem gehen Informationen wie Inhaltsverzeichnisse aus Word-Dokumenten nicht verloren, da diese als zweite Hierarchieebene in den Lesezeichen abgebildet und im PDF/A entsprechend verlinkt werden.

Auch der Umgang mit digitalen Signaturen stellt bei der Archivierung von E-Mails eine Herausforderung dar.

Konvertierung von Websites

Das Thema der Archivierung von Websites ist relativ neu. Dabei geht es im Wesentlichen darum, den Inhalt und den Zustand der eigenen Website rechtssicher festzuhalten, um in gerichtlichen oder anderen Verfahren den erforderlichen Nachweis erbringen zu können.

Die Schwierigkeit bei der Archivierung von Websites besteht darin, dass die Ausgabe über einen Druckertreiber in der Regel nicht dem authentischen Erscheinungsbild der Website entspricht, da Websites in der Regel speziell für den Druck aufbereitet werden. Um vertrauenswürdige Beweise vorlegen zu können, ist diese "Originalgetreue" von entscheidender Bedeutung.

Daher wird auf der Website mit der Funktion "Erfassen" ein Bild erstellt, das mit dem entsprechenden Text und anderen Informationen (Schriftarten, Farbräume usw.) zusammengeführt wird, um einen "vektorisierten, durchsuchbaren Screenshot" zu erstellen. Ein weiteres komplexes Thema ist der Umgang mit externen Links und die interne Linkstruktur einer Website. Darüber hinaus ist es notwendig, sich für einen Browser und eine Browserversion zu entscheiden, da verschiedene Browser und Browserversionen Websites unterschiedlich darstellen.

Konvertierung auf dem Client oder auf dem Server

Bei der Frage, ob die Konvertierungssoftware auf einzelnen Clients oder auf einem zentralen Server installiert werden soll, sind folgende Aspekte zu berücksichtigen:

Handhabung von Schriften in der Massenarchivierung

Einzelne, individuelle PDF/A-Dokumente können direkt archiviert werden. Bei der Archivierung grosser Mengen gleichartiger PDF/A-Dokumente (z.B. Telekom-Rechnungen etc.) entsteht oft die Situation, dass die Dokumente die gleichen Schriften, Logos oder andere Corporate-Identity-Elemente enthalten, die für jedes einzelne Dokument mitarchiviert werden müssen. Das wiederholte Speichern von kollektiven Ressourcen (Schriften, Bilder) ist unerwünscht und mindert die Akzeptanz von PDF/A.

Um dieses Problem zu lösen, kann das Archivsystem mit einem Add-In aufgerüstet werden, das bei der Massenarchivierung von PDF/A-Dokumenten die gemeinsam genutzten Ressourcen trennt und in nur einer Instanz für alle Dokumente speichert. Beim Zugriff auf ein Dokument werden die gemeinsamen Ressourcen wieder mit dem Dokument zusammengeführt, um ein vollständiges PDF/A-Dokument zu erzeugen. Dieses Verfahren kann auch für digital signierte Dokumente verwendet werden, allerdings muss das Dokument bereits während des Signierens für die Trennung der Ressourcen vorbereitet werden.

Rechtssicherheit mit digitaler Signatur

Das digitale Signieren von PDF/A-Dateien, die aus digital erstellten Dokumenten stammen, bringt mehr Rechtssicherheit. Je nach Anwendung muss sich der Benutzer darüber im Klaren sein, was die Signatur wirklich leistet. In jedem Fall ist bei einer qualifizierten elektronischen Signatur absolut klar, zu welchem Zeitpunkt die Umwandlung und Anwendung der digitalen Signatur erfolgt ist und ob das Dokument seit der Umwandlung verändert worden ist. Es ist auch klar, wer den Umstellungsprozess in einem Unternehmen durchgeführt hat.

Die Unsicherheit, die sich aus der "dynamischen" Quelle (z.B. einer Datenbank) eines solchen PDF/A-Dokuments ergibt, lässt sich jedoch nicht ausräumen. Es kann auch nicht überprüft werden, ob das erstellte PDF/A-Dokument tatsächlich dem Aussehen des Originaldokuments (z.B. eines Word-Dokuments) entspricht oder ob alle im Dokument enthaltenen Informationen (z.B. Inhalte und E-Mail-Anhänge) tatsächlich in der PDF/A-Datei vorhanden sind. Um die Glaubwürdigkeit solcher Dokumente zu erhöhen, muss der gesamte Prozess zertifiziert werden. Es handelt sich also um ein Thema, das über die einfache Verwendung von digitalen Signaturen hinausgeht. Allerdings erfordern solche Zertifizierungen ein gewisses Datenvolumen, so dass sich dies für Dienstleister, Hersteller von Software und Systemen und große Unternehmen lohnt.

Qualitätssicherung durch Validierer

"Vertrauen ist gut, Kontrolle ist besser": Das gilt natürlich auch für PDF/A-Dokumente und Produkte, die PDF/A erzeugen. Oder die behaupten, PDF/A zu erstellen. Nicht alle Produkte, die als PDF/A gekennzeichnet sind, sind tatsächlich PDF/A-Produkte. Im Extremfall kann die Archivierung von Unternehmensdaten für die Existenz eines Unternehmens entscheidend sein.

Dies kann z. B. in einem Gerichtsverfahren der Fall sein, wenn die Entlastungsunterlagen nicht oder nicht korrekt erstellt wurden. Deshalb ist es wichtig, Werkzeuge zu verwenden, die höchste Qualitätsstandards gewährleisten. Es gibt Validatoren, die feststellen, ob ein Werkzeug diese Voraussetzung erfüllt. Diese Validatoren müssen ebenfalls überprüft werden. Für diese Aufgabe hat die PDF Association eine frei verfügbare Testsuite entwickelt, die systematisch gegen den Standard verstößt und dann überprüft, ob ein Validierer alle Verstöße erkennen kann.

Der Einsatz eines Validators ist nicht nur bei der Evaluierung eines Tools wichtig, sondern auch bei den operativen Prozessen. Ein Validator sollte daher regelmäßig eingesetzt werden, um die Konformität der erstellten PDF/A-Dokumente zu überprüfen - als permanente Qualitätskontrolle. Dies liegt daran, dass unterschiedliche Quellen, Anwendungsversionen usw. zu unterschiedlichen Konvertierungsergebnissen führen können.

Zusammenfassung

PDF/A ist ein vorteilhaftes Format für die Archivierung digitaler Dokumente und kann zu erheblichen Kosteneinsparungen im Vergleich zur Archivierung im nativen Format führen. Allerdings steckt der Teufel dabei im Detail, und die Komplexität, die sich je nach Quelle der digitalen Dokumente ergibt, darf nicht unterschätzt werden. Daher ist es wichtig, mit Spezialisten auf diesem Gebiet zusammenzuarbeiten.

Diese Zusammenarbeit kann die Nutzer vor unnötigen Kosten schützen, die durch falsche Verfahren usw. entstehen. Sowohl für das Tagesgeschäft als auch aus strategischer Sicht (z. B. bei Rechtsfällen) ist es sehr wichtig, dass auf Informationen schnell und sicher zugegriffen werden kann. Unstimmigkeiten in diesem Bereich können zu einem Imageschaden oder zu erheblichen finanziellen Folgen für ein Unternehmen führen. Verfahren zur Archivierung direkt aus digitalen Daten haben daher höchste Priorität.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Grüezi! Wie können wir helfen?

Phone