PDF/A für digital entstandene Dokumente – Archivierung von MS-Office-Dokumenten, E-Mails und Webseiten

PDF/A, ein ISO-Standard, garantiert, dass Dokumente in 10, 50 oder sogar 100 Jahren noch gelesen werden können. Dieses Format trägt erheblich dazu bei, ein "Digitales Dunkelzeitalter" zu vermeiden und hilft, Daten aus der Gegenwart zu erhalten.

Einführung

Im Vergleich zur Erhaltung von Daten in ihrem Originalformat gibt es viele Vorteile bei der Archivierung von Dokumenten und Daten aus digitalen Quellen als PDF/A. Die Quellanwendungen werden schnell weiterentwickelt. Infolgedessen kann nach nur wenigen Jahren die Lesbarkeit und die authentische Anzeige von Daten nicht mehr garantiert werden. Darüber hinaus muss ein Unternehmen alle Anwendungen, die verwendet werden, und alle Plattformen, auf denen sie betrieben werden, pflegen. Dies verursacht erhebliche Kosten. Auch für Dokumente und Dateien, die digital erstellt werden, ist PDF/A eine ausgezeichnete Wahl für die langfristige Archivierung und bringt große Vorteile hinsichtlich Einheitlichkeit, Suchfähigkeit und Kostenwirksamkeit.

Entwicklung digitaler Dokumente als Archivmaterialien

Das ECM-Modell von AIIM unterscheidet zwischen fünf Hauptprozessen im Management von Geschäftsinfos: Erfassen, Verwalten, Liefern, Aufbewahren und Speichern der Dokumente. Diese Prozesse können leicht den folgenden PDF/A-Funktionen zugeordnet werden:

Digitale Dokumente entstehen in all diesen genannten Prozessen, und PDF/A ist in all diesen Prozessen ebenfalls wichtig, wenn auch auf unterschiedliche Weise, wie im Folgenden erklärt.

Was sind die typischen Quellen digitaler Dokumente, die später archiviert werden, und in welchen Prozessen entstehen diese?

  • Posteingang

    • Scans mit oder ohne OCR (optische Zeichenerkennung)

    • E-Mails mit oder ohne Anhänge

  • Büro, Grafik und Konstruktion

    • MS Word, Excel, Powerpoint, Visio usw.

    • Illustrator, Indesign, Photoshop usw.

    • CAD: Autocad, 3D Studio Max usw.

  • Elektronischer Datenaustausch

    • SWIFT, EDIFACT usw.

  • Postausgang

    • Druckdatenströme: PostScript, PCL, AFP usw.

  • Archivmigrationen

    • Mengen von TIFF und anderen Dateien, einschließlich Quelldaten (Metadaten, Objektbeziehungen usw.)

Attribute analoger und digitaler Quellen

Digitale Dokumente können aus analogen und digitalen Quellen hervorgehen. Einige Parameter sind für ihre anschließende langfristige Archivierung relevant:

Aus diesen Unterschieden wird deutlich, dass wir unterschiedliche Strategien für den Umgang mit verschiedenen Quellen benötigen, sowohl in der allgemeinen Gliederung als auch im Detail. Diese Strategien sind sowohl für die Mitarbeiter der IT-Abteilungen, den Aktenverwalter als auch für Hersteller von Konversionsprodukten erforderlich. Die Herausforderung besteht nicht nur darin, ein Dokument zu erstellen, das dem PDF/A-Standard entspricht, sondern auch darin, die Quelle so zu interpretieren, dass das visuelle Erscheinungsbild mit dem Originaldokument übereinstimmt. Das folgende Diagramm zeigt die Ergebnisse von Konversionen zu PDF/A, deren Formular dem Standard entspricht, dessen visuelles Erscheinungsbild jedoch nicht ausreichend mit dem der Quelle übereinstimmt:

Korrekte und inkorrekte Konversionen: In beiden Fällen war das Ergebnis ein Dokument, das PDF/A-konform ist, aber im Falle einer inkorrekten Konversion entspricht es in keiner Weise dem Originaldokument.

Umwandlung digitaler Quellen in PDF/A

Warum konvertieren?

Die langfristige Archivierung digitaler Daten in PDF/A bietet große Vorteile:

  • Der Benutzer muss die ursprünglichen „nativen“ Anwendungen und die Plattformen, auf denen die Anwendungen betrieben werden, nicht warten.

  • Die Benutzer sind weniger von Softwareherstellern abhängig, da alle relevanten Informationen in einem ISO-standardisierten Format gespeichert sind, und dieses Format ist herstellerunabhängig.

  • Vereinfachte Verarbeitung aufgrund der Tatsache, dass die archivierten Daten in ein Format standardisiert sind.

  • Option zur Durchführung einer Volltextsuche in allen gespeicherten Daten.

  • Diese Vorteile bringen auch einen wirtschaftlichen Nutzen mit sich, der nicht unterschätzt werden darf.

Natürlich hat die Archivierung in PDF/A im Vergleich zu den nativen Formaten auch einige Nachteile, beispielsweise den Verlust von Interaktivität oder die integrierte „Funktionalität“ des nativen Formats. MS Excel kann hier als Beispiel verwendet werden. MS Excel bietet Berechnungsformeln für Inhalte, die während der Konversion verloren gehen. Daher ist es für diese Formate immer sinnvoll, auch das Originaldokument zu archivieren und die Archivierung in PDF/A als Notfallvariante zu verwenden.

Bei „interaktiven“ Dateien kann der Zeitpunkt der Archivierung so gewählt werden, dass kaum noch Änderungen erforderlich sind (Document Lifecycle Management). In bestimmten Formaten, zum Beispiel E-Mails, muss das Originaldokument möglicherweise aus Gründen der Konformität gespeichert werden.

Übersicht über Entwicklungs- und Konversionsprozesse

Der einfachste Weg, PDF/A aus proprietären Formaten wie Office-Dokumenten, CAD-Zeichnungen usw. zu erstellen, ist die Verwendung eines effektiven Druckertreibers, auch bekannt als PDF Producer, PDF Creator oder PDF Converter (zum Beispiel Adobe Distiller usw.). Dieser „Umweg“ über einen Druckertreiber ist erforderlich, da die meisten nativen Anwendungen bisher keine Funktion „Als PDF speichern“ haben. Diese Funktion ist jetzt für MS Office 2007 verfügbar, muss aber als separates Add-In heruntergeladen werden.

Der Prozess der Archivierung von E-Mails, einschließlich Anhängen, in PDF/A (zum Beispiel aus MS Outlook) ist komplexer. Derzeit gibt es nur wenige Anbieter mit dieser Art von Funktionalität. PDF Tools AG hat den 3-Heights® Document Converter entwickelt, der eine E-Mail und deren Anhänge in ein einzelnes PDF/A-Dokument konvertiert.

Aus Datenbanken, ERP-Systemen usw. wird PDF/A in der Regel über eine Exportfunktion („Als PDF speichern“) gesteuert. Oft müssen diese Dateien nachbearbeitet werden, da sie nicht vollständig den Standards entsprechen. Eine weitere Option ist die direkte, programmgesteuerte Erstellung von PDF- und PDF/A-Dateien. In diesem Prozess können die Inhalte aus beliebigen Quellen zusammengeführt werden, zum Beispiel zur Verarbeitung personalisierter Druckmaterialien. PDFLib GmbH ist einer der führenden Anbieter dieser Tools.

Spezifische Tools werden normalerweise verwendet, um Bilder zu konvertieren, und in diesem Prozess ist eine OCR-Funktion wichtig für die Erstellung von Metadaten und für die Durchsuchbarkeit der Texte. Trotz dessen können wir selbst in gescannten Dokumenten die Komplexität solcher Anwendungen, insbesondere in den Bereichen mehrerer Formate (zum Beispiel Dutzende von TIFF-Varianten), Farben, Schriftarten sowie Kompressions- und Segmentierungsverfahren wie Mixed Raster Content (MRC), nicht unterschätzen.

Alle Konvertierungssoftware in allen Bereichen muss die spezifischen Verpflichtungen und Verbote aus PDF/A berücksichtigen, beispielsweise das Einbetten von Schriftarten, Farbprofilen und Metadaten (als XMP).

Allgemeine Herausforderungen

Aus einer allgemeinen Perspektive stehen wir bei der Erstellung von PDF/A aus digitalen Quellen vor den folgenden Herausforderungen:

  • Farben: Wenn die Farbprofile aus den Quellen fehlen, müssen Annahmen über den Farbraum getroffen werden

  • Schriftarten: Sind Schriftarten (oder Glyphe) fehlend, müssen Ersatzschriftarten ausgewählt werden. Dazu muss der Text ein Unicode-Text sein

  • Transparenz: Das Abflachen von Transparenz ist komplex und kann zu Informationsverlust führen (Schriftarten, Vektoren, usw.)

  • Ebenen, interaktive und multimediale Elemente: Nur die „Druckvorschau“ wird beibehalten

  • Aktionen: Funktionalität (JavaScripts usw.) geht verloren

  • Digitale Signaturen: Muss überprüft, dokumentiert und erneut signiert werden

E-Mails konvertieren

Eine E-Mail kann alle Arten von Dokumenten, ineinander verschachtelten Archiven und vieles mehr enthalten (ausführbare Dateien usw.). Darüber hinaus kann die E-Mail interne oder externe Referenzen enthalten (z. B. HTML-Mails), und es sind verschiedene Systeme, Schnittstellen, Dateisysteme und Datenströme beteiligt. Der Prozess der Archivierung von E-Mails, einschließlich Anhänge, ist daher effektiv die „höchste Disziplin“ des Archivierens in PDF/A, da alle Herausforderungen im Zusammenhang mit der Konvertierung von ursprünglich analogen oder digitalen Quellen mit einem einzigen Produkt gelöst werden müssen.

Um dies zu lösen, muss für jedes einzelne Element einer E-Mail eine andere Konvertierungsstrategie ausgewählt werden: Der E-Mail-Inhalt und die Anhänge werden einzeln konvertiert und erst dann in ein einzelnes Dokument zusammengeführt. In diesem PDF/A-Dokument kann anschließend jeder Anhang mit einem sogenannten Lesezeichen-Eintrag identifiziert werden. Dadurch kann die Struktur der E-Mails auch zu einem späteren Zeitpunkt noch nachvollzogen werden. Darüber hinaus gehen Informationen wie Inhaltsverzeichnisse von Word-Dokumenten nicht verloren, da diese als zweiter Hierarchieebene in den Lesezeichen abgebildet und entsprechend im PDF/A verlinkt werden.

Sogar der Umgang mit digitalen Signaturen stellt eine Herausforderung beim Archivieren von E-Mails dar.

Websites konvertieren

Das Thema Archivierung von Websites ist relativ neu. Dabei geht es grundsätzlich darum, die Inhalte und Zustände der eigenen Website in einer rechtlich vertrauenswürdigen Weise zu bewahren, um die erforderlichen Beweise in rechtlichen oder anderen Verfahren vorlegen zu können.

Das Problem beim Archivieren von Websites besteht darin, dass die Ausgabe mithilfe eines Druckertreibers normalerweise nicht das authentische Erscheinungsbild der Website darstellt, da Websites in der Regel speziell für das Drucken vorbereitet werden. Um vertrauenswürdige Beweise vorlegen zu können, ist dieses „originalgetreue“ entscheidend wichtig.

Deshalb wird von der Website eine „Capture“-Funktion verwendet, um ein Bild zu erstellen, das mit dem relevanten Text und anderen Informationen (Schriftarten, Farbräume usw.) kombiniert wird, um effektiv einen „vektorisierten, durchsuchbaren Screenshot“ zu erzeugen. Ein weiteres komplexes Thema ist der Umgang mit externen Links und der internen Linkstruktur einer Website. Darüber hinaus ist es notwendig, sich für einen Browser und eine Browser-Version zu entscheiden, da verschiedene Browser und Browser-Versionen Websites unterschiedlich anzeigen.

Konvertierung auf dem Client oder auf dem Server

Wir müssen die folgenden Aspekte hinsichtlich der Frage berücksichtigen, ob die Konvertierungssoftware auf einzelnen Clients oder auf einem zentralen Server installiert werden sollte:

Schriftartenverwaltung bei der massenhaften Archivierung

Einzelne, individuelle PDF/A-Dokumente können direkt archiviert werden. Bei der Archivierung großer Mengen ähnlicher PDF/A-Dokumente (zum Beispiel Telecom-Rechnungen usw.) ergibt sich häufig die Situation, dass die Dokumente die gleichen Schriftarten, Logos oder andere Elemente der Corporate Identity enthalten, die ebenfalls für jedes einzelne Dokument archiviert werden müssen. Die wiederholte Speicherung gemeinsamer Ressourcen (Schriftarten, Bilder) ist unerwünscht und verringert die Akzeptanz von PDF/A.

Um dies zu lösen, kann das Archivierungssystem mit einem Add-In aufgerüstet werden, das die gemeinsamen Ressourcen trennt und sie bei der massenhaften Archivierung von PDF/A-Dokumenten nur einmal für alle Dokumente speichert. Wenn auf ein Dokument zugegriffen wird, werden die gemeinsamen Ressourcen erneut mit dem Dokument zusammengeführt, um ein vollständiges PDF/A-Dokument zu erstellen. Dieses Verfahren kann auch für digital signierte Dokumente verwendet werden, jedoch muss das Dokument während des Signierungsprozesses bereits für die Trennung der Ressourcen vorbereitet sein.

Rechtssicherheit mit digitaler Unterschrift

Der Prozess des digitalen Signierens von PDF/A-Dateien, die aus digital erstellten Dokumenten abgeleitet sind, bringt eine höhere Rechtssicherheit. Je nach Anwendung muss der Benutzer sich darüber im Klaren sein, was die Unterschrift tatsächlich bietet. In jedem Fall ist mit einer qualifizierten elektronischen Unterschrift absolut klar, wann die Umwandlung und Anwendung der digitalen Unterschrift stattgefunden hat und ob das Dokument seit der Umwandlung geändert wurde. Es ist auch klar, wer den Umwandlungsprozess in einem Unternehmen durchgeführt hat.

Die Unsicherheit, die sich aus der „dynamischen“ Quelle (z. B. einer Datenbank) eines solchen PDF/A-Dokuments ergibt, kann jedoch nicht ausgeräumt werden. Es ist auch nicht möglich zu überprüfen, ob das erstellte PDF/A-Dokument tatsächlich dem Erscheinungsbild des Originaldokuments (z. B. eines Word-Dokuments) entspricht oder ob alle Informationen, die im Dokument (z. B. Inhalte und E-Mail-Anhänge) enthalten sind, tatsächlich in der PDF/A-Datei vorhanden sind. Um die Glaubwürdigkeit solcher Dokumente zu erhöhen, muss der gesamte Prozess zertifiziert werden. Daher ist dies ein Thema, das über die einfache Verwendung von digitalen Unterschriften hinausgeht. Allerdings erfordern solche Zertifizierungen ein gewisses Datenvolumen, damit sich dies für Dienstleister, Hersteller von Software und Systemen sowie große Unternehmen lohnt.

Qualitätssicherung durch Validatoren

„Vertrauen ist gut, Kontrolle ist besser“: Dies gilt natürlich auch für PDF/A-Dokumente und Produkte, die PDF/A erstellen. Oder die behaupten, PDF/A zu erstellen. Nicht alle Produkte, die als PDF/A gekennzeichnet sind, sind tatsächlich PDF/A-Produkte. In extremen Fällen kann die Archivierung von Unternehmensdaten entscheidend für die Existenz eines Unternehmens sein.

Dies kann beispielsweise in einem Rechtsstreit geschehen, wenn die entlastenden Unterlagen nicht vorbereitet oder nicht richtig vorbereitet wurden. Es ist daher wichtig, Werkzeuge zu verwenden, die die höchsten Qualitätsstandards gewährleisten. Validatoren existieren, um zu bestimmen, ob ein Werkzeug diese Voraussetzungen erfüllt. Diese Validatoren müssen ebenfalls überprüft werden. Für diese Aufgabe hat die PDF-Vereinigung eine frei verfügbare Testreihe erstellt, die systematisch gegen den Standard verstößt und anschließend überprüft, ob ein Validator alle Verstöße erkennen kann.

Die Verwendung eines Validators ist nicht nur wichtig bei der Bewertung eines Werkzeugs, sondern auch in den operativen Prozessen. Ein Validator sollte daher regelmäßig verwendet werden, um die Konformität der erstellten PDF/A-Dokumente zu überprüfen - als kontinuierliche Qualitätskontrolle. Dies liegt daran, dass unterschiedliche Quellen, Anwendungsversionen usw. zu unterschiedlichen Umwandlungsergebnissen führen können.

Zusammenfassung

PDF/A ist als Format für die Archivierung digitaler Dokumente vorteilhaft und kann im Vergleich zur Archivierung im nativen Format zu erheblichen Kosteneinsparungen führen. Aber der Teufel steckt im Detail, und die Komplexität, die je nach Quelle der digitalen Dokumente entsteht, darf nicht unterschätzt werden. Es ist daher entscheidend, mit Spezialisten in diesem Bereich zusammenzuarbeiten.

Diese Zusammenarbeit kann Benutzer vor unnötigen Kosten schützen, die durch fehlerhafte Prozesse usw. entstehen. Sowohl im Tagesgeschäft als auch aus strategischer Sicht (z. B. in Rechtsfällen) ist es sehr wichtig, dass Informationen schnell und sicher abgerufen werden können. Diskrepanzen in diesem Bereich können zu Schäden am Unternehmensimage oder zu erheblichen finanziellen Konsequenzen führen. Die Prozesse zum Archivieren direkt aus digitalen Daten haben daher höchste Priorität.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Grüezi! Wie können wir helfen?

Phone