Digital geborene PDF/A - harter Brocken oder Potenzial?

Gescannt Dokumente sind seit mehr als sechs Jahren erfolgreich im PDF/A-Format archiviert. Die Haltung zur Archivierung digital erstellter Dokumente ist jedoch zurückhaltender. Was sind die Gründe? Einige sind offensichtlich: Gescannte Dokumente lassen sich leichter in das PDF/A-Format umwandeln, während die Umwandlung digital erstellter Dokumente in der Regel eine technische Herausforderung darstellt. Weniger offensichtlich sind Fehler bei der Reproduktion des konvertierten Dokuments, funktionale Einschränkungen des PDF/A-Standards und andere Gründe. Diese Herausforderungen können jedoch mit den richtigen Strategien überwunden werden.

Ein großer Teil des archivierten elektronischen Materials besteht aus gescannten Dokumenten wie Geschäftskorrespondenz, Buchhaltungsunterlagen, Verträgen, papierbasierten Archiven und Dokumenten, die aufbewahrt werden sollten und in ein elektronisches Format migriert werden sollten. Die Anzahl der elektronisch erstellten Dokumente holt jedoch schnell auf; normalerweise sind es Rechnungen, die von ERP-Systemen generiert werden, E-Mails, Bürodokumente in der Ausgangsbuch und eine speziellere Art von Dokumenten, wie Konstruktionszeichnungen aus CAD-Systemen.

Reproduktionsgenauigkeit – technische Herausforderung für gescannte Dokumente

Fakt ist: gescannte Dokumente sind größtenteils Rasterbilder. Jahrelang war es durchaus akzeptabel, sie als TIFF-Bilder abzuspeichern, normalerweise in Schwarz-Weiß, um Speicherplatz zu sparen. Die Anforderungen sind jedoch anspruchsvoller geworden. Heute ist der ISO-Standard PDF/A eine Selbstverständlichkeit geworden, die Farbe, Metadaten und Volltextsuche umfasst, ohne signifikant mehr Speicherplatz zu benötigen. Die technischen Herausforderungen im Zusammenhang mit diesen Rasterbildern konzentrieren sich auf die Bildanalyse und -verarbeitung. Zum Beispiel:

  • Bilder werden mit einer Texterkennungsmaschine (OCR) verarbeitet. Leere Seiten werden erkannt, das Bild wird begradigt und alle Flecken entfernt. Dabei folgt die Texterkennung und Barcodeerkennung.

  • Segmentierung und Kompression: Das Farbbild jeder Seite wird in seine einzelnen Komponenten wie Hintergrund, Text und Fotos unterteilt. Diese Komponenten werden in der Größe reduziert, indem sie mit speziell entwickelten Kompressionsmethoden verarbeitet werden. Dieses Mixed Raster Content (MRC)-Verfahren ermöglicht es, dass Farbdokumente Dateigrößen erreichen, die mit Schwarz-Weiß-Dateien konkurrieren können. Softwarehersteller hatten gelernt, diesen Prozess noch vor der Ära von PDF/A zu steuern. PDF/A hingegen liefert ein standardisiertes Ergebnis im Gegensatz zu TIFF. Als Teilmenge von PDF kann PDF/A viel mehr. Seine Farbräume, Schriftarten, Vektoren, Füllmuster und Transparenzmischungen machen PDF zu einem der leistungsstärksten 2D-Grafikmodelle; somit ist es prädestiniert zur Reproduktion digital erstellter Dokumente. Alles, was man tun muss, ist die digitale Quelle in PDF/A zu konvertieren. Dieser Schritt ist jedoch eine größere technische Herausforderung, als es auf den ersten Blick erscheinen mag.

Zuerst gibt es die große Anzahl an Dokumentformaten, die konvertiert werden müssen: ASCII-Texte, Word, Excel, PowerPoint, PDF, E-Mails, HTML und XML aus verschiedenen Quellen wie Verzeichnissen, ZIP-Archiven, Postfächern, Dateianhängen und Datenflüssen von Anwendungen. Darüber hinaus erreicht die Qualität dieser digitalen Quellen selten die von Rasterbildern. Dateien sind oft entweder während der Übertragung beschädigt oder wurden von vornherein schlecht erstellt. Dies ist insbesondere häufig bei mit Freeware erstellten PDF-Dateien der Fall. Das Problem des „schlechten PDF“ ist die Ursache hoher Kosten nicht nur für Softwareproduzenten und ist oft der Grund für Probleme, die Dokumenten-basierte Geschäftsprozesse betreffen.

Die größte Herausforderung bei der Umwandlung von Dokumenten aus digitalen Quellen in PDF/A ist jedoch die Reproduktionsgenauigkeit. Selbst wenn die konvertierte Datei formal den ISO-Standards entspricht, kann es dennoch vorkommen, dass das visuelle Ergebnis nicht mit dem Original übereinstimmt. Solche Bildfehler können viele Ursachen haben. Es liegt meist daran, dass die Quelldokumente komplexe grafische Elemente wie Füllmuster oder Transparenz enthalten und die Konvertierungssoftware nicht in der Lage ist, jede grafische Funktion oder alle möglichen Kombinationen in PDF/A abzubilden. Die vielen virtuellen Druckertreiber, die verwendet werden, um PDF/A-Dateien über die Druckfunktion zu erstellen, sind hervorragende Beispiele. Die Mehrheit dieser Treiber basiert auf dem PostScript-Treiber, der zusammen mit dem Betriebssystem bereitgestellt wird und tatsächlich nur einen Teil der definierten grafischen Schnittstelle implementiert.

Strategien für fehlerfreie PDF/A-Dokumente

Heute steht nicht mehr die prinzipielle Frage im Raum: PDF/A ist als langfristiges Speicherformat sowohl für gescannte als auch für digital erstellte Dokumente geeignet. Die Benutzer sind jedoch aufgrund der technischen Schwierigkeiten, die die Umwandlung digitaler Quellen in PDF/A betreffen, nach wie vor vorsichtig zurückhaltend. Dennoch können diese Herausforderungen überwunden werden. Die Wahl der Konvertierungssoftware spielt eine wichtige Rolle – aber die Wahl der richtigen Systemarchitektur ist der entscheidende Erfolgsfaktor.

Es hat sich als vorteilhaft erwiesen, wenn gescannte Bilder in ein durchsuchbares, möglicherweise digital signiertes Dokument mit Metadaten unter Verwendung spezieller Software (Scan-Server) umgewandelt werden. Alle Schritte im Prozess sind optimal aufeinander abgestimmt. Es ist wichtig, dass der Scanner nur das Rohbild bereitstellt, um die bestmögliche Kompression zu ermöglichen. Das Ergebnis ist normalerweise weniger als ideal, wenn die Verarbeitung zwischen Scanner, Scan-Computer und Server verteilt ist. Es gibt verschiedene Methoden, um digital erstellte Dokumente auf professioneller Ebene in PDF/A zu konvertieren. Die einfachste von allen ist es, das Dokument – Angebote zum Beispiel oder Rechnungen und Berichte – im PDF/A-Format zu erstellen.

Alles, was dann benötigt wird, ist ein Werkzeug (PDF/A Validator), um zu überprüfen, ob das Dokument den Regeln des Standards entspricht. Wenn das Dokument nicht im PDF/A-Format vorliegt, muss es konvertiert werden. Im besten Fall wird die native Anwendung, zum Beispiel ein Produkt aus der Microsoft Office-Reihe, die entsprechende Funktion („Als PDF/A speichern“) beinhalten. Die Erfahrung zeigt jedoch, dass diese Funktionen von Reproduktionsfehlern und geringfügigen Abweichungen vom PDF/A-Standard betroffen sind. Eine bewährte Strategie ist daher, die weniger heikle Funktion zum direkten Erstellen einer normalen PDF-Datei („Als PDF speichern“) zu verwenden. Das Ergebnis wird anschließend mit einem speziellen Konverter in PDF/A umgewandelt.

Die Druckfunktion ist oft die einzige Option in Ermangelung einer direkten Funktion zur Erstellung von PDF/A. Das Dokument wird über einen virtuellen Druckertreiber als PDF/A-Datei „gedruckt“. In diesem Fall empfiehlt es sich, einen speziell entwickelten PDF/A-Druckertreiber zu verwenden, um die Reproduktionsfehler zu vermeiden, die bei herkömmlichen, auf PostScript basierenden PDF-Druckertreibern auftreten.

Zentrale PDF/A-Konvertierung – die zuverlässige Methode

Um es zusammenzufassen: Eine zentrale PDF/A-Konvertierungslösung für sowohl gescannte als auch digital erstellte Dokumente lohnt sich sogar für nur eine kleine Anzahl von Benutzern. Die Gründe sind einfach:

  • Qualität: Die geschützte Laufzeitumgebung des Servers stellt sicher, dass jeder Schritt des Konvertierungsprozesses immer genau gleich mit den ausgewählten Werkzeugen für die besten Ergebnisse durchgeführt wird.

  • Unterstützte Formate: Zentrale Lösungen können eine Vielzahl von Dokumentformaten unterstützen, einschließlich Formate, für die die entsprechende Software nicht auf dem Client installiert ist. Dies spart die kostspielige Bereitstellung von Software auf Arbeitsstationen.

  • Robustheit und Stabilität: Die Anwendungen zur Konvertierung werden in einer automatisierten und kontrollierten Laufzeitumgebung betrieben. So kann sichergestellt werden, dass der Konvertierungsdienst immer zuverlässig verfügbar ist. Der Server überwacht das korrekte Funktionieren jeder Anwendung und startet sie bei Problemen automatisch neu.

  • Validierung: Der Server prüft die erstellten Daten auf Konformität mit dem Standard. Zusätzlich kann der Server einen automatischen Bildvergleich als zusätzliche Sicherheitsfunktion durchführen, um etwaige Reproduktionsfehler auszuschließen.

  • Skalierbarkeit: Konvertierungsserver können durch Multiprozessormaschinen oder durch Verteilung auf eine Reihe von Maschinen skaliert werden.

  • Zentralisierung: Ein zentral verwalteter Server und schlanke Clients mit weniger Software helfen, die Betriebskosten zu senken. Alles in allem sind dies überzeugende Argumente für die PDF/A-Konvertierung mit professionellen Werkzeugen.

Fazit

Der PDF/A-Standard wird kontinuierlich verbessert und angepasst, um neuen Anforderungen gerecht zu werden. Die Umwandlung von gescannten und digital erstellten Dokumenten in PDF/A wird es vielen Unternehmen in verschiedenen Segmenten ermöglichen, den wachsenden Anforderungen an sichere digitale Archivierung gerecht zu werden und gleichzeitig sicherzustellen, dass Dokumente langfristig jederzeit zugänglich bleiben. Die Anwendung bewährter Strategien wird die Umsetzung eines erfolgreichen Projekts zur digitalen Archivierung ermöglichen, das jeden technischen, rechtlichen und wirtschaftlichen Aspekt vollständig erfüllt.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Dr. Hans Bärfuss

Geschrieben von Dr. Hans Bärfuss

Dr. Hans Bärfuss ist der Gründer und Geschäftsführer von PDF Tools AG. Er ist ein Delegierter des Schweizerischen Normenverbandes (SNV) für ISO und hilft, Dateiformate und digitale Signaturen zu standardisieren. Er ist einer der Initiatoren und Gründer der PDF Association und Vorsitzender des Schweizer Kapitels.

Grüezi! Wie können wir helfen?

Phone