Digital geborene PDF/A - harte Nuss oder Potenzial?
Gescannte Dokumente wurden seit mehr als sechs Jahren erfolgreich im PDF/A-Format archiviert. Die Einstellung zum Archivieren digital erstellter Dokumente ist jedoch zurückhaltender. Was sind die Gründe? Einige sind offensichtlich: gescannte Dokumente lassen sich leichter ins PDF/A-Format umwandeln, während die Umwandlung digital erstellter Dokumente normalerweise eine technische Herausforderung darstellt. Weniger offensichtlich sind Fehler bei der Reproduktion des konvertierten Dokuments, funktionale Einschränkungen des PDF/A-Standards und weitere Gründe. Diese Herausforderungen können jedoch mit den richtigen Strategien überwunden werden.
Originalquelle
Ein großer Teil des archivierten elektronischen Materials besteht aus gescannten Dokumenten wie Geschäftskorrespondenz, Buchhaltungsunterlagen, Verträgen, papierbasierten Archiven und Dokumenten, die aufbewahrt werden sollten und in ein elektronisches Format migriert werden sollten. Die Anzahl der elektronisch erstellten Dokumente holt jedoch schnell auf; Es handelt sich dabei meist um Rechnungen, die von ERP-Systemen erstellt werden, E-Mails, Office-Dokumente im Postausgang und eine speziellere Art von Dokumenten wie Entwurfszeichnungen aus CAD-Systemen.
Reproduktionsgenauigkeit – technische Herausforderung für gescannte Dokumente
Fakt ist: gescannte Dokumente sind größtenteils Rasterbilder. Jahrelang war es vollkommen akzeptabel, sie als TIFF-Bilder abzuspeichern, normalerweise in Schwarzweiß, um Speicherplatz zu sparen. Die Anforderungen sind jedoch anspruchsvoller geworden. Heute ist der ISO-Standard PDF/A eine Selbstverständlichkeit für Farbigkeit, Metadaten und Volltextsuche, ohne dass erheblich mehr Speicher benötigt wird. Die technischen Herausforderungen hinsichtlich dieser Rasterbilder konzentrieren sich auf die Bildanalyse und -verarbeitung. Zum Beispiel:
Bilder werden mit einer Texterkennungsmaschine (OCR) verarbeitet. Leere Seiten werden erkannt, das Bild wird begradigt und Verschmierungen entfernt. Darauf folgt die Erkennung von Text und Barcodes.
Segmentierung und Kompression: Das Farbbild jeder Seite wird in seine einzelnen Komponenten wie Hintergrund, Text und Fotos zerlegt. Diese Komponenten werden durch spezielle Kompressionsmethoden in der Größe reduziert. Dieses Mixed Raster Content (MRC)-Verfahren ermöglicht es, dass Farb-Dokumente Dateigrößen erreichen, die mit Schwarz-Weiß-Dateien konkurrieren können. Softwarehersteller hatten gelernt, wie man diesen Prozess schon vor der Ära von PDF/A steuert. PDF/A liefert jedoch ein standardisiertes Ergebnis im Gegensatz zu TIFF. Als Teilmenge von PDF kann PDF/A viel mehr. Seine Farbmodelle, Schriften, Vektoren, Füllmuster und Transparenzmischungen machen PDF zu einem der leistungsstärksten 2D-Grafikmodelle; damit ist es prädestiniert zur Reproduktion digitaler Dokumente. Alles, was man tun muss, ist, die digitale Quelle in PDF/A zu konvertieren. Dieser Schritt ist jedoch eine größere technische Herausforderung, als es auf den ersten Blick erscheinen mag.
Zunächst gibt es die große Anzahl an Dokumentformaten, die konvertiert werden müssen: ASCII-Texte, Word, Excel, PowerPoint, PDF, E-Mails, HTML und XML aus verschiedenen Quellen wie Verzeichnissen, ZIP-Archiven, Postfächern, Dateianhängen und Datenströmen aus Anwendungen. Darüber hinaus erreicht die Qualität dieser digitalen Quellen selten die von Rasterbildern. Dateien sind während der Übertragung oft entweder beschädigt oder wurden schlecht erstellt. Dies ist besonders häufig der Fall bei PDF-Dateien, die mit Freeware erstellt wurden. Das Problem der „schlechten PDF“ verursacht hohe Kosten, nicht nur für Softwareproduzenten, und ist oft der Grund für Probleme, die sich auf dokumentenbasierte Geschäftsprozesse auswirken.
Die größte Herausforderung bei der Konversion von Dokumenten aus digitalen Quellen zu PDF/A ist jedoch die Reproduktionsgenauigkeit. Selbst wenn die konvertierte Datei formal dem ISO-Standard entspricht, kann es dennoch passieren, dass das visuelle Ergebnis nicht dem Original entspricht. Diese Art von Bildfehlern kann viele Ursachen haben. Es liegt in der Regel daran, dass die Quelldokumente komplexe grafische Elemente wie Füllmuster oder Transparenz aufweisen und die Konvertierungssoftware nicht in der Lage ist, jede grafische Funktion oder alle möglichen Kombinationen in PDF/A abzubilden. Die vielen virtuellen Druckertreiber, die verwendet werden, um PDF/A-Dateien über die Druckfunktion zu erstellen, sind ein hervorragendes Beispiel. Die Mehrheit dieser Treiber basiert auf dem PostScript-Treiber, der mit dem Betriebssystem bereitgestellt wird und tatsächlich nur einen Teil der definierten grafischen Schnittstelle implementiert.
Strategien für fehlerfreie PDF/A-Dokumente
Heute ist es keine Frage des Prinzips mehr: PDF/A ist geeignet als langfristiges Speicherformat sowohl für gescannte als auch für digital erstellte Dokumente. Benutzer sind jedoch aufgrund der technischen Schwierigkeiten, die die Konversion von digitalen Quellen zu PDF/A betreffen, nach wie vor vorsichtig. Dennoch können diese Herausforderungen überwunden werden. Die Wahl der Konversionssoftware spielt eine wichtige Rolle – aber die Wahl der richtigen Systemarchitektur ist der entscheidende Erfolgsfaktor.
Es hat sich als vorteilhaft erwiesen, wenn gescannte Bilder unter Verwendung spezieller Software (Scanserver) in ein durchsuchbares, möglicherweise digital signiertes Dokument mit Metadaten konvertiert werden. Alle Schritte im Prozess sind optimal aufeinander abgestimmt. Es ist wichtig, dass der Scanner nur das Rohbild bereitstellt, um die bestmögliche Kompression zu ermöglichen. Das Ergebnis ist normalerweise weniger ideal, wenn die Verarbeitung zwischen dem Scanner, dem Scangerät und dem Server verteilt ist. Es gibt verschiedene Methoden zur professionellen Konversion digital erstellter Dokumente zu PDF/A. Der einfachste von ihnen ist, das Dokument – Angebote zum Beispiel oder Rechnungen und Berichte – im PDF/A-Format zu erstellen.
Alles, was dann benötigt wird, ist ein Werkzeug (PDF/A-Validator), um zu überprüfen, ob das Dokument den Anforderungen des Standards entspricht. Wenn das Dokument nicht im PDF/A-Format vorliegt, muss es konvertiert werden. Im besten Fall wird die native Anwendung, zum Beispiel ein Produkt aus der Microsoft Office Reihe, die passende Funktion übernehmen („Als PDF/A speichern“). Die Erfahrung zeigt jedoch, dass diese Funktionen von Reproduktionsfehlern und geringfügigen Abweichungen vom PDF/A-Standard betroffen sind. Eine bewährte Strategie ist daher, die weniger riskante Funktion zum direkten Erstellen einer normalen PDF-Datei („Als PDF speichern“) zu verwenden. Das Ergebnis wird anschließend mit einem spezialisierten Konverter in PDF/A konvertiert.
Der Druckfunktion-Ansatz ist oft die einzige Option, wenn es keine direkte Funktion zur Erstellung von PDF/A gibt. Das Dokument wird über einen virtuellen Druckertreiber als PDF/A-Datei „gedruckt“. In diesem Fall ist es empfehlenswert, einen speziell entwickelten PDF/A-Druckertreiber zu verwenden, um die Reproduktionsfehler, die bei herkömmlichen, PostScript-basierten PDF-Druckertreibern auftreten, zu vermeiden.
Zentrale PDF/A-Konversion – die zuverlässige Methode
Um es zusammenzufassen: Eine zentrale PDF/A-Konversionslösung für sowohl gescannte als auch digital erstellte Dokumente lohnt sich auch für nur eine kleine Anzahl von Benutzern. Die Gründe sind einfach:
Qualität: Die geschützte Laufzeitumgebung des Servers stellt sicher, dass jeder Schritt des Konversionsprozesses immer auf genau die gleiche Weise mit den für die besten Ergebnisse ausgewählten Werkzeugen ausgeführt wird.
Unterstützte Formate: Zentrale Lösungen können eine Vielzahl von Dokumentformaten unterstützen, einschließlich Formate, für die die entsprechende Software nicht auf dem Client installiert ist. Dies spart die kostspielige Bereitstellung von Software auf Arbeitsplatzrechnern.
Robustheit und Stabilität: Die Anwendungen zur Konversion werden in einer automatisierten und kontrollierten Laufzeitumgebung ausgeführt. So kann sichergestellt werden, dass der Konversionsdienst immer zuverlässig verfügbar ist. Der Server überwacht die korrekte Funktion jeder Anwendung und startet sie im Problemfall automatisch neu.
Validieren: Der Server prüft die erstellten Daten auf Konformität mit dem Standard. Darüber hinaus kann der Server einen automatischen Bildvergleich als zusätzliche Sicherungsfunktion durchführen, um Reproduktionsfehler auszuschließen.
Skalierbarkeit: Konversionsserver können durch Multiprozessormaschinen oder durch Verteilung auf mehrere Maschinen skaliert werden.
Zentralisierung: Ein zentral verwalteter Server und schlanke Clients mit weniger Software helfen, die Betriebskosten zu senken. Alles in allem sind dies überzeugende Argumente zugunsten der PDF/A-Konversion mit professionellen Werkzeugen.
Fazit
Der PDF/A-Standard wird kontinuierlich verbessert und an neue Anforderungen angepasst. Die Konversion gescannter und digitaler Dokumente zu PDF/A wird vielen Unternehmen in verschiedenen Bereichen ermöglichen, den wachsenden Anforderungen an sichere digitale Archivierung nachzukommen und sicherzustellen, dass Dokumente langfristig jederzeit zugänglich bleiben. Die Anwendung bewährter Strategien wird die Umsetzung eines erfolgreichen Projekts zur digitalen Archivierung ermöglichen, das alle technischen, rechtlichen und wirtschaftlichen Aspekte vollständig erfüllt.