Scannen in PDF/A - einige Einblicke
Traditionell produziert ein Scanner für jede Seite ein TIFF- oder JPEG-Bild. Einige von ihnen können direkt PDF-Dateien erstellen. Und neuere Geräte erzeugen Dateien, die dem PDF/A-Standard entsprechen. Die Qualität der erzeugten Dateien unterscheidet sich jedoch erheblich. Warum ist das so und warum lohnt es sich, einen zentralen Scanserver zu verwenden?
Natürlich geht der Scan-zu-PDF-Konvertierungsprozess nicht nur darum, ein Bild in eine PDF-Hülle einzubetten. Es kann auch die Erkennung von Text und Barcode, das Einbetten von Metadaten und digitalen Signaturen umfassen. In diesem Artikel möchte ich mich jedoch auf die Bilddatendekompression konzentrieren, die als Hauptvorteil von PDF/A gegenüber TIFF beworben wird. Es wird gesagt, dass PDF/A besser ist, weil es fortschrittlichere Komprimierungsmechanismen als TIFF bietet. Lassen Sie uns also einen genaueren Blick auf dieses spezielle Thema werfen.
Eine der Hauptanforderungen im Scan-zu-PDF/A-Konvertierungsprozess besteht darin, die Dateigröße zu reduzieren. Eine kleinere Größe wird oft auf Kosten einer niedrigeren Qualität erreicht. Es gibt einige Faktoren, die den Qualitäts-/Größenverhältnis beeinflussen:
Farbe vs. Grau vs. Schwarz / Weiß
Wahl des Komprimierungsalgorithmus (verlustfrei vs. verlustbehaftet)
Mehrseitig vs. Einzelseite
MRC (Mixed Raster Content)-Mechanismus
Die am häufigsten verwendeten bi-tonalen (schwarz-weiß) Komprimierungsalgorithmen sind G4 (Standardname ITU.T6) und JBIG2. G4 ist verlustfrei, während JBIG2 im verlustfreien und verlustbehafteten Modus betrieben werden kann. Um eine bessere Komprimierungsrate zu erreichen, kann JBIG2 Symbole wie Textzeichen in einer Tabelle speichern und wiederverwenden. Wenn die Symboltabelle verwendet wird, kann dies insbesondere in mehrseitigen Dokumenten erheblich Platz sparen, da die JBIG2-Symboltabelle häufig für alle Seiten verwendet werden kann. Der Nachteil dieses Mechanismus ist, dass er möglicherweise einige Symbole unerwartet vermischt. Deshalb ist der verlustbehaftete Modus von JBIG2 oft deaktiviert. Aber selbst im verlustfreien Modus hat JBIG2 im Allgemeinen eine bessere Komprimierungsrate als G4.
Für Grauwert- und Farbbilder sind die am häufigsten verwendeten Algorithmen JPEG und JPEG2000. JPEG kann nur im verlustbehafteten Modus verwendet werden, während JPEG2000 wieder in beiden Modi verwendet werden kann. Wenn beide Algorithmen im verlustbehafteten Modus verwendet werden, bieten sie ein Parameter, der das Verhältnis von Qualität zu Größe steuert. Obwohl JPEG2000 moderner ist, kann man nicht sagen, dass es ‚besser‘ als JPEG ist. Messungen zeigen, dass JPEG2000 bei höheren Qualitätsstufen bessere Komprimierungsraten hat, während JPEG im Allgemeinen bei niedrigen Qualitätsstufen besser abschneidet. Der Qualitätsverlust führt zu Bildartefakten wie Schatten, die für beide Algorithmen typisch sind. JPEG hat ein zusätzliches Artefakt, das als Blockierung bezeichnet wird. Es stammt aus der Unterteilung des Bildes in 8 x 8 Pixel-Blöcke, die unabhängig komprimiert werden. Darüber hinaus reduziert der JPEG-Algorithmus normalerweise die Auflösung des Farbsignals um 2 im Vergleich zum Helligkeitssignal, was die Kompressionsrate erhöht, aber die Blockierungsartefakte verstärkt.
Wenn Farbscans in PDF konvertiert werden, wird oft eine Art Mixed Raster Content-Mechanismus verwendet. MRC trennt die Farbinformationen in Schichten: eine Hintergrundschicht, eine Maskenschicht und mehrere Vordergrundschichten. Ein typisches Beispiel ist eine Seite, die schwarzen Text mit einigen in Rot und Blau hervorgehobenen Worten enthält. Die Maske würde dann die Formen der Zeichen enthalten und die Hintergrundschicht die Farbe des Textes. Es ist offensichtlich, dass die Maske effizient mit G4 oder JBIG2 komprimiert werden kann und die Hintergrundschicht mit JPEG oder JPEG2000 bei sehr niedriger Auflösung. Bei der Verwendung dieses Mechanismus kann eine gescannte Seite auf etwa 40 k Byte bei guter Qualität reduziert werden. Dieses Ergebnis kann nicht allein mit einem verlustbehafteten Komprimierungsalgorithmus erzielt werden. Wenn die Seite jedoch Grafiken oder Bilder enthält, müssen diese isoliert und in einer oder mehreren Vordergrundschichten qualitativ hochwertig komprimiert werden. Dieser Isolationsprozess wird als Segmentierung bezeichnet und ist ein wesentlicher Bestandteil des MRC-Mechanismus.
Jetzt, nachdem wir die verschiedenen Komprimierungsschemata betrachtet haben, ist es an der Zeit, sie im Kontext von Archivierungssystemen zu diskutieren. Natürlich ist die Dateigröße oft das wichtigste Thema, aber nicht immer. In vielen Szenarien ist die Anzeigegeschwindigkeit entscheidend. Und in Bezug auf dieses Erfordernis hat sich JPEG2000 oft als zu langsam erwiesen, insbesondere wenn es mit einem MRC-Mechanismus kombiniert wird. Wie wir gelernt haben, ist JPEG bei höheren Komprimierungsraten besser. Warum also nicht zumindest für die Hintergrundschicht verwenden. Die störenden Blockartefakte können reduziert werden, wenn das Herunterproben des Farbsignals deaktiviert wird. Ein größeres Problem ist, dass Scanner Farbimages nur in JPEG-Kompression liefern, was die Leistung einer serverbasierten Kompressorsoftware erheblich verringert, da das JPEG-Bild Artefakte einführt, die die Segmentierung und MRC-Kompression erheblich erschweren. Aber warum nicht die integrierte Bild-zu-PDF-Konvertierungsfunktion der Scanner verwenden? Dies kann in einer persönlichen Umgebung nützlich sein, aber in Unternehmensanwendungen gibt es viele Gründe, warum man einen zentralen Server verwenden sollte. Die wichtigsten sind: bessere Qualität, kleinere Dateigrößen, bessere OCR-Qualität, Nachbearbeitungsschritte und vieles mehr.
Und last but not least. Ist PDF/A besser als TIFF? Die Antwort ist auf jeden Fall Ja! Aber nicht in Bezug auf die Kompression. TIFF bietet im Wesentlichen die gleichen Komprimierungsalgorithmen wie PDF/A. Die wahre Stärke von PDF/A besteht darin, das Einbetten von Farbprofilen, Metadaten und optisch erkannten Text auf standardisierte Weise zu ermöglichen. Darüber hinaus ist PDF/A ein einheitlicher Standard für gescannte sowie digital erzeugte Dokumente.