Macht OCR Sinn für digital erzeugte PDFs?
Gescannt PDF-Dateien bestehen in der Regel aus einem Rasterbild pro Seite. Die OCR-Engine kann den Text in diesem Bild erkennen und das Dokument durchsuchbar machen. Aber wie steht es um digital erzeugte Dokumente?
Digital geborene Dokumente enthalten individuell generierte Inhaltsobjekte wie Texte, geometrische Figuren und Rasterbilder. Die Objekte sind oft durch Transparenz überlagert und verwenden Sonderfarben für den Druck. Darüber hinaus können die Dokumente mit strukturellen Informationen wie Artikeln, Leserichtung und Tags (Titel, Absatz, Kopfzeile, Fußzeile usw.) angereichert werden.
In vielen Fällen ist der Text so eingebettet, dass er maschinenlesbar ist. Es ist jedoch nicht ungewöhnlich, dass diese Informationen fehlen. Oft ist der Text auch in Form von geometrischen Linien und Kurven oder als Teil eines Rasterbildes eingebettet.
Ein naiver Ansatz wäre es, die Seite zu rasterisieren und sie dann an die OCR-Engine weiterzugeben. Infolgedessen würden Sie alle Details der digital generierten Seite verlieren. Es lohnt sich daher, einen anderen Weg zu wählen.
Ein gutes OCR-Tool für digital erzeugte PDF-Dateien kann nicht lesbare Schriftarten mit Unicode-Informationen anreichern, Texte in eingebetteten Bildern erkennen und sogar fehlende Strukturinformationen erstellen und das Dokument damit für die PDF/A-Konformitätsebene a vorbereiten. Darüber hinaus sollte das Tool auch in der Lage sein, Barcode- und QR-Codes zu erkennen und deren Inhalt in den Metadaten des Dokuments zu speichern. Mit all diesen Funktionen kann das Tool als wesentlicher Bestandteil einer Robotic Process Automation (RPA) Lösung dienen.
Natürlich sollte ein solches Tool in der Lage sein, gescannte, digital erzeugte und gemischte Dateien zu verarbeiten. Wie gewohnt werden gescannte Seiten begradigt, Flecken entfernt und der erkannte Text unsichtbar über das Bild gelegt, wodurch er durchsuchbar wird wie ein digital generiertes Dokument.
Mit dem 3-Heights™ PDF OCR Tool haben wir ein solches Tool entwickelt. Im Rahmen der 3-Heights™ PDF Quality Gate-Lösung sorgt es dafür, dass die Dokumente für die Weiterverarbeitung angereichert werden. Das 3-Heights™ PDF OCR-Tool optimiert auch die Anzahl der Zugriffe auf die OCR-Engine, um die Lizenzkosten niedrig zu halten und die Leistung zu steigern.