Macht OCR für digital generierte PDFs Sinn?

Gescannte PDF-Dateien bestehen normalerweise aus einem Rasterbild für jede Seite. Die OCR-Engine kann den Text in diesem Bild erkennen und das Dokument durchsuchbar machen. Aber wie sieht es mit digital erzeugten Dokumenten aus?

Digital erzeugte Dokumente enthalten individuell generierte Inhaltsobjekte, wie Texte, geometrische Formen und Rasterbilder. Die Objekte werden häufig mittels Transparenz überlagert und verwenden Sonderfarben für den Druck. Darüber hinaus können die Dokumente mit strukturellen Informationen wie Artikeln, Leserichtung und Tags (Titel, Absatz, Überschrift, Fußzeile usw.) angereichert werden.

In vielen Fällen ist der Text so eingebettet, dass er maschinenlesbar ist. Es ist jedoch nicht ungewöhnlich, dass diese Informationen fehlen. Häufig ist der Text auch in Form von geometrischen Linien und Kurven oder als Teil eines Rasterbildes eingebettet.

Ein naiver Ansatz wäre, die Seite zu rastern und dann an die OCR-Engine zu übergeben. Infolgedessen würden Sie alle Details der digital erzeugten Seite verlieren. Es lohnt sich daher, einen anderen Weg zu wählen.

Ein gutes OCR-Tool für digital erzeugte PDF-Dateien kann unlesbare Schriftarten mit Unicode-Informationen anreichern, Texte in eingebetteten Bildern erkennen und sogar fehlende Strukturinformationen erstellen, um das Dokument für das PDF/A-Konformitätsniveau a vorzubereiten. Darüber hinaus sollte das Tool auch in der Lage sein, Barcode- und QR-Codes zu erkennen und deren Inhalt in die Metadaten des Dokuments zu schreiben. Mit all diesen Funktionen kann das Tool als wesentliche Komponente einer Robotic Process Automation (RPA)-Lösung dienen.

Natürlich sollte ein solches Tool in der Lage sein, gescannte, digital geborene und gemischte Dateien zu verarbeiten. Wie gewohnt werden gescannte Seiten begradigt, Flecken entfernt und der erkannte Text unsichtbar über dem Bild platziert, sodass er wie ein digital erzeugtes Dokument durchsuchbar ist.

Mit dem 3-Heights™ PDF OCR Tool haben wir ein solches Tool geschaffen. Im Rahmen der 3-Heights™ PDF Quality Gate-Lösung sorgt es dafür, dass die Dokumente für die weitere Verarbeitung angereichert werden. Das 3-Heights™ PDF OCR-Tool optimiert auch die Anzahl der Zugriffe auf die OCR-Engine, um die Lizenzkosten niedrig zu halten und die Leistung zu steigern.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Grüezi! Wie können wir helfen?

Phone