La ROC a-t-elle un sens pour les PDF générés numériquement ?

Les fichiers PDF numérisés consistent généralement en une image matricielle pour chaque page. Le moteur OCR peut reconnaître le texte de cette image et rendre le document consultable. Mais qu'en est-il des documents générés numériquement ?

Les documents de naissance numérique contiennent des objets de contenu générés individuellement, tels que des textes, des figures géométriques et des images matricielles. Les objets sont souvent superposés grâce à la transparence et à l'utilisation de couleurs de tache pour l'impression. En outre, les documents peuvent être enrichis d'informations structurelles telles que des articles, la direction de lecture et les balises (titre, paragraphe, en-tête, pied de page, etc.).

Dans de nombreux cas, le texte est incorporé de sorte qu'il soit lisible par une machine. Cependant, il n'est pas rare que ces informations soient manquantes. Souvent, le texte est également incorporé sous forme de lignes et de courbes géométriques ou dans le cadre d'une image matricielle.

Une approche naïve serait de rassasier la page et de la passer au moteur OCR. En conséquence, vous perdrez tous les détails de la page générée numériquement. Il vaut donc la peine de choisir une autre voie.

Un bon outil OCR pour les fichiers PDF générés numériquement peut enrichir des polices non lisibles avec des informations Unicode, reconnaître les textes dans des images incorporées et même créer des informations de structure manquantes, préparant ainsi le document pour le niveau de conformité PDF/A a. En outre, l'outil devrait également être en mesure de reconnaître les codes barres et QR et d'écrire leur contenu dans les métadonnées du document. Avec toutes ces fonctionnalités, l'outil peut être un composant essentiel d'une solution d'automatisation des processus robotiques (RPA).

Bien sûr, un tel outil devrait pouvoir manipuler des fichiers numérisés, numérisés et mixtes. Comme d'habitude, les pages numérisées sont redressées, les taches sont supprimées, et le texte reconnu est placé invisiblement au-dessus de l'image, le rendant consultable comme un document généré numériquement.

Avec l'outil OCR PDF à 3 hauteursMC, nous avons créé un tel outil. Dans le cadre de la solution de portail de qualité PDF 3-HeightsMC, elle assure l'enrichissement des documents pour un traitement ultérieur. L’outil OCR PDF à 3 hauteurMC optimise également le nombre d’accès au moteur OCR afin de réduire les coûts de licence et d’augmenter les performances.

Like what you see? Share with a friend.

« Gru<unk> ezi! » Comment pouvons-nous nous aider?

Phone