Détection d'image dans les images numérisées

La détection des images dans les pages de documents numérisés présente de nombreux avantages tels que de meilleurs taux de compression et la possibilité de les extraire individuellement.

Une page scannée est à l'origine une image matricielle composée de pixels bi-niveau ou de couleurs. Puisque nous avons des méthodes de compression sophistiquées de numérisation en couleur est clairement préféré aux modes noir et blanc. L'une de ces méthodes est la méthode mixte de contenu matriciel (MRC) qui sépare l'image numérisée en arrière-plan, masque et calque de premier plan. Chaque couche peut être compressée individuellement en utilisant des algorithmes spécialisés paramétrés pour son usage spécifique. De tels algorithmes sont JBIG2 pour le masque et JPEG2000 pour le calque de fond. 

Il peut y avoir plusieurs calques de premier plan, par exemple pour les images photographiques qui font partie de la page numérisée. Afin de séparer ces images du calque de fond et de masque, un algorithme de segmentation spécifique doit les détecter et les isoler. Chacune de ces images peut maintenant former un calque individuel de premier plan compressé avec un algorithme spécifique tel que le JPEG.

Ainsi, la méthode MRC pour les pages numérisées peut être accomplie comme suit:

  • Algorithme de segmentation : détecter et isoler les images

  • Algorithme de séparation : calcule les pixels du masque d'image et du fond de couleur.

  • Compresser chaque couche à l'aide d'un algorithme de compression dédié

  • Composez les calques selon un schéma MRC tel que RFC 2301 en TIFF ou une image masquée en PDF.

La suppression des images de la page scannée peut aussi accélérer le processus de reconnaissance de texte (OCR). 

Cependant, une fonction plus intéressante peut être proposée. Si ces images ont été isolées et assignées à un calque individuel, il peut être facilement extrait du document par un outil approprié.

De plus, lors de la création d'un document PDF à partir d'une page numérisée, alors la fonction de contenu optionnelle peut être utilisée pour allumer et éteindre les calques d'arrière-plan et de premier plan.

Nos produits tels que la boîte à outils TIFF 3-HeightsMC TIFF, le serveur de numérisation 3-HeightsMC et l'optimisateur 3-HeightsMC prennent maintenant en charge les fonctionnalités décrites dans cet article. Pour extraire les images d'un document PDF, vous pouvez utiliser l'outil d'extraction PDF à 3 hauteursMC.

Like what you see? Share with a friend.

« Gru<unk> ezi! » Comment pouvons-nous nous aider?

Phone