Scanner en PDF/A - quelques aperçus
Traditionnellement, un scanner produit une image TIFF ou JPEG pour chaque page. Certains d'entre eux peuvent directement produire des fichiers PDF. Et les nouveaux périphériques produisent des fichiers conformes à la norme PDF/A. Cependant, la qualité des fichiers produits diffère considérablement. Pourquoi est-ce que cela vaut la peine d'utiliser un serveur de scan central?
Bien sûr, le processus de conversion en PDF ne consiste pas seulement à intégrer une image dans une enveloppe PDF. Il peut également impliquer la reconnaissance du texte et du code-barres, l'intégration des métadonnées et des signatures numériques. Mais dans cet article, je voudrais me concentrer sur la compression des données d'image qui est commercialisée comme un avantage principal de PDF/A par rapport au TIFF. On dit que le PDF/A est meilleur parce qu'il offre plus de mécanismes de compression avancés que le TIFF. Examinons donc de plus près ce sujet particulier.
Une des principales exigences dans le processus de conversion en PDF/A est de réduire la taille du fichier. Une taille plus petite est souvent obtenue au prix d'une qualité inférieure. Il y a un certain nombre de facteurs qui ont une influence sur le rapport qualité/taille :
Couleur vs. Gris contre Noir / Blanc
Choix de l'algorithme de compression (sans perte ou perte)
Multi vs. page simple
Mécanisme MRC (Contenu Rastère Mixte)
Les algorithmes de compression bi-tonale (noir et blanc) les plus utilisés sont G4 (nom standard ITU.T6) et JBIG2. Le G4 est sans perte alors que le JBIG2 peut être utilisé en mode sans perte et sans perte. Afin de parvenir à un meilleur taux de compression, JBIG2 peut stocker des symboles tels que des caractères texte dans une table et les réutiliser. Si la table de symboles est utilisée, elle peut économiser beaucoup d'espace en particulier dans les documents multi-pages, car la table de symboles JBIG2 peut être utilisée pour toutes les pages. L'inconvénient de ce mécanisme est qu'il peut mélanger inopinément certains symboles. C'est pourquoi le mode de perte de JBIG2 est souvent désactivé. Mais même en mode sans perte, JBIG2 a en général un meilleur taux de compression que le G4.
Pour les images en gris et en couleurs, les algorithmes les plus utilisés sont JPEG et JPEG2000. Le JPEG ne peut être utilisé qu'en mode perte, alors que le JPEG2000 peut à nouveau être utilisé dans les deux modes. Utilisé en mode perte, les deux algorithmes offrent un paramètre qui contrôle le rapport qualité/taille. Bien que le JPEG2000 soit plus moderne, on ne peut pas dire qu'il soit "meilleur" que le JPEG. Les mesures montrent que pour les réglages de meilleure qualité, JPEG2000 a de meilleurs taux de compression tandis que pour les réglages de qualité inférieure, JPEG est plus efficace en général. La perte de qualité introduit des artefacts d'image tels que les ombres qui sont typiques pour les deux algorithmes. JPEG a un artefact supplémentaire qui est appelé blocage. Il a son origine dans la subdivision de l'image en blocs de 8 x 8 pixels qui sont compressés indépendamment. En plus de cela, l'algorithme JPEG réduit généralement la résolution du signal de chromatiité de 2 par rapport au signal de luminosité qui augmente la vitesse de compression mais amplifie les artefacts de blocage.
Si vous convertissez des numérisations de couleurs en PDF, vous utilisez souvent une sorte de mécanisme de contenu mixte. La MRC sépare l'information de couleur en calques : un calque d'arrière-plan, un calque de masque et un certain nombre de calques de premier plan. Un exemple typique est une page qui contient du texte noir avec quelques mots souligne en rouge et bleu. Le masque contiendrait alors les formes des caractères et le calque de fond de la couleur du texte. Il est évident que le masque peut être compressé efficacement avec G4 ou JBIG2 et le calque de fond avec JPEG ou JPEG2000 en utilisant une très faible résolution. Lors de l'utilisation de ce mécanisme, une page numérisée peut être réduite à environ 40 k octets avec une bonne qualité. Ce résultat ne peut pas être atteint en utilisant simplement un algorithme de compression perdu. Cependant, si la page contient des graphiques ou des images, alors ceux-ci doivent être isolés et compressés de bonne qualité dans un ou plusieurs calques de premier plan. Ce processus d'isolement s'appelle la segmentation et il est un élément essentiel du mécanisme de la MCR.
Maintenant, après avoir examiné les différents systèmes de compression, il est temps d'en discuter dans le contexte des systèmes d'archivage. Bien sûr, la taille du fichier est souvent le problème le plus important, mais pas toujours. Dans de nombreux scénarios, la vitesse d’affichage est un problème crucial. Et, en ce qui concerne cette exigence, le JPEG2000 s'est souvent avéré trop lent, surtout s'il est combiné à un mécanisme de la MCR. Comme nous l'avons appris, le JPEG est meilleur à des taux de compression plus élevés. Alors, pourquoi ne pas l'utiliser au moins pour le calque de fond. Les artefacts perturbants du blocage peuvent être réduits si vous désactivez l'échantillonnage du signal de chromatiité. Un plus gros problème est que les scanners fournissent des images couleur en compression JPEG seulement qui réduit la puissance d'un logiciel de compression basé sur un serveur de manière significative parce que l'image JPEG introduit des artefacts qui rend la segmentation et la compression MRC beaucoup plus difficile. Mais pourquoi ne pas utiliser les scanners intégrés image à la fonction de conversion PDF? Cela peut être utile dans un environnement personnel, mais dans les applications d'entreprise, il existe de nombreuses raisons d'utiliser un serveur central. Les plus importants sont : une meilleure qualité, des formats de fichiers plus petits, une meilleure qualité OCR, des étapes de post-traitement et bien plus encore.
Et enfin, et ce n'est pas le moindre. Le PDF/A est-il meilleur que le TIFF ? La réponse est certainement Oui! Mais pas en ce qui concerne la compression. TIFF offre essentiellement les mêmes algorithmes de compression que PDF/A. La véritable force de PDF/A est de fournir l'insertion de profils de couleurs, de métadonnées et de texte reconnu de manière standardisée. De plus, PDF/A est une norme uniforme pour les documents numérisés et numérisés.