Numérique né PDF/A - écrou dur ou potentiel?
Les documents numérisés sont archivés avec succès au format PDF/A depuis plus de six ans. Cependant, l'attitude vis-à-vis de l'archivage des documents créés numériquement est plus réservée. Quelles sont les raisons? Certains sont évidents: les documents numérisés sont plus faciles à convertir en format PDF/A, tout en convertissant des documents créés numériquement représente généralement un défi technique. Un peu moins évident sont les erreurs dans la reproduction du document converti, les limitations fonctionnelles de la norme PDF/A, et d'autres raisons. Toutefois, ces défis peuvent être surmontés avec les bonnes stratégies.
Source d'origine
Une grande partie du matériel électronique archivé est constituée de documents numérisés tels que la correspondance commerciale, les registres de comptabilité, les contrats, les archives sur papier et les documents qui méritent d'être conservés et qui devraient être migrés en format électronique. Toutefois, le nombre de documents créés électroniquement rattrape rapidement ; ils sont généralement des factures générées par les systèmes ERP, les e-mails, les documents de bureau dans la boîte de réception et un type de document plus spécial, comme les dessins de conception à partir des systèmes de CAO.
Fidelité de reproduction – défi technique pour les documents numérisés
Le fait est : les documents numérisés sont en grande partie des images matricielles. Pendant des années, il était parfaitement acceptable de les classer comme des images TIFF, généralement en noir et blanc, pour économiser de la mémoire. Toutefois, les exigences sont devenues plus exigeantes. Aujourd'hui, la norme ISO PDF/A a fait de la couleur, des métadonnées et du texte intégral une question bien sûr, sans nécessiter beaucoup plus de mémoire. Les défis techniques liés à ces images matricielles se concentrent sur l’analyse et le traitement d’images. Par exemple :
Les images sont traitées avec une machine de reconnaissance de texte (OCR). Des pages vides sont détectées, l'image est redressée et tous les frottis sont supprimés. Elle est suivie par la reconnaissance du texte et du code-barres.
Segmentation et compression : l'image en couleur de chaque page est divisée en différents composants tels que l'arrière-plan, le texte et les photos. Ces composants sont réduits en taille en les traitant à l'aide de méthodes de compression spécialement conçues. La méthode MRC permet aux documents en couleur d'atteindre les tailles de fichiers qui peuvent concurrencer les fichiers en noir et blanc. Les fabricants de logiciels avaient appris à contrôler ce processus avant l'ère de PDF/A. Cependant, PDF/A renvoie un résultat normalisé contrairement au TIFF. En tant que sous-ensemble de PDF, PDF/A peut faire beaucoup plus. Ses espaces de couleurs, ses polices, ses vecteurs, ses motifs de remplissage et ses mélanges de transparence font du PDF l'un des modèles graphiques 2D les plus puissants ; à ce titre, il est prédestiné à la reproduction de documents créés numériquement. Il suffit de convertir la source numérique en PDF/A. Toutefois, cette étape est un défi technique plus important que ce qui pourrait paraître à première vue.
Premièrement, il y a le grand nombre de formats de document qui doivent être convertis : textes ASCII, Word, Excel, PowerPoint, PDF, emails, HTML et XML provenant de diverses sources telles que les répertoires de fichiers, les archives ZIP, les boîtes aux lettres, les pièces jointes et les flux de données des applications. De plus, la qualité de ces sources numériques atteint rarement celle des images matricielles. Les fichiers sont souvent endommagés lors de la transmission ou mal créés en premier lieu. C'est particulièrement souvent le cas avec les fichiers PDF créés à l'aide de freeware. Le problème du « mauvais PDF» est la cause des coûts élevés, pas seulement pour les producteurs de logiciels, et est souvent la raison des problèmes qui affectent les processus commerciaux fondés sur des documents.
Le plus grand défi auquel est confrontée la conversion de documents de sources numériques en PDF/A est toutefois la fidélité à la reproduction. Même si le fichier converti respecte formellement la norme ISO, il peut toujours arriver que le résultat visuel ne correspond pas à l'original. Ces types d'erreurs d'imagerie peuvent avoir de nombreuses causes. C'est généralement parce que les documents source ont des éléments graphiques complexes tels que les motifs de remplissage ou la transparence et que le logiciel de conversion est incapable de cartographier chaque fonction graphique ou toutes les combinaisons possibles en PDF/A. Les nombreux pilotes d'impression virtuels utilisés pour créer des fichiers PDF/A via la fonction Imprimer sont des exemples principaux. La majorité de ces pilotes sont basés sur le pilote PostScript fourni avec le système d'exploitation qui n'implémente en fait qu'une partie de l'interface graphique définie.
Stratégies pour les documents PDF/A sans erreur
Aujourd'hui, il ne s'agit plus d'une question de principe : PDF/A est un format de stockage à long terme pour les documents numérisés et créés numériquement. Les utilisateurs restent toutefois prudemment réservés en raison des difficultés techniques affectant la conversion des sources numériques en PDF/A. Néanmoins, ces défis peuvent être surmontés. Le choix des logiciels de conversion joue un rôle important – mais le choix d’une architecture de système adéquate est le facteur déterminant du succès.
Il s'est avéré bénéfique si les images numérisées sont converties en un document interrogeable, éventuellement signé numériquement avec des métadonnées à l'aide d'un logiciel spécial (serveur de numérisation). Toutes les étapes du processus sont parfaitement alignées les unes avec les autres. Il est important que le scanner ne fournit l'image brute que pour permettre la meilleure compression possible. Le résultat est généralement inférieur à l'idéal si le traitement est distribué entre le scanneur, l'ordinateur de numérisation et le serveur. Il existe différentes méthodes de conversion de documents créés numériquement en PDF/A au niveau professionnel. Le plus simple d'entre eux est de créer le document – devis par exemple, ou factures et rapports – au format PDF/A.
Il suffit alors d'un outil (PDF/A Validator) pour vérifier si le document est conforme aux règles de la norme. Si le document n'est pas au format PDF/A, il devra être converti. Dans le meilleur des cas, l'application native, par exemple un produit de la gamme Microsoft Office, incorporera la fonction appropriée (« Enregistrer au format PDF/A »). L'expérience montre toutefois que ces fonctions sont affectées par des erreurs de reproduction et des non-conformités mineures avec la norme PDF/A. Une stratégie éprouvée est donc d'utiliser la fonction moins précaire pour créer directement un fichier PDF normal (« Enregistrer en tant que PDF »). Le résultat est ensuite converti en PDF/A à l'aide d'un convertisseur spécialisé.
La fonction print est souvent la seule option en l'absence d'une fonction directe pour la création PDF/A. Le document est « imprimé » sous forme de fichier PDF/A via un pilote d'impression virtuel. Dans ce cas, il est recommandé d'utiliser un pilote d'impression PDF/A spécialement développé pour éviter les erreurs de reproduction qui se produisent avec la conventionnelle, Pilotes d'impression PDF basés sur PostScript.
Conversion centrale PDF/A – la méthode fiable
Pour le dire en un mot, une solution centrale de conversion PDF/A pour les documents numérisés et créés numériquement vaut la peine même pour un petit nombre d'utilisateurs. Les raisons sont simples:
Qualité: l'environnement d'exécution protégé du serveur garantit que chaque étape du processus de conversion est toujours effectuée exactement de la même manière avec les outils sélectionnés pour les meilleurs résultats.
Formats pris en charge : Les solutions centrales peuvent supporter un large éventail de formats de documents, y compris des formats pour lesquels le logiciel correspondant n'est pas installé sur le client. Cela permet d'économiser le déploiement coûteux de logiciels sur les postes de travail.
Robustesse et stabilité: les applications de conversion sont exécutées dans un environnement d'exécution automatisé et contrôlé. Cela permet de s'assurer que le service de conversion est toujours disponible de façon fiable. Le serveur surveille le bon fonctionnement de chaque application et les redémarre automatiquement en cas de problème.
Validation : le serveur vérifie la conformité des données créées avec la norme. De plus, le serveur peut effectuer une comparaison automatique des images en tant que fonction de garantie supplémentaire pour exclure toute erreur de reproduction.
Scalabilité: Les serveurs de conversion peuvent être mis à l'échelle par des machines multiprocesseurs ou par voie de distribution sur un certain nombre de machines.
Centralisation : un serveur géré de manière centralisée et des clients maigres avec moins de logiciels aident à réduire les coûts d'exploitation. Dans l'ensemble, ce sont des arguments convaincants en faveur de la conversion PDF/A avec des outils professionnels.
Conclusion
La norme PDF/A sera continuellement améliorée et adaptée pour répondre aux nouvelles exigences. La conversion de documents numérisés et créés numériquement en PDF/A permettra à de nombreuses entreprises de différents segments de répondre aux demandes croissantes d'archivage numérique sécurisé, tout en veillant à ce que les documents restent accessibles à tout moment à long terme. L'application de stratégies éprouvées permettra la mise en œuvre d'un projet d'archivage numérique réussi qui satisfera pleinement tous les aspects techniques, juridiques et économiques.