L'espace PDF/A est-il requis pour l'archivage d'un bouchon de spectacle?
Un document PDF/A requiert que toutes les ressources telles que les polices, les profils de couleurs, etc. soient intégrées dans le fichier. L'archivage de documents transactionnels peut être un cauchemar car ces documents sont généralement de nature courte et contiennent un grand nombre de copies de la même police Frutiger, sRVB couleur profil et logo de l'entreprise. De nombreuses archives préfèrent donc le TIFF au format PDF/A pour ce qui est des documents numériques de naissance. Mais ce n'est certainement pas l'idée d'une norme uniforme. Comment résoudre ce problème?
PDF/A est largement accepté dans les archives pour les documents numérisés. Cela est dû principalement au fait, que PDF/A offre des algorithmes de compression plus forts et standardisés qui permettent de réduire une page numérisée en couleur à moins de 50 Ko. Même pour les documents numériques de naissance individuels PDF/A est le format de fichier préféré. Cependant, l'application de PDF/A dans l'archivage en masse des documents transactionnels est toujours contestée. Mais, à mon avis, il ne s'agit pas d'un problème de forme. Il s'agit d'un problème de système d'archivage et il faut donc y remédier.
La plupart des systèmes d'archivage sont fiers de stocker des « objets » sans se soucier de leur format. Cette prise de conscience présente toutefois un inconvénient crucial. Ils ne peuvent pas traiter les fichiers de manière appropriée et intelligente. Par conséquent, la plupart des solutions pour l'archivage en masse des documents PDF/A ajoutent une couche logicielle au système d'archivage qui tente de réduire les effets négatifs des ressources embarquées de manière répétée. Il y a deux approches principales pour cette couche logicielle.
La première approche recueille des documents individuels et les fusionne dans un seul fichier conteneur pour lequel les ressources peuvent être optimisées de manière à ce qu'elles ne se produisent qu'une seule fois dans le fichier. Ce fichier est ensuite soumis à l'archive. Lorsqu'un document est récupéré, le fichier conteneur est récupéré et divisé en documents originaux.
La deuxième approche sépare les documents en fichiers de ressources individuels et un document corporel qui y fait référence. Les ressources sont ensuite optimisées en remplaçant les copies égales par une seule instance. Les fichiers de ressources optimisées et les documents du corps sont ensuite soumis à l'archive. Lorsqu'un document est récupéré, il est reconstruit à partir de ses parties.
Personnellement, je préfère la deuxième approche car elle peut être mise en œuvre avec une performance beaucoup plus élevée que la première. Cependant, les gens critiquent le fait que les « objets » ne sont plus des documents PDF/A. Selon moi, cela n'est pas nécessaire parce que la couche logicielle pour séparer et fusionner les ressources le fait de manière transparente pour l'utilisateur et garantit que le document est le même avant d'être stocké et après qu'il soit récupéré. Habituellement, cet argument peut être mieux compris si le mécanisme est comparé à l'algorithme de compression ou de chiffrement à travers la couche de stockage du système d'archivage. Les données stockées sur le média ne sont plus un fichier PDF/A si elles sont stockées sous forme compressée ou chiffrée. Après décompression ou déchiffrement, c'est le fichier identique à nouveau. Il en va de même pour la couche logicielle de gestion des ressources.
J'ai mis en œuvre la deuxième approche pour les clients avec d'énormes volumes de documents et elle fonctionne parfaitement, économise de l'espace et des coûts.