PDF/A pour documents nés numériquement – archivage de documents MS-Office, e-mails et sites web

PDF/A, une norme ISO, garantit que les documents peuvent encore être lus dans 10, 50 ou 100 ans. Ce format contribue de manière significative à éviter un "Digital Dark Age" et aide à conserver les données à partir du présent.

Introduction

Par rapport à la préservation des données dans son format original, il y a de nombreux avantages à archiver les documents et les données provenant de sources numériques en format PDF/A. Les applications sources sont en cours de développement rapide. En conséquence, après quelques années seulement, la lisibilité et l'affichage authentique des données ne peuvent plus être garanties. En outre, une entreprise doit maintenir toutes les applications qui sont utilisées et toutes les plates-formes sur lesquelles elle opère. Cela entraîne des coûts considérables. Même pour les documents et fichiers créés numériquement, PDF/A est un excellent choix pour l'archivage à long terme et présente de grands avantages en termes d'uniformité, de capacité de recherche et de rentabilité.

Développement de documents numériques en tant que documents d'archives

Le modèle ECM de l’AIIM distingue cinq grands processus de gestion de l’information commerciale : Capture, gestion, livraison, conservation et stockage des documents. Ces processus peuvent être facilement assignés aux fonctions PDF/A suivantes :

Les documents numériques sont créés dans tous les processus mentionnés et PDF/A est également important dans tous ces processus, bien que de différentes manières, comme expliqué dans le suivant.

Quelles sont les sources typiques de documents numériques qui sont ensuite archivés et dans lesquels ces processus naissent-ils?

  • Boîte de réception

    • Scanner avec ou sans OCR (reconnaissance de caractères optiques)

    • E-mails avec ou sans pièces jointes

  • Bureau, graphisme et construction

    • MS Word, Excel, Powerpoint, Visio, etc.

    • Illustrator, Indesign, Photoshop, etc.

    • CAD: Autocad, 3D Studio Max, etc.

  • Échange électronique de données

    • SWIFT, EDIFACT, etc.

  • Boîte d'envoi

    • Imprimer les flux de données : PostScript, PCL, AFP, etc.

  • Migration d'archives

    • Masses de TIFF et d'autres fichiers, y compris les données sources (métadonnées, relations d'objet, etc.)

Attributs des sources analogiques et numériques

Les documents numériques peuvent émerger de sources analogiques et numériques. Certains paramètres sont pertinents pour leur archivage ultérieur à long terme :

De ces différences, il est clair que nous avons besoin de stratégies différentes pour gérer différentes sources, tant dans les grandes lignes que dans les détails. Ces stratégies sont requises tant pour les employés des services informatiques, le gestionnaire de dossiers que pour les fabricants de produits de conversion. Le défi n'est pas seulement de créer un document conforme au standard PDF/A mais dans l'interprétation de la source de telle manière que l'apparence visuelle correspond au document original. Le diagramme suivant montre les résultats des conversions en PDF/A dont le formulaire est conforme à la norme, mais dont l'apparence visuelle ne correspond pas suffisamment à celle de la source :

Conversions correctes et incorrectes : dans les deux cas, le résultat est un document conforme à PDF/A, mais, dans le cas d'une conversion incorrecte, ne correspond en aucune manière au document original.

Conversion des sources numériques en PDF/A

Pourquoi convertir ?

L'archivage à long terme des données numériques en PDF/A offre de grands avantages :

  • L'utilisateur n'a pas besoin de maintenir les applications originales « natives » et les plates-formes sur lesquelles les applications fonctionnent.

  • Les utilisateurs dépendent moins des fabricants de logiciels parce que toutes les informations pertinentes sont enregistrées dans un format ISO normalisé et que ce format est indépendant du fabricant.

  • Un traitement simplifié en raison du fait que les données archivées sont standardisées dans un seul format.

  • Possibilité d'effectuer une recherche plein texte dans toutes les données stockées.

  • Ces avantages impliquent également un avantage économique qui ne doit pas être sous-estimé.

Bien sûr, par rapport aux formats natifs, l'archivage en PDF/A présente également quelques inconvénients, par exemple la perte d'interactivité ou la « fonctionnalité » intégrée du format natif. MS Excel peut être utilisé comme exemple ici. MS Excel propose des formules de calcul pour le contenu, qui sont perdues lors de la conversion. Par conséquent, pour ces formats, il est toujours logique d'archiver également le document original et d'utiliser l'archivage en PDF/A comme variante de repli.

Avec les fichiers « interactifs », le temps d’archivage peut être choisi de manière à ce qu’il n’y ait guère besoin de changements supplémentaires (Document Lifecycle Management). Dans certains formats, par exemple les e-mails, le document original peut devoir être sauvegardé pour des raisons de conformité.

Aperçu des processus de développement et de conversion

La façon la plus simple de créer des PDF/A à partir de formats propriétaires tels que des documents Office, des dessins CAO, etc. est d'utiliser un pilote d'imprimante efficace, aussi connu sous le nom de PDF Producer, PDF Creator ou PDF Converter (par exemple, Adobe Distiller etc.). Ce « détour» via un pilote d'imprimante est nécessaire parce que, jusqu'à présent, la plupart des applications natives n'ont pas de fonction « Enregistrer en PDF». Cette fonction est maintenant disponible pour MS Office 2007, mais elle doit être téléchargée en tant que module complémentaire séparé.

Le processus d'archivage des courriels, y compris des pièces jointes, vers PDF/A (par exemple, à partir de MS Outlook) est plus complexe. Il n'y a actuellement que quelques fournisseurs avec ce type de fonctionnalité. PDF Tools AG a développé le convertisseur de documents à 3 hauteurs®️ qui convertit un e-mail et ses pièces jointes en un seul document PDF/A.

Depuis les bases de données, les systèmes ERP, etc., PDF/A est généralement contrôlé à l'aide d'une fonction d'exportation ("Enregistrer en PDF"). Souvent, ces fichiers doivent être post-traités parce qu'ils ne sont pas totalement conformes à la norme. Une autre option est ici la création directe et programmatique de fichiers PDF et PDF/A. Dans ce processus, le contenu de n'importe quelle source peut être fusionné, par exemple, pour le traitement de documents imprimés personnalisés. PDFLib GmbH est l'un des principaux fournisseurs de ces outils.

Des outils spécifiques sont généralement utilisés pour convertir des images et, dans ce processus, une fonction OCR est importante pour la création de métadonnées et pour la recherche des textes. Malgré cela, même dans les documents numérisés, nous ne pouvons pas sous-estimer la complexité de telles applications, en particulier dans les domaines de formats multiples (par exemple, des douzaines de variantes du TIFF), des couleurs, des polices et des procédures de compression et de segmentation, telles que le contenu mixte de rastérisation (MRC).

Tous les logiciels de conversion dans tous les domaines doivent tenir compte des obligations et des interdictions spécifiques de PDF/A, par exemple, l'intégration de polices, de profils de couleurs et de métadonnées (comme XMP).

Défis généraux

À partir d'une perspective générale, lors de la création de PDF/A à partir de sources numériques, nous sommes confrontés aux défis suivants :

  • Couleurs : Si les profils de couleurs des sources sont manquants, les suppositions doivent être faites à propos de l'espace de couleur

  • Polices : Si des polices (ou des glyphes) sont manquantes, les polices de remplacement doivent être sélectionnées. Pour cela, le texte doit être un texte Unicode

  • Transparence : L'aplanissement de la transparence est complexe et peut entraîner la perte d'informations (polices, vecteurs, etc.)

  • Niveaux, éléments interactifs et multimédias : Seul le « Aperçu imprimé» est conservé

  • Actions : La fonctionnalité (JavaScripts, etc.) est perdue

  • Signatures numériques: Doit être coché, documenté et signé à nouveau

Conversion des emails

Un email peut contenir tous les types de documents, archives entrelacées et bien plus encore (fichiers exécutables, etc.). De plus, le courriel peut contenir des références internes ou externes (par exemple, des courriels HTML) et différents systèmes, interfaces, systèmes de fichiers et flux de données sont concernés. Le processus d'archivage des e-mails, y compris des pièces jointes, est donc effectivement la « discipline suprême» de l'archivage en PDF/A, car tous les défis liés à la conversion de sources qui étaient à l'origine analogiques ou numériques doivent être résolus à l'aide d'un seul et même produit.

Pour résoudre ceci, une stratégie de conversion différente doit être sélectionnée pour chaque élément individuel d'un email: le corps de l'e-mail et les pièces jointes sont convertis individuellement et, seulement alors, sont fusionnés en un seul document. Dans ce document PDF/A, chaque pièce jointe peut ensuite être identifiée en utilisant une entrée de signet. En faisant cela, la structure des courriels peut également être retracée à un stade ultérieur. De plus, les informations telles que les tables des matières des documents Word ne sont pas perdues, parce qu'ils sont mappés en tant que deuxième niveau de hiérarchie dans les signets et sont liés en conséquence dans le PDF/A.

Même le traitement des signatures numériques pose un défi lors de l'archivage des e-mails.

Conversion des sites web

Le sujet de l'archivage des sites Web est relativement nouveau. Cela implique essentiellement de conserver le contenu et l'état de son propre site Web d'une manière juridiquement digne de confiance afin que les preuves requises puissent être fournies dans le cadre de procédures légales ou autres.

La difficulté lors de l'archivage des sites Web est que la sortie à l'aide d'un pilote d'impression ne représente pas l'apparence authentique du site, parce que les sites Web sont généralement préparés spécialement pour l'impression. Pour être en mesure de présenter des preuves dignes de confiance, ce « fidèle à l’original» est d’une importance capitale.

Par conséquent, depuis le site web une fonction « Capture » est utilisée pour créer une image qui est fusionnée avec le texte pertinent et d'autres informations (polices, espaces de couleur, etc.). de produire efficacement une « capture d'écran vectorielle et interrogeable ». Une autre question complexe est la gestion des liens externes et la structure de lien interne d'un site Web. En outre, il est nécessaire de décider d'un navigateur et d'une version de navigateur, car les différents navigateurs et versions de navigateur affichent des sites Web différemment.

Conversion sur le client ou sur le serveur

Nous devons considérer les aspects suivants en ce qui concerne la question de savoir si des logiciels de conversion doivent être installés sur des clients individuels ou sur un serveur central:

Gestion des polices dans l'archivage de masse

Les documents individuels PDF/A peuvent être archivés directement. Lors de l'archivage de grandes quantités de documents PDF/A similaires (par exemple, les factures de télécom, etc.). , la situation se pose souvent dans laquelle les documents contiennent les mêmes polices, les logos ou autres éléments d'identité de l'entreprise qui doivent également être archivés pour chaque document individuel. La sauvegarde répétée des ressources collectives (polices, images) est indésirable et réduit l'acceptation de PDF/A.

Pour résoudre ceci, le système d'archive peut être mis à jour en utilisant un module qui sépare les ressources partagées et les enregistre en une seule instance pour tous les documents lors de l'archivage en masse des documents PDF/A. Lorsqu'un document est accédé, les ressources partagées sont de nouveau fusionnées avec le document pour produire un document PDF/A complet. Cette procédure peut également être utilisée pour les documents signés numériquement, mais pendant le processus de signature, le document doit déjà être préparé pour la séparation des ressources.

Sécurité juridique avec signature numérique

Le processus de signature numérique de fichiers PDF/A issus de documents créés numériquement apporte une plus grande sécurité juridique. Selon l'application, l'utilisateur doit être clair sur ce que la signature fournit réellement. Dans tous les cas, avec une signature électronique qualifiée, il est absolument clair à quel moment la conversion et l'application de la signature numérique s'est produite et si le document a été modifié depuis la conversion. Il est également clair qui a effectué le processus de conversion dans une entreprise.

Cependant, l’incertitude qui découle de la source « dynamique » (par exemple, une base de données) d’un tel document PDF/A ne peut être dissipée. Il n'est pas non plus possible de vérifier si le document PDF/A créé correspond effectivement à l'apparence du document original (par ex. un document Word) ou si toutes les informations contenues dans le document (e. ., le contenu et les pièces jointes par courriel) existe réellement dans le fichier PDF/A. Pour accroître la crédibilité de ces documents, l'ensemble du processus doit être certifié. Il s'agit donc d'un sujet qui transcende la simple utilisation des signatures numériques. Cependant, de telles certifications exigent un certain volume de données afin que cela soit utile pour les fournisseurs de services, les fabricants de logiciels et de systèmes et les grandes entreprises.

Assurance qualité par les validateurs

“La confiance, c’est bien, le contrôle, c’est mieux” : cela s’applique bien sûr aussi aux documents PDF/A et aux produits qui créent des PDF/A. Ou qui prétendent créer PDF/A. Tous les produits qui sont étiquetés en PDF/A ne sont pas en fait des produits PDF/A. Dans des cas extrêmes, l'archivage des données de l'entreprise peut s'avérer crucial pour l'existence d'une entreprise.

Cela peut se produire dans une poursuite, par exemple, si les dossiers exonératifs n'ont pas été préparés ou n'ont pas été préparés correctement. Il est donc important d'utiliser des outils qui garantissent les normes de qualité les plus élevées. Les validateurs existent pour déterminer si un outil remplit cette condition préalable. Ces validateurs doivent également être vérifiés. Pour cette tâche, L'Association PDF a créé une suite de tests librement disponible qui enfreint systématiquement la norme et vérifie ensuite qu'un validateur peut identifier toutes les infractions.

L'utilisation d'un validateur n'est pas seulement importante lors de l'évaluation d'un outil, mais elle est également importante dans les processus opérationnels. Un validateur devrait donc être utilisé régulièrement pour vérifier la conformité des documents PDF/A créés - comme un contrôle de qualité permanent. Ceci est dû au fait que différentes sources, versions d'applications, etc. peuvent conduire à des résultats de conversion différents.

Summary

Le format PDF/A est bénéfique pour l'archivage des documents numériques et peut entraîner des économies considérables par rapport à l'archivage au format natif. Cependant, le diable est dans les détails avec cela et la complexité qui survient en fonction de la source des documents numériques ne doit pas être sous-estimée. Il est donc essentiel de collaborer avec des spécialistes dans ce domaine.

Cette collaboration peut protéger les utilisateurs des coûts inutiles dus à des processus incorrects, etc. Pour les affaires courantes et d'un point de vue stratégique (p. ex. dans les cas juridiques), il est très important que les informations puissent être consultées rapidement et en toute sécurité. Des différences dans ce domaine peuvent causer des dommages à l'image d'une entreprise ou des conséquences financières substantielles. Les processus d'archivage directement à partir des données numériques sont donc prioritaires.

Like what you see? Share with a friend.

« Gru<unk> ezi! » Comment pouvons-nous nous aider?

Phone