PDF Tools AG | Components and solutions for PDF and PDF/A

Source d'origine

Magazine BIT
EnglishAuteur : Nadine Schuppisser

Même à l'ère des factures électroniques, des boutiques en ligne et du commerce électronique, le papier n'est pas encore devenu obsolète: des documents tels que des factures, Les formulaires fiscaux, les rapports de service et les contrats sont toujours préparés sur papier, envoyés à la poste et reçus dans une boîte aux lettres.

Une fois que les documents papier arrivent à la société ou à l'agence, les systèmes informatiques sont responsables du traitement des informations – tout ce qui est sur papier doit être scanné. préparé dans un format lisible par la machine, stocké et archivé. Les documents sont généralement scannés dans les différents départements à l'aide de dispositifs multifonctionnels (une MFP avec une fonction d'impression et de télécopieur) ou à l'aide d'un scanner de haute performance.

Pour la majorité des entreprises, les scans s'accumulent à différents endroits: au bureau central, aux stations de numérisation dans les départements de bureaux et sur les appareils mobiles. g. lors de la visite des clients. Les messages télécopiés reçus ne sont rien de plus qu'une image d'informations numérisées.

De l'image à un document standardisé

Lors de la numérisation d'un document, un fac-similé est créé en tant que fichier image d'abord dans des formats matriciels tels que TIFF et JPEG. Cependant, un document matriciel est simplement une image sans aucune information supplémentaire. Les textes et les informations contenus dans les codes-barres doivent être extraits de l'image par la reconnaissance du texte (reconnaissance des caractères optiques OCR) après avoir été scannés. Idéalement, le texte et l'image sont ensuite sauvegardés ensemble dans le même document. Cela rend le stockage des données plus simple et préserve à la fois l'apparence et l'information contenues dans le document original.

PDF/A s'est établi comme un format de stockage standardisé pour l'archivage à long terme de documents numérisés et générés électroniquement. La norme PDF/A supporte le stockage des images et des informations textuelles dans le même document. Les documents peuvent être utilisés en utilisant la fonction de recherche plein texte.

PDF/A utilise une technique de compression puissante pour les informations d'image, réduisant ainsi considérablement la taille du fichier original sans perdre aucune information. Ceci est particulièrement important si le document contient des images en couleur en plus des images en niveaux de gris et que les informations de couleur sont destinées à une utilisation ultérieure.

PDF/A permet également d'enregistrer directement dans le document des métadonnées telles que les informations de classification. XMP (plate-forme de métadonnées extensibles) est utilisé pour cela – comme avec PDF/A, il est défini comme sa propre norme ISO. PDF/A a également une option de signature numérique pour garantir l'authenticité des documents et l'intégrité des contenus. Dans l'ensemble, PDF/A offre la sécurité d'une norme internationale de documents garantissant la stabilité à long terme et offrant une gamme exhaustive de fonctions.

Analyser localement, traiter de façon centralisée

La numérisation n'impose que peu de demande sur le matériel et les logiciels en termes de performances. En principe, les scans peuvent être réalisés à l'aide d'un simple appareil photo numérique. Les étapes qui suivent, cependant, nécessitent beaucoup plus de puissance de traitement informatique et d'intelligence – compression d'image, OCR et conversion en PDF/A nécessitent du temps et des efforts. Il y a surtout deux exigences à prendre en considération: une reconnaissance de texte fiable exige la plus haute qualité d'image possible. Cela augmente la quantité d'espace nécessaire au stockage.

Bien sûr, l'objectif est de limiter au minimum les volumes de données lors du stockage de fichiers. Un logiciel qui répond aux deux exigences impose une forte demande de puissance de traitement de l'ordinateur, surtout quand il faut traiter un grand volume de documents numérisés. Un autre aspect à prendre en considération est que des informations provenant d'autres postes de travail et de différents systèmes informatiques sont nécessaires pour intégrer des données d'index, les données de classification et d'autres métadonnées et signatures numériques. Les données décentralisées doivent être combinées pour créer le document PDF/A.

Opérations à forte intensité de performance

La solution pour les deux problèmes est un serveur de numérisation centralisé – un exemple est le Scan to PDF Server à 3 Heights par PDF Tools AG. Ce serveur reçoit les fichiers image numérisés analyse les documents et génère un document PDF/A avec toutes les informations de texte et d'image compressées à la bonne taille. Le document peut également être étiqueté avec un tampon temporel ou une signature numérique. Les informations consolidées sont maintenant disponibles dans un format standardisé et de haute qualité qui convient aux lecteurs humains et au traitement automatisé des applications informatiques.

Un serveur central d'analyse simplifie également la distribution et la maintenance des logiciels. Le logiciel complet de numérisation avec la fonction OCR intégrée ne doit pas être enroulé individuellement, configuré et maintenu sur les stations de scan. Une application élémentaire de l'opérateur est suffisante pour l'acquisition d'images. Les problèmes rencontrés lors des étapes de traitement plus complexes ne doivent pas être résolus individuellement sur le poste de travail respectif. Le service de serveur d'analyse utilise à la place l'infrastructure de test pour analyser tous les problèmes et corriger les erreurs. Le service est ensuite transféré en opération productive.

Pour s'assurer que le serveur de balayage est adapté à l'environnement respectif et peut, si nécessaire, être mis à l'échelle lorsqu'il est partagé entre plusieurs ordinateurs, le scan à 3 hauteurs du serveur PDF distribue les tâches sur plusieurs sous-systèmes:

Le serveur de scan reçoit des tâches pour la conversion au format PDF/A, délégue la responsabilité de la reconnaissance de texte au serveur OCR, et combine les résultats de l'OCR, les images numérisées et les métadonnées en un document PDF/A complet.
Le serveur OCR reçoit des tâches du serveur de scan pour la reconnaissance du texte et du code-barres, prépare l'information de l'image à travers des processus tels que le redressement des textes et la suppression des défauts pour fournir les meilleures conditions possibles pour l'identification du texte, divise le document en champs de texte, de code-barres et d'image et effectue le processus de reconnaissance de texte.

Le serveur offre deux services supplémentaires pour les scans générés localement: un service de dossier surveillé transfère tous les fichiers stockés dans certains répertoires au serveur d'analyse pour le traitement automatique. Le serveur de balayage utilise un service web pour recevoir des emplois créés via une application Web et ensuite renvoyer les documents convertis au fournisseur d'emploi. Le serveur de scan peut également prendre en charge d'autres tâches utiles, y compris la validation des documents PDF/A générés pour conformité avec la norme ISO, en plaçant les documents avec un filigrane et en combinant des documents individuels appartenant à la même entreprise dans un document global.

Un serveur central de numérisation est une solution efficace et à multiples facettes pour le traitement de grands volumes de documents numérisés de différentes sources. Il convertit les données d'image numérisées en documents PDF/A standardisés et interrogeables qui sont remplis d'information, réduit la quantité de travail à effectuer par les stations de numérisation lors du traitement des informations, soutient l'intégration d'autres systèmes informatiques et contribue à maintenir une norme de document cohérente à l'échelle de l'entreprise.

De la numérisation aux informations – haute qualité à faible volume de données

Source d'origine

Magazine BIT

De l'image à un document standardisé

Analyser localement, traiter de façon centralisée

Opérations à forte intensité de performance

Like what you see? Share with a friend.

Written by Nadine Schuppisser

« Gru<unk> ezi! » Comment pouvons-nous nous aider?