Outil d'extraction de texte pour convertir des documents PDF en format texte lisible par machine
Dans un premier temps, Quickcomm traitait les factures de télécom PDF manuellement. Avec ce projet, ils avaient l'intention de pouvoir effectuer automatiquement le pré-traitement pour l'envoi de données PDF dans les bases de données Quickcomms.
Exigences de l'application
Dans un premier temps, Quickcomm traitait manuellement les factures PDF de télécom qui contenaient des informations non disponibles dans les flux de données normaux des fournisseurs de télécommunications. Avec ce projet, ils avaient l'intention de pouvoir effectuer automatiquement le pré-traitement pour l'envoi de données PDF dans les bases de données Quickcomms. Par cette mise en œuvre, les dépenses de travail devraient être réduites et la précision et la rapidité de traitement devraient être augmentées. L'entreprise était à la recherche d'un outil flexible pour cartographier et transformer le contenu du texte PDF. Les produits précédents n'étaient pas fiables ou incapables de traiter certains des documents PDF nécessaires et, en outre, ils étaient très rigides.
Avantages du client
Différentes équipes du département de la comptabilité travaillent ensemble pour traiter et charger les données des factures qui sont à l'origine au format PDF. D'autres doivent payer les factures, analyser les résultats et fournir des rapports aux clients. En utilisant le composant pdtxt/pdtotxt, les données des documents PDF sont facilement et efficacement téléchargées dans les bases de données. De plus, ils sont maintenant en mesure de traiter des PDF provenant de pays du monde entier dans leurs langues originales. Les données extraites sont utilisées pour d'autres processus, par exemple pour payer des factures ou pour effectuer des audits financiers et des rapports. Ainsi, Quickcomm bénéficie de la réduction des dépenses de travail, de la précision accrue de leurs données et de leur rotation rapide.
Implémentation
Quickcomm a commencé à utiliser l'outil shell pdtxt - une partie de l'outil d'extraction PDF - à partir d'outils PDF en combinaison avec pdtotxt pour convertir les documents PDF en format texte lisible par machine avec les transformations nécessaires.