Diging for information by extracting data from a PDF document
Extraction du texte d'un document PDF est l'une des fonctions de recherche les plus populaires. Mais qu'en est-il des autres informations telles que les images, les métadonnées et plus encore ? Cela peut être simple - mais aussi délicat.
Parmi les choses les plus faciles à extraire vous trouverez les métadonnées. Les métadonnées du document peuvent généralement être extraites comme un flux XMP court. Même si le document contient un dictionnaire d'information à l'ancienne alors l'extraction des paires clé/valeur n'est pas une grosse affaire. Les mêmes lignes sont les contours (signets), les aides à la navigation telles que les destinations nommées, les liens et autres.
Cependant, l'extraction du contenu graphique d'une page est beaucoup plus complexe. Théoriquement, il est possible d'extraire chaque objet de contenu et les objets de ressource associés et de les utiliser pour créer une page HTML ou une page dans n'importe quelle autre langue de description. Dans les applications pratiques, cela s'avère trop complexe en raison du modèle graphique que PDF offre. Ce modèle a quelques caractéristiques uniques comme les motifs, les ombres et les groupes de transparence avec une variété de modes de mélange. En outre, les règles de conversion de balayage diffèrent considérablement de celles qui sont intégrées dans les processeurs graphiques disponibles dans le commerce. Ainsi, le mappage d'une description de page PDF en HTML, PCL ou même PostScript ne peut être réalisé qu'en transformant la description de la page en utilisant l'aplanissement de la transparence et d'autres techniques.
Pour cette raison, si l'on doit convertir le contenu de la page dans un autre format de document, il est beaucoup plus sage d'utiliser un outil de conversion spécialisé tel que le convertisseur de PDF en Image Converter.
La plupart des applications traitent de l'extraction de texte. Les domaines d'utilisation typiques sont la classification des documents de transaction tels que les factures, l'implémentation d'une fonction de recherche de texte dans les référentiels de documents et bien plus. Pour plus d'informations, veuillez vous référer à cet article : Pourquoi l'extraction de texte d'un document PDF est-elle si compliquée ?
Comme indiqué plus haut, l'extraction d'informations à partir d'un document PDF peut être très simple mais aussi assez délicate. Cela dépend du type d'information requis par la demande. Afin de rendre la programmation de ces applications aussi simple que possible, nous avons créé un outil spécialisé, l'outil d'extraction PDF. Il offre une interface facile à utiliser qui a été conçue sur la base des idées ci-dessus. La plupart des cas d'utilisation peuvent être traités avec seulement quelques lignes de code. Ceci est réalisé en masquant certaines fonctionnalités du modèle graphique PDF comme les transformations de coordonnées du programmeur.