Pourquoi l'extraction de texte à partir d'un document PDF est-elle un tel tracas

Lorsque j'utilise un outil d'édition de texte tel que Microsoft Word, il est tout à fait naturel que je puisse sélectionner une partie du texte et le copier dans le presse-papiers et le coller dans une fenêtre de n'importe quel autre outil. Pas ainsi avec PDF. Au moins pas avec un quelconque type de document. Pourquoi?

En PDF, comme dans d'autres formats de document, le texte est basé sur des polices. Les polices contiennent, à côté d'autres informations, une collection de caractères qui peuvent être utilisés pour assembler le texte. PDF prend en charge différents formats de police tels que Type 1, CFF, TrueType et OpenType. Les polices peuvent être intégrées dans le fichier de document ou référencées par nom.

Dans une police TrueType, chaque caractère est associé à une police Unicode. Un Unicode est un nombre standardisé décrivant la signification d'un caractère indépendant de son apparence, par exemple les caractères a, a et a ont le même Unicode mais une apparence différente. Dans une police, la description de l'apparence d'un caractère est appelée glyphe. Dans un document Microsoft Word, les Unicodes sont utilisés pour stocker le texte. PDF, en revanche, sélectionne le caractère d'une police intégrée par son numéro de glyphe. Le numéro de glyphe est local à la police et n'est valide qu'en conjonction avec la police particulière.

Cette architecture a quelques avantages. Les glyphes peuvent être numérotés de manière unique sans tenir compte du système Unicode, différentes apparences du même caractère peuvent être regroupées dans la même police, les glyphes peuvent être utilisés sans connaître son Unicode, etc. Mais il y a aussi des inconvénients.

Afin de réduire la taille d'un fichier PDF, certains producteurs enlèvent les Unicodes et leur association avec les glyphes. Ainsi, l'extraction de texte de tels documents est interdite. Au moins, ce type de documents peut être détecté et traité en conséquence, on pourrait penser. Mais même ce n'est pas vrai en général.

Il existe des logiciels de producteurs sur le marché qui créent des documents PDF avec des informations de sélection de glyphes correctes, mais des informations Unicode erronées ou trompeuses. De tels documents ressemblent à tous les Unicodes des caractères utilisés mais l'association entre l'apparence et son sens est erronée. Dans ce cas, le texte extrait apparaît comme une poubelle.

Surtout un standard tel que PDF/A-2u, qui nécessite que tout le texte puisse être mappé à Unicodes, ne garantit pas que le mappage Unicodes soit correct, bien que le texte semble avoir un sens quand il est affiché dans un logiciel de lecture. En général, même les logiciels de validateur ne peuvent pas détecter une telle situation.

Afin de savoir si un document contient du texte extractible dans une manière automatisée - et dans une certaine mesure fiable - d'exécuter le document par le biais d'un moteur OCR.

Like what you see? Share with a friend.

« Gru<unk> ezi! » Comment pouvons-nous nous aider?

Phone