Information beschaffen, indem Daten aus einem PDF-Dokument extrahiert werden
Text aus einem PDF-Dokument zu extrahieren, ist eine der beliebtesten Funktionen zur Informationsbeschaffung. Aber wie sieht es mit anderen Informationen wie Bildern, Metadaten und mehr aus? Es kann einfach sein - aber auch knifflig.
Unter den einfachsten Dingen, die extrahiert werden können, finden Sie Metadaten. Die Dokumentmetadaten können normalerweise als kurzer XMP-Stream extrahiert werden. Selbst wenn das Dokument ein altmodisches Informationsverzeichnis enthält, ist die Extraktion der Schlüssel-/Wert-Paare kein großes Problem. Ähnlich sind die Markierungen (Lesezeichen), Navigationshilfen wie benannte Ziele, Links und Ähnliches.
Die Extraktion der grafischen Inhalte einer Seite ist jedoch viel komplexer. Theoretisch ist es möglich, jedes Inhaltsobjekt und die zugehörigen Ressourcenobjekte zu extrahieren und sie zur Erstellung einer HTML-Seite oder einer Seite in einer anderen Beschreibungssprache zu verwenden. In der praktischen Anwendung erweist sich dies als zu komplex aufgrund des Grafikwiderrufs, den PDF bietet. Dieses Modell hat einige einzigartige Merkmale wie Muster, Schattierungen und Transparenzgruppen mit verschiedenen Mischmodi. Darüber hinaus unterscheiden sich die Scansnach Conversion-Regeln erheblich von denjenigen, die in handelsüblichen Grafikprozessoren integriert sind. Daher kann die Zuordnung einer PDF-Seitenbeschreibung zu HTML, PCL oder sogar PostScript nur durch die Transformation der Seitenbeschreibung mittels Transparenzvereinfachung und anderer Techniken erreicht werden.
Aus diesem Grund ist es viel weiser, ein spezialisiertes Konvertertool wie den PDF zu Bild Konverter zu verwenden, wenn man den Seiteninhalt in ein anderes Dokumentformat konvertieren muss.
Die meisten Anwendungen befassen sich mit der Extraktion von Text. Typische Anwendungsbereiche sind die Klassifizierung von Transaktionsdokumenten wie Rechnungen, die Implementierung einer Textsuchfunktion in Dokumentenarchiven und viele mehr. Für weitere Informationen beziehen Sie sich bitte auf diesen Artikel: Warum ist die Extraktion von Text aus einem PDF-Dokument so mühsam?
Wie oben skizziert, kann die Extraktion von Informationen aus einem PDF-Dokument sehr einfach, aber auch ziemlich knifflig sein. Es hängt davon ab, welche Art von Informationen die Anwendung benötigt. Um die Programmierung solcher Anwendungen so einfach wie möglich zu gestalten, haben wir ein spezialisiertes Werkzeug, das PDF-Extraktionstool, geschaffen. Es bietet eine benutzerfreundliche Schnittstelle, die auf den oben genannten Erkenntnissen basiert. Die meisten Anwendungsfälle können mit nur wenigen Codezeilen behandelt werden. Dies wird erreicht, indem einige Funktionen des PDF-Grafikmodells, wie z. B. Koordinatentransformationen, dem Programmierer verborgen werden.