Textextrahierungstool, um PDF-Dokumente in maschinenlesbares Textformat zu konvertieren
Quickcomm hat zunächst Telecom PDF-Rechnungen manuell verarbeitet. Mit diesem Projekt beabsichtigten sie, die Vorabverarbeitung für PDF-Daten automatisch in Quickcomms-Datenbanken durchführen zu können.
Anwendungsvoraussetzungen
Quickcomm war ursprünglich die manuelle Bearbeitung von Telekom-PDF-Rechnungen, die Informationen enthielten, die in den normalen Datenfeeds von Telekom-Anbietern nicht verfügbar waren. Mit diesem Projekt beabsichtigten sie, die Vorabverarbeitung für PDF-Daten automatisch in Quickcomms-Datenbanken durchführen zu können. Durch die Umsetzung sollten die Arbeitskosten gesenkt und die Genauigkeit und Geschwindigkeit der Verarbeitung erhöht werden. Das Unternehmen suchte nach einem flexiblen Werkzeug zur Abbildung und Transformation der PDF-Textinhalte. Frühere Produkte waren nicht zuverlässig oder nicht in der Lage, einige der notwendigen PDF-Dokumente zu verarbeiten und waren zudem sehr unflexibel.
Kundenvorteile
Verschiedene Teams der Buchhaltungsabteilung arbeiten zusammen, um Daten aus Rechnungen zu verarbeiten und zu laden, die ursprünglich im PDF-Format sind. Andere müssen die Rechnungen bezahlen, die Ergebnisse analysieren und den Kunden Bericht erstatten. Durch die Verwendung der pdtxt/pdtotxt Komponente werden die Daten aus PDF-Dokumenten einfach und effizient in die Datenbanken hochgeladen. Außerdem können sie PDFs aus Ländern der ganzen Welt in ihren Originalsprachen verarbeiten. Die gesammelten Daten werden für weitere Prozesse, z.B. zur Bezahlung von Rechnungen oder zur Durchführung von Finanzprüfungen und Berichterstattung, verwendet. Dadurch profitiert Quickcomm von reduzierten Arbeitskosten, einer erhöhten Genauigkeit ihrer Daten und einer schnellen Umkehr.
Implementierung
Quickcomm hat mit dem Shell-Tool pdtxt – einem Teil des PDF-Extraktool – aus PDF Tools in Kombination mit pdtotxt begonnen, um PDF-Dokumente in maschinenlesbares Textformat mit den notwendigen Transformationen umzuwandeln.