Textextraktionswerkzeug zur Umwandlung von PDF-Dokumenten in ein maschinenlesbares Textformat

Quickcomm verarbeitete die PDF-Rechnungen der Telekommunikationsunternehmen zunächst manuell. Mit diesem Projekt wollten sie die Vorverarbeitung für das Hochladen von PDF-Daten in Quickcomms-Datenbanken automatisch durchführen können.
Anforderungen an die Anwendung
Ursprünglich verarbeitete Quickcomm PDF-Telekommunikationsrechnungen manuell, die Informationen enthielten, die in den normalen Datenfeeds von Telekommunikationsanbietern nicht verfügbar waren. Mit diesem Projekt wollten sie die Vorverarbeitung für das Hochladen von PDF-Daten in Quickcomms-Datenbanken automatisch durchführen können. Dadurch sollen die Arbeitskosten gesenkt und die Genauigkeit und Geschwindigkeit der Verarbeitung erhöht werden. Das Unternehmen war auf der Suche nach einem flexiblen Werkzeug zur Abbildung und Umwandlung von PDF-Textinhalten. Frühere Produkte waren nicht zuverlässig oder nicht in der Lage, einige der erforderlichen PDF-Dokumente zu verarbeiten, und außerdem waren sie sehr unflexibel.
Kundenvorteile
Verschiedene Teams in der Buchhaltung arbeiten zusammen, um Daten aus Rechnungen zu verarbeiten und zu laden, die ursprünglich im PDF-Format vorliegen. Andere müssen die Rechnungen bezahlen, die Ergebnisse auswerten und den Kunden Bericht erstatten. Durch die Verwendung der pdtxt/pdtotxt-Komponente werden die Daten aus PDF-Dokumenten einfach und effizient in die Datenbanken hochgeladen. Außerdem können sie jetzt PDFs aus Ländern rund um die Welt in ihren Originalsprachen verarbeiten. Die extrahierten Daten werden für weitere Prozesse verwendet, z. B. für die Bezahlung von Rechnungen oder für Finanzprüfungen und Berichte. Dadurch profitiert Quickcomm von geringeren Arbeitskosten, einer höheren Genauigkeit der Daten und einer schnelleren Bearbeitung.
Umsetzung
Quickcomm hat begonnen, das Shell-Tool pdtxt - ein Teil des PDF Extract Tools - von PDF Tools in Kombination mit pdtotxt zu verwenden, um PDF-Dokumente in ein maschinenlesbares Textformat mit den erforderlichen Transformationen zu konvertieren.