Text-Extraktions-Werkzeug für PDF-Umwandlung in maschinenlesbares Format
In der Vergangenheit verarbeitete Quickcomm Telekommunikationsrechnungen manuell. Mit diesem Projekt beabsichtigten sie, das Pre-Processing für das Hochladen von PDF-Daten in die Datenbank von Quickcomm zu automatisieren.
Ausgangslage
In der Vergangenheit verarbeitete Quickcomm Telekommunikationsrechnungen manuell, welche Informationen enthielten, die in den normalen “Data Feeds” der Telecom-Anbieter nicht enthalten waren. Mit diesem Projekt beabsichtigten sie, das Pre-Processing für das Hochladen von PDF Daten in die Datenbank von Quickcomm zu automatisieren. Dadurch können die Arbeitskosten reduziert und die Datenqualität und die Verarbeitungsgeschwindigkeit erhöht werden. Das Unternehmen war auf der Suche nach einem flexiblen Werkzeug, um PDF Textinhalte abzubilden und zu konvertieren. Früher eingesetzte Produkte waren nicht zuverlässig genug oder nicht in der Lage, gewisse PDF Dokumente zu verarbeiten. Zudem erwiesen sie sich als sehr unflexibel.
Kundennutzen
Unterschiedliche Teams in der Finanzabteilung kümmern sich darum, dass Daten aus Rechnungen, welche in PDF Format vorliegen, verarbeitet und in die Datenbank übernommen werden. Andere sind für die Bezahlung von Rechnungen, die Analyse der Ergebnisse und das Berichtswesen an die Kunden zuständig. Durch den Einsatz der pdtxt/pdtotxt Komponente werden die Daten aus den PDF Dokumenten einfach und effizient in die Datenbanken hochgeladen. Mehr noch, Quickcomm ist nun in der Lage, PDF Dokumente aus allen Ländern der Welt in ihren Originalsprachen zu verarbeiten. Die extrahierten Daten werden zur Bezahlung von Rechnungen oder zur Durchführung von Finanzprüfungen und dem Berichtswesen eingesetzt. Auf diese Weise profitiert das Unternehmen von tieferen Arbeitskosten, verbesserter Qualität ihrer Daten und einem schnellen Turnaround.
Umsetzung
Quickcomm setzt das Werkzeug pdtxt – ein Teil von PDF Extract Shell – der PDF Tools AG in Kombination mit pdtotxt ein, um PDF Dokumente in ein maschinenlesbares Format umzuwandeln.