Von Scan zu Informationen – hohe Qualität bei niedrigem Datenvolumen
Ein zentraler Scan-Serverdienst ermöglicht es, große Mengen papierbasierter Dokumente schnell und effizient in elektronische Dokumente umzuwandeln, die für die Verarbeitung vorbereitet und in einem Langzeitarchiv gespeichert werden. Ein Scan-Server, wie der von PDF Tools AG angebotene 3-Heights™ Scan to PDF Server, konvertiert gescannte Dateien und begleitende Indexdateien in das standardisierte PDF/A-Dateiformat.
Selbst im Zeitalter der elektronischen Rechnungen, Online-Shops und E-Commerce ist Papier noch nicht obsolet geworden: Dokumente wie Rechnungen, Steuerformulare, Leistungsberichte und Verträge werden immer noch auf Papier vorbereitet, per Post verschickt und im eigenen Briefkasten empfangen.
Sobald die Papierdokumente im Unternehmen oder in der Behörde ankommen, sind IT-Systeme für die Verarbeitung der Informationen verantwortlich – alles auf Papier muss gescannt, in ein maschinenlesbares Format vorbereitet, gespeichert und archiviert werden. Dokumente werden in der Regel in den einzelnen Abteilungen mit multifunktionalen Geräten (einem MFP mit zusätzlicher Druck- und Faxfunktion) oder zentral mit einem Hochleistungsscanner gescannt.
Für die Mehrheit der Unternehmen sammeln sich Scans an verschiedenen Orten: im zentralen Büro, an Scanstationen in den Büroabteilungen und auf mobilen Geräten. z. bei Besuchen von Kunden. Faxnachrichten, die empfangen werden, sind nichts anderes als ein Bild gescannter Informationen.
Von einem Bild zu einem standardisierten Dokument
Beim Scannen eines Dokuments wird zuerst eine Faksimile als Bilddatei in Rasterformaten wie TIFF und JPEG erstellt. Ein Rasterdokument ist jedoch einfach ein Bild ohne zusätzliche Informationen. Texte und Informationen, die in Barcodes enthalten sind, müssen nach dem Scannen aus dem Bild über Texterkennung (OCR – optische Zeichenerkennung) extrahiert werden. Idealerweise werden der Text und das Bild dann zusammen im selben Dokument gespeichert. Dies vereinfacht die Datenspeicherung und bewahrt sowohl das Erscheinungsbild als auch die Informationen des Originaldokuments.
PDF/A hat sich als standardisiertes Speicherformat für die langfristige Archivierung von gescannten und elektronisch erzeugten Dokumenten etabliert. Der PDF/A-Standard unterstützt die Speicherung von Bild- und Textinformationen im selben Dokument. Die Dokumente können mit der Volltextsuche durchsucht werden.
PDF/A verwendet eine leistungsstarke Kompressionstechnik für die Bildinformationen, wodurch die ursprüngliche Dateigröße erheblich reduziert wird, ohne Informationen zu verlieren. Dies ist besonders wichtig, wenn das Dokument neben Graustufenbildern auch Farbbilder enthält und die Farbinformationen für eine spätere Verwendung vorgesehen sind.
PDF/A erlaubt auch, Metadaten wie Klassifizierungsinformationen direkt im Dokument zu speichern. XMP (Extensible Metadata Platform) wird dafür verwendet – wie bei PDF/A ist es als eigener ISO-Standard definiert. PDF/A hat auch eine Option für digitale Signaturen, um die Authentizität der Dokumente und die Integrität der Inhalte zu garantieren. Insgesamt bietet PDF/A die Sicherheit eines internationalen Dokumentenstandards, der langfristige Stabilität garantiert und eine umfassende Palette von Funktionen bietet.
Lokal scannen, zentral verarbeiten
Das Scannen stellt nur geringe Anforderungen an Hardware und Software in Bezug auf Leistung. Prinzipiell könnten Scans mit einer einfachen Digitalkamera durchgeführt werden. Die folgenden Schritte erfordern jedoch viel mehr Computer-Rechenleistung und Intelligenz – Bildkompression, OCR und Konvertierung ins PDF/A erfordern Zeit und Aufwand. Vor allem gibt es zwei gegensätzliche Bedürfnisse zu berücksichtigen: Zuverlässige Texterkennung erfordert die höchstmögliche Bildqualität. Dies erhöht den benötigten Speicherplatz.
Natürlich ist das Ziel, die Datenmengen beim Speichern von Dateien auf ein Minimum zu reduzieren. Software, die beide Anforderungen berücksichtigt, stellt hohe Anforderungen an die Rechenleistung des Computers, insbesondere wenn eine große Menge gescannter Dokumente bearbeitet werden muss. Ein weiterer Aspekt, den man berücksichtigen muss, ist, dass Informationen von anderen Arbeitsplätzen und verschiedenen IT-Systemen benötigt werden, um Indexdaten, Klassifikationsdaten und andere Metadaten sowie digitale Signaturen einzubetten. Die dezentralen Daten müssen kombiniert werden, um das PDF/A-Dokument zu erstellen.
Leistungsintensive Vorgänge
Die Lösung für beide Probleme ist ein zentraler Scan-Server – ein Beispiel ist der 3-Heights Scan to PDF Server von PDF Tools AG. Dieser Server empfängt die gescannten Bilddateien, analysiert die Dokumente und erstellt ein PDF/A-Dokument mit allen Text- und Bildinformationen, die auf die richtige Größe komprimiert sind. Das Dokument kann auch mit einem Zeitstempel oder einer digitalen Signatur versehen werden. Die konsolidierten Informationen sind nun in einem standardisierten, hochwertigen Format verfügbar, das für menschliche Leser und für die automatisierte Verarbeitung mit IT-Anwendungen geeignet ist.
Ein zentraler Scan-Server vereinfacht auch die Softwareverteilung und -wartung. Umfassende Scan-Software mit integrierter OCR-Funktion muss nicht einzeln in den Scan-Stationen ausgerollt, konfiguriert und gewartet werden. Eine elementare Operatoranwendung reicht für die Bildaufnahme aus. Probleme, die bei komplizierteren Verarbeitungsschritten auftreten, müssen nicht individuell an der jeweiligen Arbeitsstation gelöst werden. Der Scan-Serverdienst nutzt stattdessen eine Testinfrastruktur, um alle Probleme zu analysieren und Fehler zu beheben. Der Dienst wird dann in den produktiven Betrieb überführt.
Um sicherzustellen, dass der Scan-Server an die jeweilige Umgebung angepasst ist und bei Bedarf bei der Verwendung mehrerer Computer skalierbar ist, verteilt der 3-Heights Scan to PDF Server die Aufgaben auf mehrere Teilsysteme:
Der Scan-Server erhält Aufträge zur Umwandlung in das PDF/A-Format, delegiert die Verantwortung für die Texterkennung an den OCR-Server und kombiniert die OCR-Ergebnisse, das gescannte Bild und die Metadaten zu einem vollständigen PDF/A-Dokument.
Der OCR-Server erhält Aufträge vom Scan-Server für die Text- und Barcodeerkennung, bereitet die Bildinformationen durch Prozesse wie das Geraderücken von Texten und das Entfernen von Mängeln vor, um die bestmöglichen Bedingungen für die Identifizierung des Textes zu schaffen, unterteilt das Dokument in Text-, Barcode- und Bildfelder und führt den Texterkennungsprozess durch.
Der Server bietet zwei zusätzliche Dienste für lokal erzeugte Scans: Ein Überwachungsordnerservice überträgt alle Dateien, die in bestimmten Verzeichnissen gespeichert sind, an den Scan-Server für die automatische Verarbeitung. Der Scan-Server nutzt einen Webservice, um Aufträge zu empfangen, die über eine webbasierte Anwendung erstellt wurden, und sendet dann die konvertierten Dokumente an den Auftragsgeber zurück. Der Scan-Server kann auch andere nützliche Aufgaben übernehmen, einschließlich der Validierung der erzeugten PDF/A-Dokumente auf Konformität mit dem ISO-Standard, das Taggen der Dokumente mit einem Wasserzeichen und das Kombinieren einzelner Dokumente, die zum gleichen Geschäftsfeld gehören, in ein Gesamtdokument.
Ein zentraler Scan-Server ist eine effiziente, vielfältige Lösung für die Verarbeitung großer Mengen gescannter Dokumente aus verschiedenen Quellen. Er wandelt die gescannten Bilddaten in standardisierte, durchsuchbare PDF/A-Dokumente um, die mit Informationen gefüllt sind, verringert die Menge an Arbeit, die von Scan-Stationen bei der Verarbeitung von Informationen geleistet werden muss, unterstützt die Integration anderer IT-Systeme und hilft, einen konsistenten, unternehmensweiten Dokumentenstandard aufrechtzuerhalten.