Server scannen für digitale Langzeitarchivierung

Heutzutage möchten die meisten Unternehmen keine Zeit und kein Geld mehr verschwenden, um fensterlose Räume mit Papierakten zu füllen oder Mitarbeiter mit der Suche nach Papierdokumenten zu beauftragen. Immer mehr Manager erkennen die Vorteile der digitalen Archivierung, und das nicht nur in großen Unternehmen. Aber wie sollte es umgesetzt werden? Manche sagen, man soll es den Herstellern der Scangeräte überlassen, während andere glauben, dass es mehr als das braucht.

Ist ein Scanner ausreichend?

In den meisten Unternehmen ist das Scannen von Papierdokumenten eine Routineaufgabe beim Umgang mit eingehender Post geworden. Multifunktionsdrucker (MFP) oder Hochleistungs-Scanner werden je nach Art und Umfang der empfangenen Papierdokumente für diesen Zweck eingesetzt.

In den meisten Fällen werden die gescannten Bilder als schwarz-weiße TIFF-Dateien erstellt, das typische Format, das von Faxgeräten verwendet wird. In besonderen Fällen, wie beim Scannen von Schecks oder ID-Fotos, wird die Datei in Farbe erstellt. Farbszannen wird jedoch normalerweise vermieden, da die erstellten TIFF-Dateien entweder zu groß sind oder die JPEG-Kompression die Bildqualität sichtbar reduziert.

Aber eine gute Bildqualität ist ein wichtiger Faktor für eine hohe Texterkennungsrate. Um eine gute Bildqualität bei einer hohen Kompressionsrate zu erreichen, ist eine Verarbeitungsleistung erforderlich, die lokale Multifunktionsdrucker normalerweise nicht besitzen. Getrennte Scannersoftware kann in dieser Hinsicht erhebliche Vorteile bieten.

In der Regel können die einzelnen Verarbeitungsschritte, wie Texterkennung, Kompression, PDF/A-Generierung und digitale Signatur, nicht allein vom Scanner durchgeführt werden, da Metadaten oft nachträglich von einer Indexstation hinzugefügt werden. Diese Arbeitsphase bricht jedoch das Siegel der digitalen Signatur und macht sie wertlos. Auch hier kann eine separate Software einen entscheidenden Vorteil bieten.

PDF/A – ein universeller Dokumentenstandard

Der PDF/A-Standard hat sich inzwischen in Anwendungen für eingehende Post weitgehend etabliert. Der PDF/A-Standard bietet im Vergleich zu herkömmlichen Dokumentenformaten wie TIFF und JPEG folgende wichtige Vorteile:

  • Standardisiertes Format PDF/A eignet sich sowohl zur Speicherung gescannter als auch digitaler Dokumente.

  • Hohe Kompressionsrate Der PDF/A-Standard unterstützt modernere und leistungsfähigere Kompressionsverfahren und damit kleine Dateigrößen für Farbabbildungen.

  • Texterkennung Die erstellten PDF/A-Dokumente können durch das Einbetten von Text aus einer OCR-Engine durchsuchbar gemacht werden.

  • Eingebettete Metadaten Damit das Dokument und die zugehörigen Metadaten eine untrennbare Einheit bilden, werden die Metadaten im PDF/A-Dateiformat eingebettet. Zur Speicherung verwendet PDF/A das format Extensible Metadata Platform (XMP), das wie PDF/A ebenfalls als eigener ISO-Standard definiert ist.

  • Digitale Signatur Um die Integrität und Authentizität der erstellten Dokumente zu gewährleisten, kann eine digitale Signatur gemäß dem PAdES-Standard auf das PDF/A-Dokument angewendet werden. Die digitale Signatur ist eine Art elektronische Signatur, die denselben Zweck wie eine handschriftliche Signatur erfüllen kann, vorausgesetzt, die entsprechenden gesetzlichen Anforderungen (nationale Signaturgesetze) werden erfüllt.

Im Prinzip bieten TIFF-Dokumente all diese Vorteile, jedoch nur als proprietäre Erweiterungen, da der TIFF-Standard selbst keine Lösungen anbietet

Was kann ein zentraler Scan-Server tun?

Ein Scan-Server ist ein zentraler Dienst, der lokal gescannte Dateien und zugehörige Indexdateien in das standardisierte PDF/A-Dateiformat innerhalb eines Unternehmens konvertiert. Zu diesem Zweck führt der Dienst alle Aufgaben aus, die ihm von der lokalen Scan-Station übertragen werden können. Die Lösung ist besonders geeignet für Verarbeitungsschritte, die keine Benutzerinteraktion erfordern oder die Effizienz der lokalen Scan-Station mit CPU-intensiven Funktionen (OCR, Kompression) beeinträchtigen.

Die Hauptfunktionen dieses Dienstes sind:

  • Text- und Barcode-Erkennung Gescannte Bilddateien müssen durchsuchbar gemacht werden. Die Dienste können den 3-Heights® OCR Service nutzen, um Text in einer Bilddatei zu identifizieren und in die konvertierte Datei einzubetten, sodass sie durchsuchbar ist. Die erkannten Barcodes können auf verschiedene Weise verwendet werden: in der Textsuche, als Teil der eingebetteten Metadaten oder zur Steuerung der Verarbeitung (Name der Ausgabedatei, Seiten Trennung usw.) innerhalb des Dienstes.

  • Kompression Farbige Bilder werden in mehrere Elemente zerlegt. Mit dem Mixed Raster Content (MRC) Prozess werden sie dann stark komprimiert, ohne sichtbare Verluste.

  • Einbettung von Metadaten Der PDF/A-Standard verlangt, dass Metadaten in das Dokument in Form von XMP-Paketen eingebettet werden. Diese Funktion wird vom Dienst angeboten.

  • PDF/A-Erstellung Der Dienst erstellt Ein- oder Mehrseitige Ausgabedokumente gemäß der ISO 19005 Normenreihe. Alle veröffentlichten Teile des Standards – PDF/A-1, PDF/A-2 und PDF/A-3 – werden unterstützt.

  • Digitale Signatur Die Signatur kann fortgeschritten oder qualifiziert sein, geeignet für die Langzeitspeicherung oder einfach für den Austausch. Sie kann auch einen Zeitstempel enthalten. Es kann nur ein einziger Zeitstempel anstelle der persönlichen Signatur angewendet werden. Der Dienst kann eine kryptographische Infrastruktur (USB-Token, HSM) über eine Standard-Schnittstelle (PKCS#11) verwenden, um eine digitale Signatur zu erstellen.

    Ein typischer Ablauf würde folgendermaßen aussehen:

  • Bilderfassung Der Scan-Betreiber startet den Scan-Prozess und erstellt eine farbige TIFF-Datei. Der Scanner speichert in der Regel Dateien in einem Ordner. Faxdokumente werden vom Faxgerät empfangen und in einem speziellen Ordner als Schwarz-Weiß-TIFF-Dateien gespeichert.

  • Manuelle Klassifizierung Je nach Prozess kann der Scan-Betreiber eine manuelle Klassifizierung durchführen. Sie steuern den Scanner so, dass die Bilder in verschiedenen Ordnern gespeichert werden (z. B. Rechnungen und Lieferscheine), oder es werden spezielle Barcode-Seiten hinzugefügt, die helfen, die Dokumente zu trennen und zu klassifizieren, oder es wird ein minimales Set an Indexdateien erstellt.

  • Segmentierung und Kompression Das Farbbild jeder Seite wird in seine verschiedenen Elemente wie Hintergrund, Text und Bilder zerlegt. Die Größe der einzelnen Elemente wird dann durch spezifisch für diesen Elementtyp entwickelte Kompressionsprozesse reduziert. Dieser MRC-Prozess ermöglicht es, wettbewerbsfähige Dateigrößen für Farbdokumente zu erreichen.

  • Text- und Barcode-Erkennung Die Bilder werden von einer OCR-Engine weiter bearbeitet. Das Bild wird bereinigt und entzerrt, und dann erfolgt die Text- und Barcode-Erkennung.

  • Metadaten Informationen aus der manuellen Klassifizierung, erkannte Barcodes und andere Quellen werden in standardisierten XMP-Metadaten zusammengestellt.

  • PDF/A-Erstellung Die vorbereiteten Bilder jeder Seite, der erkannte Text und die Metadaten werden zusammen mit dem ICC-Farbprofil des Scanners zu einem PDF/A-Dokument zusammengestellt. Optional kann eine Indexdatei erstellt werden, die nur die Metadaten enthält.

  • Digitale Signatur Wenn gewünscht, können die PDF/A-Dateien digital signiert werden, um die Nachverfolgbarkeit und die Integrität der Überarbeitung der Dokumente zu gewährleisten.

  • Validierung Als zusätzliche Option kann die PDF/A-Konformität des erstellten Dokuments und die Gültigkeit der digitalen Signatur überprüft werden. Der Dienst bietet auch eine Reihe zusätzlicher Funktionen an.

Wo kann der Dienst verwendet werden?

Ein Scan-Server wird für folgende Zwecke verwendet:

  • Papiererfassung Elektronische Archivierung von Papierdokumenten, die als eingehende Post innerhalb eines Unternehmens empfangen werden.

  • Facsimile-Erfassung Elektronische Archivierung aller Faxtransaktionen zwischen dem Unternehmen und seinen Geschäftspartnern.

  • Archivmigration Migration von Papierarchiven zu einem elektronischen Archiv mit dem standardisierten PDF/A-Format.

  • Web-/Mobile-Erfassung Nutzung des zentralen Dienstes in Client/Server-Anwendungen über einen Webdienst.

  • Integration von Unternehmensanwendungen Nutzung des zentralen Dienstes zur Erstellung von PDF/A-Dokumenten über eine Programmierschnittstelle (API) von Fachanwendungen, die TIFF- oder JPEG-Dateien erstellen.

Zusammenfassung

Obwohl die Entwicklung eines digitalen Langzeitarchivs in großen Unternehmen unerlässlich geworden ist, profitieren auch kleine und mittelständische Unternehmen von der Senkung ihrer Speicher- und Personalkosten.

Ein gut gestalteter Scanning-Prozess kann helfen, die Notwendigkeit unpraktischen Papiers bereits in der frühesten Phase der Kette (d.h. eingehende Post) zu beseitigen. Gleichzeitig wird die Gültigkeit der elektronischen Dokumente durch digitale Signaturen sichergestellt. Mit einem zentralen Scandienst können Unternehmen einen leistungsstarken, flexiblen und zukunftssicheren Archivierungsprozess umsetzen.

PDF/A, ein standardisiertes Dateiformat für die Langzeitarchivierung, eignet sich nicht nur für gescannte Dokumente, sondern dient auch als universelles Format für digital erstellte Dokumente.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Dr. Hans Bärfuss

Geschrieben von Dr. Hans Bärfuss

Dr. Hans Bärfuss ist der Gründer und Geschäftsführer von PDF Tools AG. Er ist ein Delegierter des Schweizerischen Normenverbandes (SNV) für ISO und hilft, Dateiformate und digitale Signaturen zu standardisieren. Er ist einer der Initiatoren und Gründer der PDF Association und Vorsitzender des Schweizer Kapitels.

Grüezi! Wie können wir helfen?

Phone