Scan-Server für digitale Langzeitarchivierung

Heutzutage wollen die meisten Unternehmen keine Zeit und kein Geld mehr damit verschwenden, fensterlose Räume mit Papierakten zu füllen oder Mitarbeiter mit der Suche nach Papierdokumenten zu beauftragen. Immer mehr Manager erkennen die Vorteile der digitalen Archivierung, und das nicht nur in großen Unternehmen. Aber wie soll sie umgesetzt werden? Die einen sagen, man solle es den Herstellern der Scan-Geräte überlassen, die anderen meinen, es brauche mehr als das.

Ist ein Scanner ausreichend?

In den meisten Unternehmen ist das Scannen von Papierdokumenten zu einer Routineaufgabe bei der Bearbeitung eingehender Post geworden. Je nach Art und Umfang der eingehenden Papierdokumente werden hierfür Multifunktionsdrucker (MFP) oder Hochleistungsscanner eingesetzt.

In den meisten Fällen werden die gescannten Bilder als Schwarz-Weiß-TIFF-Dateien erstellt, das typische Format, das von Faxgeräten verwendet wird. In besonderen Fällen, z. B. beim Scannen von Schecks oder Ausweisfotos, wird die Datei in Farbe erstellt. Das Scannen in Farbe wird jedoch in der Regel vermieden, da die erzeugten TIFF-Dateien entweder zu groß sind oder die JPEG-Komprimierung die Bildqualität sichtbar mindert.

Eine gute Bildqualität ist jedoch eine wichtige Voraussetzung für eine gute Texterkennungsrate. Um eine gute Bildqualität bei einer hohen Komprimierungsrate zu erreichen, ist ein Maß an Verarbeitungsleistung erforderlich, über das lokale Multifunktionsdrucker in der Regel nicht verfügen. Eine separate Scansoftware kann in dieser Hinsicht erhebliche Vorteile bieten.

Die einzelnen Verarbeitungsschritte wie Texterkennung, Komprimierung, PDF/A-Erzeugung und digitale Signatur können in der Regel nicht vom Scanner allein durchgeführt werden, da die Metadaten oft nachträglich von einer Indexstation hinzugefügt werden. Dieser Arbeitsschritt bricht jedoch das Siegel der digitalen Signatur und macht sie wertlos. Auch hier kann eine separate Software einen entscheidenden Vorteil bieten.

PDF/A - ein universeller Dokumentenstandard

Der PDF/A-Standard hat sich inzwischen im Posteingang weithin durchgesetzt. Der PDF/A-Standard bietet im Vergleich zu herkömmlichen Dokumentenformaten wie TIFF und JPEG folgende wichtige Vorteile:

  • Standardisiertes Format PDF/A eignet sich sowohl für die Speicherung gescannter als auch digital erstellter Dokumente.

  • Hohe Kompressionsrate Der PDF/A-Standard unterstützt modernere und leistungsfähigere Kompressionsverfahren und damit kleine Dateigrößen für Farbbilder.

  • Texterkennung Die erstellten PDF/A-Dokumente können durch die Einbettung von Text aus einer OCR-Engine durchsuchbar gemacht werden.

  • Eingebettete Metadaten Damit das Dokument und die zugehörigen Metadaten ein untrennbares Ganzes bilden, werden die Metadaten in PDF/A in die Datei eingebettet. Zum Speichern verwendet PDF/A das Format Extensible Metadata Platform (XMP), das wie PDF/A als eigene ISO-Norm definiert ist.

  • Digitale Unterschrift Um die Integrität und Authentizität der erstellten Dokumente zu gewährleisten, kann eine digitale Signatur nach dem PAdES-Standard auf das PDF/A-Dokument aufgebracht werden. Die digitale Signatur ist eine Art elektronische Unterschrift, die den gleichen Zweck erfüllen kann wie eine handschriftliche Unterschrift, sofern die entsprechenden rechtlichen Anforderungen (nationale Signaturgesetze) erfüllt sind.

Im Prinzip bieten TIFF-Dokumente alle diese Vorteile, allerdings nur als proprietäre Erweiterungen, da der TIFF-Standard selbst keine Lösungen anbietet

Was kann ein zentraler Scan-Server leisten?

Ein Scan-Server ist ein zentraler Dienst, der innerhalb eines Unternehmens lokal gescannte Dateien und zugehörige Indexdateien in das standardisierte Dateiformat PDF/A konvertiert. Zu diesem Zweck führt der Dienst alle Aufgaben aus, die ihm von der lokalen Scan-Station übertragen werden können. Die Lösung eignet sich besonders für Verarbeitungsschritte, die keine Benutzerinteraktion erfordern oder die Effizienz der lokalen Scanstation mit rechenintensiven Funktionen (OCR, Komprimierung) beeinträchtigen.

Die wichtigsten Funktionen dieses Dienstes sind:

  • Text- und Barcode-Erkennung Gescannte Bilddateien müssen durchsuchbar gemacht werden. Die Dienste können den 3-Heights® OCR Service nutzen, um Text in einer Bilddatei zu erkennen und ihn so in die konvertierte Datei einzubetten, dass sie durchsuchbar wird. Die erkannten Barcodes können auf verschiedene Weise verwendet werden: in der Textsuche, als Teil der eingebetteten Metadaten oder zur Steuerung der Verarbeitung (Name der Ausgabedatei, Seitentrennung usw.) innerhalb des Dienstes.

  • Komprimierung Farbbilder sind in mehrere Elemente unterteilt. Mit dem Mixed Raster Content (MRC)-Verfahren werden sie dann stark komprimiert, ohne dass sichtbare Verluste entstehen.

  • Einbettung von Metadaten Der PDF/A-Standard verlangt, dass Metadaten in Form von XMP-Paketen in das Dokument eingebettet werden. Diese Funktion wird vom Dienst angeboten.

  • PDF/A-Erstellung Der Dienst erstellt ein- oder mehrseitige Ausgabedokumente in Übereinstimmung mit den Normen der Reihe ISO 19005. Alle veröffentlichten Teile des Standards - PDF/A-1, PDF/A-2 und PDF/A-3 - werden unterstützt.

  • Digitale Unterschrift Die Signatur kann fortgeschritten oder qualifiziert sein, für die Langzeitaufbewahrung oder einfach für den Austausch geeignet. Sie kann auch einen Zeitstempel enthalten. Anstelle der persönlichen Unterschrift kann nur ein Zeitstempel angebracht werden. Der Dienst kann eine kryptografische Infrastruktur (USB-Token, HSM) über eine Standardschnittstelle (PKCS#11) nutzen, um eine digitale Signatur zu erstellen.

    Ein typischer Ablauf würde folgendermaßen aussehen:

  • Bilderfassung Der Scan-Operator startet den Scanvorgang und erstellt eine TIFF-Farbdatei. Der Scanner speichert Dateien normalerweise in einem Dateiordner. Faksimile-Dokumente werden vom Faxgerät empfangen und in einem speziellen Ordner als schwarz-weiße TIFF-Dateien gespeichert.

  • Manuelle Klassifizierung Je nach Prozess kann der Scan-Operator eine manuelle Klassifizierung vornehmen. Sie steuern den Scanner so, dass die Bilder in verschiedenen Ordnern gespeichert werden (z. B. Rechnungen und Lieferscheine), oder es werden spezielle Barcodeblätter hinzugefügt, die helfen, die Dokumente zu trennen und zu klassifizieren, oder es wird ein Mindestsatz an Indexdateien erstellt.

  • Segmentierung und Komprimierung Das Farbbild jeder Seite wird in seine verschiedenen Elemente, wie Hintergrund, Text und Bilder, zerlegt. Die einzelnen Elemente werden dann verkleinert, indem sie speziell für diese Art von Elementen entwickelten Kompressionsverfahren unterzogen werden. Dieses MRC-Verfahren ermöglicht es, wettbewerbsfähige Dateigrößen für Farbdokumente zu erzielen.

  • Text- und Barcode-Erkennung Die Bilder werden von einer OCR-Engine weiterverarbeitet. Das Bild wird bereinigt und entzerrt, und anschließend erfolgt die Erkennung von Text und Strichcode.

  • Metadaten Informationen aus der manuellen Klassifizierung, erkannten Barcodes und anderen Quellen werden zu standardisierten XMP-Metadaten zusammengestellt.

  • PDF/A-Erstellung Die aufbereiteten Bilder jeder Seite, der erkannte Text und die Metadaten werden zusammen mit dem ICC-Farbprofil des Scanners zu einem PDF/A-Dokument zusammengestellt. Optional kann auch eine Indexdatei erstellt werden, die nur die Metadaten enthält.

  • Digitale Unterschrift Auf Wunsch können die PDF/A-Dateien digital signiert werden, um die Nachvollziehbarkeit und Revisionssicherheit der Dokumente zu gewährleisten.

  • Validierung Als zusätzliche Option kann die PDF/A-Konformität des erzeugten Dokuments und die Gültigkeit der digitalen Signatur überprüft werden. Der Dienst bietet außerdem eine Reihe von Zusatzfunktionen.

Wo kann der Dienst genutzt werden?

Ein Scan-Server wird für die folgenden Zwecke eingesetzt:

  • Papiererfassung Elektronische Archivierung von Papierdokumenten, die als Eingangspost in einem Unternehmen eingehen.

  • Faksimile-Erfassung Elektronische Archivierung aller Faxvorgänge zwischen dem Unternehmen und seinen Geschäftspartnern.

  • Archiv Migration Migration von Papierarchiven in ein elektronisches Archiv mit dem standardisierten PDF/A-Format.

  • Web/Mobil-Erfassung Nutzung des zentralen Dienstes in Client/Server-Anwendungen über einen Webdienst.

  • Integration von Unternehmensanwendungen Nutzung des zentralen Dienstes zur Erstellung von PDF/A-Dokumenten über eine Programmierschnittstelle (API) aus Fachanwendungen, die TIFF- oder JPEG-Dateien erstellen.

Zusammenfassung

Der Aufbau eines digitalen Langzeitarchivs ist zwar in großen Unternehmen unverzichtbar geworden, doch auch kleine und mittlere Unternehmen profitieren davon, da sie ihre Lager- und Personalkosten senken können.

Ein gut durchdachter Scanprozess kann dazu beitragen, dass bereits in der ersten Phase der Kette (d. h. beim Posteingang) kein lästiges Papier mehr benötigt wird. Zugleich wird die Gültigkeit der elektronischen Dokumente durch digitale Signaturen sichergestellt. Mit einem zentralen Scan-Service können Unternehmen einen leistungsfähigen, flexiblen und zukunftssicheren Archivierungsprozess implementieren.

PDF/A, ein standardisiertes Dateiformat für die Langzeitarchivierung, eignet sich nicht nur für gescannte Dokumente, sondern dient auch als Universalformat für digital erstellte Dokumente.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Dr. Hans Bärfuss

Geschrieben von Dr. Hans Bärfuss

Dr. Hans Bärfuss ist der Gründer und Geschäftsführer der PDF Tools AG. Er ist Delegierter der Schweizerischen Normenvereinigung (SNV) für ISO und hilft bei der Standardisierung von Dateiformaten und digitalen Signaturen. Er ist einer der Initiatoren und Gründer der PDF Association und Vorsitzender der Schweizer Sektion.

Grüezi! Wie können wir helfen?

Phone