Warum ist PDF/A wichtig für SharePoint-Implementierungen?

Es gibt kaum eine andere Plattform in Organisationen, die so verbreitet ist wie SharePoint. SharePoint Server ist kein Endprodukt, sondern eine Anwendungsplattform, auf der DMS-Systeme wie windream und kundenspezifische Lösungen aufgebaut werden.

SharePoint und der Lebenszyklus des Dokuments

SharePoint-Anwendungen verwalten den Lebenszyklus von Unternehmensdokumenten von der Erstellung über mehrere Überarbeitungen und Veröffentlichungen bis hin zur eventualen Speicherung oder Entsorgung. SharePoint hilft sicherzustellen, welcher Art von Dokumenten erstellt werden kann, welche Vorlagen verwendet werden sollen, welche Metadaten enthalten sein müssen, in welcher Struktur Dokumente gespeichert werden sollen, je nach ihrer aktuellen Phase im Lebenszyklus, wie der Zugriff kontrolliert wird, wie Dokumente an nachfolgende Prozesse übertragen werden, welche Richtlinien auf dokumentenbezogene Aufgaben angewendet werden, welche Ereignisse aufgezeichnet werden müssen, welche Dokumente aufbewahrt, geschützt oder entsorgt werden sollen. SharePoint und SharePoint-Lösungen implementieren all diese Aspekte des Dokumentenmanagements. Microsoft Office-Tools wie Word oder Outlook unterstützen den Dokumentenlebenszyklus mit spezifischen SharePoint-Funktionen, damit Mitarbeitende von den Vorteilen von SharePoint profitieren können, während sie die Werkzeuge verwenden, an die sie gewöhnt sind.

Die Bedeutung des Dokumentformats selbst kann leicht übersehen werden, angesichts der lobenswerten Verbesserungen in der Produktivität, Zusammenarbeit und nahtlosen Anwendungsintegration, die SharePoint bietet. Doch löst der intuitive Reflex, alles von einem Hersteller zu beziehen, tatsächlich alle Probleme?

Und das Dokumentformat ist wichtig!

In einem Bemühen, Interoperabilität und langfristigen Zugang zu Datei-Inhalten sicherzustellen, fordern der öffentliche Sektor und die Privatwirtschaft seit einiger Zeit, dass jedes verwendete Dokumentenformat standardisiert, offen dokumentiert und herstellerunabhängig sein sollte, um Interoperabilität und langfristige Lesbarkeit zu gewährleisten. Bessere Interoperabilität und die Beseitigung proprietärer Datei-Formate reduzieren den Bedarf an offenen Betriebssystemen und offenen Anwendungssoftware. Kostenanalysen bestätigen, dass langfristig offene Datei-Formate besser sind, um Lock-in-Effekte zu verhindern als offene Software. Soweit zur Theorie – aber welches Dateiformat ist in der Praxis am besten geeignet?

Die Formate PDF, PDF/A, ODF und OOXML behaupten, dass sie gut dokumentiert und herstellerunabhängig sind. Sind sie alle standardisiert? Kein Zweifel. Aber ist jedes dieser Formate für alle Phasen im Dokumentenlebenszyklus gleich geeignet? Und gibt es gute Gründe, das Format während seines Lebenszyklus zu ändern?

Stellt man diese Fragen den Herstellern von Dokumentenmanagement- und Archivierungssystemen, erhält man die Antwort: „Wir stellen sicher, dass jedes Dokument genau so abrufbar ist, wie es gespeichert wurde.“ Aber reicht das aus? Es reicht definitiv nicht aus, wenn wir das Dokument über einen längeren Zeitraum aufbewahren müssen. Die entscheidende Frage, die gestellt werden sollte, ist, ob wir das Dokument in der Zukunft ordnungsgemäß präsentieren und lesen können – unabhängig von der Hardware, dem Betriebssystem und der Software zu diesem Zeitpunkt.

Um diese Frage weiter zu erkunden, teilen wir den Lebenszyklus eines Dokuments in zwei Phasen, „Arbeitsdokument“ und „Finaldokument“, und untersuchen die Anforderungen hinsichtlich des Dokumentenaustauschs und der langfristigen Archivierung. Am Ende werden wir zu dem Schluss kommen, dass ODF und OOXML am besten für die Phase „Arbeitsdokument“ geeignet sind, während PDF oder besser noch PDF/A am besten für das „Finaldokument“ geeignet ist. Im Falle einer langfristigen Archivierung ist PDF/A tatsächlich ein Muss.

Um diese Theorie zu unterstützen, betrachten wir die Dateiformate im Detail:

PDF

PDF ist weltweit bekannt und in fast jedem Marktsegment vertreten. Die meisten von uns verwenden den Begriff „PDF“ in Verbindung mit E-Mail-Anhängen oder einem Dokument, das von einem Webportal heruntergeladen werden kann. Aber tatsächlich haben wir nur eine grobe Vorstellung davon, was es genau ist. Die Abkürzung PDF steht für „Portable Document Format“ und definiert ein Dateiformat. PDF wurde von Adobe Systems Inc. Anfang der neunziger Jahre als plattformunabhängiges Dateiformat entwickelt. Basierend auf der Erfahrung mit seinem Vorgänger PostScript legte Adobe die folgenden Ziele fest: Ermöglichen Sie den Austausch und die Präsentation elektronischer Dokumente, grafische Anzeige von Text und Bildern unabhängig von deren Auflösung, Dokumente für die Webanzeige optimieren und interaktive Funktionen anbieten.

PDF als elektronisches Dokumentformat ist aus vielen Gründen attraktiv. PDF ist plattformunabhängig. Ein PDF-Dokument, das unter Windows erstellt wurde, kann auf einem UNIX-Server weiterverarbeitet und auf einem Macintosh-Computer angezeigt werden. Das PDF-Format basiert auf der etablierten PostScript-Seitenbeschreibungssprache und bietet viele zusätzliche Funktionen wie direkten Zugriff auf Seiten, Kompression, Verschlüsselung, interaktive Navigation, Kommentare oder Formulare. Darüber hinaus ist PDF heute das am häufigsten verwendete Format in der Produktion von Druckvorlagen in der digitalen Vorstufe. Private Organisationen, öffentliche Behörden und Bildungseinrichtungen gestalten ihre Geschäftsprozesse um, indem sie ihre papierbasierten Arbeitsabläufe durch elektronische Informationsaustauschprozesse ersetzen.

Einer der Hauptgründe für die Verbreitung von PDF ist der Adobe PDF-Reader. Der PDF-Reader ist seit langem kostenlos – Kosten fallen nur bei der Erstellung oder Bearbeitung von PDF-Dokumenten an. Seit der ersten Veröffentlichung des PDF-Formats hat Adobe andere Hersteller ermutigt, PDF in ihren Lösungen zu implementieren. Der Markt reagierte auf dieses Signal mit einer nennenswerten Anzahl unabhängiger Anbieter, die PDF-Software und -Komponenten anbieten.

Die erfolgreiche Entwicklung von PDF hat das Vertrauen in dieses Format enorm gestärkt. Die einzige Kritik am Format war, dass es proprietär von Adobe war, was zu einer Nachfrage nach einem international akzeptierten Standard führte. Es ist daher nicht weiter verwunderlich, dass PDF zur ISO-Norm (ISO 32000) für den elektronischen Dokumentenaustausch geworden ist. Der erste Teil der Norm (PDF 1.7) wurde 2008 veröffentlicht; der zweite Teil (PDF 2.0) ist für Herbst 2011 geplant. Die Norm bietet auch die Grundlage für zusätzliche anwendungsspezifische ISO-Normen, wobei die am häufigsten verbreiteten die Normen PDF/X für den Dokumentenaustausch – insbesondere in der Druckindustrie, PDF/A für langfristige Archivierung und PDF/VT für das Hochdruckverfahren mit variablen Daten sind.

PDF/A

Die Hauptinitiatoren für die Umsetzung eines Archivierungsstandards für elektronische Dokumente waren AIIM (Association for Information and Image Management), NPES (National Printing Equipment Association) und das Verwaltungsbüro der Vereinigten Staaten (AO). Ihr Ziel war die Definition eines standardisierten Formats für elektronisch archivierte Dokumente. Das Ergebnis dieser Initiative war die ISO-Norm 19005, die ein auf PDF basierendes Dateiformat namens PDF/A definiert.

Dieses Format bietet einen Mechanismus, um elektronische Dokumente so zu präsentieren, dass das visuelle Erscheinungsbild über einen langen Zeitraum intakt bleibt – unabhängig von den Werkzeugen und Systemen, die für deren Erstellung, Speicherung oder Abruf verwendet werden. Die Norm definiert nicht die Methode, die Bedeutung oder den Zweck der Archivierung. Stattdessen definiert sie eine Norm für elektronische Dokumente, die gewährleisten soll, dass ein Dokument in Zukunft authentisch reproduziert werden kann.

Das PDF-Format selbst garantiert weder die langfristige Reproduzierbarkeit noch die Unabhängigkeit von Software und Ausgabegeräten. Um diese beiden Prinzipien zu unterstützen, musste der bestehende PDF-Standard gleichzeitig eingeschränkt und erweitert werden. Ein Dokument darf daher nicht direkt oder indirekt auf eine externe Quelle verweisen. Ein Beispiel dafür ist ein externes Bild. Bestimmte Funktionen von PDF, wie zum Beispiel die Unterstützung von Ton und Video, sind ebenfalls nicht erlaubt. Auf der anderen Seite sind andere Optionen, wie das Einbetten von Schriftarten in das Dokument, obligatorisch. Im Wesentlichen definiert der PDF/A-Standard ausgewählte Eigenschaften der PDF-Referenz 1.4 – wobei festgelegt wird, ob sie absolut notwendig, empfohlen, eingeschränkt oder verboten sind. Der PDF/A-Standard (ISO 19005) ist serialisiert, wobei der erste Teil (PDF 1.4) 2005 eingeführt wurde und der zweite Teil (PDF 1.7), basierend auf ISO 32000, im Frühjahr 2011 veröffentlicht wird.

ODF

Das OpenDocument-Format (ODF) ist ein offenes, XML-basiertes Dokumentenformat für die Büroanwendungen Textverarbeitung, Tabellenkalkulation und Präsentationen. Das Format basiert, wo immer möglich, auf anderen offenen Standards, wie zum Beispiel Formaten für multimediale Inhalte oder Schriftarten. Ursprünglich wurde das ODF-Format von Sun als Dateiformat für die OpenOffice-Anwendungen entwickelt. Ein technischer Ausschuss bei OASIS hat das Format weiterentwickelt und 2005 als OpenDocument-Format (ODF) veröffentlicht. Die Versionen 1.0 und 1.1 von OpenDocument wurden seitdem als ISO 26300 zertifiziert, und die Version 1.2 befindet sich seit 2009 in der Entwurfsphase.

OOXML

Der Begriff OOXML ist eine Abkürzung für Open Office XML und ist ebenfalls ein ISO-Standard. Open Office XML wurde von Microsoft entwickelt und zur Standardisierung einer Arbeitsgruppe bei Ecma International vorgelegt, wo es 2006 als Ecma-376 veröffentlicht wurde. Im Jahr 2008 wurde der Standard als ISO 29500 veröffentlicht. Der gesamte Standardisierungsprozess war kompliziert, machte Rückschläge und wurde von Berichten über Unregelmäßigkeiten begleitet. Wie der Name schon sagt, sollte das Format proprietäre Dateiformate der MS-Office-Produkte wie Word, Excel, PowerPoint in einem standardisierten und öffentlich zugänglichen Format verfügbar machen. Die weit verbreitete XML-Syntax wurde als Grundlage verwendet. Der Standardisierungsprozess sollte die bestehenden Fähigkeiten der proprietären Dokumente in XML widerspiegeln, individuelle Fähigkeiten erweitern, dokumentieren und die Interoperabilität zwischen Anwendungen ermöglichen.

Bei der Einführung von OOXML gab es bereits über 400 Millionen Nutzer, die mit den oben genannten Tools schätzungsweise 40 Milliarden Dokumente jährlich produzierten. Infolgedessen musste OOXML nicht nur eine enorme Menge an bestehenden Dokumenten widerspiegeln, sondern es musste auch eine Vielzahl neuer Anwendungen unterstützen. Beispiele solcher Anwendungen sind die automatische Erstellung von Dokumenten aus Geschäftsdaten, die Extraktion von Daten aus Dokumenten und deren Wiedereinfügung in Geschäftsanwendungen, die gezielte und automatisierte Verarbeitung von Dokumenten und vieles mehr.

Langzeitarchivierung und gesetzliche Anforderungen

Die wahrscheinlich kritischste Herausforderung des digitalen Zeitalters liegt in der langfristigen Archivierung. Wir sind daran gewöhnt, eine exponentiell steigende Menge an Dokumenten zu produzieren. Bis heute verknüpfen wir ohne großes Nachdenken den digitalen Output mit den Werkzeugen, die wir zur Erstellung verwenden. Unsere Erfahrung zeigt jedoch, dass es nach 10 oder 20 Jahren äußerst schwierig sein kann, solche Dokumente visuell nachzuvollziehen, selbst wenn dies der Fall ist – mit signifikanten Verlusten an Inhaltsinformationen. Die Bewahrung der finanziellen und intellektuellen Investitionen in diese Dokumente wird zu einer dringenden Priorität.

Die Leistungsfähigkeit der Dateiformate stellt Archivare vor erhebliche Probleme: Funktionen wie Verschlüsselung, dynamisch wechselnde Inhalte und Abhängigkeiten von externen Ressourcen wie Schriftarten sind langfristig nicht verwaltbar. Es musste schnell eine Lösung gefunden werden; und aufgrund fehlender Alternativen wurden Archivdokumente einfach in TIFF konvertiert. Allerdings ist im Allgemeinen nichts falsch an dem TIFF-Format, aber wie der Begriff „Tagged Image File Format“ schon so treffend beschreibt – es handelt sich um ein Dateiformat für Rasterbilder, das in der Regel problemlos mit hauptsächlich proprietären Funktionen erweitert werden kann. TIFF bietet keine standardisierten Funktionen wie Durchsuchbarkeit, Einbetten von Metadaten oder digitale Signaturen. Die mit TIFF gewonnenen Erkenntnisse haben jedoch zur Entwicklung des PDF/A-Formats beigetragen, das als Initiative von AIIM (Association for Information and Image Management), NPES (National Printing Equipment Association) und dem Verwaltungsbüro der United States Courts (AO) entwickelt wurde, um speziell die Anforderungen an die Archivierung zu adressieren.

PDF/A erfüllt alle wichtigen Anforderungen der Archivare, wie statische Inhalte, vorhersehbare und echte visuelle Reproduzierbarkeit von Dokumenten unabhängig von der Plattform und Software, sowie keine Verweise auf externe Quellen, frei von Verschlüsselungs- und Patentrechten, Durchsuchbarkeit, Einbetten von Metadaten und digitalen Signaturen und mehr. Die Vision des "digitalen Papiers" wurde schließlich mit PDF/A Wirklichkeit. Es sind die gleichen Eigenschaften von PDF/A und die harte Arbeit vieler Freiwilliger, einschließlich der Gründung des PDF/A-Kompetenzzentrums, die PDF/A zum de-facto-Standard für die Archivierung gemacht haben. Der Beweis findet sich in den vielen Empfehlungen, Richtlinien und gesetzlichen Anforderungen öffentlicher Behörden und Regierungen in vielen Ländern weltweit.

Die Schweizer Regierung hat sich in ihrer Gesetzgebung für den Austausch digitaler Dokumente zum PDF/A-Format verpflichtet. Den gleichen Trend kann man auch in anderen Ländern wie Frankreich, Österreich, Norwegen, Dänemark usw. beobachten, wo PDF/A der Standard für den öffentlichen Sektor ist. Nationale und staatliche Archive ziehen es ebenfalls vor, Dokumente im PDF/A-Format zu erhalten. Ein deutliches Zeichen dafür, dass sich das PDF/A-Format durchgesetzt hat, sind die vielen Projekte im privaten Sektor, die nicht durch regulatorische Anforderungen getrieben werden, sondern durch nachhaltige Wirtschaftlichkeit.

Interoperabilität und Konvertierung

Dokumentenstandards behaupten, dass sie "Interoperabilität" unterstützen. Was bedeutet das genau? Das Problem wird nur dadurch komplizierter, dass sehr unterschiedliche Formatmerkmale gemeint sind. Der Begriff Interoperabilität kann beispielsweise bedeuten, dass verschiedene Anwendungsprogramme das Dokument auf die gleiche Weise darstellen oder dass die Anwendungen die Dokumentenstruktur und den Inhalt identisch interpretieren. Die Qualität der Interoperabilität wird offensichtlich, sobald ein Benutzer das Dokument von einem Format in ein anderes konvertieren möchte. Warum ist das so?

Die meisten Dokumentenformate trennen das Layout von der Dokumentenstruktur und dem Inhalt, wie es PDF, ODF und OOXML tun. Je nach Anwendung ist das eine oder andere Aspekt wichtiger. Bei Bürodokumenten beispielsweise sind die Struktur und der Inhalt von Bedeutung – während beim Drucken das Layout wichtiger ist. Die Phase des Dokumentenlebenszyklus spielt ebenfalls eine Rolle. In den frühen Phasen der Änderungen im Dokument besteht eine Nachfrage nach Inhalt und Struktur – während sich in den letzten Phasen die Nachfrage auf das Layout verlagert. Die Dokumentenformate PDF, ODF und OOXML unterscheiden sich erheblich in Bezug auf die genannten Aspekte. Die Stärken von ODF und OOXML liegen in der Struktur und dem Inhalt, während die Stärke von PDF im Layout liegt. Nicht, dass die Formate die entgegengesetzten Aspekte kategorisch ignorieren würden – sie unterstützen sie jedoch eher widerwillig. Das ist nicht überraschend, wenn man bedenkt, dass PDF seine Wurzeln in der Grafikindustrie hat, im Gegensatz zu ODF und OOXML, die ihren Ursprung in Büroanwendungen haben.

Diese Erkenntnisse bestätigen die Theorie, dass PDF – und insbesondere PDF/A – am besten für die letzten Phasen von Dokumenten geeignet ist. Andererseits ist es unwahrscheinlich, dass jemand PDF als Format zum Bearbeiten von Dokumenten verwenden möchte. In dieser Phase des Lebenszyklus ist klar, dass ODF und OOXML besser geeignet sind. Die Konsequenz ist offensichtlich: Dokumente, die in SharePoint verwaltet werden, müssen in PDF/A konvertiert werden, wenn sie archiviert werden sollen. Die Vorbereitung zur Archivierung sowie für den Dokumentenaustausch erfordert eine perfekt layoutgetreue Konvertierung von ODF oder OOXML zu PDF/A.

Die SharePoint-Plattform ist gut auf diese Aufgabe vorbereitet. Als erweiterbare Plattform kann sie um einen Dokumentenkonverterdienst ergänzt werden, der manchmal auch als Rendition-Service bezeichnet wird, der ODF- oder OOXML-Dokumente automatisch oder durch den Benutzer initiiert in PDF/A konvertieren und die konvertierten Dokumente mit einem Attribut „archivierungsbereit“ kennzeichnen kann – typischerweise in Form einer elektronischen Signatur. Zusätzliche automatisierte Hintergrundprozesse steuern die Speicherung von Dokumenten im Archiv und sorgen dafür, dass Dokumente nahtlos in die Textsuchfunktionen von SharePoint integriert werden.

Um ein makelloses Bild des Dokumentenlayouts zu gewährleisten, erfordert der Document Converter Service die Nutzung der nativen Büroanwendungen. Für ODF ist das OpenOffice und für OOXML sind es die entsprechenden Microsoft Office-Anwendungen. Eine Studie des Fraunhofer FOKUS Instituts hat gezeigt, dass die Interoperabilität zwischen ODF und OOXML in vielen Fällen sehr schwierig, wenn nicht sogar unmöglich sein kann. Mehrdeutigkeiten in der Beschreibung der Standards führen in vielen Fällen zu unvorhersehbaren Darstellungen des Layouts.

Die Konvertierung zu PDF/A ist notwendig

Die SharePoint-Plattform hat sich in vielen Organisationen recht erfolgreich etabliert, wo sie die Produktivität und die Zusammenarbeit von "Information Workers" verbessert. SharePoint-Anwendungen verwalten den Lebenszyklus von Dokumenten in Organisationen von der Erstellung bis zur Speicherung. Das Dokumentenformat spielt dabei eine wichtige Rolle, da Dokumente die Lebensdauer der verwendeten Erstellung-, Manipulations- und Archivierungssysteme überschreiten können. Daher muss das Format offen, dokumentiert, nicht proprietär und standardisiert sein. Ein offenes Format ist langfristig wirtschaftlicher als offene Plattformen und Anwendungen (Open Source). Das könnte einer der Gründe für die hohe Akzeptanz von SharePoint und Microsoft Office sein.

Aber nicht jedes Format ist für jede Phase während eines Dokumentenlebenszyklus perfekt: ODF und OOXML werden für die Phase des "Arbeitsdokuments" empfohlen, während PDF/A ein "Muss" für das "Abschlussdokument" ist. Folglich muss das Dokument zum Zeitpunkt des Übergangs von einer Phase zur anderen von ODF oder OOXML nach PDF/A konvertiert werden. Für diese Aufgabe gibt es professionelle Anwendungen für den Dokumenten-Konverterdienst, die in SharePoint integriert sind. Mit Hilfe der SharePoint-Plattform automatisieren diese Anwendungen den Konvertierungsprozess und stellen sicher, dass Textsuchen in PDF/A-Dokumenten für den Benutzer transparent sind.

Viele Organisationen haben bereits Lösungen für den Dokumentenkonverterdienst umgesetzt, wie die größte Lebensversicherungsgesellschaft in der Schweiz mit über 700 Versicherungsberatern in mehr als 40 Agenturen. Das Szenario lautet: Microsoft Office-Dokumente aus Geschäftsprozessen – sowohl interne Unternehmensdokumente als auch Kundendokumente – werden in SharePoint Server verwaltet und archiviert. In der Vergangenheit wurde TIFF als Dateiformat für die Archivierung verwendet. Das Unternehmen wechselte zu PDF/A, um die Dokumente durchsuchbar zu machen, digitale Signaturen anzuwenden und die Rückverfolgbarkeit zu gewährleisten. Am Ende des Geschäftsvorfalls werden die Dokumente in das PDF/A-Format konvertiert und Metadaten werden hinzugefügt, bevor sie im Archiv gespeichert werden. Die Benutzer steuern die Konvertierung der Dokumente direkt von SharePoint, wo sie auf die PDF/A-Dokumente über die Standardbenutzeroberfläche zugreifen können. Gleichzeitig werden die Dokumente in ein autonomes und robustes Langzeitarchiv repliziert – ebenfalls basierend auf SharePoint – das die Dokumente vor unbefugtem Zugriff schützt. Eine digitale Signatur wird angewendet, um die Authentizität der Dokumente zu gewährleisten und um zu verhindern, dass diese Dokumente nachträglich verändert werden.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Dr. Hans Bärfuss

Geschrieben von Dr. Hans Bärfuss

Dr. Hans Bärfuss ist der Gründer und Geschäftsführer von PDF Tools AG. Er ist ein Delegierter des Schweizerischen Normenverbandes (SNV) für ISO und hilft, Dateiformate und digitale Signaturen zu standardisieren. Er ist einer der Initiatoren und Gründer der PDF Association und Vorsitzender des Schweizer Kapitels.

Grüezi! Wie können wir helfen?

Phone