Warum ist PDF/A für SharePoint-Implementierungen wichtig?
Kaum eine andere Plattform hat sich in Unternehmen so stark verbreitet wie SharePoint. Der SharePoint Server ist kein Endprodukt, sondern eine Anwendungsplattform, auf der DMS-Systeme wie windream und kundenspezifische Lösungen aufgebaut werden.
Ursprüngliche Quelle
SharePoint und der Lebenszyklus des Dokuments
SharePoint-Anwendungen verwalten den Lebenszyklus von Unternehmensdokumenten von der Erstellung über mehrere Überarbeitungen und die Veröffentlichung bis hin zur endgültigen Speicherung oder Entsorgung. SharePoint hilft dabei sicherzustellen, welche Art von Dokumenten erstellt werden kann, welche Vorlagen zu verwenden sind, welche Metadaten enthalten sein sollen, in welcher Struktur Dokumente je nach ihrer aktuellen Phase im Lebenszyklus gespeichert werden sollen, wie der Zugriff zu steuern ist, wie Dokumente an nachfolgende Prozesse weitergegeben werden, welche Richtlinien auf dokumentenbezogene Aufgaben anzuwenden sind, welche Ereignisse aufgezeichnet werden müssen, welche Dokumente aufbewahrt, geschützt oder entsorgt werden sollen. SharePoint und SharePoint-Lösungen setzen all diese Aspekte der Dokumentenverwaltung um. Microsoft Office-Tools wie Word oder Outlook unterstützen den Lebenszyklus von Dokumenten mit spezifischen SharePoint-Funktionen, so dass die Mitarbeiter die Vorteile von SharePoint nutzen können, während sie ihre gewohnten Tools verwenden.
Die Bedeutung des Dokumentenformats selbst kann leicht übersehen werden angesichts der lobenswerten Verbesserungen bei der Produktivität, der Zusammenarbeit und der nahtlosen Anwendungsintegration, die SharePoint bietet. Doch löst der intuitive Reflex, alles von einem Hersteller zu beziehen, alle Probleme?
Und das Dokumentenformat spielt eine Rolle!
In dem Bemühen, Interoperabilität und langfristigen Zugriff auf Dateiinhalte zu gewährleisten, fordern der öffentliche Sektor und die Privatwirtschaft seit einiger Zeit, dass jedes verwendete Dokumentenformat standardisiert, offen dokumentiert und herstellerunabhängig sein muss, um Interoperabilität und langfristige Lesbarkeit zu gewährleisten. Bessere Interoperabilität und der Wegfall proprietärer Dateiformate verringern den Bedarf an offenen Betriebssystemen und offener Anwendungssoftware. Kostenanalysen bestätigen, dass offene Dateiformate langfristig besser geeignet sind, Lock-in-Effekte zu verhindern als offene Software. So viel zur Theorie - aber welches Dateiformat ist in der Praxis am besten geeignet?
Die Formate PDF, PDF/A, ODF und OOXML behaupten, dass sie gut dokumentiert und herstellerunabhängig sind. Sind sie alle standardisiert? Zweifellos. Aber ist jedes dieser Formate für alle Phasen im Lebenszyklus eines Dokuments gleichermaßen geeignet? Und gibt es gute Gründe, das Format während seines Lebenszyklus zu ändern?
Stellt man diese Fragen an Hersteller von Dokumentenmanagement- und Archivierungssystemen, erhält man die Antwort: "Wir sorgen dafür, dass jedes Dokument genau so wiedergefunden werden kann, wie es abgelegt wurde." Aber reicht das aus? Sie reicht jedoch nicht aus, wenn wir das Dokument über einen längeren Zeitraum aufbewahren müssen. Die entscheidende Frage, die man sich stellen sollte, ist, ob wir das Dokument in Zukunft richtig darstellen und lesen können - unabhängig von der Hardware, dem Betriebssystem und der Software zu diesem Zeitpunkt.
Um dieser Frage weiter nachzugehen, unterteilen wir den Lebenszyklus eines Dokuments in zwei Phasen, "Arbeitsdokument" und "Endgültiges Dokument", und untersuchen die Anforderungen an den Dokumentenaustausch und die Langzeitarchivierung. Am Ende werden wir zu dem Schluss kommen, dass ODF und OOXML am besten für die Phase des "Arbeitsdokuments" geeignet sind, während PDF oder noch besser PDF/A am besten für das "Enddokument" geeignet ist. Im Falle der Langzeitarchivierung ist PDF/A sogar ein Muss.
Um diese Theorie zu untermauern, sollten wir uns die Dateiformate genauer ansehen:
PDF ist in der ganzen Welt bekannt und in fast jedem Marktsegment vertreten. Die meisten von uns verwenden den Begriff "PDF" in Verbindung mit E-Mail-Anhängen oder einem Dokument, das von einem Webportal heruntergeladen werden kann. Tatsächlich haben wir aber nur eine ungefähre Vorstellung davon, was es genau ist. Die Abkürzung PDF steht für "Portable Document Format" und bezeichnet ein Dateiformat. PDF wurde in den frühen neunziger Jahren von Adobe Systems Inc. als plattformunabhängiges Dateiformat entwickelt. Ausgehend von den Erfahrungen mit dem Vorgänger PostScript hat sich Adobe folgende Ziele gesetzt: Den Austausch und die Präsentation elektronischer Dokumente zu ermöglichen, Text und Bilder unabhängig von ihrer Auflösung grafisch darzustellen, Dokumente für die Web-Ansicht zu optimieren und interaktive Funktionen anzubieten.
PDF als elektronisches Dokumentenformat ist aus vielen Gründen attraktiv. PDF ist plattformunabhängig. Ein unter Windows erstelltes PDF-Dokument kann auf einem UNIX-Server weiterverarbeitet und auf einem Macintosh-Computer angezeigt werden. Das PDF-Format basiert auf der etablierten Seitenbeschreibungssprache PostScript und bietet viele zusätzliche Funktionen wie den direkten Zugriff auf Seiten, Komprimierung, Verschlüsselung, interaktive Navigation, Kommentare oder Formulare. Darüber hinaus ist PDF heute das am häufigsten verwendete Format bei der Produktion von Druckvorlagen in der digitalen Druckvorstufe. Private Organisationen, Behörden und Bildungseinrichtungen sind dabei, ihre Geschäftsprozesse umzugestalten, indem sie ihre papiergestützten Arbeitsabläufe durch elektronische Informationsaustauschprozesse ersetzen.
Einer der Hauptgründe für die Verbreitung von PDF ist der PDF-Reader von Adobe. Der PDF-Reader ist seit langem kostenlos - Kosten entstehen nur bei der Erstellung oder Bearbeitung von PDF-Dokumenten. Seit der ersten Veröffentlichung des PDF-Formats hat Adobe andere Hersteller ermutigt, PDF in ihre Lösungen zu integrieren. Der Markt reagierte auf dieses Signal mit einer großen Anzahl unabhängiger Anbieter von PDF-Software und -Komponenten.
Die erfolgreiche Entwicklung von PDF hat das Vertrauen in dieses Format enorm gestärkt. Der einzige Kritikpunkt an diesem Format war, dass es Adobe-eigen ist, was zu der Forderung nach einem international anerkannten Standard führte. Kein Wunder also, dass sich PDF zum ISOStandard (ISO 32000) für den elektronischen Dokumentenaustausch entwickelt hat. Der erste Teil der Norm (PDF 1.7) wurde 2008 veröffentlicht; der zweite Teil (PDF 2.0) ist für Herbst 2011 geplant. Der Standard bildet auch die Grundlage für weitere anwendungsspezifische ISO-Normen, wobei die gängigsten PDF/X für den Dokumentenaustausch - insbesondere in der grafischen Industrie -, PDF/A für die Langzeitarchivierung und PDF/VT für den Massendruck von Transaktionsdokumenten mit variablen Daten sind.
PDF/A
Die Hauptinitiatoren für die Einführung eines Archivierungsstandards für elektronische Dokumente waren AIIM (Association for Information and Image Management), NPES (National Printing Equipment Association) und das Administrative Office of the United States Courts (AO). Ihr Ziel war die Definition eines standardisierten Formats für elektronisch archivierte Dokumente. Das Ergebnis dieser Initiative war die ISO-Norm 19005, die ein auf PDF basierendes Dateiformat namens PDF/A definiert.
Dieses Format bietet einen Mechanismus, um elektronische Dokumente so zu präsentieren, dass das visuelle Erscheinungsbild über einen langen Zeitraum erhalten bleibt - unabhängig von den Werkzeugen und Systemen, die für ihre Erstellung, Speicherung oder Abrufung verwendet werden. Die Norm definiert nicht die Methode, die Bedeutung oder den Zweck der Archivierung. Stattdessen wird eine Norm für elektronische Dokumente definiert, die gewährleisten soll, dass ein Dokument in Zukunft authentisch reproduziert werden kann.
Das PDF-Format selbst garantiert weder die langfristige Reproduzierbarkeit, noch die Unabhängigkeit von Software und Ausgabegeräten. Um diese beiden Prinzipien zu unterstützen, musste der bestehende PDF-Standard gleichzeitig eingeschränkt und erweitert werden. Daher darf ein Dokument weder direkt noch indirekt auf eine externe Quelle verweisen. Ein Beispiel dafür ist ein externes Bild. Bestimmte Funktionen von PDF, wie z. B. die Unterstützung von Ton und Video, sind ebenfalls nicht zulässig. Andere Optionen wie die Einbettung von Schriftarten in das Dokument sind hingegen obligatorisch. Im Wesentlichen definiert und präzisiert der PDF/A-Standard ausgewählte Eigenschaften der PDF-Referenz 1.4 - und legt fest, ob sie absolut notwendig, empfohlen, eingeschränkt oder verboten sind. Die PDF/A-Norm (ISO 19005) ist seriell aufgebaut, wobei der erste Teil (PDF 1.4) im Jahr 2005 eingeführt wurde und der zweite Teil (PDF 1.7), der auf ISO 32000 basiert, im Frühjahr 2011 veröffentlicht werden soll.
ODF
Das OpenDocument Format (ODF) ist ein offenes XML-basiertes Dokumentenformat für die Büroanwendungen Textbearbeitung, Tabellenkalkulation und Präsentationen. Das Format stützt sich, wo immer möglich, auf andere offene Standards, wie z. B. Formate für Multimedia-Inhalte oder Schriftarten. Ursprünglich wurde das ODF-Format von Sun als Dateiformat für die OpenOffice-Anwendungen entwickelt. Ein technischer Ausschuss der OASIS entwickelte das Format weiter und veröffentlichte es 2005 als OpenDocument-Format (ODF). Die Versionen 1.0 und 1.1 von OpenDocument wurden inzwischen als ISO 26300 zertifiziert und die Version 1.2 ist seit 2009 im Entwurf.
OOXML
Der Begriff OOXML ist eine Abkürzung für Open Office XML und ist ebenfalls ein ISO-Standard. Open Office XML wurde von Microsoft entwickelt und einer Arbeitsgruppe bei Ecma International zur Standardisierung vorgelegt, wo es 2006 als Ecma-376 veröffentlicht wurde. Im Jahr 2008 wurde die Norm als ISO 29500 veröffentlicht. Der gesamte Normungsprozess war kompliziert, brachte Rückschläge mit sich und wurde von Berichten über Unregelmäßigkeiten begleitet. Wie der Name schon sagt, sollte das Format die proprietären Dateiformate von MS Office-Produkten wie Word, Excel und PowerPoint in einem standardisierten und öffentlich zugänglichen Format zur Verfügung stellen. Als Grundlage wurde die weit verbreitete XML-Syntax verwendet. Der Standardisierungsprozess sollte die vorhandenen Fähigkeiten der proprietären Dokumente in XML abbilden, einzelne Fähigkeiten erweitern, dokumentieren und Interoperabilität zwischen Anwendungen ermöglichen.
Als OOXML aufkam, gab es bereits über 400 Millionen Benutzer, die jährlich schätzungsweise 40 Milliarden Dokumente mit den oben genannten Werkzeugen erstellten. Infolgedessen musste OOXML nicht nur eine enorme Menge bestehender Dokumente widerspiegeln, sondern auch eine breite Palette neuer Anwendungen unterstützen. Beispiele für solche Anwendungen sind die automatische Erstellung von Dokumenten aus Geschäftsprozessdaten, die Extraktion von Daten aus Dokumenten und das Wiedereinfügen dieser Daten in Geschäftsanwendungen, die gezielte und automatisierte Verarbeitung von Dokumenten und vieles mehr.
Langfristige Archivierung und rechtliche Anforderungen
Die wohl größte Herausforderung des digitalen Zeitalters liegt in der Langzeitarchivierung. Wir sind daran gewöhnt, eine exponentiell wachsende Menge an Dokumenten zu produzieren. Bis heute verknüpfen wir ohne viel nachzudenken den digitalen Output mit den Werkzeugen, die wir für seine Erstellung verwenden. Unsere Erfahrung lehrt uns jedoch, dass es außerordentlich schwierig sein kann, solche Dokumente nach 10 oder 20 Jahren visuell zu reproduzieren, und selbst wenn - mit erheblichem Verlust an inhaltlichen Informationen. Die Bewahrung der finanziellen und intellektuellen Investitionen in diese Dokumente wird zu einer dringenden Priorität.
Die Leistungsfähigkeit der Dateiformate stellt die Archivare vor erhebliche Probleme: Funktionen wie Verschlüsselung, dynamisch wechselnde Inhalte und Abhängigkeiten von externen Ressourcen wie Schriftarten sind auf Dauer nicht zu bewältigen. Es musste schnell eine Lösung gefunden werden; und mangels Alternativen wurden die Archivdokumente einfach in TIFF konvertiert. Am TIFF-Format an sich ist nichts auszusetzen, aber wie der Begriff "Tagged Image File Format" schon so treffend beschreibt, handelt es sich um ein Dateiformat für Rasterbilder, das sich mit meist proprietären Funktionen leicht erweitern lässt. TIFF bietet keine standardisierten Funktionen wie Durchsuchbarkeit, Einbettung von Metadaten oder digitale Signaturen. Die mit TIFF gemachten Erfahrungen haben jedoch zur Entwicklung des PDF/A-Formats beigetragen, das auf Initiative der AIIM (Association for Information and Image Management), der NPES (National Printing Equipment Association) und des Administrative Office of the United States Courts (AO) speziell für die Anforderungen der Archivierung entwickelt wurde.
PDF/A erfüllt alle wichtigen Anforderungen von Archivaren wie statische Inhalte, vorhersehbare und echte visuelle Reproduzierbarkeit von Dokumenten unabhängig von Plattform und Software; sowie keine Verweise auf externe Quellen, frei von Verschlüsselung und Patentrechten, Durchsuchbarkeit, Einbettung von Metadaten und digitalen Signaturen und mehr. Mit PDF/A wurde die Vision vom "digitalen Papier" endlich Wirklichkeit. Es sind die gleichen Eigenschaften von PDF/A und die harte Arbeit vieler Freiwilliger, einschließlich der Initiierung des PDF/A Competence Center, die PDF/A zum De-facto-Standard für die Archivierung gemacht haben. Der Beweis dafür sind die zahlreichen Empfehlungen, Richtlinien und gesetzlichen Bestimmungen von Behörden und Regierungen in vielen Ländern der Welt.
Die Schweizer Regierung hat sich in ihrer Gesetzgebung für den Austausch von digitalen Dokumenten auf das PDF/A-Format festgelegt. Der gleiche Trend ist in anderen Ländern wie Frankreich, Österreich, Norwegen, Dänemark usw. zu beobachten, wo PDF/A der Standard für den öffentlichen Sektor ist. Nationale und staatliche Archive bevorzugen ebenfalls Dokumente im PDF/A-Format. Ein deutliches Zeichen dafür, dass sich das PDF/A-Format durchgesetzt hat, sind die vielen Projekte in der Privatwirtschaft, die nicht durch gesetzliche Vorgaben, sondern durch nachhaltige Wirtschaftlichkeit getrieben sind.
Interoperabilität und Konvertierung
Dokumentennormen behaupten, dass sie die "Interoperabilität" unterstützen. Was bedeutet das genau? Erschwerend kommt hinzu, dass sehr unterschiedliche Formateigenschaften gemeint sind. Der Begriff Interoperabilität kann beispielsweise bedeuten, dass verschiedene Anwendungsprogramme das Dokument auf die gleiche Art und Weise darstellen, oder er kann bedeuten, dass Anwendungen die Struktur und den Inhalt des Dokuments identisch interpretieren. Die Qualität der Interoperabilität wird deutlich, wenn ein Benutzer ein Dokument von einem Format in ein anderes umwandeln möchte. Warum ist das so?
Die meisten Dokumentformate wie PDF, ODF und OOXML trennen das Layout von der Dokumentstruktur und dem Inhalt. Je nach Anwendung ist der eine oder der andere Aspekt wichtiger. Bei Office-Dokumenten zum Beispiel sind Struktur und Inhalt von Bedeutung, während beim Druck das Layout wichtiger ist. Auch die Phase des Lebenszyklus eines Dokuments spielt eine Rolle. In den frühen Phasen der Änderungen im Dokument sind Inhalt und Struktur gefragt - in den letzten Phasen verlagert sich die Nachfrage auf das Layout. Die Dokumentenformate PDF, ODF und OOXML unterscheiden sich in Bezug auf die genannten Aspekte deutlich. Die Stärke von ODF und OOXML liegt in der Struktur und dem Inhalt, während bei PDF die Stärke umgekehrt im Layout liegt. Nicht, dass die Formate die gegenteiligen Aspekte kategorisch ignorieren würden - aber sie unterstützen sie eher widerstrebend. Dies überrascht nicht, wenn man bedenkt, dass PDF seine Wurzeln in der grafischen Industrie hat, im Gegensatz zu ODF und OOXML, die ihren Ursprung in Büroanwendungen haben.
Diese Erkenntnisse bestätigen die Theorie, dass PDF - und insbesondere PDF/A - am besten für die Endphase von Dokumenten geeignet ist. Andererseits ist es unwahrscheinlich, dass man PDF als Format für die Bearbeitung von Dokumenten verwenden möchte. In dieser Phase des Lebenszyklus sind ODF und OOXML eindeutig besser geeignet. Die Konsequenz daraus liegt auf der Hand: In SharePoint verwaltete Dokumente müssen in PDF/A konvertiert werden, wenn sie archiviert werden sollen. Die Vorbereitung für die Archivierung sowie für den Dokumentenaustausch erfordert eine perfekt layoutgetreue Konvertierung von ODF oder OOXML nach PDF/A.
Die SharePoint-Plattform ist für diese Aufgabe gut gerüstet. Als erweiterbare Plattform kann sie mit einem Document Converter Service, manchmal auch als Rendition Service bezeichnet, ergänzt werden, der ODF- oder OOXML-Dokumente automatisch oder benutzerinitiiert nach PDF/A konvertieren und die konvertierten Dokumente mit einem "ready-to-archive"-Attribut kennzeichnen kann - typischerweise in Form einer elektronischen Freigabesignatur. Zusätzliche automatisierte Hintergrundprozesse steuern die Ablage der Dokumente im Archiv und sorgen dafür, dass die Dokumente nahtlos in die Textsuchfunktionen von SharePoint integriert werden.
Um ein einwandfreies Bild des Dokumentenlayouts zu gewährleisten, setzt der Document Converter Service die Verwendung der nativen Office-Anwendungen voraus. Für ODF ist dies OpenOffice und für OOXML die entsprechenden Microsoft Office-Anwendungen. Eine Studie des Fraunhofer FOKUS-Instituts hat gezeigt, dass die Interoperabilität zwischen ODF und OOXML in vielen Fällen sehr schwierig, wenn nicht gar unmöglich sein kann. Mehrdeutigkeiten in der Beschreibung der Normen führen in vielen Fällen zu unvorhersehbaren Darstellungen des Layouts.
Die Umstellung auf PDF/A ist notwendig
Die SharePoint-Plattform hat sich in vielen Unternehmen erfolgreich etabliert und verbessert dort die Produktivität und die Zusammenarbeit der "Informationsarbeiter". SharePoint-Anwendungen verwalten den Lebenszyklus von Dokumenten in Unternehmen von der Erstellung bis zur Speicherung. Das Dokumentenformat spielt dabei eine wichtige Rolle, da Dokumente die Lebensdauer der verwendeten Erstellungs-, Bearbeitungs- und Archivierungssysteme überschreiten können. Daher muss das Format offen, dokumentiert, nicht proprietär und standardisiert sein. Ein offenes Format ist auf lange Sicht wirtschaftlicher als offene Plattformen und Anwendungen (Open Source). Dies mag einer der Gründe für die hohe Akzeptanz von SharePoint und Microsoft Office sein.
Aber nicht jedes Format ist für jede Phase im Lebenszyklus eines Dokuments geeignet: ODF und OOXML werden für die Phase des "Arbeitsdokuments" empfohlen, während PDF/A ein "Muss" für das "Abschlussdokument" ist. Daher muss das Dokument beim Übergang von einer Phase in die andere von ODF oder OOXML nach PDF/A konvertiert werden. Für diese Aufgabe gibt es professionelle Document Converter Service-Anwendungen, die in SharePoint integriert sind. Mit Hilfe der SharePoint-Plattform automatisieren diese Anwendungen den Konvertierungsprozess und sorgen dafür, dass die Textsuche in PDF/A-Dokumenten für den Benutzer transparent ist.
Viele Unternehmen haben bereits Document Converter Service-Lösungen implementiert, wie z.B. die größte Lebensversicherungsgesellschaft der Schweiz mit über 700 Versicherungsberatern in über 40 Agenturen. Das Szenario ist folgendes: Microsoft Office Dokumente aus Geschäftsprozessen - sowohl unternehmensinterne als auch Kundendokumente - werden in SharePoint Server verwaltet und archiviert. In der Vergangenheit wurde TIFF als Dateiformat für die Archivierung verwendet. Das Unternehmen stellte auf PDF/A um, um die Dokumente durchsuchbar zu machen, digitale Signaturen anzubringen und die Rückverfolgbarkeit zu gewährleisten. Nach Abschluss des Geschäftsfalls werden die Dokumente in das PDF/A-Format konvertiert und mit Metadaten versehen, bevor sie im Archiv abgelegt werden. Die Benutzer steuern die Konvertierung der Dokumente direkt aus SharePoint heraus, wo sie über die Standard-Benutzeroberfläche auf die PDF/A-Dokumente zugreifen können. Gleichzeitig werden die Dokumente in ein autonomes und robustes Langzeitarchiv - ebenfalls auf Basis von SharePoint - repliziert, das die Dokumente vor unberechtigtem Zugriff schützt. Die Echtheit der Dokumente wird durch eine digitale Signatur gewährleistet, die verhindert, dass diese Dokumente nachträglich verändert werden.