Schriftarten in PDF einbetten
Ich sammele fehlerhafte PDFs seit der Veröffentlichung des Referenzhandbuchs <b>1.0</b> im Jahr 1993 und heute habe ich Zugang zu einer Datenbank mit mehr als 100'000 realen PDF-Dateien mit allen Arten von Fehlern. Die überwiegende Mehrheit der Probleme steht jedoch im Zusammenhang mit Schriftarten. Aber warum ist der Umgang mit Schriftarten in PDF-Dateien so problematisch?
Der Umgang mit Schriftarten ist schwierig, da ein Entwickler eine erschreckend große Menge an Dokumentation durcharbeiten muss, bevor er oder sie eine PDF-Produktionssoftware erstellen kann, die Schriftarten korrekt verarbeitet, insbesondere eingebettete. Zuerst muss man einfache und zusammengesetzte Schriftarten sowie die verschiedenen Mechanismen der Kodierung und Glyphenauswahl für symbolische und nicht-symbolische Schriftarten verstehen, die völlig unabhängig von den Mechanismen der Textextraktion und Unicodes sind. Dann muss man die interne Struktur der Type 1, CFF, TrueType und OpenType Schriftprogramme verstehen. Und schließlich muss man die Geheimnisse der korrekten Erstellung von Schriftarten-Teilmengen aller dieser Typen kennen. Das ist überhaupt nicht einfach, und echte PDF-Dateien offenbaren alle Arten von Missverständnissen der grundlegenden Konzepte.
Meine Erfahrungen mit der Schulung von Menschen haben nicht wirklich geholfen, da sie die Datenstrukturen der Schriftarten nicht einfacher verständlich machten. Und der PDF-Standard kann nicht geändert werden, um den Umgang mit Schriftarten zu vereinfachen, da dies die Kompatibilität mit bestehenden PDF-Dateien beeinträchtigen würde.
Während meiner Suche nach einer Lösung für das Problem stellte ich fest, dass die meisten Probleme im Zusammenhang mit Schriftarten und Schriftarteinbettung hauptsächlich bei Dokumenten mit lateinischen Zeichensatz beobachtet werden. Ähnliche Probleme traten in Schriften mit asiatischen Zeichensätzen viel seltener auf. Wie kann das sein? Ein Grund könnte sein, dass wir mehr lateinische Dateien in unserer Datenbank haben. Ein weiterer Grund könnte jedoch sein, dass der PDF-Standard vordefinierte CMAPs nur für asiatische, nicht jedoch für lateinische Zeichensätze festlegt. Ich denke, dass ein vordefinierter CMAP für lateinische Zeichensätze die Glyphenauswahl und das Unicode-Mapping für fast alle in Amerika und Europa verwendeten Sprachen erheblich vereinfachen würde. Dies würde auch helfen, unsichtbaren Text in OCR-Anwendungen zu erstellen.