PDF/A DokumentBrokeren Copyright 2012
INDHOLDSFORTEGNELSE 1 Formatet PDF/A 1a...1 2 Compliance...3 2.1 Skrifttyper...3 2.1.1 Rettigheder...3 2.1.2 Subset Font Embedding...4 2.2 Opmærkning (tagged PDF)...4 2.3 Transparente objekter...4 2.4 Opnået compliance...4 3 Validering af output...6
Formatet PDF/A 1a 1 FORMATET PDF/A 1A PDF/A er en ISO-standard for hvordan elektroniske dokumenter kan gemmes med henblik på langtidsarkivering af i PDF-formatet. ISO standard ISO 19005-1:2005 Der findes to niveauer af PDF/A-1: 1. PDF/A-1b En eksakt visuel reproduktion af dokument 2. PDF/A-1a En eksakt visuel reproduktion af dokument SAMT aktivering af tilgængelighedsfunktioner, f.eks. opmærkning (tags). Fælles for begge niveauer er følgende træk: 1. PDF-dokumenterne gemmes i version 1.4 (Kom med Adobe Acrobat 5) 2. Alle anvendte skrifttyper skal indlejres i dokumentet. Dette gælder også de såkaldte Base-14 skrifttyper. Følgende kendetegner et PDF/A 1a dokument: 1. Tekst kan maskinelt aflæses/udtrækkes 2. Dokumentet kan læses på mobile enheder 3. Tilgængelighed Tagged PDF 4. Logisk struktur intakt 5. Tilgængelighed, blandt andet alt og title FØLGENDE ER IKKE TILLADT I PDF/A: 1. Bookmarks og links Kan være der, men skal være inaktive 2. Knapper/JavaScript 3. Annotationer standard er tilladt 4. Lyd og video er ikke tilladt 5. Inkluderede filer Ingen filer med eksterne afhængigheder 6. Transparens 7. Lag (Layers) 8. JPEG2000 1
Formatet PDF/A 1a FØLGENDE ER KRÆVET I PDF/A 1. Indlejrede skrifttyper 2. Farveprofiler skal være uafhængige af enheder 3. XMP Standardiseret metadata (forfatter, emne, indhold, nøgleord, dato skabt, dato ændret, udgiver etc.) 4. Tags opmærkning af indhold og dokumentstruktur 2
Compliance 2 COMPLIANCE Når vi skal vurdere løsningens compliance, er det vigtigt at være opmærksom på, at det endelige resultat er afhængig af to dele: 1. DokumentBrokerens evne til at danne filer af det rigtige format 2. Skabelonens kvalitet Vi kan maskinelt hjælpe med punkt 2 ved at implementere validering af skabelonen ved upload, f.eks. undersøge om alle indlejrede billeder har ALT-tekst, og om der er en brugbar struktur i overskriftsniveauerne. Men vi kan ikke garantere at det endelige output er fuldstændig compliant med PDF/A 1a. I løsningen er der vejledning og eksempler på god kvalitet. 2.1 Skrifttyper 2.1.1 Rettigheder Alle skrifttyper som benyttes i dokumentet skal indlejres (vedhæftes). Det gælder også de gængse skrifttyper, kaldet Base-14 skrifttyper. Disse skrifttyper antages normalt at være tilgængelige ved rendering af dokumentet, men specielt for PDF/A er, at dette ikke kan antages. Det åbner et spørgsmål om rettigheder til at videredistribuere software, idet f.eks. skrifttypen Helvetica, som er en del af Base-14, normalt ikke er leveret med ret til redistribution (indlejring i PDF/A-filer). De 14 skrifttyper er 1. Times (v3) or Times New Roman PS MT (v4.x) - 4 versions* 2. Helvetica (v3) or Arial MT (v4.x) - 4 versions* 3. Courier - 4 versions* 4. Symbol 5. Zapf Dingbats *(regular, bold, italic or oblique, and bold italic of each) Vi skal derfor finde et udvalg af skrifttyper, hvor vi er sikre på, at vi og slutbrugeren har rettigheder til at indlejre skrifttypen i PDF/A-filer. Vi har kig på en samling kaldet Ghostscript Fonts her: http://sourceforge.net/projects/gs-fonts/ På sigt skal vi understøtte at kunden kan tilføje yderligere skrifttyper til DokumentBrokeren. 3
Skrifttyper 2.1.2 Subset Font Embedding Når vi indlejrer skrifttyper kan vi enten indlejre hele skrifttypen, eller indlejre den del af skrifttypen som er i anvendelse i dokumentet (subset-metoden). Ved at kun at indlejre de anvendte dele af skrifttypen, sparer vi plads (PDF-filen bliver mindre). Dette vil i første omgang være vores foretrukne metode, med mindre det sker på bekostning af hastighed. 2.2 Opmærkning (tagged PDF) Opmærkning af dokumentet har det klare formål, at indholdet skal kunne aflæses maskinelt, blandt andet af skærmlæsere. For at det kan lade sig gøre, skal dokumentets struktur og logiske læserækkefølge være registreret. Et korrekt opmærket dokument har følgende karakteristika: 1. PDF-filens logiske læserækkefølge er inkluderet. Det sikres blandt andet ved at opmærke overskrifter og afsnit korrekt. 2. Billeder tildeles en forklarende tekst i ALT= og det anbefales også at benytte TITLE=. 3. Tabeller skal være opmærket med deres struktur. 4. Formularfelter er forberedte med oplysninger til brug for skærmlæsere 5. Tekst skrives med UNICODE for blandt andet at forhindre misforståelser, f.eks. forvirring om hårde og bløde bindestreger. 2.3 Transparente objekter Dokumenterne må ikke indeholde følgende: 1. Transparens (f.eks. gennemsigtige billeder) 2. Lag (Layers) 3. JPEG2000 Dette sikres primært ved at designe skabelonen på en hensigtsmæssig måde. På sigt har vi mulighed for at validere skabelonen, når den registreres. 2.4 Opnået compliance Følgende compliancekrav kan ikke opfylde: Compliancekrav IMG (Billeder) skal være Opmærket og have ALT-tekst Årsag og bemærkninger Vi har endnu ikke fundet en metode til at opmærke indsatte billeder. 4
Opnået compliance Alt-tekst understøttes fuldt ud Visse billeder (dekorationer) behøver ikke være opmærket og have alt-tekst. De såkaldte artifacts understøttes dog ikke af Apache FOP, hvorfor DokumentBrokeren heller ikke understøtter det. Enhver form for illustrationer, også dekorationer, vil derfor blive betragtet som IMG, og skal derfor være opmærket og ALT-tekstet. Tabeller Justering af objekter Håndtering af tabeller er endnu ikke fuldt ud indbygget i FOP (http://xmlgraphics.apache.org/fop/compliance.html#foobject-table-section). Det er derfor ikke muligt at sætte figurtekst (caption) på tabeller. Det er generelt muligt at justere tekst i dokumenter, men objekter adlyder ikke alignments. Af denne årsag skal en work-around anvendes. FOP foreslår at man aligner objekter via tabeller, så det er denne løsninge der er anvendt i brokeren. Desværre har det den uheldige virkning, at PAC (program til validering af PDF/Adokumenter) mener der er problemer med strukturen (untagged content). Endvidere kan FOP ikke håndtere uspecificerede kollonnebredder, hvilket kan gøre at objekter justeret med tabeller justeres forkert, hvis ikke der er defineret en bredde i div-tagget. 5
Validering af output 3 VALIDERING AF OUTPUT Vi bruger en række værktøjer til validering af filernes complianceniveau. Ingen af disse værktøjer finder vi autoritative, hvilket er årsagen til at vi benytter flere forskellige værktøjer. Værktøj Adobe Acrobat Reader Kommentar Adobe Acrobat reader bruger vi alene til at 1. konstatere, om filen er markeret som en PDF/A-fil 2. konstatere hvilke skrifttyper der er indlejret PAC Freeware værktøj (til Windows), som er meget detaljeret. Kan downloades fra http://www.access-forall.ch/en/pdf-lab/pdf-accessibility-checker-pac.html On-line validering http://www.pdf-tools.com/pdf/validate-pdfa-online.aspx Denne validering er ikke så nøjagtig som PAC. 6
adresse Studiestræde 14, 1. 1455 København K email info@magenta-aps.dk telefon (+45) 33 36 96 96