PDF som bevaringsformat? v/ René Mittå Specialkonsulent Bevaring og udvikling af krav til elektroniske arkivalier, herunder evaluering af formater, medier mv.
Status for anvendelse af PDF SA benytter ikke PDF, men overvåger formatet Indsamler viden om PDF gennem diverse artikler, seminarer og workshops Har ikke udelukket PDF/A, men er fortsat kritiske primært pga. formatets kompleksitet Fastholder indtil videre anvendelsen af TIFF
TIFF bestanddele Standard Baseline 6.0 (uændret siden 1992) Indeholder Metadata TAGS (Baseline & Private) Bitmap Evt. Alpha kanal (maske / transparens) Opbygning En simpel struktur
TIFF simpel seriel struktur Fil header ~ Metadata (Tags) Identifikator Højde, bredde, kompression, dato, software etc. Bitmap Side i dokumentet ~ Fil slut info
TIFF fordele og ulemper Fordele Sideorienteret Single og multipage Simpelt og robust Udbredt og bredt understøttet gennem > 20 år Velbeskrevet og licensfrit 14 bitdybder og flere kompressions metoder Anvendelse: fax, skan, foto, trykkeri, arkiver, museer og private Velegnet til dokumenter med høj kontrast (fx tekst som kan komprimeres effektivt) Ulemper TIFF som multipage dokumentformat er relativt dårligt understøttet og svært at tilgå for almindelige brugere
PDF (mulige) bestanddele Metadata (standard og/eller udvidet) Fonte (fx TrueType) Unicode Bitmap (evt. med transparens/maske) Vektor grafik (fx SVG) Lyd Video Lag CAD 3D Hyperlink Scripts
PDF hierarkisk struktur
PDF undertyper PDF PDF/A PDF/X PDF/E PDF/UA PDF/VT PDF/H Basis format Archiving (3 versioner med undertyper) Printing (10-15 undertyper) Engineering (3D) Universal Accessibility Printing ICC (flere undertyper) Healthcare (primært guidelines)
PDF 1.4 opbygning PDF 1.4 Transparens Struktur Lyd XMP metadata ICC farve profiler Vektor grafik Unicode ASCII, ANSI Font embedded Hyperlinks Video Java Scripts Raster grafik Digital signatur Lag LZW Kryptering
PDF/A opbygning PDF 1.4 Transparens PDF/A-1a Struktur Lyd XMP metadata PDF/A-1b Unicode Hyperlinks ICC farve profiler ASCII, ANSI Video Vektor grafik Font embedded Java Scripts Raster grafik Digital signatur Lag LZW Kryptering
PDF manglende font
PDF/A kræver at fonte indlejres
PDF/A versioner Part 1 PDF/A-1 Part 2 PDF/A-2 Part 3 PDF/A-3 PDF 1.4 Fonte indlejret og væsentligt begrænset i forhold til alm. PDF ISO 32000-1 OpenType fonts, JPEG2000, LZW, Annotations, Transparens, Lag, PDF samling ISO 32000-1 Indlejring af andre filtyper uden begrænsning! 2005 2011 2012
PDF fordele og ulemper Fordele Udbredelse Understøttelse & tilgængelighed Skalerbar (gælder ikke skanninger) Relativ lille filstørrelse (gælder ikke skanninger) Fordele & Ulemper (?) Et større antal undertyper dækker forskellige behov (fx PDF/X) Bagud kompatibelt (flere versioner) Flere typer af fonte og Unicode Funktionalitet og underformater (fx vektor grafik, lag, forms) Ulemper Kompleksitet Sårbar overfor dårlig SW Ikke muligt at validere 100%
PDF kompleksitet Økonomiske interesser kvalitet vs. kompleksitet?
PDF kompleksitet Et par eksempler på fejl
Kompleksitet transparens
Kompleksitet fonte Nedenstående PDF/A kan IKKE konverteres til fx Word! )* = - 8 = ; = ), $
Kompleksitet fonte
Kompleksitet fonte
Kompleksitet lag
PDF Association undersøgelse marts 2013 PDF Association lavede en række undersøgelser i marts 2013. På PDF Teknisk konference Køln 2013, stod Duff Johnson for et oplæg om Manglende mulighed for fuld validering af PDF og i den forbindelse fremviste han dele af disse undersøgelser. Markedsundersøgelse Estimering af omfanget af fejlbehæftede PDF er Teknik og support undersøgelse Fejlbehæftede PDF ers betydning for den daglige forretning og drift.
Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/pdfvalidationdreamoryawn-pdfa.pdf
Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/pdfvalidationdreamoryawn-pdfa.pdf
Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/pdfvalidationdreamoryawn-pdfa.pdf
Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/pdfvalidationdreamoryawn-pdfa.pdf
PDF kompleksitet Hvor meget kan valideres? Header Body Xref > 11 syntakser > 12 binære formater > 10 3je. parts binære formater 10 stream filtre/typer 2 krypterings algoritmer Trailer
TIFF eller PDF? Kommer an på indhold og formål Levende dokumenter Alm. kontorformater (Word, Excel etc.) Information til borgere uden behov for redigering (PDF/A) Tilgængeliggørelse (JPG & PDF/A) Langtidsbevaring Office dokumenter (TIFF & PDF/A som bitmap) Skanninger / foto (TIFF & PDF/A) Regneark, CAD, GIS (???)
PDF som bevaringsformat Hvad er jeres erfaringer?