Avisdigitalisering Fjernlånsmøde 12. november 2013
Planen Kort om Statens Avissamling Avisdigitalisering baggrund Om bevillingerne bag Bevaring og formidling Avisdigitalisering hvordan Digitalisering fra mikrofilm Intenst projekt tal Forløbet, hvor er vi nu, og hvad sker der? Digital langtidsbevaring Formidling hvordan får man adgang? På Statsbiblioteket, KB adgang til alt Online frit for alle: De ældste grænsen er ikke fastsat endnu. Samarbejde med dagbladene muligheder for at tilgå på deres sider Senere vil vi arbejde på at tilgængeliggøre på andre måder pt. kun ideer Spørgsmål?
KORT OM STATENS AVISSAMLING
Statens Avissamling
Statens Avissamling Oprettet 1918 Samling opbygges i medfør af Pligtafleveringsloven Modtager ca. 20.000 dagblade og 16.000 ugeaviser om året Samlingen omfatter i alt 94.000 avisbind 28.000 bind med distriktsblade 66.000 mikrofilmspoler knap 100 mio. sider i alt ca. 23.000 hyldemeter
Det nye magasin fra 2007
Det nye magasin, indefra
Det nye magasin, indefra
DIGITALISERINGSPROJEKTET - BAGGRUND
Finansiering Bevaringsformål Finanslov 2012 Digitalisering med henblik på kassation Genererer billedfiler Digitalisering og formidling UMTS midler Bygge brugergrænseflade, søgning OCR og opmærkning Rigtig mange penge og arbejdstimer fra Statsbibliotekets løbende bevilling!
Vestindisk pakhus KB har ca. 32. mio. avissider i et gammelt pakhus, som ikke længere kan bruges til magasin. Kulturministeriet har bevilget 16,5 mio. kr. over årene 2012 2015 til digitalisering af aviser, hvorefter KB s eksemplar i pakhuset skal kasseres. I praksis mere kompliceret ikke kun aviser som ligger i pakhuset, og sikring af at vi beholder et eksemplar i god stand.
Sikkerhed
Tidsplan 2. halvår 2013: Udbud, kontrakt, pilotfase Fra primo 2014: Fuld produktion 50.000 sider pr. arbejdsdag 2016: Færdig - med denne runde
DIGITALISERING HVORDAN?
Digitalisering fra mikrofilm som vi allerede har
Mikrofilmspoler
I kasser
I reoler
tal TAL tal 1 kasse indeholder op til 15 æsker 1 æske indeholder 1 spole med 1 film 1 film indeholder i gennemsnit 500 billeder svarende til 1.000 sider Vi skal håndtere 32.000 spoler, godt 2.100 kasser, og alle de metadata der hører til får ca. 32.000.000 sider Mere end 100.000.000 filer 800 TB kulturarv
Kvalitetskontrol 50.000 sider hver arbejdsdag Automatisk kvalitetskontrol Manuel kvalitetskontrol ISO standard Billedkvalitet Filformater Metadata
Andre valide værdier: Eksempel på leverance B400022028241-RT1 batchid med Roundtrip 400022028241-14 filmid Berlingske-400022028241-14.xml film metadata Berlingske-400022028241-14.xml.md5 Checksum ISOTEST-1 isotest med suffiks Berlingske-400022028241-14-ISO-1.jp2 billede 1 fra ISO-test-film Berlingske-400022028241-14-ISO-1.jp2.md5 checksum Berlingske-400022028241-14-ISO-2.jp2 billede 2 fra ISO-test-film Berlingske-400022028241-14-ISO-2.jp2.md5 Checksum UNMATCHED ikke henførbare sider Berlingske-400022028241-14-0001.jp2 test-optagelse fra filmen ikke splittet Berlingske-400022028241-14-0001.jp2.md5 checksum Berlingske-400022028241-14-0002A.jp2 test-optagelse fra filmen splittet Berlingske-400022028241-14-0002A.jp2.md5 checksum Berlingske-400022028241-14-0002B.jp2 test-optagelse fra filmen splittet Berlingske-400022028241-14-0002B.jp2.md5 checksum Berlingske-400022028241-14-0132.jp2 test-optagelse fra filmen splittet Berlingske-400022028241-14-0132.jp2.md5 Checksum Deskriptive metadata til avisdigitalisering 1860-10-18-01 - MODS version 3.1 Berlingske-1860-10-18-01.xml dato og udgavelbnummer udgave 01 metadata Berlingske-1860-10-18-01.xml.md5 checksum Berlingske-1860-10-18-01-0003-brik.jp2 brikfil for opslaget på billede 3 Data Data Example Berlingske-1860-10-18-01-0003-brik.jp2.md5 Notes Repeatable Mandatory Xpath checksum (see XML templates) Berlingske-1860-10-18-01-0003A.jp2 billede af venstre side på billede 3 splittet Description type Berlingske-1860-10-18-01-0003A.jp2.md5 checksum Berlingske-1860-10-18-01-0003A.mods.xml R=yes M=yes mods metadata for venstre side på billede 3 Berlingske-1860-10-18-01-0003A.mods.xml.md5 checksum Berlingske-1860-10-18-01-0003A.mix.xml MA=yes, if mix metadata for venstre side på billede 3 Berlingske-1860-10-18-01-0003A.mix.xml.md5 checksum Berlingske-1860-10-18-01-0003A.alto.xml NR=nonrepeatable available alto metadata for venstre side på billede 3 Berlingske-1860-10-18-01-0003A.alto.xml.md5 checksum Berlingske-1860-10-18-01-0003B.jp2 O=optional billede af højre side på billede 3 splittet Berlingske-1860-10-18-01-0003B.jp2.md5 checksum Krav avisid Berlingske-1860-10-18-01-0003B.mods.xml Det af Statsbiblioteket leverede NR M mods metadata for højre side på billede 3 Berlingske-1860-10-18-01-0003B.mods.xml.md5 checksum Berlingske-1860-10-18-01-0003B.mix.xml unikke id for den enkelte avis mix metadata for højre side på billede 3 Berlingske-1860-10-18-01-0003B.mix.xml.md5 checksum Krav Title string Politiken Berlingske-1860-10-18-01-0003B.alto.xml Avisens titel (MARC 245$a) NR M mods:mods/mods:titleinfo/mods:title alto metadata for højre side på billede 3 Berlingske-1860-10-18-01-0003B.alto.xml.md5 checksum Behov Publication Location string København Udgivelsessted (MARC 260$a) leveres af Statsbiblioteket NR M mods:mods/mods:origininfo/mods:plac e/mods:placeterm[@type="text"] Krav Issue Date date Brug ISO 8601: YYYY-MM-DD NR M mods:mods/mods:origininfo/mods:dat eissued Behov Issue Date as date Hvis datoen trykt på avisen ikke NR MA mods:mods/mods:origininfo/mods:dat Labeled er udgivelsesdatoen, skrives her eissued[@qualifier="questionable"] den dato, der står på avisen. Brug ISO 8601: YYYY-MM-DD Krav Issue Present Tonny Skovgård Indicator Jensen string Til stede Default: Til stede (dvs. udgivet og digitaliseret) NR M mods:mods/mods:note
Hvilke titler skal digitaliseres? Et stort puslespil, for at få mest mulig værdi for pengene De fleste nulevende dagblade Adresseavisen Aktuelt Land og folk Flere Flensborg Avis er allerede i gang, på bevilling fra Sydslesvigudvalget Se mere på avisdigitalisering.dk
Formidling Copyright, lovgivning, økonomi sætter rammerne På Statsbiblioteket, Det Kongelige Bibliotek, Det Danske Filminstitut: Adgang til alt via Mediestream Online på Mediestream.dk: Fri adgang for alle til aviser udenfor copyright Adgang via nogle dagblades hjemmesider, varierende vilkår Anden adgang måske senere?
Adgang På SB, KB, DFI Adgang til ALT Online for alle Adgang til gamle aviser Avisernes wesites Adgang Adgang til enkelte Adgang til enkelte Adgang avisers til avisers til enkelte enkelte arkiv avisers arkiv avisers arkiv arkiv
Søgemuligheder Tekstgenkendelse / OCR Formentlig hele samlingen Segmentering identifikation af artikler automatisk Frakturskrift lavere genkendelsesgrad Overvejes crowdsourcing til tagging og OCR forbedring
Præsentation i Mediestream 2. halvår 2014
Præsentation i Mediestream
Præsentation i Mediestream
Tilgængeliggørelse på de nulevende avisers hjemmesider
Politiken http://www.e-pages.dk/polarkivdemo/1/
Mere om projektet Læs mere på: AVISDIGITALISERING.DK
Spørgsmål?