DIGITAL KULTURARV Jens Henrik Leonhard Jensen, Storagemanager Statsbiblioteket 1
Agenda Digital kulturarv Hvad gemmer vi? Radio/TV Netarkivet.dk Aviser Rippede CD ere og DVD ere Andre samlinger Digital bevaring Hvad gør vi for, at det kan bruges om 100 år? Hardware Hvordan bruger vi Isilon til at gøre det nemt? Hurtig administration Tilgå samme data via HDFS (Hadoop) og NFS 2
Bevaring af dansk radio/tv Indsamles nu digitalt Vi får det fra YouSee Lagres direkte på disk og tape Fuld opløsning mere en 1 TB pr. dag, på 3 forskellige båndtyper En formidlingskopi på disk, klippet op i udsendelser, fylder ca. 10 % Gælder alle danske landsdækkende radio/tv stationer Med en rimelig egenproduktion Som sendes fra Danmark Pt. 38 kanaler hele sendefladen (mange efterhånden 24/7) Video og lyd fylder rigtig meget. Har til dato hentet 2 PB. Der adgang til at se udsendelserne, hvis man møder op 3
4 Indsamling af den danske del af internettet Danica Alle netsteder under.dk-domænet Andre relevante kriterier: Skrevet på dansk Skrevet af/om danskere Rettet mod et dansk publikum i 2014 betyder det ca. 55.000 netsteder uden for.dk Ca ½ PB data.
5 Hvordan indsamles Automatisk indsamling Vha. webcrawler-teknologi (høstere) 3 strategier Tværsnitshøstning 4 gange årligt Sikrer det brede billede Selektiv høstning af 80 netsteder Sikrer billedet af hyppigt opdaterede netsteder 2-3 årlige begivenhedshøstninger Kombinerer de 2 andre og sikrer et hyppigt billede af en større mængde netsteder i forbindelse med udvalgte nationale begivenheder Se www.netarkivet.dk
6 Datamængder Datamænger radio/tv + internettet (Tbytes) 1000 900 800 700 600 500 400 300 200 100 0 2005 2006 2007 2008 2009 2010 2011 2012 radio/tv netarkivet i alt total 2014 I alt ca 3 PB unikke data 2 PB radio/tv, ½ PB netarkiv, det meste i 3 kopier
7
8 Digital bevaring For bare 20 år siden var dette almindeligt: Vi gemte dokumenter på en 5.25 diskette? Dokumenter blev skrevet i DSI-tekst? Kulturarven skal bevares i evighedens perspektiv Digital bevaring er grundlæggende 2 ting Bitbevaring Sikre at de bits vi gemmer, forbliver præcis de samme de næste X år Storageteknologi har i dag en levetid på 5 til max 15 år Logisk bevaring Sikre at vi kan læse og forstå de bevarede bits Formater og programmer udvikler sig meget hurtigt Deres popularitet skifter over tid
9 Bitbevaring Vi kræver mere en storage/backup Autenticitet Vi skal kunne garantere at materialet er 100% identisk med originalen Flere kopier af al materiale Minimum 3 kopier 2 disk + 1 bånd eller 1 disk + 2 bånd På fysisk adskilte lokationer Århus / Skejby / København Løbende tjek af alle kopier Vha. tjeksummer kan alle filer tjekkes nemt, hurtigt og automatisk Tjek af bånd vha. stikprøver Løbende migrering til nye (disk)-systemer
10 Bitmagasin Open source Lavet sammen med Statens Arkiver og det Kongelige bibliotek Kopier på forskellige lager typer: Disk, bånd, DVD En kopi kaldes et ben Det er vigtigt at de forskellige ben er uafhængig. Teknisk og organisatorisk. Forskellig samlinger har forskellige krav. Fx kan nogen have krav om acces tider, og andre har måske en fysisk kopi, så man kan spare på de digitale ressourcer Bitbevaring er den nemme del
11 Logisk bevaring Den svære del Grundlæggende 3 strategier Migrering = konvertering til nye formater Emulering = afvikling af originale programmer og styresystemer på nye platforme Teknologi museum = bevarelse af de originale platforme For formater man selv er herre over, virker migreringsstrategien mest logisk For materiale fra fx internettet ser det ud til, emulering nok er den bedste vej frem Det er heldigvis et internationalt problem Danmark har deltaget i 3 EU-projekter PLANETS (http://www.planets-project.eu) DPE (http://www.digitalpreservationeurope.eu) SCAPE (SCAble Preservation Environments)
12 Aviser Statsbiblioteket er i gang med at digitalisere 32 millioner avissider Projektet startede i 2013 Det er Ninestars, et indisk firma, der digitaliserer fra mikrofilm Når vi er færdige i 2016, har vi fået ca. 700 TB Vi kommer til at kunne søge i indholdet Den fulde opløsning gemmes i to båndkopier Der gemmes en præsentationskopi på disk Når vi er færdige, skal vi måske i gang med nogle flere
13 Rippede CDer og DVDer Vi ripper alt vi får Der er rippet mere en 30 000 CDer Det fylder ca 30 TB Vi har lavet mp3 af dem, det fylder ca. 2 TB Vi har en rippe maskine der kan rippe ca. 100 på en gang Der er adgang til det hele på Statsbiblioteket Vi er i gang med at rippe DVDer Lige nu er der ca. 27 TB Også her bruger vi en rippe maskine Vi digitaliserer fra gamle analoge formater Valser, noget af det ældste bevarede lyd
Andre digitale samlinger Radioavismanuskripter Biografreklamer TV-reklamer Folketingsoptagelser Bilrevyen Bitarkiv for andre offentlige institutioner Statens Arkiver Det Kongelige Bibliotek Stadsarkiver Museer 14
Hardware Vmware/ESX Ca 300 virtuelle servere Ca 30 TB data på Isilon 9 Hosts Søgemaskiner Har alle lokale SSD ere, op til 25 TB pr stk. Er ved at opbygge et index til netarkivet, så man søge i alt, der er høstet. Søgetid skal helst være under 2 sekunder 4 Båndrobotter fordelt på 2 lokationer 1 Isilon 1.6 PB 1 Clariion 0.8 PB bruges mest til cache for radio/tv 1 VNX 0.12 PB 15
16
17 Isilon Næsten alle data er på vores Isilon, mindst som en præsentationskopi Hvis en server skal have adgang til at læse nogle data tager det kun 10 minutter, så er de alle tilgængelige, uden at skulle kopiere. Her er alle manueller rutiner medregnet! Vi regner med at komme til at bruge HDFS-delen af Isilon i en kommende version, til at understøtte Hadoop Man kan tilgå de samme data med HDFS og NFS. Vi bruger også vores Isilon til Vmware/ESX.