DIGITAL KULTURARV. Jens Henrik Leonhard Jensen, Storagemanager Statsbiblioteket

Relaterede dokumenter
Digital Bevaring. En ekspertgruppe organiseret som en afdeling på Det Kongelige Bibliotek Sommer 2010

Kulturarv i Petabytes

Statsbibliotekets. Politik for digital bevaring

Digital Bevaring - Internetarkivering. Dansk Datahistorisk Forening Ballerup d. 30/ Birgit Nordsmark Henriksen

DeIC Nationale Kulturarvscluster, Statsbiblioteket

Nyt fra Statsbiblioteket og Nordicom

DK domænet i ord og tal

Strategi for langtidsbevaring af materiale indsamlet til Netarkivet ved Det Kongelige Bibliotek og Statsbiblioteket 2014

BEKENDTGØRELSE OM SUPPLERENDE OPLYSNINGER, UAFSLUTTET PROCEDURE ELLER BERIGTIGELSE

Statsbibliotekets. Strategi for digital bevaring

Fra kolde kældre til varme servere

INDSAMLINGSPOLITIK FOR PLIGTAFLEVERET RADIO/TV

DIGITALISERING AF 32 MIO. AVISSIDER PÅ 3 ÅR

Sikkerhedskopiering af slægtsdata

Pligtaflevering af dansk materiale, offentliggjort på Internettet fra 1. juli 2005

Politik for adgang til de digitale samlinger

Avisdigitalisering. Fjernlånsmøde 12. november Tonny Skovgård Jensen Tonny Skovgård Jensen

arkiver, biblioteker og museer på internettet

BCWEB VEJLEDNING. Kort introduktion til BCWeb GUI JULY 1, DET KGL. BIBLIOTEK Netarkivet

Lærer nye styresystemer Installerer programmer som kun kan bruges i ældre versioner

bevaringssituationen for computerspil i Danmark.

Att: Katrine Tarp 13. januar 2003

Digitalisering Få liv i dine gamle billeder

Automatisk indhentning af oplysninger om statslige myndigheders digitale publikationer - projektafslutning

EKSPORTER DIN FÆRDIGE FILM

Internationalt udblik: Digital bevaring på Rigsarkivet i Danmark

DIGITALE BILLEDER HVAD GØR VI MED DEM? LFF seminar 16. april 2008

Strategi for arkivering af digitalt skabte arkivalier

Digitalisering Få liv i dine gamle billeder

National strategi for Datamanagement

Det Kgl. Biblioteks Strategi for digital bevaring. 9. januar 2019 J.nr. 19/00133

Digitale billeder i slægtsforskning

Oversigt over analoge lyd- og billedsamlinger i danske institutioner

Forskning med brug af audiovisuelt materiale især radio

SW6 SAI. Services 1: (Fil) service admin torsdag 7/4 05

\ \ Computerens Anatomi / /

Køb af DVD afspiller

AVR MP Ingeniørhøjskolen i Århus Michael Kaalund

Konverter og rip med FormatFactory

Undersøgelse af det danske webdomæne

Diskussion af de kommunale arkivaliers tilgængelighed

Gem dine dokumenter i BON s Content Management System (CMS)

Informationssikkerhed Version

Document Distributor 1. Fordele. Document Distributor

Som forskningsinstitution forsker Statsbiblioteket i information og medier.

Divar. Løsningsoversigt. Divar application guide

Optisk lagring En del nyere pc'er sælges uden optiske drev

Brugervejledning. ComX brugervejledning version 4.1

Kulturministeriets it-arkitekturpolitik

Produktspecifikationer Private Cloud Version 2.7


Det digitale bibliotek

STRATEGI #meretilflere

Computerens Anatomi. Kom/IT C - Computer Anatomi - Daniel og Fie - 3/ Planlægning af kommunikationsvalg og medieprodukt.

- Ikke rumfysik, men nogle husmandsbetragtninger om, hvordan vi har grebet digitaliseringen an i Odense -

Hvad er SkyDrive Pro og hvordan bruges det?

Videoproduktion trin for trin

Introduktion til CD ere og Arkivdeling Gammel Dok - September-oktober Jonas Christiansen Voss

It-sikkerhedstekst ST4

Folkebibliotekernes adgang til Kulturarven på Det Kgl. Bibliotek. juni 2018

Horsens Kunstmuseum er et statsanerkendt kunstmuseum, der er forpligtiget til gennem indsamling, registrering, bevaring, forskning og formidling

wwwdk Digital lydredigering på computeren grundlæggende begreber

Installation For at installere programmet, skal du åbne din Internet Explorer og skrive i adressefeltet.

Digital dannelse digitale medier

Brug din POWER server i højere grad ved hjælp af Linux og Open Source!

Bredbånds-TV. Brugervejledning. ComX brugervejledning version 4.0

Redigere og organisere fotos

Kursusbeskrivelser Arkibas og IT-kurser

Document Distributor oversigt

2014 Per Topp Nielsen Forside

Overordnet beskrivelse af projektet, herunder ændringer ifht oprindelig projektbeskrivelse

Symantec Enterprise Vault

ARP og ICMP. - service protokoller, som vi ikke kan undvære! Netteknik 1

DI-Plot. Brugervejledning

Agenda. Typiske udfordringer. Begreber omkring recovery. Forretningens krav. Metoder/muligheder. Recovery med TSM. Nye teknologier

Backup, sletning og genskabelse af personoplysninger

Brugervejledning til AU Filarkiv

Håndbog for Bjæverskov Antenneforening

Fra Original til Digital

Indhold. Download driver Find version af Windows Hent drivers til Windows Udpak driver... 6

DIGITALE REFUSIONSSEDLER

Her er en guide til at lave BackUp af din DVD ved hjælp af DVDShrink og et brænderprogram.

Larm Case Data Management Plan

Software - manipulation af data

DET KONGELIGE BIBLIOTEK NATIONALBIBLIOTEK OG KØBENHAVNS UNIVERSITETS- BIBLIOTEK. Indhold

HORTEN CONNECT EFFEKTIVT SAMARBEJDE, DOKUMENTSTYRING OG FILDELING

Indholdsfortegnelse. Hvorfor skal jeg tage backup af min blog? Side 3. Tag backup med UpDraft Side 4. Tag manuelt backup Side

NæstvedArkivernes Årsberetning 2017

Vejledning for anvendelse af PensionsIndberetningssystem PI

grafisk workflow OPGAVE: EMBRACE-IT WEBSITE

Anklagemyndighedens Vidensbase

DET KONGELIGE BIBLIOTEK NATIONALBIBLIOTEK OG KØBENHAVNS UNIVERSITETS- BIBLIOTEK. Indhold

Gundsøegnens Lokalhistoriske Arkiv

Følgende systemer: Mini DV, Video 8, Video Hi 8, Video 8 digital, VHS, VHS-C, Super VHS, Super VHS-C, Betamax, U-Matic og Video 2000.

Installation For at installere programmet, skal du åbne din Internet Explorer og skrive i adressefeltet.

Det internationale område

TCP & UDP. - de transportansvarlige på lag 4. Netteknik 1

Strategi for digitalisering af fysisk kulturarv Det Kgl. Bibliotek

Macab ST2300 IP. Gert Kaae Hansen

Norddjurs Kommune har et moderne IT drift miljø, der ønskes styrket med 4 yderligere servere samt 2 yderligere diskhylder.

Transkript:

DIGITAL KULTURARV Jens Henrik Leonhard Jensen, Storagemanager Statsbiblioteket 1

Agenda Digital kulturarv Hvad gemmer vi? Radio/TV Netarkivet.dk Aviser Rippede CD ere og DVD ere Andre samlinger Digital bevaring Hvad gør vi for, at det kan bruges om 100 år? Hardware Hvordan bruger vi Isilon til at gøre det nemt? Hurtig administration Tilgå samme data via HDFS (Hadoop) og NFS 2

Bevaring af dansk radio/tv Indsamles nu digitalt Vi får det fra YouSee Lagres direkte på disk og tape Fuld opløsning mere en 1 TB pr. dag, på 3 forskellige båndtyper En formidlingskopi på disk, klippet op i udsendelser, fylder ca. 10 % Gælder alle danske landsdækkende radio/tv stationer Med en rimelig egenproduktion Som sendes fra Danmark Pt. 38 kanaler hele sendefladen (mange efterhånden 24/7) Video og lyd fylder rigtig meget. Har til dato hentet 2 PB. Der adgang til at se udsendelserne, hvis man møder op 3

4 Indsamling af den danske del af internettet Danica Alle netsteder under.dk-domænet Andre relevante kriterier: Skrevet på dansk Skrevet af/om danskere Rettet mod et dansk publikum i 2014 betyder det ca. 55.000 netsteder uden for.dk Ca ½ PB data.

5 Hvordan indsamles Automatisk indsamling Vha. webcrawler-teknologi (høstere) 3 strategier Tværsnitshøstning 4 gange årligt Sikrer det brede billede Selektiv høstning af 80 netsteder Sikrer billedet af hyppigt opdaterede netsteder 2-3 årlige begivenhedshøstninger Kombinerer de 2 andre og sikrer et hyppigt billede af en større mængde netsteder i forbindelse med udvalgte nationale begivenheder Se www.netarkivet.dk

6 Datamængder Datamænger radio/tv + internettet (Tbytes) 1000 900 800 700 600 500 400 300 200 100 0 2005 2006 2007 2008 2009 2010 2011 2012 radio/tv netarkivet i alt total 2014 I alt ca 3 PB unikke data 2 PB radio/tv, ½ PB netarkiv, det meste i 3 kopier

7

8 Digital bevaring For bare 20 år siden var dette almindeligt: Vi gemte dokumenter på en 5.25 diskette? Dokumenter blev skrevet i DSI-tekst? Kulturarven skal bevares i evighedens perspektiv Digital bevaring er grundlæggende 2 ting Bitbevaring Sikre at de bits vi gemmer, forbliver præcis de samme de næste X år Storageteknologi har i dag en levetid på 5 til max 15 år Logisk bevaring Sikre at vi kan læse og forstå de bevarede bits Formater og programmer udvikler sig meget hurtigt Deres popularitet skifter over tid

9 Bitbevaring Vi kræver mere en storage/backup Autenticitet Vi skal kunne garantere at materialet er 100% identisk med originalen Flere kopier af al materiale Minimum 3 kopier 2 disk + 1 bånd eller 1 disk + 2 bånd På fysisk adskilte lokationer Århus / Skejby / København Løbende tjek af alle kopier Vha. tjeksummer kan alle filer tjekkes nemt, hurtigt og automatisk Tjek af bånd vha. stikprøver Løbende migrering til nye (disk)-systemer

10 Bitmagasin Open source Lavet sammen med Statens Arkiver og det Kongelige bibliotek Kopier på forskellige lager typer: Disk, bånd, DVD En kopi kaldes et ben Det er vigtigt at de forskellige ben er uafhængig. Teknisk og organisatorisk. Forskellig samlinger har forskellige krav. Fx kan nogen have krav om acces tider, og andre har måske en fysisk kopi, så man kan spare på de digitale ressourcer Bitbevaring er den nemme del

11 Logisk bevaring Den svære del Grundlæggende 3 strategier Migrering = konvertering til nye formater Emulering = afvikling af originale programmer og styresystemer på nye platforme Teknologi museum = bevarelse af de originale platforme For formater man selv er herre over, virker migreringsstrategien mest logisk For materiale fra fx internettet ser det ud til, emulering nok er den bedste vej frem Det er heldigvis et internationalt problem Danmark har deltaget i 3 EU-projekter PLANETS (http://www.planets-project.eu) DPE (http://www.digitalpreservationeurope.eu) SCAPE (SCAble Preservation Environments)

12 Aviser Statsbiblioteket er i gang med at digitalisere 32 millioner avissider Projektet startede i 2013 Det er Ninestars, et indisk firma, der digitaliserer fra mikrofilm Når vi er færdige i 2016, har vi fået ca. 700 TB Vi kommer til at kunne søge i indholdet Den fulde opløsning gemmes i to båndkopier Der gemmes en præsentationskopi på disk Når vi er færdige, skal vi måske i gang med nogle flere

13 Rippede CDer og DVDer Vi ripper alt vi får Der er rippet mere en 30 000 CDer Det fylder ca 30 TB Vi har lavet mp3 af dem, det fylder ca. 2 TB Vi har en rippe maskine der kan rippe ca. 100 på en gang Der er adgang til det hele på Statsbiblioteket Vi er i gang med at rippe DVDer Lige nu er der ca. 27 TB Også her bruger vi en rippe maskine Vi digitaliserer fra gamle analoge formater Valser, noget af det ældste bevarede lyd

Andre digitale samlinger Radioavismanuskripter Biografreklamer TV-reklamer Folketingsoptagelser Bilrevyen Bitarkiv for andre offentlige institutioner Statens Arkiver Det Kongelige Bibliotek Stadsarkiver Museer 14

Hardware Vmware/ESX Ca 300 virtuelle servere Ca 30 TB data på Isilon 9 Hosts Søgemaskiner Har alle lokale SSD ere, op til 25 TB pr stk. Er ved at opbygge et index til netarkivet, så man søge i alt, der er høstet. Søgetid skal helst være under 2 sekunder 4 Båndrobotter fordelt på 2 lokationer 1 Isilon 1.6 PB 1 Clariion 0.8 PB bruges mest til cache for radio/tv 1 VNX 0.12 PB 15

16

17 Isilon Næsten alle data er på vores Isilon, mindst som en præsentationskopi Hvis en server skal have adgang til at læse nogle data tager det kun 10 minutter, så er de alle tilgængelige, uden at skulle kopiere. Her er alle manueller rutiner medregnet! Vi regner med at komme til at bruge HDFS-delen af Isilon i en kommende version, til at understøtte Hadoop Man kan tilgå de samme data med HDFS og NFS. Vi bruger også vores Isilon til Vmware/ESX.