DeIC Nationale Kulturarvscluster, Statsbiblioteket Tirsdag den 4. oktober DeIC konferencen 2016, Hotel Comwel, Kolding
DeIC Nationale Kulturarvscluster, Statsbiblioteket
Statsbiblioteket
DeIC har i opdrag at udbrede HPC til nye områder som f.eks. humaniora
Agenda 25 minutter Pilotprojekter Spørgsmål og svar Samlingerne Anlægget
Pilotprojekter
Planlagte pilotprojekter Professor MSO Niels Brügger: Probing a Nation s Web Domain Ti år med det danske internet. Associate professor Anja Bechmann: Digital Footprints Research Group Facebook fotografier. Direktør, ph.d. Sabine Kirchmeier-Andersen: Dansk Sprognævn det danske sprogs udvikling på de sociale medier.
Udgangspunkt Tre måneders adgang til alle anlæggets komponenter Op til 150 timers support til Hjælp til forståelse og udnyttelse af samlingerne Hjælp til forståelse og udnyttelse af anlægget
Flere modeller FRA Egne data og kompetencer indenfor de tilgængelige teknologier. TIL Forskningsidé med afsæt i Statsbibliotekets nationale samlinger og uden tidligere erfaring med kvantitative metoder. OG ALT IND I MELLEM
Dialogbaseret En dialogbaseret og kompetenceløftende indstillingsfase og projektforløb for alle parter. Under den indledende dialog opnår Statsbiblioteket og forskningsprojektet sammen en vurdering af om projektet egner sig som projekt på Kulturarvsclusteranlægget. Da Statsbibliotekets digitale samlinger er pålagt juridiske anvendelseskrav, vil det også være nødvendigt med en dialog over om projektet kan udnytte disse samlinger.
Udvælgelse Projekter vil blive forsøgt udvalgt efter hvordan de bidrager til ny forskning udforsker nye områder både mht. de nationale samlinger, beregningsmuligheder og værktøjsanvendelse passer ind i kalenderen for begge parter belaster Statsbibliotekets personale
Forpligtelser Vi opfordrer til at projektets forløb afsluttende (og gerne løbende) beskrives i en eller flere blog-post eller lignende Vi opfordrer til at projektets forløb og resultater efterfølgende præsenteres i et oplæg eller ved et seminar. Dette kan evt. være til en DeIC supercomputing-dag, på Statsbiblioteket eller lignende Vi opfordrer til at afledt data offentliggøres som Open Data Vi opfordrer til at kode deles på Github/Gitlab/
Hvordan? Interessetilkendegivelse fra forskningsprojekter kan ske løbende til Kulturarvsclusteret kulturarvscluster@statsbiblioteket.dk Gennem dialog og anvendelse af formularen på: https://www.statsbiblioteket.dk/kulturarvscluster/indstilling Første runde har deadline 15. november 2016 Nye pilotprojekter vil blive indplaceret som en del af processen omkring interessetilkendegivelsen.
Ledige tider 1. september, 2016 Probing a Nation s Web Domain 1. oktober, 2016 Digital Footprints Research Group 1. januar, 2017 Dansk Sprognævn 1. januar, 2017 Pilot 4 1. marts, 2017 Pilot 5 1. april, 2017 Pilot 6 1. april, 2017 Pilot 7 1. august, 2017 Pilot 8 1. august, 2017 Pilot 9 1. oktober, 2017 Pilot 10 1. november, 2017 Pilot 11 1. november, 2017 Pilot 12
Spørgsmål?
Samlingerne
Radio/TV samlingen Hver kanal fra hver større dansk TV station, hver time, hver dag, året rundt 1 million timers TV 1,5 million timers radio 2PB, vokser med ~400 TB/år Bevares i blokke af en time Meget metadata programoversigter undertekster Både materiale der er skabt digitalt og materiale der er digitaliseret fra analoge kilder
Den digitale avissamling Digitalisering af 32 millioner sider Fra 1666 til idag I alt 400 TB JP2000 billeder, artikelopmarkering og OCR data
Netarkivet Den danske del af internettet plus lidt mere, høstet fire gange om året 20 milliarder dokumenter fra 2005 indtil i dag mere end 600 TB og vokser med 120 TB/år Ca. halvdelen er tekst Mange tekniske metadata alle tænkelige og utænkelige formater og ret griset data
Udfordringer Indsamlet med Pligtafleveringsloven i hånden og er beskyttet af Ophavsret Lov om behandling af personoplysninger Klausuleret data Indsamlet med fokus på langtidsbevaring Bit bevaring Logisk bevaring Vi benytter filformater og systemer der fokuserer på langtidsbevaring Hver samling har sine egne karakteristika, systemer og formater
Anlægget
Pilotfase Har specifikke hardware og software konfigurationer MEN Pilotprojekterne skal være med til at definere hvor anlægget skal bevæge sig hen både med hardware og software
Hardware 10 Dell servere PowerEdge R730 2 Intel Xeon E5-2699 CPU with 18 cores 1 management node 9 worker/data nodes 360 kerner 3TB RAM 70TB lokal lager EMC Isilon storage cluster, EMC VNX og båndstationer med vores samlinger Fordobling i 2017
Software http://www.ibm.com/developerworks/data/library/techarticle/dm-1110biginsightsintro/
Software ODPi Open Data Platform initiative Ambari (bl.a. browser baseret filstyring) YARN, MapReduce Pig Latin, Hive, HBase, Sqoop, Oozie, Slider Eksperimentel Spark (R, Python, Scala) BigInsights Text Analytics (AQL + browserbaseret workbench) BigSheets BigSQL BigR Spectrum Scale og Symphony
Ustruktureret data: Text Analytics
Struktureret data: BigSheets/BigSQL
R/BigR/SparkR
Software Roadmap DataWorks: Data Science Experience Spark 2 Jupyter Notebook RStudio Server