DeIC Nationale Kulturarvscluster, Statsbiblioteket Mandag den 30. maj 2016 National supercomputing dag, SDU, Odense
Oversigt Baggrund Hardware og arkitektur Software og tjenesteydelser Pilotprojekter Fremsyn
DeIC har i opdrag at udbrede HPC til nye områder som f.eks. humaniora
Baggrund Hvad vi har Hvad vi kan Samlingerne Jura Datastørrelser Datalagring Kontakten til humaniora Solid drifts- og udviklingsorganisation
Samlingerne Hver samling har egne karakteristika, men deler også adskillige Langtidsbevaring Bitbevaring Logisk bevaring Bevaringsegnede data- og filformater samt repositorier Metadata Tilknyttede kuratorer Opbygget gennem pligtafleveringsloven
Radio/TV samlingen Alle danske kanaler, alle årets dage 1 million timers TV 1,5 million timers radio 2PB, årlig tilvækst på ~400 TB Lagret i stumper á en time pr. kanal Mange tekniske og indholdsmæssige metadata Programmer Undertekster
Avissamlingen Digitalisering af 32 millioner sider Fra 1789 op til i dag 400 TB i alt JPG 2000 billeder OCR Basal opmarkering
Netarkivet Den danske del af internettet, 4 gange årligt plus noget mere 20 milliader dokumenter indsamlet fra 2005 til i dag > 600 TB med årlig tilvækst på 120 TB Indhold af tekst estimeret til 10 milliarder dokumenter Teknisk metadata og alle tænkelige filformater og meget griset data
Adgang til samlingerne Discovery platforme Mediestream/Aviser Mediestream/Radio Mediestream/TV Wayback for Netarkivet http://www2.statsbiblioteket.dk/mediestream
https://en.wikipedia.org/wiki/rms_titanic: Hit an iceberg 11:40 p.m. (ship's time) 14 April 1912 on her maiden voyage and sank 2 h 40 min later
Udfordringer ved adgang Data er beskyttet af Ophavsret Lov om behandling af personoplysninger Klausuleret data Discovery platforme Kvalitative studier og øjne på alle data er svært med milliarder af objekter Data er indsamlet og gemt med henblik på langtidsbevaring Datatyper og filformater lagringsmedier
Resume Vi er vant til at håndtere databeskyttelse Vi er eksperter på vores samlinger Tekniske: Filformater, datastrukturer, bevaringssystemer Kuratoriske: metadata, hvad, hvornår, hvordan (hvorfor) Vi er bekendt med håndtering af Big Data 3 PB med årlig tilvækst på ~ ½ PB Meget heterogene samlinger Mange besøgende på vores websites (effektive backends og søgemaskiner) Vi kender vores kunder Universitetsbibliotek siden 1928 Veletableret Studie- og forskningsservice
DeIC Nationale Kulturarvscluster, Statsbiblioteket
Organisatorisk Projektet er både teknisk og administrativt funderet i It Udvikling på Statsbiblioteket under områdedirektør Bjarne Andersen Statsbiblioteket leverer platformen og tilbyder hjælp til Forståelse af anlæggets værktøj Forståelse og anvendelse af Statsbibliotekets data Udvikling og implementering af algoritmer og analyser Nuværende bemanding Asger Askov-Blekinge ½ tid Tony Brian Albers fuld tid fuld tid
Hardware Dell servere PowerEdge R730 2 Intel Xeon E5-2699 CPU with 18 cores 1 management node 9 worker/data noder I alt 360 kerner 3 TB RAM 70 TB lokal lager Budget for fordobling af kapacitet
Nyt serverrum
Metadata Bitbevaring Sidesystemer: IDM, log aggregering, upload/download
Software platform CentOS 7.2 Distribueret filsystem: GPFS/Spectrum Scale 4.2 Scheduling and execution engine Platform Symphony 7.1 IBM BigInsights 4.1 Open Data Platform
BigInsights
Ustruktureret data: Text Analytics
Struktureret data: BigSheets
BigR
Interfaces Web interface bag Apache Knox koblet til IDM BigSheets, Text Analytics, Data Server Manager (BigSQL) Fil-browser Notebook interface á la Mathematica og Jupyter R klienter via SSL forbindelse og bigr pakken RStudio ssh kommer formodentlig på et senere tidspunkt
Dataansvar og -behandling
Behandling af følsom data Alle vores samlinger er beskyttet af en eller flere af Ophavsret Persondataloven Klausulering Derfor skal vi kunne håndtere disse datatyper NB: Kulturarvsclusteret kan også bruges til forskernes egne data
Kobling mellem bevaring og kvantitativ data behandling Jura Standard arbejdsgange og skabeloner Forskningsprojektet er dataansvarlig Statsbiblioteket er databehandler ift. teknisk infrastruktur På konsulentbasis kan Statsbiblioteket også handle som databehandler under forskningsprojektets ansvar
Kobling mellem bevaring og kvantitativ data behandling Teknik Jurik, Bolette Ammitzböll og Askov-Blekinge, Asger og Ferneke- Nielsen, Rune Bruun og Møldrup-Dalum, Per, Bridging the Gap Between Real World Repositories and Scalable Preservation Environments, Proceedings of the ACM/IEEE Joint Conference on Digital Libraries, 2014 Jurik, Bolette Ammitzböll og Zierau, Eld M., Different Mass- Processing Services in a Bit Repository, The Fourth Workshop on Very Large Digital Libraries
Kobling mellem bevaring og kvantitativ data behandling Teknik API og modulbaseret, men Vi forventer meget ad-hoc data tilgang, da Hvert forskningsprojekt er unikt Intet forskningsprojekt på Statsbibliotekets samlinger uden konsulenttimer
Forskningsprojekterne Pilotprojekter finansieret af DeIC 15 projekter over tre år ~3 måneder til hvert projekt ~220 konsulenttimer til hvert projekt Projektkald kommer nogle gange om året Egenfinansierede projekter Adgang til anlægget/regnetid efter transparent betalingsmodel á la Abacus 2.0 og Computerome Konsulenttimer
Probing a Nations Web Domain Professor MSO Niels Brügger og seniorforsker Ditte Laursen Institut for Æstetik og Kommunikation Medievidenskab og Statsbiblioteket Probing a Nation s Web Domain 10 år med det danske internet Udfordring: Netarkivets 20 milliarder heterogene og grisede dokumenter
Digital Footprints Research Group Associate professor Anja Bechmann Institut for Æstetik og Kommunikation Medievidenskab Facebook og Instagram fotografier Udfordring: egne data og at det er billeder
Dansk Sprognævn Direktør, ph.d. Sabine Kirchmeier-Andersen Det danske sprogs udvikling på internettet og på de sociale medier Udfordring: eget software
Sociale netværk Data management, SB, DEFF, DeIC Visualization Lab, AU Digital Text Lab, AU Digital Arts Initiative, AU Interacting Minds Centre, AU Computerome, DTU Abacus 2.0, SDU AU/HPC
Fremsyn Easy things should be easy, and hard things should be possible - Larry Wall Creator of Perl