DeIC Nationale Kulturarvscluster, Statsbiblioteket

Relaterede dokumenter
DeIC Nationale Kulturarvscluster, Statsbiblioteket

National strategi for Datamanagement

Undersøgelse af det danske webdomæne

Kulturarv i Petabytes

Hvordan fremmer vi Danmark som escience nation? Lene Krøl Andersen DeIC escience Kompetencecenter

> Danmarks nationale supercomputere: Abacus2.0, Computerome og Kulturarvscluster

DeIC Danish e-infrastructure Cooperation

Digital Bevaring. En ekspertgruppe organiseret som en afdeling på Det Kongelige Bibliotek Sommer 2010

Larm Case Data Management Plan

Data Management i praksis

DIGITAL KULTURARV. Jens Henrik Leonhard Jensen, Storagemanager Statsbiblioteket

Nyt fra Statsbiblioteket og Nordicom

Digital Bevaring - Internetarkivering. Dansk Datahistorisk Forening Ballerup d. 30/ Birgit Nordsmark Henriksen

Statsbibliotekets. Politik for digital bevaring

Aktiviteter og resultater

Larm Case Data Management Plan

Strategi for Digital Arts Initiative

Revideret projektplan til 1. marts bliver formentlig i stikord, men her følger opsatte milepæle:

Forskning med brug af audiovisuelt materiale især radio

DIGITAL HUMANIORA HVAD ER DET? FORSKNINGENS BEHOV FOR DIGITAL INFRASTRUKTUR, MED INTERNETTET SOM EKSEMPEL

Preben Bo Mortensen, professor, PI ipsych Jeppe Klok Due, specialkonsulent, KOR

Preben Bo Mortensen, professor, ipsych Jeppe Klok Due, specialkonsulent, KOR

National supercomputing dag Muligheder og Udfordringer

Politik for adgang til de digitale samlinger

Synliggør din virksomhed via de digitale medier. Ishøj, 2. maj 2013 ved Vækstkonsulent Per Nygaard

e-infrastruktur for registerforskning

Fra kolde kældre til varme servere

Identity Access Management

CLARIN en europæisk forskningsinfrastruktur

Det digitale bibliotek

Strategi for langtidsbevaring af materiale indsamlet til Netarkivet ved Det Kongelige Bibliotek og Statsbiblioteket 2014

Cloud computing. Hvad er fordelene ved Microsoft løsninger - og hvad er begrænsningerne

Digital Transformation Hvad kan universiteter og innovationsnetværk bidrage med? Kim Guldstrand Larsen (AAU InfinIT)

Undervisningsbeskrivelse

make connections share ideas be inspired

DeIC Danish e-infrastructure Cooperation. DeIC escience Komite 22. november 2017

Synliggør din virksomhed markedsføringstendenser. Frederikssund, 3. december 2012 ved Vækstkonsulent Per Nygaard

DEFF Strategi og Open Science

Dagsorden møde i HPC LedelsesCAB 29. januar 2016

Erfaringer med Information Management. Charlottehaven Jens Nørgaard, NNIT A/S

ERKLÆRING OM PERSONDATABESKYTTELSE FOR LEXIT GROUP DENMARK APS

DANSK DANish helpdesk

DATA. Datastrømme og datadannelse. En måde at tale om det på. Lars Kabel Danmarks Medie- og Journalisthøjskole Data workshop 1, november 2018

Hvad er DEFF og hvordan kan DEFF og DeIC samarbejde om Datamanagement?

PCSYS Label Print Server. Labeludskrift på fælles platform til alle virksomhedens printere.

CURRICULUM VITAE. Hoda Al-Amood, 2014

Webside score khtsb.com

ASSET MANAGEMENT SWECO DANSK FJERNVARME. Rune Reid Thranegaard 1

KURSER INDENFOR SOA, WEB SERVICES OG SEMANTIC WEB

Anvendelse af digitale ressourcer i dansk forskning!

Hassansalem.dk/delpin User: admin Pass: admin BACKEND

Retail i transition fra salgskanal til oplevelsesunivers

Microservices. Hvad er det og hvordan kommer du i gang?

isearch Testsamling til evaluering af integreret søgning

Skræddersyet A.I. Virtual Expert Platform

Micusto Cloud v2. Micusto Cloud er et fleksibelt, brugervenligt cloudsystem til CMS er, webshop- og intranetsystemer.

DeIC bestyrelsesmøde og brainstorm 7. september 2016

Att: Katrine Tarp 13. januar 2003

1. Økonomisk ramme Der er for aftaleperioden aftalt følgende økonomiske rammer for biblioteket:

DATA. Hvad bruges de til? En måde at tale om data på. Lars Kabel Danmarks Medie- og Journalisthøjskole Oktober 2019

adfgvrga Open Access Hvor og Hvordan Steen Ammentorp

Synliggør din virksomhed markedsføringstendenser. Allerød, 4. oktober 2012 ved Vækstkonsulent Per Nygaard

Forskning med brug af tekster og tekstværktøjer

HYBRID TAKEOFF REDEFINED JOURNEY TO THE CLOUD BY EMC Søren Holm, Proact

SAS Scalable Performance Data Server

DeIC escience komité møde

Open Science, open access, open data - Rigsarkivet som aktør indenfor e-science

Kom godt i gang med Digital Transformation via din Microsoft ERP-platform

Energi & forsyning. Automation Projektledelse Networking. Energi & Forsyning Automation Projektledelse Networking

Fremtidens forbrugere på nettet

Forskningsdokumentation og kommunikation

Avisdigitalisering. Fjernlånsmøde 12. november Tonny Skovgård Jensen Tonny Skovgård Jensen

BIBLIOTEKETS ROLLE INDEN FOR DIGITAL HUMANIORA. OPSAMLING AF SKRIFTLIGT OUTPUT FRA SEMINARET

Agenda. Hvad er Smart City og hvem er aktørerne? Udfordringer. Muligheder

Notat om rebudgettering, Pædagogik og formidlingstiltag Oktober 2015

EU Persondataforordning GDPR

Markedsføring og e-handel

29. juli 2014 Vedr. afrapportering af projektet Fremfinding og tildeling af PID er fra Netarkivet til statslige digitale udgivelser.

Velkommen til den nye og forbedrede Dynamicweb 9

Formidling via YouTube

Ansøgningsskema til mindre projekter

TDCs Signaturserver. 11/05 - Version TDC Erhverv Sikkerhed og certifikater

Hvad er GPFS, og hvad kan jeg bruge det til? Peter Christensen, Senior it-konsulent hos Komplex it

Bilag til ansøgning om tilskud til Større projekttilskud til danske fag-, forskning uddannelsesbiblioteker

Bibliotekerne og almendannelse i det digitale mediemiljø

SAXOTECH Cloud Publishing

Lektier Online GYM: Bilag 1

Hvordan sikres personfølsomme data - og adgangen til disse så persondataloven overholdes. Klaus Kongsted, CRO, Dubex A/S Dubex A/S, den 5.

DIGHUMLAB tema 3 Big Video udfordringer og muligheder

Bilag 1 Databehandlerinstruks

OS2iot. Baggrund - Potentialer - Incitamenter

Byliv og Mobilitet i Aalborg Øst Oplæg ved Dansk Byplanlaboratoriums årsmøde Aalborg 7. oktober 2011

Referat Bestyrelsesmøde 16. marts 2018

Web services i brug. Anvendelse uden for biblioteksverdenen

Harmoni. Med SAP PI. Når tingene går op i en højere enhed. Kort & Godt. January 2012

PROFESSIONELLE KVALITETSLØSNINGER TIL DIGITAL SIGNAGE SMUKKE OG INTELLIGENTE DIGITALE DISPLAYS, SOM ER LETTE AT TILPASSE PRÆCIS DIN VIRKSOMHED

Deloitte, Finansagenda 2015 Birgitte Kofod Olsen, partner, Ph.D., Carve Consulting. Vi skaber muligheder & realiserer potentialet sammen

Oversigt. Score: 2,19 ud af 3

Hardware og software på forskermaskinerne

DIGITALISERING AF 32 MIO. AVISSIDER PÅ 3 ÅR

Transkript:

DeIC Nationale Kulturarvscluster, Statsbiblioteket Mandag den 30. maj 2016 National supercomputing dag, SDU, Odense

Oversigt Baggrund Hardware og arkitektur Software og tjenesteydelser Pilotprojekter Fremsyn

DeIC har i opdrag at udbrede HPC til nye områder som f.eks. humaniora

Baggrund Hvad vi har Hvad vi kan Samlingerne Jura Datastørrelser Datalagring Kontakten til humaniora Solid drifts- og udviklingsorganisation

Samlingerne Hver samling har egne karakteristika, men deler også adskillige Langtidsbevaring Bitbevaring Logisk bevaring Bevaringsegnede data- og filformater samt repositorier Metadata Tilknyttede kuratorer Opbygget gennem pligtafleveringsloven

Radio/TV samlingen Alle danske kanaler, alle årets dage 1 million timers TV 1,5 million timers radio 2PB, årlig tilvækst på ~400 TB Lagret i stumper á en time pr. kanal Mange tekniske og indholdsmæssige metadata Programmer Undertekster

Avissamlingen Digitalisering af 32 millioner sider Fra 1789 op til i dag 400 TB i alt JPG 2000 billeder OCR Basal opmarkering

Netarkivet Den danske del af internettet, 4 gange årligt plus noget mere 20 milliader dokumenter indsamlet fra 2005 til i dag > 600 TB med årlig tilvækst på 120 TB Indhold af tekst estimeret til 10 milliarder dokumenter Teknisk metadata og alle tænkelige filformater og meget griset data

Adgang til samlingerne Discovery platforme Mediestream/Aviser Mediestream/Radio Mediestream/TV Wayback for Netarkivet http://www2.statsbiblioteket.dk/mediestream

https://en.wikipedia.org/wiki/rms_titanic: Hit an iceberg 11:40 p.m. (ship's time) 14 April 1912 on her maiden voyage and sank 2 h 40 min later

Udfordringer ved adgang Data er beskyttet af Ophavsret Lov om behandling af personoplysninger Klausuleret data Discovery platforme Kvalitative studier og øjne på alle data er svært med milliarder af objekter Data er indsamlet og gemt med henblik på langtidsbevaring Datatyper og filformater lagringsmedier

Resume Vi er vant til at håndtere databeskyttelse Vi er eksperter på vores samlinger Tekniske: Filformater, datastrukturer, bevaringssystemer Kuratoriske: metadata, hvad, hvornår, hvordan (hvorfor) Vi er bekendt med håndtering af Big Data 3 PB med årlig tilvækst på ~ ½ PB Meget heterogene samlinger Mange besøgende på vores websites (effektive backends og søgemaskiner) Vi kender vores kunder Universitetsbibliotek siden 1928 Veletableret Studie- og forskningsservice

DeIC Nationale Kulturarvscluster, Statsbiblioteket

Organisatorisk Projektet er både teknisk og administrativt funderet i It Udvikling på Statsbiblioteket under områdedirektør Bjarne Andersen Statsbiblioteket leverer platformen og tilbyder hjælp til Forståelse af anlæggets værktøj Forståelse og anvendelse af Statsbibliotekets data Udvikling og implementering af algoritmer og analyser Nuværende bemanding Asger Askov-Blekinge ½ tid Tony Brian Albers fuld tid fuld tid

Hardware Dell servere PowerEdge R730 2 Intel Xeon E5-2699 CPU with 18 cores 1 management node 9 worker/data noder I alt 360 kerner 3 TB RAM 70 TB lokal lager Budget for fordobling af kapacitet

Nyt serverrum

Metadata Bitbevaring Sidesystemer: IDM, log aggregering, upload/download

Software platform CentOS 7.2 Distribueret filsystem: GPFS/Spectrum Scale 4.2 Scheduling and execution engine Platform Symphony 7.1 IBM BigInsights 4.1 Open Data Platform

BigInsights

Ustruktureret data: Text Analytics

Struktureret data: BigSheets

BigR

Interfaces Web interface bag Apache Knox koblet til IDM BigSheets, Text Analytics, Data Server Manager (BigSQL) Fil-browser Notebook interface á la Mathematica og Jupyter R klienter via SSL forbindelse og bigr pakken RStudio ssh kommer formodentlig på et senere tidspunkt

Dataansvar og -behandling

Behandling af følsom data Alle vores samlinger er beskyttet af en eller flere af Ophavsret Persondataloven Klausulering Derfor skal vi kunne håndtere disse datatyper NB: Kulturarvsclusteret kan også bruges til forskernes egne data

Kobling mellem bevaring og kvantitativ data behandling Jura Standard arbejdsgange og skabeloner Forskningsprojektet er dataansvarlig Statsbiblioteket er databehandler ift. teknisk infrastruktur På konsulentbasis kan Statsbiblioteket også handle som databehandler under forskningsprojektets ansvar

Kobling mellem bevaring og kvantitativ data behandling Teknik Jurik, Bolette Ammitzböll og Askov-Blekinge, Asger og Ferneke- Nielsen, Rune Bruun og Møldrup-Dalum, Per, Bridging the Gap Between Real World Repositories and Scalable Preservation Environments, Proceedings of the ACM/IEEE Joint Conference on Digital Libraries, 2014 Jurik, Bolette Ammitzböll og Zierau, Eld M., Different Mass- Processing Services in a Bit Repository, The Fourth Workshop on Very Large Digital Libraries

Kobling mellem bevaring og kvantitativ data behandling Teknik API og modulbaseret, men Vi forventer meget ad-hoc data tilgang, da Hvert forskningsprojekt er unikt Intet forskningsprojekt på Statsbibliotekets samlinger uden konsulenttimer

Forskningsprojekterne Pilotprojekter finansieret af DeIC 15 projekter over tre år ~3 måneder til hvert projekt ~220 konsulenttimer til hvert projekt Projektkald kommer nogle gange om året Egenfinansierede projekter Adgang til anlægget/regnetid efter transparent betalingsmodel á la Abacus 2.0 og Computerome Konsulenttimer

Probing a Nations Web Domain Professor MSO Niels Brügger og seniorforsker Ditte Laursen Institut for Æstetik og Kommunikation Medievidenskab og Statsbiblioteket Probing a Nation s Web Domain 10 år med det danske internet Udfordring: Netarkivets 20 milliarder heterogene og grisede dokumenter

Digital Footprints Research Group Associate professor Anja Bechmann Institut for Æstetik og Kommunikation Medievidenskab Facebook og Instagram fotografier Udfordring: egne data og at det er billeder

Dansk Sprognævn Direktør, ph.d. Sabine Kirchmeier-Andersen Det danske sprogs udvikling på internettet og på de sociale medier Udfordring: eget software

Sociale netværk Data management, SB, DEFF, DeIC Visualization Lab, AU Digital Text Lab, AU Digital Arts Initiative, AU Interacting Minds Centre, AU Computerome, DTU Abacus 2.0, SDU AU/HPC

Fremsyn Easy things should be easy, and hard things should be possible - Larry Wall Creator of Perl