DeIC Nationale Kulturarvscluster, Statsbiblioteket

Relaterede dokumenter
DeIC Nationale Kulturarvscluster, Statsbiblioteket

DIGITAL KULTURARV. Jens Henrik Leonhard Jensen, Storagemanager Statsbiblioteket

Undersøgelse af det danske webdomæne

Digital Bevaring. En ekspertgruppe organiseret som en afdeling på Det Kongelige Bibliotek Sommer 2010

> Danmarks nationale supercomputere: Abacus2.0, Computerome og Kulturarvscluster

Att: Katrine Tarp 13. januar 2003

IBM BigInsights on Cloud

Nyt fra Statsbiblioteket og Nordicom

Hvordan fremmer vi Danmark som escience nation? Lene Krøl Andersen DeIC escience Kompetencecenter

Larm Case Data Management Plan

Aktiviteter og resultater

Erfaringer med Information Management. Charlottehaven Jens Nørgaard, NNIT A/S

DeIC Danish e-infrastructure Cooperation

Digital Bevaring - Internetarkivering. Dansk Datahistorisk Forening Ballerup d. 30/ Birgit Nordsmark Henriksen

Kulturarv i Petabytes

Statsbibliotekets. Politik for digital bevaring

Strategi for Digital Arts Initiative

National strategi for Datamanagement

Politik for adgang til de digitale samlinger

Larm Case Data Management Plan

Anvendelse af digitale ressourcer i dansk forskning!

Data Management i praksis

BEKENDTGØRELSE OM SUPPLERENDE OPLYSNINGER, UAFSLUTTET PROCEDURE ELLER BERIGTIGELSE

Forskning med brug af audiovisuelt materiale især radio

Hvad er GPFS, og hvad kan jeg bruge det til? Peter Christensen, Senior it-konsulent hos Komplex it

Avisdigitalisering. Fjernlånsmøde 12. november Tonny Skovgård Jensen Tonny Skovgård Jensen

GIS Is Advancing Rapidly Integrating and Leveraging Many Innovations

Fra kolde kældre til varme servere

SUPERCOMPUTING- TRENDS I DANSK FORSKNING. Et analyseprojekt bestilt af DeIC s escience Kompetencecenter

Revideret projektplan til 1. marts bliver formentlig i stikord, men her følger opsatte milepæle:

DIGITALE BILLEDER HVAD GØR VI MED DEM? LFF seminar 16. april 2008

Hardware og software på forskermaskinerne

Som forskningsinstitution forsker Statsbiblioteket i information og medier.

IBM BigInsights on Cloud

1. Økonomisk ramme Der er for aftaleperioden aftalt følgende økonomiske rammer for biblioteket:

Accessionspolitik. Indstilling Det indstilles, at Direktionen godkender vedlagte Accessionspolitik for Det Kgl. Bibliotek / Nationalbiblioteksområdet.

Open Science, open access, open data - Rigsarkivet som aktør indenfor e-science

Mere digitalt større synlighed bedre navigation

Informationsmøde om kalenderintegration til Planner. 4. september 2015 Styrelsen for Arbejdsmarked og Rekruttering

Wizdom med forretningsapplikation. Wizdom Business Apps

DIGITAL HUMANIORA HVAD ER DET? FORSKNINGENS BEHOV FOR DIGITAL INFRASTRUKTUR, MED INTERNETTET SOM EKSEMPEL

BIBLIOTEKETS ROLLE INDEN FOR DIGITAL HUMANIORA. OPSAMLING AF SKRIFTLIGT OUTPUT FRA SEMINARET

Generelt gælder det at SQL serveren skal understøtte SQL Authentication (Mixed mode) da SIMS Serveren kommunikerer gennem en SQL bruger.

Kom godt i gang med Digital Transformation via din Microsoft ERP-platform

INDSAMLINGSPOLITIK FOR PLIGTAFLEVERET RADIO/TV

Tilbudsmateriale: Udvidelse af eksisterende serverplatform.

Partnerskaber: Formål og problemer

STRATEGI #meretilflere

Cloud kalkulatoren kan det betale sig at flytte jeres eller desktop til skyen?

Guide til reglerne for kopiering af tekster og noder på grundskoler

PDF som bevaringsformat? v/ René Mittå Specialkonsulent

Synliggør din virksomhed via de digitale medier. Ishøj, 2. maj 2013 ved Vækstkonsulent Per Nygaard

Bliv sponsor! DeIC konference 2016

Principper for digitalisering og ny teknologi i Brønderslev Kommune

DIGITALISERING AF 32 MIO. AVISSIDER PÅ 3 ÅR

Det mangfoldige humaniora: Humanistisk viden i videnssamfundet. Kjetil Sandvik, lektor i Medievidenskab, KU

It og digitale medier har gjort deres indtog i dagtilbuddene

Læsekompasset et frugtbart samarbejde med Gentofte Centralbibliotek. Sarah Elizabeth Hvidberg Informationsspecialist Hillerød Bibliotekerne

OFFENTLIGT KMD A/S EJ 0.0 NUMMERERET SLIDE 1 CCM USER GROUP KMD einvoicing. v/ Ole Sixhøi

SPØRGSMÅL: KONTAKT: Esben Hørning Spangsege Tlf: 2989

Mindstekrav til udstyr (fase 1) Løsningsbeskrivelse

Mikro-betalinger på nettet

Rigsarkivets fremtidige ressourcesituation side 5

Dette budgetnotat er en uddybning af driftsønske: ø Genanskaffelse af IT i skolen

Skema til høringssvar anmeldelse af forskningsdata

NemID DataHub adgang. & Doc , sag 10/3365

Web services i brug. Anvendelse uden for biblioteksverdenen

IP Telefoni. IP telefoni introduktion. TDC IP telefoni Scale

Strategi for langtidsbevaring af materiale indsamlet til Netarkivet ved Det Kongelige Bibliotek og Statsbiblioteket 2014

adfgvrga Open Access Hvor og Hvordan Steen Ammentorp

Vilkår for C More. Juni 2019

Strategi for digitalisering af fysisk kulturarv Det Kgl. Bibliotek

for den virksomhed som benytter os. For i den sidste ende giver det langt større valgmuligheder og skaber rum til nytænkning.

Bekendtgørelse om oplysnings- og underretningspligter vedrørende net- og informationssikkerhed 1)

IT UNIVERSITETET OM IT UNIVERSITETET. Velkommen til den digitale verden

Digitalisering af turismeerhvervet - udfordringer og potentialer

Tv-markedet i Danmark inkl. streamingtjenester. Seer-Undersøgelsens Establishment Survey 1. kvartal 2017

Sociale medier & B2B. Status og trends fra Danmark

SKOLEFORENINGENS PÆDAGOGISKE IT-STRATEGI FOR DAGTILBUDS- OG SKOLEOMRÅDET

Automatisk indhentning af oplysninger om statslige myndigheders digitale publikationer - projektafslutning

DK domænet i ord og tal

Rådet for Den Europæiske Union Bruxelles, den 14. september 2017 (OR. en)

Styregruppen*for*National*Data*Management*

LexicoNordica. Nyt fra bestyrelsen for Nordisk Forening for Leksikografi. Kilde: LexicoNordica 21, 2014, s

Medieskole: Velfærdsforskere i samfundsdebatten. Metropol, SFI og Information, forår 2017

Online kursus: Data Science

KORT OM VICTOR ALBECKS VEJ Århus C Tlf: Fax: Man - fre: Lørdag:

Erhvervsminister Brian Mikkelsen

ScanSuite produktbeskrivelse Fleksibel dokumentskanning Produktbeskrivelse Neopost, juni 2015 DocID: ScanSuite produktblad.

DIGITAL MARKEDSFØRING LOF SKOLELEDERTRÆF 2019 V. BUCHS

Politik for opbevaring af primære materialer og data

Den enkle vej til. Virk.dk. Effektive indberetningsløsninger til det digitale Danmark.

HYBRID TAKEOFF REDEFINED JOURNEY TO THE CLOUD BY EMC Søren Holm, Proact

Bruttolister med forslag fra rundbordssamtalerne Bilag C

DeIC escience komité møde

BRAINS BUSINESS - På Herrens Mark Nordjyske virksomheder i den globale og digitale økonomi

Hvad er Input Management?

PROGRAM D. 3. MARTS 2015

Guide til reglerne for kopiering af tekster og noder Mellemlange videre gående uddannelser

Transkript:

DeIC Nationale Kulturarvscluster, Statsbiblioteket Tirsdag den 4. oktober DeIC konferencen 2016, Hotel Comwel, Kolding

DeIC Nationale Kulturarvscluster, Statsbiblioteket

Statsbiblioteket

DeIC har i opdrag at udbrede HPC til nye områder som f.eks. humaniora

Agenda 25 minutter Pilotprojekter Spørgsmål og svar Samlingerne Anlægget

Pilotprojekter

Planlagte pilotprojekter Professor MSO Niels Brügger: Probing a Nation s Web Domain Ti år med det danske internet. Associate professor Anja Bechmann: Digital Footprints Research Group Facebook fotografier. Direktør, ph.d. Sabine Kirchmeier-Andersen: Dansk Sprognævn det danske sprogs udvikling på de sociale medier.

Udgangspunkt Tre måneders adgang til alle anlæggets komponenter Op til 150 timers support til Hjælp til forståelse og udnyttelse af samlingerne Hjælp til forståelse og udnyttelse af anlægget

Flere modeller FRA Egne data og kompetencer indenfor de tilgængelige teknologier. TIL Forskningsidé med afsæt i Statsbibliotekets nationale samlinger og uden tidligere erfaring med kvantitative metoder. OG ALT IND I MELLEM

Dialogbaseret En dialogbaseret og kompetenceløftende indstillingsfase og projektforløb for alle parter. Under den indledende dialog opnår Statsbiblioteket og forskningsprojektet sammen en vurdering af om projektet egner sig som projekt på Kulturarvsclusteranlægget. Da Statsbibliotekets digitale samlinger er pålagt juridiske anvendelseskrav, vil det også være nødvendigt med en dialog over om projektet kan udnytte disse samlinger.

Udvælgelse Projekter vil blive forsøgt udvalgt efter hvordan de bidrager til ny forskning udforsker nye områder både mht. de nationale samlinger, beregningsmuligheder og værktøjsanvendelse passer ind i kalenderen for begge parter belaster Statsbibliotekets personale

Forpligtelser Vi opfordrer til at projektets forløb afsluttende (og gerne løbende) beskrives i en eller flere blog-post eller lignende Vi opfordrer til at projektets forløb og resultater efterfølgende præsenteres i et oplæg eller ved et seminar. Dette kan evt. være til en DeIC supercomputing-dag, på Statsbiblioteket eller lignende Vi opfordrer til at afledt data offentliggøres som Open Data Vi opfordrer til at kode deles på Github/Gitlab/

Hvordan? Interessetilkendegivelse fra forskningsprojekter kan ske løbende til Kulturarvsclusteret kulturarvscluster@statsbiblioteket.dk Gennem dialog og anvendelse af formularen på: https://www.statsbiblioteket.dk/kulturarvscluster/indstilling Første runde har deadline 15. november 2016 Nye pilotprojekter vil blive indplaceret som en del af processen omkring interessetilkendegivelsen.

Ledige tider 1. september, 2016 Probing a Nation s Web Domain 1. oktober, 2016 Digital Footprints Research Group 1. januar, 2017 Dansk Sprognævn 1. januar, 2017 Pilot 4 1. marts, 2017 Pilot 5 1. april, 2017 Pilot 6 1. april, 2017 Pilot 7 1. august, 2017 Pilot 8 1. august, 2017 Pilot 9 1. oktober, 2017 Pilot 10 1. november, 2017 Pilot 11 1. november, 2017 Pilot 12

Spørgsmål?

Samlingerne

Radio/TV samlingen Hver kanal fra hver større dansk TV station, hver time, hver dag, året rundt 1 million timers TV 1,5 million timers radio 2PB, vokser med ~400 TB/år Bevares i blokke af en time Meget metadata programoversigter undertekster Både materiale der er skabt digitalt og materiale der er digitaliseret fra analoge kilder

Den digitale avissamling Digitalisering af 32 millioner sider Fra 1666 til idag I alt 400 TB JP2000 billeder, artikelopmarkering og OCR data

Netarkivet Den danske del af internettet plus lidt mere, høstet fire gange om året 20 milliarder dokumenter fra 2005 indtil i dag mere end 600 TB og vokser med 120 TB/år Ca. halvdelen er tekst Mange tekniske metadata alle tænkelige og utænkelige formater og ret griset data

Udfordringer Indsamlet med Pligtafleveringsloven i hånden og er beskyttet af Ophavsret Lov om behandling af personoplysninger Klausuleret data Indsamlet med fokus på langtidsbevaring Bit bevaring Logisk bevaring Vi benytter filformater og systemer der fokuserer på langtidsbevaring Hver samling har sine egne karakteristika, systemer og formater

Anlægget

Pilotfase Har specifikke hardware og software konfigurationer MEN Pilotprojekterne skal være med til at definere hvor anlægget skal bevæge sig hen både med hardware og software

Hardware 10 Dell servere PowerEdge R730 2 Intel Xeon E5-2699 CPU with 18 cores 1 management node 9 worker/data nodes 360 kerner 3TB RAM 70TB lokal lager EMC Isilon storage cluster, EMC VNX og båndstationer med vores samlinger Fordobling i 2017

Software http://www.ibm.com/developerworks/data/library/techarticle/dm-1110biginsightsintro/

Software ODPi Open Data Platform initiative Ambari (bl.a. browser baseret filstyring) YARN, MapReduce Pig Latin, Hive, HBase, Sqoop, Oozie, Slider Eksperimentel Spark (R, Python, Scala) BigInsights Text Analytics (AQL + browserbaseret workbench) BigSheets BigSQL BigR Spectrum Scale og Symphony

Ustruktureret data: Text Analytics

Struktureret data: BigSheets/BigSQL

R/BigR/SparkR

Software Roadmap DataWorks: Data Science Experience Spark 2 Jupyter Notebook RStudio Server