Bevaring, aflevering og tilgængeliggørelse af digitale arkivalier Jan Dalsten Sørensen Fagligt forum 31. maj 2017 1
Indhold Afleveringer fra standardsystemer/paradigmesager Status på revision af bekendtgørelse 1007 E-ARK-projektet Testværktøjet ADA 02-06-2017 2
Afleveringer fra standardsystemer Aktuelle sager: SBSYS Bosted 02-06-2017 3
Baggrund: Revision af bek. 1007 Nye anmeldelsesregler for forskningsdata medfører krav om tilsvarende klare afleveringsregler for forskningsdata Tilpasning af regler for geodata (indarbejdelse af anvisning på aflevering) Generelt (men minimalt) serviceeftersyn 02-06-2017 4
Forskningsdata Ved digitale forskningsdata forstås data, som er skabt i forbindelse med forskning med anvendelse af videnskabelig metode, samt tilhørende dokumentation. 02-06-2017 5
Databaser Dokumenter Typer af forskningsdata Data skabt eller behandlet i statistikprogrammer (SPSS, STATA, SAS) Særformater (Hospitalsscanninger, rumforskning, osv.) 02-06-2017 6
Data fra statistikprogrammer: udfordringer Kan ikke bevares tilfredsstillende i det eksisterende format da genanvendelse i statistikprogrammer kræver specifikke metadata, der ikke er taget højde for i bek. 1007 Modtages p.t. i proprietære formater, som ikke kan bevares på langt sigt 02-06-2017 7
Data fra statistikprogrammer RA har arbejdet på at definere et systemuafhængigt, tekstbaseret format til aflevering af data fra statistikprogrammer Afleveringsformatet kan efter kontrol hos Rigsarkivet konverteres til bevaringsformat (XML) Sikrer, at data kan genindlæses i statistikprogrammer 02-06-2017 8
Forskningsdata-universet Data fra statistikprogrammer Andre formater, særformater Eksisterende bevaringsformater 02-06-2017 9
Aflevering Planen er, at eksisterende bekendtgørelse udvides til også at kunne håndtere forskningsdata: Samme struktur Samme filtyper eller aflevering af statistikdata i et særligt tekstbaserede afleveringsformat Standardiserede krav til dokumentation Særformater håndteres p.t. ikke 02-06-2017 10
Særformater Vi skal vide, hvad vi taler om! Og hvor meget af det, der skal bevares 02-06-2017 11
Videre proces Offentlig høring, formentlig i august-sept. Udarbejdelse af vejledningsmateriale og hjælpeværktøjer Ikrafttrædelse.? 02-06-2017 12
E-ARK projektet Fælleseuropæisk projekt med 5 nationalarkiver, 5 forskningsinstitutioner, 3 it-leverandører, 2 interesseorganisationer og 2 øvrige myndigheder. 50% finansieret af EU Startet 1.2.2014, afsluttet 1.2.2017 Har arbejdet med at definere fælles standarder for digital arkivering baseret på eksisterende bedste praksis 02-06-2017 13
Resultater Fælleseuropæiske standarder for afleverings-, bevarings- og tilgængeliggørelsesformater Fælles begrebsunivers og konceptforståelse ift. digital arkivering, hvilket er en forudsætning for videre samarbejde Diverse open-source-værktøjer til at understøtte standarderne, bl.a. et værktøj til database-udtræk 02-06-2017 14
Udtræksværktøj http://www.database-preservation.com/
Udtræksværktøj
Evaluering og fremtid Fik karakteren Excellent af EUkommissionen og udnævnt til European Showcase Project Standarderne vedligeholdes af DLM Forum Vil først give fuld værdi for os, når standarderne kan indarbejdes i ny bekendtgørelse 02-06-2017 17
ADA projektet Målene Performance Stabilitet Nyt testlogsystem Indførsel af manglende tests Performance og stabilitet. Vi oplever stadig stigende datamængder, og de enkelte arkiveringsversioner bliver også større og større. Derfor er det vigtigt, at ADA generelt tester hurtigere, så vi kan få et større throughput. Det er også vigtigt at ADA ikke går ned, og hvis det sker, så skal alt ikke være tabt. Vi har før oplevet at flere dages maskintid er spildt fordi ADA har haft et nedbrud. I forhold til ny testlogsystem, så har der tidligere været tvivl om, også fra vores egen side, hvad ADA testede og ikke testede for. Målet var, at enhver meddelelse som ADA kom ud med kunne henføres til et unikt id, således at alle ADAs deltests er samlet i et register, og med henvisning til bekendtgørelsens bestemmelser.
ADA projektet https://www.sa.dk/aflevering-arkivet/statslige/ada-testprogram-arkiveringsversioner
ADA projektet
ADA projektet
ADA projektet Resultaterne Performance. ADA tester cirka 10% hurtigere i vores miljø på eksempelarkiveringsversioner Stabilitet. Der er kommet langt mere styr på afhængigheder - hvilke informationer skal være til stede før at en deltest kan køres. Alle problemarkiveringsversioner i testsuiten kan køres igennem. Man kan teste videre fra sidst vellykkede test. Nyt testlogsystem. Alle fejlmeddelelser er bygget op på ny testlog. Samlet register over deltests, dokumentation ved hver release. Videre udvikling sikrer at deltests stadig tester efter hensigten. Indførsel af manglende tests. Kun ganske få er ikke indført.
Løbende fejlrettelser Fremadrettet? Opsamling af nye brugerønsker Skriv til ADA-meldinger@sa.dk og husk i øvrigt temadag for testere på Rigsarkivet i Kbh, 13. juni (tilmeldingsfrist 6. juni) 02-06-2017 23