De præmisser vi arbejdede under, har haft betydning for det endelige valg af format.

Relaterede dokumenter
Sådan afleverer du forskningsdata til arkivering

Bilag B2: Oversigt over foreslåede ændringer i bekendtgørelse om arkiveringsversioner Høringsudgave, august 2017

Vejledning til prototypen af RaConverter

Bevaring, aflevering og tilgængeliggørelse af digitale arkivalier

Klargøring af data til aflevering til DDA. Instruks

Rigsarkivets digitaliseringsstrategi. NorDig oktober 2017 Jan Dalsten Sørensen

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER

Internationalt udblik: Digital bevaring på Rigsarkivet i Danmark

Skema til høringssvar anmeldelse af forskningsdata

Strategi for arkivering af digitalt skabte arkivalier

Leverandørmøde. Rigsarkivet 10. november Leverandørmøde 1

Anvisning i aflevering af bitemporale data

Å rsrapport Rigsarkivet som leverandør af data, service og vejledning til den sundheds - og samfundsvidenskabelige forskning

Aflevering af kommuner og og regioners digitale data og dokumenter til Statens Arkiver. En generel vejledning til kommunale og regionale myndigheder

Vejledning om produktion af arkiveringsversioner. Oktober 0 1

Hvorfor er denne workshop om produktion af tilgængeliggørelsesversioner relevant for mig?

CAREArkiv. -Pligtaflevering af arkivdata fra RAMBØLL CARE.

Visionen #2: Integrerede metadata

Region Hovedstaden Center for It, Medico og Telefoni Arkivering af data til Rigsarkivet

Skema til høringssvar anmeldelse af forskningsdata

R E D C A P M A N U A L. Importér data til REDCap fra CSV-fil. Opbyg din eksisterende database i REDCap Version 1.0

Open Science, open access, open data - Rigsarkivet som aktør indenfor e-science

HOFTEALLOPLASTIK - DATAUDTRÆK OG IMPORT TIL EXCEL

Vejledning til SQL Converter - databaseindlæsning af arkiveringsversioner Side 1 af 17

Data management Vejledning til ph.d. studerende og andre v/ Willy Karlslund

KOMMISSIONENS GENNEMFØRELSESFORORDNING (EU) / af

Skema til høringssvar anmeldelse af forskningsdata

Modul 2 Database projekt Multimediedesign 3. semester Gruppe 3 IRF/TUJE

Introduktion til SPSS

Oversigt over de mest almindelige fejl ved test

DACaPo. Digital aflevering

Undersøgelsen blev oprindelig gennemført af

18/ Version 2.0 Side 1 af 36

Artikel af Kirsten Villadsen Kristmar i: Rapporter til 19. Nordiske Arkivdage år 2000

OPBYGNING AF INSTRUMENTER. Online Designeren Record ID Felttyper Validering og variabelnavne

VEJLEDNING I DOWNLOAD I ANALYSEPORTAL 9.2

Forskelllige spørgsmålstyper: Signle, multipel, matrice, tekstfelt, fritekst

Arbejde på forskerserverne

Arbejde på forskerserverne

DM507 Algoritmer og datastrukturer

Udkast til: Cirkulære om anmeldelse og godkendelse af it-systemer

Kort og godt om test af arkiveringsversioner

DDA 2012 begivenheder, projekter og drift. Årsberetning for DDA 2012

Installations- og. Brugervejledning. Rambøll CAREArkiv - version feb Rambøll Informatik A/S. j.nr. LLP feb.

Vejledning til bekendtgørelse om arkiveringsversioner

Retnings. for arkivering

DM507 Algoritmer og datastrukturer

Referat. Dato: 14. maj 2019 Journalnr.: 16/00399 Referant: Christian Larsen

Dokumentvejledningen. Rigsarkivet december 2015, BETA-version

Trin 01 Gramps kan køre i både Linux og Windows. Trin 02 Opret et nyt træ. Trin 03 Tilføj en ny person. Trin 04 Indstilling af hjemme personen

Introduktion til MeMo

Digitale billeder i slægtsforskning

Koncept for systemforvaltning af den fælles open source kode, herunder procedure for opfølgning på software-versioner af OpenTele

Manual til opsætning af Jit-klient version 1.0. Opsætning. Copyright Jit-Danmark Aps Find mere information på

Jacob Hviid Hornnes, Anne Christensen og Ulrik Hesse. Arbejdsnotat. Metode- og materialeafsnit til Sundhedsprofil for Gribskov Kommune

OIS - Applikationskatalog

PUT og INPUT funktionerne

Digital bevaring status og viden Rigsarkivet december 2016

Brugerundersøgelse i Odense 1995: Beboere på plejehjem

Det skal understreges, at kassation af dokumenter er en mulighed, og ikke en pligt for kommunerne.

Anbefaling om sikring og overdragelse af analoge og supplerende digitale data på miljøområdet

Tilslutning til ecomone Basis (OIO Faktura)

DSFL DXF GML Mulig oprindelse:

Journalinstruks Aarhus Universitet gældende fra 1. december 2016 til 1. december 2021

DAVAR Omdøbt til SagDokumentFormat. Attention er skilt ud i et selvstændigt format, AttentionFormat.

Vejledning til aflevering af dokumenter fra it-systemer til Statens Arkiver. Marts 1

Status for bevaring af elektroniske arkivalier i Statens Arkiver

Moderne SAS-programmering på webben med SAS Studio. Georg Morsing SAS Institute

Databasesystemer. Databaser, efterår Troels Andreasen. Efterår 2002

Nøglepersoner Overvejelser og anbefalinger

Denne vejledning er optimeret til Windows XP, men kan også bruges til de andre Windows styresystemer.

Notat. Indholdsfortegnelse. Statens Arkiver. Ang.: Statens Arkivers terminologi for digital bevaring, v. 18 Til: BK-Afdelingen Fra: ALT

Læringsprogram. Christian Hjortshøj, Bjarke Sørensen og Asger Hansen Vejleder: Karl G Bjarnason Fag: Programmering Klasse 3.4

Bekendtgørelse om ændring af bekendtgørelse om ret til sygehusbehandling m.v.

Arbejdsmiljøuddannelsen

Nyhedsbrev fra Forskningsservice, 1. kvartal 2010

Eksempel 1: Kvalitetskontrol ved stikprøver og opslag i it-systemet

09/ Version 1.4 Side 1 af 37

Erfaringer med CPR-replikering

Statsbibliotekets. Strategi for digital bevaring

Bekendtgørelse om arkiveringsversioner af bevaringsværdige data fra elektroniske arkivsystemer

Kursusbeskrivelser Arkibas og IT-kurser

BEK nr 1334 af 27/11/2017 (Gældende) Udskriftsdato: 26. juni 2019

Brugervejledning til Højkvalitetsdokumentationen og Dialogforummet på Danmarks Statistiks hjemmeside

MIU datakonverteringsprogram til brug for radioaflæsning af vandmålere

Elektronisk arkivering til Rigsarkivet

Eksterne Sundhedsinstitutioners import af sundhedsenheder til SOR

Regressionsanalyse i SurveyBanken

Vejledning til bekendtgørelse om arkiveringsversioner

FKG datamodellen Version ArcGIS integration Sidste revisionsdato: 23. maj 2014

I bekendtgørelse nr. 293 af 27. marts 2017 om ret til sygehusbehandling m.v. foretages følgende ændringer:

Folketingsvalget 2001: Enghave Skole og Hellerup Skole

Introduktion til Oracle, Datalogi, RUC Af: Jens Lauterbach 2002

Digital bevaring status og viden 2015

Holdningen til flygtninges adgang til Danmark, september

EVALUERING I SURVEYXACT TRIN FOR TRIN

PHP Quick Teknisk Ordbog

Referat. Dato: 16. november 2018 Journalnr.: 16/00399 Referent: Christian Larsen

KOMMISSIONENS GENNEMFØRELSESFORORDNING (EU) / af

Transkript:

1

De præmisser vi arbejdede under, har haft betydning for det endelige valg af format. 2

Min præsentation handler om surveydata dvs. spørgeskemabasserede undersøgelser. 3

Anmeldelsesbekendtgørelsen angiver hvordan Rigsarkivet definerer forskningsdata ( 2) Samt beskriver hvornårdata skal anmeldes( 3) og hvilke forskningsdata der ikke skal anmeldes (og dermed med sikkerhed ikke skal bevares) ( 4) 4

Her ses et eksempel på surveydata. Dvs. data indsamlet via et spørgeskema. Hver kolonne/variabel angiver svaret på et spørgsmål i spørgeskemaet. Tabulære data. Typisk et datasæt. Generationsundersøgelsen: Tilbage i maj 1968 interviewede man ca. 3100 unge, som alle på det tidspunkt var omkring 14 år gamle og gik i 7. klasse. En forælder (og en bedsteforælder) til respondenterne i denne undersøgelse deltog dengang i undersøgelsen. Siden er respondenterne fra 68-undersøgelsen blevet fulgt i over 40 år. Undersøgelsen giver således viden om danskernes liv ved at følge familier over generationerog i forholdet mellem generationerne, hvormeget er de sammen på tværs af generationer osv. 5

Spørgsmålet i variablen/kolonnen V6 er Gikdu i folkeskole eller privatskole det meste af tiden fra 1.-9. klasse? Listeri Values kolonnen angiver svarmuligheder på spørgsmål. Value labels svarer til kodeforklaringer. 6

Surveydatahar således en struktur der minder om en relationel database, med en enkelt hovedtabel og en række kodetabeller med svarkategorier. 7

Inden jeg begynder at præsentere det nye format for aflevering af surveydatavil jeg kort skitsere hvordan vi har modtaget forskningsdata frem til nu. 8

Her ses en landingpagefra DDA Søgeservice, der viser den metadata der stammer fra DDI metadata filen. DDI formatet indeholder både generel beskrivende metadata om selve spørgeskemaundersøgelsen 9

Men DDI formatet indeholder også datanær metadata som variabelbeskrivelser, spørgsmål fra spørgeskemaerne, frekvensfordelinger i svar. 10

Vi har i dag kun et bevaringsformat for surveydata. At Rigsarkivet har modtaget forskningsdata i originalformater, har resulteret i en pukkel af afleveringer, som endnu ikke konverteret til bevaringsformat. 100-200 problematiske statistikformater er endnu ikke konverteretpå grundaf manglende dokumentation, formater som ikke kan læses i vores programmer, gamle SAS-data. 60-70 afleveringer fra forskere i andre formater end statistikformat er ikke konverterede. 11

Vi har i dag to parellelleprocedurer for modtagelse af henholdsvis forskningsdata og forvaltningsdata. Vi modtager i forskellige formater (SIP). Vi arbejder på forskellige styresystemer (Linux og Windows) Vi tester med forskellige programmer. Vi har forskellige bevaringsformater (AIP). Vi har forskellige bevaringssystemer. Vi har forskellige måder at tilgængeliggøre data på. 12

Det er ikke hensigtsmæssigt at have 2 forskellige og parallelle procedurer. Det kræver 2 x testværktøjer som skal udvikles og vedligeholdes, 2x bevaringsformater som skal vedligeholdes, 2 x bevaringssystemer som skal kræver 2xtestværktøjer, 2xbevaringsformater, 2xbevaringssystemer, som skal udvikles, vedligeholdes og driftes. driftes. NårRigsarkivet nu med den nye anmeldelsesbekendtgørelse for forskningsdata kan stille krav om aflevering kan vi også i højere grad stille krav til formatet af afleveringen. 13

Afleveringerfra forskere har frem til nu typisk været spørgeskemaundersøgelser i et statistikformat, fx SAS, STATA eller SPSS. Da det således er det forskningsformat vi har bedst kendskab til og stadig modtager, var et format der kunne rumme disse tabulære data, det vi først gav os i kast med at definere. Hvis bevaringsformat for forskningsdata er i samme format som forvaltningsdata (1007- formatet/siard.dk), kan vi bruge samme værktøjer og bevaringssystem. SIARD.DK formatet er et bevaringsformat til relationelle databaser samt eventuelle dokumenter knyttet til registreringerne i databasen. 14

Vi har defineret et afleveringsformat som forskerne skal aflevere. Rigsarkivet konverterer selv i en periode dette afleveringsformat til bevaringsformatet, for at høste erfaringer, tilpasse formatet virkeligheden derude og sikre sig at formatet holder. Her ses pakkestrukturerne for afleveringsformatet og bevaringsformatet. 15

Vi modtager ikke længere blot originalfiler og eksisterende dokumentation. Nu stiller vi krav til forskerne: Krav til fast SIP pakkeformat Krav om at dokumentation af data skal konverteres til TIFF Krav om udtræk fra statistikfilen til det dataformat (.csv) og metadataformat (.txt) vi har defineret. Krav til kvaliteten af data og metadata Krav til udfyldning af archiveindex(beskrivende metadata om aflevering) og contextdocumentationindex(metadata om kontekstdokumenter) 16

Eksempel på en datafil i afleveringsformatet. Variabelnavne angives i første række i datafilen. Vi stiller et udtræksværktøj til rådighed, så forskerne kan konvertere fra deres statistikprogram til dette format. 17

Eksempel på en metadatafil i aflevringsformatet. Vi stiller et udtræksværktøj til rådighed, så forskerne kan konvertere fra deres statistikprogram til dette format. 18

På sigt er tanken at forskningsdata skal afleveres direkte i bevaringsformat. Forskningsdata i form af databaser, dokumenter, lyd og video skal afleveres i et almindeligt 1007 bevaringsformat (SIARD.DK) uden researchindex.xml. Det kan også ske, at vi ved indførelse af en eventuel ny bevaringsstrategi vil implementere et mere internationalt anvendt bevaringsformat til forskningsdata, alt afhængig af hvad vi når frem til i digitaliseringsstrategien. Fx EuroStatsformat SDMX (Statistical Data and Metadata exchange), format for the exchange of aggregated statistical data and the metadata needed to understand how the data is structured. 19

Signifikante egenskaber for statistikfiler, som ikke kunne rummes i en traditionel 1007 afleveres i en ny indeksfil, researchindex.xml. Variabellængde registreres ikke i researchindex.xml men beregnes ved konvertering til statistikformat. Original datatype registreres ikke i researchindex.xml, men oversættesfra SQL datatyper bevaret i 1007 til de datatyper som anvendes af det pågældende statistikprogram. Dog angives i researchindex.xml hvorvidt koder for manglende værdier er specialkoder/specialnumeric(hvor NUM felter indeholder STRING-værdier (.i og.u), hvilket er tilfældet for SAS og Stata). 20

Viser erfaringer med at definere afleveringsformatet (SIP). Vi havde også mange overvejelser omkring hvordan de signifikante egenskaber for surveydata skulle implementeres i 1007/SIARD.DK formatet. Skulle koder for manglende værdier (missing values) opmærkes i kolonne i tabeldata? Eller registreres som attribut i tableindex.xml filen(der indeholder metadata om tabeldata)? Skulle original datatype angives i tableindex.xml filen i elementet typeoriginal ville kræve ændring af skema, da det ikke tillod dollar-tegn. Vi valgte en løsning med at medtage de signifikante egenskaber i en ny researchindex.xml fil, så det ikke krævede ændringer i det eksisterende 1007-format, men blot blev en tilføjelse. Dette vil også lette migreringen til et fremtidigt nyt format for surveydata, da man så ikke skal udlede disse signifikante egenskaber skjult i det øvrige format. 21

Statistical Data and Metadata exchange: format for the exchange of aggregated statistical data and the metadata needed to understand how the data is structured. 22

I forbindelse med udvikling af en ny digitaliseringsstrategi i Rigsarkivet afdækkeret konsulentfirma hvilke typer og mængder af forskningsdata der findes i Danmark. 23

Lyseblå programmer findes endnu ikke, men skal udvikles specifikttil surveydatai løbet af 2018 før det nye format kan implementeres. Har vi opnået en effektiviseringsgevinst når vi skal udvikle så meget nyt? Vi har opnået følgende: Undgå pukkel af data, som ikke ligger i bevaringsformat. Samme automatiserede test med testværktøjet ADA. Samme bevaringssystem. Tilgængeliggørelse mulig for forvaltningsdata og forskningsdata i både statistikformat (Styx) eller databaseformat (Sofia) Opbygget erfaringer med statistikformater, deres signifikante egenskaber og forskellige mulige bevaringsformater, der gør os i stand til at vurdere et fremtidigt bevaringsformat for surveydata. 24