Sådan afleverer du forskningsdata til arkivering For at kunne arkivere data på en meningsfuld måde skal Rigsarkivet bede om: 1. Et udfyldt afleveringsskema 2. Projektbeskrivelse i både en dansk og engelsk udgave i tekstformat (txt) 3. Det anvendte spørgeskema, interviewguide, registreringsskema mv. 4. Kodebogen inkl. beskrivelse af omkodede variable 5. Datafiler fra statistikprogrammerne SAS, STATA eller SPSS Send det hele til vores mailbox@sa.dk eller med post til: Rigsarkivet Islandsgade 10 5000 Odense C
FAQ Spørgsmål og svar om aflevering af forskningsdata Her kan du finde svar på de fleste spørgsmål om aflevering af forskningsdata til arkivering hos Rigsarkivet. Kan du ikke finde svaret på dit spørgsmål hér, er du velkommen til at skrive til os. Bemærk, at der gælder andre regler for aflevering af data fra den offentlige forvaltning i henhold til arkivloven. Ofte stillede spørgsmål: Q1: Hvilke typer forskningsdata modtager Rigsarkivet? A1: Rigsarkivet modtager mange forskellige typer forskningsdata. Data kan være indsamlet med et unikt formål for øje, eller det kan være offentlige eller private registre. Som udgangspunkt skal data dokumentere eller være grundlag for et forskningsprojekt af national relevans. En stor del af de modtagne data fra forskningsprojekter består af spørgeskemaundersøgelser fra det samfunds- og sundhedsvidenskabelige område. Data fra kliniske undersøgelser er ofte kombinationsundersøgelser, dvs. fx spørgeskemaundersøgelser kombineret med resultater fra kliniske undersøgelser eller registerdata. Data kan også komme fra kvalitative undersøgelser. Q2: Hvilke filformater skal jeg aflevere mine data i? A2: Der er en nærværende risiko for tab af digitale data på grund af forældelse af afhængige hardware- og softwaremiljøer. De godkendte formater til aflevering er udvalgt for at sikre tilgængeligheden af data via standardformater, som de fleste relevante programmer kan genkende og udveksle. Rigsarkivet modtager kun data i (et af) nedenstående formater: Format Datatype SAS (sas7bdat, sas7bcat) STATA (dta) SPSS (sav) En tabuleret datafil som foruden datamatricen kan indeholde variabelnavne, variabeltyper, variabel- og kodedefinitioner og brugerdefinerede nulværdier Hvis afleveringen har tilknyttede dokumenter (fx kvalitative data) anbefales det at søge vejledning hos Rigsarkivet inden aflevering. Som udgangspunkt anbefaler vi et af følgende formater: Format Dokumenttype Tekstformat (txt) Tekst TIFF version 6, baseline (tif) Billeder MP3 (mp3) Komprimeret lyd MPEG-4 ACC (mpg) Video Q3: Kan jeg arkivere følsomme persondata (CPR-numre o.l.) hos Rigsarkivet? A3: JA, Rigsarkivet har Datatilsynets tilladelse til at arkivere personhenførbare data. Du bør dog kontakte os inden du afleverer, så vi kan sikre, at aflevering og arkivering sker på en forsvarlig måde. Q4: Kan jeg arkivere databaser hos Rigsarkivet?
A4: Vi kan godt modtage databaser med forskningsdata, hvis data er konverteret til et af de godkendte afleveringsformater (SAS, STATA eller SPSS). Det kræver dog, at følgende dokumentation af databasen medsendes: Hvis databasen er hierarkisk, skal du medsende et komplet diagram (træstruktur), som viser den hierarkiske opbygning af databasen Hvis databasen er hierarkisk, skal du dokumentere på variabelniveau, hvorfor nogle måleenheder i én tabel har flere hændelser Hvis databasen er relationel, skal du medsende et komplet diagram (entity-relationship diagram), som viser relationerne mellem tabellerne Q5: Hvem kan få adgang til mine afleverede data? Og fra hvornår kan de få adgang? A5: DU BESTEMMER, hvor frit tilgængelige for andre data skal være og hvornår data i givet fald kan frigives. Begge dele anfører du på afleveringsskemaet, som du afleverer sammen med data. Q6: Hvad koster det at arkivere data hos Rigsarkivet? A6: INTET, arkivering af forskningsdata er gratis. Q7: Hvornår i projektforløbet bør jeg aflevere mine data til arkivering? A7: Vi anbefaler, at datasættet afleveres på det tidspunkt, hvor det ligger klar til analyse hos forskeren. I forbindelse med aflevering aftales det, hvornår andre forskere og studerende kan gives adgang til at anvende data til nye analyser. Q8: Hvordan dokumenterer jeg bedst mine data? A8: Du kan læse vores vejledning til datadokumentation på Rigsarkivets hjemmeside, www.sa.dk. Q9: Hvem er ansvarlig for at data bliver afleveret til Rigsarkivet? A9: Forskeren, der er ansvarlig over for forskningsrådet og/eller Datatilsynet og/eller initiativtager til et studie er ansvarlig for aflevering til Rigsarkivet. Opgaven kan evt. overgives til en kollega. Rigsarkivet bør vide besked med, hvem der ansvarlig for aflevering til Rigsarkivet i persongruppen omkring et forskningsprojekt. Q10: Hvorfor og hvordan laver man en datamanagementplan? A10: Du kan finde svarene i Rigsarkivets vejledning i datamangementplaner på www.sa.dk.
Alt om datadokumentation For at kunne arbejde effektivt med analyse af data fra f.eks. spørgeskemaer er det vigtigt, at dokumentationen af data er opbygget systematisk og omhyggeligt. I det følgende kan du se Rigsarkivets anbefalinger til opbygning og kontrol af datadokumentation. Der skelnes mellem fire dokumentationsniveauer: 1. Studieniveau 2. Tabelniveau 3. Variabelniveau 4. Kategoriniveau 1. Dokumentation på studieniveau Dokumentation på studieniveau er informationer om et datamateriales tilblivelse: navnet på den ansvarlige forsker/organisation, tidspunkt for dataindsamling, antal respondenter etc. Vores afleveringsskema afspejler de direkte krav til studiedokumentation ved aflevering, se Rigsarkivets hjemmeside www.sa.dk. 2. Dokumentation på tabelniveau Alle indsamlede input (rådata) samles som regel i en tabel vha. et statistikprogram. Denne tabel udgør et analysedatasæt, som skal være så få som mulige for at forenkle analysearbejdet. Hvis man kan nøjes med et datasæt per enhed vil det være det bedste. Altså et datasæt for fx patienter, ét for lægepraksis, ét for konsultationer, ét for ydelser osv. Der er mange muligheder. Men hvilke analysedatasæt man vil have skal som sagt først og fremmest være styret af hvordan data skal analyseres. Det handler om operationalisering. Det er et spørgsmål om hvilke data, hvor mange data og på hvilken form. De logiske sammenhænge mellem tabellerne skal dokumenteres for at kunne genbruge data til analyse. De logiske sammenhænge mellem tabeller kaldes også strukturelle metadata, og skal som minimum indeholde en beskrivelse af tabellernes indhold og nøglevariable (anvendes til at sammenflette tabeller). I de fleste sammenhænge er det tilstrækkelig information for at kunne genbruge data. Overordnede emner som fx tabeldesign/struktur, algoritmer til databehandling etc. kan også udgøre strukturelle metadata. Vores afleveringsskema afspejler de direkte krav til tabeldokumentation ved aflevering.
3. Dokumentation på variabelniveau Dokumentation på variabelniveau er en systematisk beskrivelse af de enkelte variable i analysedatasættet og inkluderer følgende metadata: Variabelnavn Variabellabels Der er ikke særlige krav til variabelnavne, men vi anbefaler konsistente variabelnavne, som forholder sig til pladsbegrænsninger i programpakkerne og som kan forstås umiddelbart af flest mulige brugere Variabellabels skal konkretisere og definere variablens indhold og kan fx være en beskrivelse af enheder, baggrundsvariable, genererede variable, spørgsmålstekst eller et register hvorfra variablen stammer Variablens tekniske facetter, dvs. datatype, længde, decimalpositioner etc. udgør også dokumentation på variabelniveau. De tekniske facetter er afhængige af hardware- og softwaremiljøer og skal som regel håndteres af en datamanager. 4. Dokumentation på kategoriniveau Dokumentation på kategoriniveau er en beskrivelse af anvendte koder i kategoriske variable. Der er typisk tale om svarkategorier for de enkelte spørgsmål i et spørgeskema. 4.1 Betydende koder Der bør være en tilhørende kategoritekst til alle kodeværdier. Statistikprogrammerne understøtter indlejring af kodelister med tilhørende kategoritekst. Kategoriteksten kan fx være svarkategorierne fra spørge- /registreringsskemaet eller en beskrivelse af koden i en klassifikation. Her er et eksempel: Kode Kategoritekst 1 Folkeskole 2 Studentereksamen, HF eller lignende 3 Ved ikke 4.2 Brugerdefinerede nulværdier Der kan være mange grunde til at en variabel har en manglende værdi (null). Manglende observationer pga. bortfald, dvs. observationer der burde have været med i stikprøven, er ikke det samme som manglende værdier i en tabel. Hvis der ikke findes data på en enhed bør den ikke indgå i analysedatasættet med mindre årsagen til bortfaldet er kendt. I så fald bør den manglende værdi tildeles en kode, som via en kategoritekst forklarer årsagen til den manglende værdi. Dette kaldes en brugerdefineret nulværdi. Idet årsagen til den manglende værdi er kendt er der tale om en korrekt manglende værdi. Hvis der fx forekommer variabelfiltre i et spørgeskema skal der søges efter inkonsekvent udfyldelse af skemaet. Hvis der er et variabelfilter tilstede skal visse spørgsmål ikke bevares af alle enheder (respondenter). Der er med andre ord tale om en korrekt manglende værdi, som derfor omkodes til et heltal
med kategoritekst, som i dette tilfælde benævnes Irrelevant. Et andet klassisk eksempel på en korrekt manglende værdi forekommer, hvis en enhed (respondent) har valgt ikke at svare på et spørgsmål i spørgeskemaet. I dette tilfældet omkodes til et nyt heltal med tilhørende kategoritekst, som nu er Uoplyst. Det er vigtigt at skelne mellem de forskellige former for manglende værdi. I modsat fald kan tabellerne siden hen være svære at tolke. Statistikprogrammerne har indbyggede metoder til at håndtere brugerdefinerede nulværdier. Den optimale løsning findes i de programmer, hvor der anvendes specialkoder, således det er teknisk umuligt at forveksle koder for nulværdier med betydende koder. Desværre anvender Rigsarkivet ikke specialværdier, fordi de er afhængige af statistikprogrammerne. I stedet anvendes alle heltal (også negative), så længde koden udgør en brugerdefineret nulværdi i statistikprogrammet. Det bør understreges, at brugerdefinerede nulværdier kun må indgå i kategoriske variable, da måleniveauet for fx kontinuerte variable ødelægges ved brug af brugerdefinerede nulværdier. Kun for katagoriske variable bør der altid skelnes mellem to forskellige former for manglende værdier: Uoplyst og Irrelevant. Rigsarkivet anvender konsekvent disse brugerdefinerede nulværdier: Koden 9: Uoplyst Koden 10: Irrelevant (9+1) Længden på koden afhænger af den maksimale længde på den betydende kode. Hvis den maksimale længde på den betydende kode fx er tre er 999 Uoplyst og 1000 Irrelevant (999+1). Hvis fx koden 9 eller 10 indgår som en betydende kode skal længden af nulværdien forøges med 1, således 99 og 100 angiver nulværdierne. Følgende eksempel viser en kodeliste, hvor der udover de betydende koder indgår begge typer af manglende værdier: Kode Kategoritekst 1 Folkeskole 2 Studentereksamen, HF eller lignende 3 Ved ikke 9 Uoplyst 10 Irrelevant