Tal i tiden. percentil oparbejdning kodebog studiebes. median middelværdi gennemsnit outlier va 40 år med genbrug af forskningsdata



Relaterede dokumenter
Open Science, open access, open data - Rigsarkivet som aktør indenfor e-science

DDA 2012 begivenheder, projekter og drift. Årsberetning for DDA 2012

Sådan afleverer du forskningsdata til arkivering

Rigsarkivets rolle for forskningsdata

Politik for adgang til de digitale samlinger

Rigsarkivet. DDA Sundhed. Årsplan 2015

e-infrastruktur for registerforskning

Open access. Open Access på Aarhus Universitet. Gør dine publikationer mere synlige og tilgængelige på nettet

Indhold. Forord 9. kapitel 1 Hvornår er et fænomen et socialt fænomen? 11. kapitel 2 Sociologien og den kvantitative metode 20

Registerforskning

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER

Skema til høringssvar anmeldelse af forskningsdata

Å rsrapport Rigsarkivet som leverandør af data, service og vejledning til den sundheds - og samfundsvidenskabelige forskning

Forsknings- og Innovationsstyrelsen Bredgade København K Att.: Grete M. Kladakis D Høring over Open Access

Nordicom-Information 35 (2013) 3-4

Skema til høringssvar anmeldelse af forskningsdata

DeIC strategi

BESTEMMELSE FOR FAK FORSKNINGSPUBLIKATION. Revideret maj 2016.

Bilag 1: Projektbeskrivelse

Danske lærebøger på universiteterne

Klargøring af data til aflevering til DDA. Instruks

Den danske befolknings deltagelse i medicinske forsøg og lægevidenskabelig forskning

Center for Interventionsforskning. Formål og vision

Årsrapport 2013 Statens Arkiver som leverandør af data, service og vejledning til den sundheds- og samfundsvidenskabelige forskning

EVALUERING AF BOLIGSOCIALE AKTIVITETER

Videnskabsteoretiske dimensioner

Metoder og struktur ved skriftligt arbejde i idræt.

Visionen #2: Integrerede metadata

De præmisser vi arbejdede under, har haft betydning for det endelige valg af format.

Museum Lolland-Falster

Vejledning. Tværinstitutionelt samarbejde mellem regioner og universiteter vedrørende sundhedsdata. September 2018

Politik for opbevaring af primære materialer og data

Vidensmedier på nettet

Rigsarkivet. DDA Sundhed. Årsplan 2017

CENTER FOR KLINISKE RETNINGSLINJER

KORAs mission er at fremme kvalitetsudvikling, bedre ressourceanvendelse og styring i den offentlige sektor.

Grundlæggende metode og videnskabsteori. 5. september 2011

Inspirationsmateriale fra anden type af organisation/hospital. Metodekatalog til vidensproduktion

DDA 2011 begivenheder, projekter og drift Årsberetning for DDA 2011

Statsbibliotekets. Politik for digital bevaring

Nationalmuseets arktiske og nordatlantiske strategi for perioden

Aktiviteter og resultater

Studenterportalen. Registrering og upload af bacheloropgaver og andre afgangsprojekter. Professionshøjskolen Metropol, marts 2011

Accelerace og Green Tech Center kommer nu med et unikt tilbud om udvikling af din virksomhed Green Scale Up

Statskundskab. Studieleder: Lektor, Ph.D. Uffe Jakobsen

Vidensbegreber vidensproduktion dokumentation, der er målrettet mod at frembringer viden

Vejledning om videregivelse. af personoplysninger til brug for forskning og statistik

Artikler

Vejledning til udfyldelse af anmeldelsesskema til Datatilsynet

VEJLEDNING I ANSØGNING

Education at a Glance 2017 Opsummering af OECD s Education at a Glance 2017 i et dansk perspektiv. September 2017

10 Vigtigste SEO Ranking Faktorer

Konkurrencer NONSTOP. Motivation & problemfelt

STRATEGI #meretilflere

Afdeling: Sundhedssamarbejde og Kvalitet Udarbejdet af: Journal nr.: 15/ Dato: Telefon:

Relevans, faglig kontekst og målgruppe

DeIC strategi

Politisk afkobling: Danskerne har indsigt, men mangler indflydelse

Udfordringer og muligheder for at styrke forskningen i kvalitet og patientsikkerhed

DDA Sundhed ÅRSBERETNING

Hjerteforeningens nye bevillingsstruktur

Retningslinjer for behandling af personoplysninger i. Viden til Vækst Detaljeret og konkret undersøgelse af Det Blå Nordjylland

Ensartethed i HS-pleje: nye retningslinjer for pleje af HS-patienter Manglen på viden

Etiske retningslinjer

Kombination af surveys og registre: Muligheder og begrænsninger. Leif Jensen Forskningsservice

Socialtilsyn Afrapportering af auditforløb

Projektbeskrivelse De etniske minoriteters valgdeltagelsen ved kommunalvalget 2009 Tidligere undersøgelser

Overordnet beskrivelse af projektet, herunder ændringer ifht oprindelig projektbeskrivelse

Center for Maritim Sundhed og Samfund Strategiplan

Strategi for arkivering af digitalt skabte arkivalier

Kommissorium for Referencegruppen for Bedre sundhed i generationer

30. april Brugerundersøgelse af Jobindsats.dk

Direktørens beretning 2015

Universelle dagtilbud gavner børns fremtid men kvaliteten skal være høj

Diskussion af de kommunale arkivaliers tilgængelighed

Politikker for beskyttelse og behandling af personoplysninger

Hovedkonklusioner på spørgeskemaundersøgelse rettet mod danske journalister og politikere

Forebyggelse af hjertekarsygdomme

Mistanke om seksuelle overgreb mod børn i daginstitutioner

Larm Case Data Management Plan

Cykel Score når chips sætter gang i cyklisterne

Introduktion til Danmarks Statistiks Forskningsservice med fokus på datasikkerhed. Leif Jensen Forskningsservice

Bilag 6.1 SYDDANSK UNIVERSITET / ONLINE STRATEGI. Vision: Scenarier

KRÆFTENS BEKÆMPELSE ET OVERBLIK 5MIN

Vedtægter for styregruppen for den nationale fødselskohorte Bedre Sundhed for Mor og Barn.

DDA Sundhed ÅRSBERETNING

Visioner og strategier for forskning i klinisk sygepleje i Hjertecentret mod 2020

Hvor bevæger HR sig hen?

CENTER FOR FOREBYGGELSE I PRAKSIS

ÅBENT HUS ANALYSE FORÅRET 2015 ANALYSENS INDHOLD

Bilag 1: Begrundelse for ansøgning samt beløb

Horsens Kunstmuseum er et statsanerkendt kunstmuseum, der er forpligtiget til gennem indsamling, registrering, bevaring, forskning og formidling

Sundheds- og Ældreudvalget SUU Alm.del endeligt svar på spørgsmål 562 Offentligt

Analyse af PISA data fra 2006.

Notat om frivillighed til 17 stk. 4 udvalget for borgerinddragelse, nærdemokrati og frivillighed.

Styregruppen*for*National*Data*Management*

Rapport med anbefalinger. Sådan sikrer vi, at mennesker med slidgigt og leddegigt får optimal pleje i hele Europa: EUMUSC.

At lave dit eget spørgeskema

Fremtidens forskning og forskningsbiblioteket Resumé

Projekt Unfair. Børn Unge & Sorg. Susanne Svane 1

Transkript:

variabel database svarkategorier frekvens respondenter population survey stikprøve spørgsmål selektionmetode forskningsdes statistik formidling nøglefiler personhenfør sikkerhed langtidsbevaring genbrug sekun primærforsker interview spørgeskema inte metoderapport datadokumentation empiri forskningsinfrastruktur samfundsvidenska DOI DDI-L CESSDA forskningsrådene evid arkiveringspolitik tværsnitsstudier kohorte studier kvantitative studier epidemiologi lo cpr præferencer meningsmålinger kliniske holdninger bias donor registerforskning va omnibus forskerservice univers uoplyste k Tal i tiden percentil oparbejdning kodebog studiebes søgbarhed Dansk emnekategorier Data Arkiv krydstabel reg median middelværdi gennemsnit outlier va 40 år med genbrug af forskningsdata folketælliger standardisering repræsentati anonymitet bortfald ved ikke panelundersø triangulering metodedesign regressionsan

Tal i tiden Dansk Data Arkiv 40 år med genbrug af forskningsdata

Indhold Forord ved rigsarkivar Asbjørn Hellum 5 Tal i tiden DDA s 40 år med genbrug af survey-undersøgelser 7 DDA er Open Access 11 Serier hos DDA 13 DDA Sundhed Data om befolkningens sundhed og sygdom 15 DDI-Lifecycle Ny standard for datadokumentation 17 CESSDA ERIC Ny europæisk forskningsinfrastruktur 21 100% for demokratisk deling af datasæt Interview med professor Mads Meier Jæger 23 Hvad er Deres indstilling til negre? Spørgsmål og svar gennem 40 år 27 De ville brænde det! Interview med professor Tina Kold Jensen 29 Dansk Demografisk Database KildeIndtastningsProjektet 31 Service for forskning I dag, i morgen, i fremtiden 35 Tal i tiden 40 år med genbrug af forskningsdata 3

4 Tal i tiden 40 år med genbrug af forskningsdata

Forord Af Rigsarkivar Asbjørn Hellum, Statens Arkiver I Statens Arkiver bevarer og formidler vi autentisk dokumentation til en virkelig historie. Det er vores mission et løfte til omverden, som er begrundet i arkivernes samfundsmæssige betydning. For arkiver spiller en meget central rolle i det moderne retssamfund. De er vigtige led i demokratier, hvor historien skal være med, når der bliver truffet beslutninger med konsekvenser for det samfund, vi har og vil skabe. Med aktuelle survey-data for den nyeste tid kan vi i Statens Arkiver endda vise, hvordan befolkningen og politikerne har taget i mod de beslutninger, der er blevet taget. Det er Dansk Data Arkiv, der varetager indsamlingen, bevaringen og tilgængeliggørelsen af strukturerede forskningsdata, og samlingerne indeholder data fra samfunds- og sundhedsvidenskabelige forskningsprojekter fra slutningen af 1950 erne og frem til i dag. Disse data rummer et stort forskningspotentiale, ikke alene som forskningsdokumentation, men i endnu højere grad som ressource for nye projekter i forskning og uddannelse. Hermed tilbyder Statens Arkiver et væsentligt bidrag til dansk og international forskningsinfrastruktur. Vi er stolte af i 40 år at have leveret en service til forskning på et internationalt niveau inden for arkivets virksomhedsfelt med strukturerede forskningsdata. I årene, der kommer, vil Statens Arkiver fastholde den faglige position ved at forbedre og udvikle vores service og tilbud til forskere og andre interesserede blandt andet ved at stille endnu større dele af Statens Arkivers samling til rådighed for statistisk analyse i forskning og uddannelse. Med dette jubilæumsskrift Tal i tiden 40 år med genbrug af forskningsdata ønsker vi i Statens Arkiver at tegne et billede af arbejdet med strukturerede forskningsdata nu og fremover. Tal i tiden 40 år med genbrug af forskningsdata 5

6 Tal i tiden 40 år med genbrug af forskningsdata

Tal i tiden DDA s 40 år med genbrug af surveyundersøgelser Tal, tal, tal. DDA har i 40 år indsamlet, oparbejdet og formidlet kvantitative forskningsdata til brug for nye forsknings- og uddannelsesformål. Data er tal, der beskriver tiden. Tal i tiden. I DDA s unge år kom data primært fra samfundsvidenskab, men senere i lige så høj grad fra sundhedsvidenskab. For DDA som for alle dataarkiver er genbrug af datamaterialerne målet for alle aktiviteter. Når et samfunds- eller sundhedsvidenskabeligt forskningsprojekt indsamler strukturerede empiriske data, skabes der en ressource ikke alene for projektet selv, men også for andre fremtidige projekter i forskning og uddannelse. Det er muligheden for genbrug af forskningsdata, der er dataarkivets raison d être. Dataarkivet indhenter, oparbejder og formidler forskningsdata, så genbrug kan finde sted. Der kan peges på to overordnede grunde til at tilbyde en service for bevaring og formidling af strukturerede forskningsdata fra samfunds- og sundhedsvidenskab. I. Datamaterialerne spejler tiden, de er indsamlet i. Derfor er datamaterialerne relevante for belysning og besvarelse af samtidshistoriske og aktuelle problemstillinger. De intellektuelle og økonomiske ressourcer, der er brugt til at indsamle data, kan derfor udnyttes bedre. II. Datamaterialerne dokumenterer forskning. Derfor fungerer datamaterialerne som bevis for et projekts gennemførelse og resultater over for videnskabelige organer, finansieringskilder, respondenter, interesserede/berørte parter, offentligheden generelt etc. og også som adgang til at efterprøve forskningsresultater. Ovennævnte grunde til at tilbyde indhentning, bevaring og formidling af undersøgelsesdata fra samfunds- og sundhedsvidenskab er gyldige både for samfundet og for den enkelte forsker. Med den overordnede argumentation på plads skal mulighederne for genbrug gives flere detaljer. Genbrug af forskningsdata og -dokumentation Muligheden for at bruge eksisterende data til ny forskning og i nye undersøgelser/ betegnes sekundæranalyse. Tal i tiden 40 år med genbrug af forskningsdata 7

Sekundæranalyse er en vigtig forskningspraksis, fordi den primære analyse af data altid begrænser sig til et udsnit af det indsamlede materiale. Med sekundæranalyse sikres en mere bredspektret anvendelse af datamaterialet, der skaber ny indsigt og nye resultater inden for forskning og uddannelse. Sekundæranalysen kan fastholde det oprindelige formål med dataindsamlingen, eller den kan have et andet formål, der dog skal være foreneligt med det oprindelige formål. Der kan anvendes eksisterende data fra en enkelt undersøgelse eller foretages kombination af data fra flere undersøgelser. Man kan sige, at det er i sekundæranalyse, hvor der foretages en kombination af flere undersøgelser, at dataarkivets service beviser sit værd. Sekundæranalyse kan betegnes som den traditionelle måde, dataarkivets ressourcer anvendes på. Det er dog væsentligt for genbrug af arkiveret materiale at medtage genbrug af datadokumentation, det vil sige af al den beskrivelse af data, der findes sammen med den numeriske datafil, men som faktisk kan anvendes alene. I videnskabsteoretiske termer kan man her tale om projekter med epistemiologisk perspektiv hvordan sker erkendelse?, idet fokus er på sprog og form. Fem former for genbrug af datamaterialer Historisk indsigt: Sekundæranalysen anvendes til at se tilbage i tiden, fordi eksisterende data tilbyder beskrivelse af noget fortidigt. Når det forskningsmæssigt er interessant at se tilbage i data og dokumentation, er det, fordi nye hændelser, udviklinger, problemstillinger eller andet danner ny optik på fortiden, som i sig selv tilfører nye dimensioner til data og dokumentation. Forståelse af forandring: Ved analyse af eksisterende data og dokumentation kan udviklingstendenser eller trends følges i tid både kvantitativt og kvalitativt. Her handler det om, at forståelse af fænomener i relation til historiske, samfundsvidenskabelige eller sundhedsvidenskabelige problemstillinger ofte forudsætter, at det er muligt at spore forandring over tid. Komparativ belysning af problemstillinger: Systematisk sammenligning af problemstillinger berørt af forskellige eksisterende datamaterialer fx for forskellige geografiske områder eller befolkningsgrupper. At anvende datamaterialer, der ikke som udgangspunkt var tænkt komparative, DDA som del af den internationale dataarkivbevægelse fordrer naturligvis tilpasning af sammenligningens formål. Forbedring af videnbasen gennem gentagelse og udvidelse: Sekundæranalyse og genbrug af datadokumentation kan medvirke til at opbygge bredere videngrundlag både i indhold og i tid til at undersøge teori- eller empiribaserede antagelser om sociale eller epidemiologiske sammenhænge. Udvidelse eller kvalificering af teori: Når et større empirisk data- og/eller dokumentationsgrundlag kan analyseres, medvirker det til, at feltet, hvor en teori kan bidrage med indsigt eller forståelse, kan udvides. Sekundæranalyse kan tillige give empirisk belæg for, at en teori har gyldighed. Om brugeren forskeren eller den studerende kan få, finde og anvende datamaterialer, der er relevante for hans/ hendes problemstilling, forudsætter formidling. Dataarkivbevægelsen har sit udspring i samfundsvidenskabelige kredse ved universiteter og forskningscentre i USA i de tidlige 1960 ere og spredte sig hurtigt til Europa. Dataarkiver blev etableret som ressourcecentre for forskere, studerende, analytikere og andre, der herved fik muligheden for at anvende maskinlæsbare data til forskning, sammenlignende analyse, opfølgende undersøgelser, forskningstræning, undervisning mv. Der findes i dag nationale, regionale og/eller emneafgrænsede dataarkiver i mange lande. Større europæiske og internationale arkivsammenslutninger har konstitueret sig og der findes også flere organisationer for enkeltpersoner med datainteresse. 8 Tal i tiden 40 år med genbrug af forskningsdata

Formidling af data og dokumentation Forskeren (primærundersøgeren), der arkiverer data i States Arkiver/DDA, kan til enhver tid få udleveret data eksempelvis i tilfælde af at ville anvende materialet på ny eller ønske om at verificere oprindelige analyseresultater. Andre forskere og studerende kan få udleveret datamaterialet i henhold til de adgangsrestriktioner, primærundersøgeren har valgt, og som DDA administrerer. For primærundersøgeren sikrer DDA s formidling, at han/hun uden besvær kan tilbyde adgang til data for andre forskere og studerende. Det skal understreges, at for datamaterialer, der indeholder følsomme personoplysninger, skal Datatilsynet høres. Desuden overholdes rammer, der fastlægges af arkivloven, naturligvis også. En helt central opgave for DDA er, at der sikres lettest mulig adgang til de arkiverede data, så datas potentiale udnyttes optimalt i forskning og uddannelse. DDA lancerer foråret 2013 en ny søgeservice, der bygger på data og dokumentation oparbejdet til formatet DDI-Lifecycle. For brugeren, der søger data, betyder det, at det er muligt at søge på og kombinere et væld af måder. Brugerne kan ved bestilling få udleveret hele undersøgelser, men har også mulighed for at få udleveret udvalgte spørgsmål fra forskellige (hele) undersøgelser for fx at bevæge sig på tværs af flere undersøgelser med udgangspunkt i én specifik spørgsmålsformulering. Som noget helt nyskabende tilbyder DDA unik identifikation i form af DOI (Digital Object Identifier) til alle dokumentationselementer. Brugeren kan indsætte referencer i sine publikationer og hermed tilbyde læserne at komme tættere på sit forskningsarbejde. En barriere for at anvende datamaterialer til statistisk analyse er, at brugeren skal have software til statistisk analyse installeret på sin pc. Med programmet Nesstar Webview tilbydes brugerne et online analyseværktøj, der giver adgang til at arbejde med en stor del af materialerne i arkivets samling uden installation af software. Al formidling af datamaterialer afhænger imidlertid af datamaterialets kvalitet jo bedre datakvalitet, jo lettere, bedre og mere detaljeret formidling af og udnyttelse af analysepotentialet. Med andre ord: Oprindeligt har dataarkiver udviklet sig som service for surveydata. Det vil sige for data med en bestemt, veldefineret struktur. Omdrejningspunktet for løsning af dataarkivets opgaver har derfor været at tilvejebringe, producere og formidle beskrivelse af data, der populært sagt står i tal, i rækker og søjler. Netop datas veldefinerede struktur betyder, at dataarkiverne har kunnet agere first movers i forhold til tilgængeliggørelse af meget detaljeret søgefunktionalitet og identifikation af alle dele af data og datadokumentation på internettet. Når DDA kan tilbyde forskningsservice for sundhedsvidenskab på lige fod med servicen for samfundsvidenskab, skyldes det, at DDA Sundhed servicerer den niche inden for sundhedsvidenskab, der anvender data med de samme egenskaber som de samfundsvidenskabelige survey-data, arkivet i første omgang udviklede sin service for. Men også andre data har strukturelle egenskaber, der kan bringes i spil i forhold til DDA s samling. Allermest oplagt er registerdata. Bedre tal i tiden til gavn for forskning og uddannelse og i bredere perspektiv til støtte for valg og udvikling af vores samfund. Perspektiver for genbrug og formidling Statens Arkiver/DDA ønsker naturligvis at blive endnu bedre service for forskning. En af vejene hertil er at blive aktiv spiller i danske og internationale initiativer om Open Access ikke alene til publikationer, men også til de data og den dokumentation, de publicerede forskningsresultater bygger på. Hermed ønsker DDA at tilbyde forskere og projekter dataformidlingsservice tillige med bevaring af data. For projekter, der selvstændigt opretter en hjemmeside, betyder det, at de skal pege Datas strukturelle egenskaber Tal i tiden 40 år med genbrug af forskningsdata 9

ind i DDA s samling og ved links til data og dokumentation kunne give ekstern adgang. Men formidlingsservice skal ikke være en enkeltstående ressource. Datamaterialer skal kobles til andre former for forskningsprodukter (typisk publikationer) eksempelvis i form af emnebaserede websteder, der tilbyder mange forskellige ressourcer vedr. data, publikationer, netværk, in-ternationale ressourcer, lovgivning etc. Der arbejdes løbende for, at datamaterialer udgivet af DDA bliver tilgængelige i andre udbyderes portaler/søgeservices. Hertil kommer tilbud om et søge-api, så eksterne interessenter kan udvikle applikationer til at tilgå data i arkivet. Den løbende udvikling af den formidlingsservice Statens Arkiver leverer fra DDA fordrer naturligvis, at DDA indgår aktivt i danske og internationale samfunds- og sundhedsvidenskabelige forskningsinfrastrukturer. På den måde kan vi i Danmark og internationalt være med til at sikre, at tal i tiden indhentes, bevares og genbruges også de næste 40 år. 10 Tal i tiden 40 år med genbrug af forskningsdata

DDA er Open Access I forskningsverdenen har Open Access gennem efterhånden mange år været et både centralt og omdiskuteret begreb. Siden Berlindeklarationen1 for alvor satte Open Access på den videnskabelige dagsorden i 2003, har emnet ikke været til at komme uden om i diskussionen af, hvorledes fremtidens forskningsinfrastruktur skal skrues sammen. Meget af diskussionen handler om, hvorvidt videnskabelige artikler skal være frit tilgængelige, således at den nyeste viden på et område potentielt kan blive alle til del. Forskningsrådene i Danmark pålægger nu de forskere, der modtager midler fra dem, at de fagfællebedømte videnskabelige artikler, der måtte komme ud af den støttede forskning, skal stilles til rådighed via Open Access, hvis altså tidsskriftet tillader det. Skønt dette afsluttende forbehold er væsentligt, er der ingen tvivl om, at Open Access er kommet for at blive og vil blive en hjørnesten i fremtidens forskningsinfrastruktur. Størst mulig åbenhed har længe været Statens Arkivers politik, naturligvis under skyldig hensyntagen til lovgivningen. Tilsvarende med Open Access i forhold til forskningsdata. Open Access den frie adgang til viden er og bør være andet og mere end blot adgang til videnskabelige artikler. Ligeså væsentligt, som at forskernes resultater og konklusioner offentliggøres med færrest mulige restriktioner, er det, at de data, der ligger til grund for disse konklusioner, stilles til rådighed for andre forskere. For det første er det et af forskningens grundprincipper, at resultater skal kunne efterprøves. At forskningsdata bevares og stilles til rådighed er en forudsætning for, at dette princip kan efterleves. For det andet repræsenterer de indsamlede forskningsdata i sig selv en væsentlig værdi, som sjældent bliver udnyttet fuldt ud af primærforskeren. Når primærforskeren er færdig med sine analyser, er der fortsat megen værdifuld information at trække ud af data, hvilket er til gavn for forskere og ikke mindst studerende, der jo ikke har ressourcerne til at foretage egne dataindsamlinger. 1. Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities (http://oa.mpg.de/lang/en-uk/berlin-prozess/berliner-erklarung/) Tal i tiden 40 år med genbrug af forskningsdata 11

Open Access hos DDA For Statens Arkiver/DDA har Open Access i form af fri adgang til forskningsdata altid været en helt central del af vores eksistensberettigelse. Vi tilbyder forskere og studerende gratis adgang til data. Forskningsrådene har da også gennem mange år pålagt de forskere, som modtager bevillinger, at eventuelt indsamlet forskningsdata bliver arkiveret hos Statens Arkiver/DDA. I begrebet Open Access ligger dog implicit, at den frie adgang kan ske online, og på det punkt har det knebet en smule indtil nu. Hidtil har man skulle sende os en ansøgning for at få adgang til data, hvilket selvfølgelig har været en barriere, skønt barrieren har været overkommelig. Det råder vi bod på og giver nu adgang til online at analysere på størstedelen af de forskningsdata, vi har i vores varetægt. På langt de fleste af de over 2500 undersøgelser hos DDA er der ingen form for adgangsrestriktioner, så længe de anvendes til statistisk/videnskabelig brug. Det tager Statens Arkiver/DDA konsekvensen af og vil lægge samtlige oparbejdede undersøgelser uden adgangsrestriktioner på vores hjemmeside til online analyse. Således vil det blive muligt at analysere på over 2000 undersøgelser online; undersøgelser, der dækker en periode på over 50 år, fra 1960erne til i dag. I første omgang har DDA valgt at lægge omkring 100 udvalgte undersøgelser til online analyse. Det er vores håb, at dette Open Access 3000 2500 Samfundsvidenskab tiltag vil åbne døren til vores data for nye brugergrupper, som måske ikke tidligere har set kvantitativ analyse som en mulighed for dem, eksempelvis som en del af undervisningen på gymnasierne. Med online analyseredskabet Nesstar er kvantitativ analyse nemt at gå til uden indgående kendskab og adgang til SAS, STATA, SPSS eller andre analyseprogrammer. Sundhedsvidenskab 2000 1500 1000 Udviklingen i DDA s samfunds- og sundhedsvidenskabelige samling (antal studier) 500 0 76 78 80 82 84 86 88 90 92 94 96 98 00 02 04 06 08 10 12 12 Tal i tiden 40 år med genbrug af forskningsdata

Serier hos DDA Af de over 2500 studier, som DDA stiller til rådighed, er omkring halvdelen en del af en serie. Det vil sige, at de på den ene eller anden måde relaterer sig til og/eller kan kobles sammen med andre undersøgelser. Derved forøges datamaterialets analytiske potentiale betydeligt. Eksempelvis kan man følge en udvikling over tid, eller man kan kombinere forskellige datakilder til at belyse et emne. En sådan triangulering øger analysens troværdighed betragteligt. Betegnelsen serier dækker her over en række forskellige måder, hvorpå studierne kan være beslægtede: Kohortestudier Kohorteundersøgelser er især udbredt inden for sundhedsvidenskaben, nærmere bestemt epidemiologien, hvor man følger en veldefineret gruppe personer (en kohor- te) over en længere periode. Ved hjælp af gentagne undersøgelser, registerudtræk, surveys mv. kan man følge disse personers livsbane, hvad angår sygdom og en lang række andre forhold. Eksempel hos DDA: Den Danske Sygeplejerskekohorte Panelstudier At anvende et panel en fast gruppe af respondenter i surveyundersøgelser, giver den fordel, at man kan identificere forandringer i holdninger mv. på individniveau over tid. Eksempelvis kan man følge vandringer i partitilknytning: Hvor forsvinder parti X s vælgere hen? Eksempel hos DDA: Den danske værdiundersøgelse, panel 1990-2008 Gentagne tværsnitsstudier Tværsnitsundersøgelse er den mest anvendte surveymetode. At gentage øjebliksbilledet, som tværsnittet giver, gør det muligt at følge tendenser i folkeopinionen over tid. I modsætning til panelundersøgelser er respondenterne her ikke identiske fra gang til gang, men det er spørgsmålene/variablene til gengæld i videst mulig omfang. Eksempel hos DDA: Kulturvaneundersøgelsen 1964-2012 Kombinationsstudier Betegnelsen dækker over de mange forskningsprojekter, hvis data stammer fra mere end én kilde. Det være sig, hvor forskellige grupper med relation til hinanden eksempelvis børn og deres forældre Tal i tiden 40 år med genbrug af forskningsdata 13

har fungeret som respondenter, eller hvor forskellige dataindsamlingsmetoder eksempelvis surveys, kvalitative interviews og registerudtræk er blevet anvendt sideløbende for at afdække en problemstilling. Den enkelte undersøgelse er således en del af et samlet hele. Eksempel hos DDA: Evaluering af den politiske styringsmodel i de fem regioner 2006-2009 DDA s søgekatalog rummer alle disse serietyper, og vi har nu sat fokus på at synligøre dem i endnu højere grad. På www.dda.dk kan man således nu få et overblik over, hvilke undersøgelser hos DDA, der er en del af hvilke serier, ligesom det inden for den nærmeste fremtid vil være muligt at søge serier frem i vores søgekatalog. Derved vil seriernes store analysepotentiale kunne udnyttes endnu bedre. 14 Tal i tiden 40 år med genbrug af forskningsdata

DDA Sundhed data om befolkningens sundhed og sygdom DDA Sundhed har siden 2005 serviceret sundhedsvidenskabelige forskere og studerende ved at indsamle, dokumentere og levere data til forskning i befolkningens sundhed og sygdom. Enheden er etableret i Statens Arkiver/ DDA efter ønske og forarbejde fra de sundhedsvidenskabelige forsknings - og uddannelsesmiljøer i Danmark. DDA Sundhed skulle udvikles til at være en varig, national arkiveringsenhed for sundhedsvidenskabelige data. Placeringen af DDA Sundhed som en enhed i DDA blev valgt af flere grunde: De metoder, der anvendes til datadokumentation af samfundsvidenskabelige survey- og registerundersøgelser i DDA, kan med fordel anvendes på tilsvarende sundhedsvidenskabelige undersøgelser. De projekter, der indsamler data om befolkningens sundhed og sygdom, og som modtager bevilling fra DFF Sundhed og Sygdom, forudsættes at arkivere indsamlede forskningsdata hos Statens Arkiver/DDA. Kravet, som stilles af Datatilsynet, om sletning eller arkivering af personhenførbare forskningsdata i DDA/SA ved et projekts afslutning. DDA Sundhed har haft gavn af DDA s brand, når værdifulde datamaterialer skulle indhentes fra sundhedsvidenskabelige forskere, eksempelvis undersøgelserne: Fertilitet og erhverv i Danmark, 1979 Lev sundt for to, 1884-1988 Bedre Sundhed for Mor og Barn I-IV, 1997-2004 Stor nakkefold og graviditetsoutcome i Danmark, 2008 Screening for kræft i tyktarm og endetarm, 1885-2002 Dette er eksempler fra DDA Sundheds nuværende samling på 640 datamaterialer om befolkningens sundhed og sygdom, hvoraf 100 er afleveret med såkaldt nøglefil (cpr.nr. og p-ident.), som gør disse datamaterialer velegnet til survey- og registerforskning. Da samfundsvidenskabelige datamaterialer også indeholder variable, der kan anvendes i sundhedsvidenskabelige undersøgelser, kan sundhedsvidenskaben desuden nyde godt af DDA s samfundsvi- Tal i tiden 40 år med genbrug af forskningsdata 15

denskabelige forskningsdata til sekundære analyser. Over de senere år har forskningen vedrørende befolkningens sundhed og sygdom haft stor interesse i de såkaldte KRAMfaktorer (Kost, Rygning, Alkohol og Motion) og deres betydning for udvikling og/ eller forebyggelse af sygdom. Der findes en del samfundsvidenskabelige undersøgelser om befolkningens holdninger og adfærd på netop de faktorer. Kvaliteten ved at bruge data fra DDA er det store antal datamaterialer fra forskellige kilder samt standardiseringen af data efter DDA s oparbejdning. Disse egenskaber ved DDA s datamaterialer muliggør metaanalyse og komparative analyser med flere datamaterialer til at belyse en given problemstilling. Statens Arkiver har i 2007 besluttet sig for en intern arbejdsdeling, der gør det muligt for forskningsinstitutioner som NFA, SIF og SSI at aflevere sundhedsvidenskabelige forskningsdata til DDA Sundhed efter de samme principper, der gælder for aflevering af andre forskningsdata til DDA. Statens Arkiver/DDA stiller også de fysiske og driftsmæssige rammer til rådighed for DDA Sundhed, ligesom DDA s internationalt baserede know-how på områder som arkivering, datadokumentation, web-formidling og søgefaciliteter giver gode betingelser for DDA Sundheds virksomhed. Specielt når det gælder langtidsbevaring og datadokumentation efter internationale standarder, har DDA Sundhed opnået store fordele af placeringen i Dansk Data Arkiv. DDA Sundhed har bidraget til den systemudvikling i DDA, der nu har muliggjort en konvertering af data i OSIRIS til den nye internationale standard DDI-L. Den systemudvikling gør det muligt for sundhedsforskere og studerende at søge efter vaiable og spørgsmål for eksempel vedrørende befolkningens holdninger og adfærd til rygning, motion, kost, alkohol, søvn samt andre relevante emner for sundhedsforskningen. Med sin placering i Statens Arkiver har DDA Sundhed den rigtige platform til at være leverandør af relevante data fra sundhedsvidenskabelige spørgeskemaundersøgelser til fremtidens epidemiologisk survey- og registerforskning i verdensklasse. Vi vil i de kommende år fortsat bidrage til, at forskere og studerende kan åbne den skattekiste af data om befolkningens sundhed og sygdom, der er afleveret til arkivering og genanvendelse, samt at den bliver mere værdifuld ved, at flere datamaterialer bliver arkiveret. DDA Sundhed finansieres via en særskilt bevilling, der administreres af Forskningsstyrelsen. 16 Tal i tiden 40 år med genbrug af forskningsdata

DDI-Lifecycle Ny standard for datadokumentation DDI-Lifecycle (DDI-L)-standarden er en international standard for datadokumentation udviklet af DDI Alliance i samarbejde med europæiske, nordamerikanske og australske dataarkiver, statistikbureauer med flere. DDI-L er udviklet til at håndtere flere typer af strukturerede forskningsdata. Survey- og registerdata står centralt, men standarden søger også at række i andre retninger blandt andet i forhold til longitudinelle data (data med tidsdimension) og kvalitative data. DDI-Lifecycle er en XML-baseret standard med afsæt i internationale anerkendte standarder for metadatadefinition herunder ISO. DDI-L-standarden imødekommer dokumentationsbehov i forskning/datamanagement, databevaring, -formidling og -genbrug. Figuren viser DDI-elementer i et livscyklusforløb, der tager udgangspunkt i at følge datas bevægelse. For forskningsprojekter kan standarden dokumentere hele forskningsprocessen fra idé til operationalisering og analyse (datamanagement). For databevaring kan standarden dokumentere data fra alle processer i dataoparbejdning og -standardisering ved at tilføje versionering og identifikation af alle metadataelementer. For dataformidling muliggør DDI-Ldokumentation udgivelse af alle metadataelementer i dataportaler med diverse forskellige søgefunktionaliteter samtidig med, at det er muligt at udvikle applikationer, der gør brug af disse metadata. For dokumentationsbehov, der følger af datagenbrug, sikrer DDI-L-standarden unik reference af alle metadataelementer fra studieniveau til variabelniveau eksempelvis af bestemte spørgsmål/variable, svarkategorier og fordelinger. Traditionelt har datadokumentationsprocessen haft produktion af en kodebog som endemål med dataarkivet som producent og ansvarlig. DDI-L gør op med den arkivcentriske tilgang til datadokumentation. DDI-L-datadokumentation opbygges dynamisk som del af og i forsknings-, arkiverings- og datagenbrugsprocesser. DDI-L dækker hermed et moderne arkivs behov i forhold til dokumentation, bevaring og tilgængeliggørelse som service for brugere af strukturerede data til statistisk analyse. Tal i tiden 40 år med genbrug af forskningsdata 17

18 Tal i tiden 40 år med genbrug af forskningsdata

De første fordele med DDI-L i DDA DDI-L-dokumentation betyder nye muligheder for udvikling af Statens Arkivers og DDA s service. De første DDI-L-fordele, der høstes, er: 1. XML-baseret opbygning 2. Mulighed for referencer mellem doku mentationselementer 3. Understøttelse af sammenhænge mellem studier fx undersøgelsesserier 4. Versionering af dokumentationselementer Ad. 1) XML-baseret opbygning. DDI er baseret på XML-opmærkning. Det betyder, at data beskrives på en måde, der er ideel i forhold til udveksling af data mellem forskellige systemer over internettet. Ad. 2) Mulighed for referencer mellem dokumentationselementer. DDI-L-standarden er udviklet med henblik på genbrug af datadokumentationselementer, eksempelvis universer, koncepter 1, spørgsmål, kategorier, koder, variable mm. Elementer defineres et sted og refereres i øvrigt. Hermed minimeres risici for fejl i datadokumentationen. Ad. 3) Understøttelse af sammenhænge mellem studier. I kraft af brugen af referencer er det muligt at dokumentere sammenhænge mellem studier. Sammenhænge kan være i forhold til emne, formål, univers, koncept, spørgsmål, variabel, kategori mm. eksempelvis, hvor de samme spørgsmål og/eller svarkategorier er anvendt i flere undersøgelser. Ad. 4) Versionering. Ved at give betydende elementer i XML-dokumentet et versionsnr. sikres, at enhver ændring i data eller metadata kan dokumenteres. Det er især vigtigt, når datadokumentation opbygges løbende i forsknings-, arkiverings- og genbrugsprocessen (livscyklusperspektiv). Et eksempel herpå vil være, hvor en bruger opdager en uhensigtsmæssighed i et datasæt, og der produceres en nye version af datadokumentationen, der rummer brugerens kommentar. Mange andre fordele vil følge med endnu bedre udnyttelse af standarden eksempelvis for longitudinelle studier og kliniske databaser. DdiEditor i DDA og udenfor DdiEditor er et editeringsværktøj til produktion af DDI-L-dokumentation. Version 2.0 af DdiEditor er udviklet i DDA i 2012. DdiEditor er udviklet til intern anvendelse i Statens Arkiver, men også til ekstern anvendelse til datamanagementopgaver hos forskningsinstitutioner og hos data- og statistikproducenter. Som noget nyt i Statens Arkiver er Ddi- Editor et Open Source-projekt. Editoren udgives under en LGPL-licens på Google Code. DdiEditor tilstræbes platformuafhængig. Det er blandt andet sikret ved, at systemet skrives i programmeringssproget Java. DDA har udviklingssamarbejde med det svenske dataarkiv, SND, omkring præsentation af det oparbejdede produkt for brugerne i form af et stylesheet. Al udvikling i forhold til DdiEditor præsenteres løbende for interesserede både nationalt og internationalt. DDA som videnscenter for DDI-L i Danmark Med medlemskab af DDIAlliance er Statens Arkiver/DDA helt tæt på udviklingen af DDI-L-standarden. Eksempelvis foretager DDA review i forbindelse med udgivelse af nye versioner af DDI-L. Statens Arkiver ønsker på den baggrund at fungere som videnscenter for DDI-L i Danmark. DDA arbejder derfor løbende på vegne af Statens Arkiver for at udbrede kendskabet til DDI-L i samfunds- og sundhedsvidenskabelige forskningsmiljøer samt inden for kommerciel surveyproduktion. Heri ligger promovering af DDI-L, rådgivning og samarbejdsprojekter. P.t arbejder DDA sammen med Ulykkes Analyse Gruppen ved Odense Universitets 1. Et koncept anvendes som fællesbetegnelse/overskrift for en række spørgsmål/variable om samme emne. Tal i tiden 40 år med genbrug af forskningsdata 19

Hospital og Danmarks Statistik, Afdeling for Metode og Metadata. Overlæge, ph.d. Jens Lauritsen, Ulykkes Analyse Gruppen, har udviklet programmet Epidata til indsamling af data. Med rådgivning fra DDA er der udviklet software, så Epidata kan eksportere data i DDI-L-format og dermed dels udnytte fordelene ved DDI-L baseret tilgængeliggørelse, dels lette arbejdet i DDA i forbindelse med arkivering af data. Danmarks Statistik ønsker at øge tilgængeligheden af registrenes datadokumentation til gavn for brugerne. Implementering af DDI-L-standarden er valgt for at imødekomme udfordringen. For tiden er et pilotprojekt, der skal banen vejen for implementering af DDI-L i dataproduktionen og -tilgængeliggørelse, i gang. DDA bidrager her med viden, rådgivning og sparring. Danmarks Statistik og DDA står sammen for etablering af en arbejdsgruppe for brugere af og interesserede i DDI-L-standarden (DDI-L User Group) i Danmark. Første møde for gruppen afholdes i maj 2013. Nye services med DDI-L Med DDI-L-dokumentation følger mange nye muligheder for søgning, identifikation og reference for både danske og internationale brugere af Statens Arkiver/DDA s datasamling. Der er udviklet en indekseringsplatform baseret på DDI-L til tilgængeliggørelse af DDI-L materialer med et nyt studiebeskrivelsesformat i form af landing page annoteret op med Google-orienteret mikrodatabeskrivelse (Schema.org). Implementering af Indekseringsplatformen (DDI-L Repository) betyder, at brugerne tilbydes nye og forbedrede søgemuligheder. Interface til indekseringsplatformen lanceres april 2013. Vha. Indekseringsplatformen ovenpå DDI-L Repository tilbydes brugerne direkte adgang til metadataelementer på studieog variabel-/spørgsmålsniveau. Brugerne kan søge meget detaljeret i metadata samtidig med, at brugere og andre serviceudbydere kan udvikle applikationer eller genbruge metadata som forskningsressourcer i andre sammenhænge fx i andre dataportaler. Der er udviklet et nyt koncept for udgivelse af DDI-L-materiale i form af en Publiceringsplatform. Konceptet automatiserer og kvalitetssikrer udgivelse af materialer på internettet. Vi ønsker fremover at allokere flere ressourcer til udvikling af DdiEditor til et generisk produkt, som eksterne aktører let kan implementere i deres datadokumentationsproduktionsproces (datamanagement). Hermed vil DDA fremover kunne modtage datamaterialer i DDI-L og spare ressourcer til oparbejdning. Endelig og ikke mindst forventes på grund af Open Source-tilgangen, at disse eksterne aktører også vil udvikle på DdiEditor. DDA forventer sig derfor meget af implementeringen af DDI-L både i forhold til modtagelse, arkivering og tilgængeliggørelse af datamaterialer. Top 10: De mest populære undersøgelser hos DDA det seneste år 1 DDA-18184 Valgundersøgelsen 2005 2 DDA-09991 International værdiundersøgelse (Danmark): Panel 1990-1999 3 DDA-23518 Den danske værdiundersøgelse, panel 1990-2008 4 DDA-00070 Velfærdsundersøgelsen 1976 5 DDA-06300 Demokrati fra neden, 1998 6 DDA-19358 Kulturvaneundersøgelsen 2004, børn 7 DDA-00220 Danske kommunevalg 1909-1966 8 DDA-12516 Valgundersøgelsen 2001 9 DDA-21432 Den danske værdiundersøgelse, 2008 10 DDA-26738 Kulturvaneundersøgelsen 2012, voksne 20 Tal i tiden 40 år med genbrug af forskningsdata

CESSDA ERIC Ny europæisk forskningsinfrastruktur Betegnelsen ERIC European Research Infrastructure Consortium følger af en EU-satsning på at styrke den tværnationale og paneuropæisk forskning og uddannelse i EU. Der findes allerede flere etablerede ERIC er blandt andet SHARE for forskning i aldring, ESS for European Social Survey og DARIAH for forskning i sprog og kommunikation. Med CESDDA ERIC for strukturerede forskningsdata fra samfundsbeskrivende videnskab får forskningsmiljøerne mulighed for at besvare forskningsspørgsmål med data fra en vifte af europæiske lande. Baggrunden for en ERIC for samfundsbeskrivende forskningsdata Inden for surveydataområdet har man også set det som et mål at cementere og styrke dataudveksling mellem landene i EU. Samarbejdet omkring etablering af en CESSDA ERIC udspringer af CESSDA Corsortium for European Social Science Data der daterer sig tilbage til 1970 erne. CESSDA har arbejdet og arbejder fortsat for at styrke udveksling og anvendelse af data på tværs af de europæiske lande med de nationale dataarkiver som deltagere. CESSDA ERIC har til formål at udbyde en forskningsinfrastruktur for samfundsbeskrivende forskningsdata på personniveau til forskere og studerende, der hermed får unik mulighed for at søge i og arbejde med data fra alle deltagende europæiske lande. Fra dansk side ønsker man at deltage i CESSDA ERIC forskningsinfrastrukturen, fordi den på én gang vil udnytte en allerede etableret national forskningsservice for forskningsdata og udvikle denne service i international retning. Danmark i CESSDA ERIC Endnu mere international dataudveksling Statens Arkiver/DDA har med sin forskningsservice for samfundsbeskrivende surveydata været dansk deltager i CESSDAsamarbejdet. DDA har derfor etableret og udviklet sig i tæt samarbejde med andre dataarkiver i CESSDA. CESSDA-samarbejdet kommer konkret til udtryk ved valg af løsninger for bevaring og tilgængeliggørelse af danske surveydata. Statens Arkiver/DDA vil derfor være den danske institution, der bedst bærer erfaring og kompetencer omkring bevaring og tilgængeliggørelse af surveydata ind i CESSDA ERIC på Danmarks vegne. Det er meldt ud fra CESSDA ERIC, at DDI-Lifecycle vil være den datadokumentationsstandard, der anbefales anvendt for deltagere i forskningsinfrastrukturen. DDA Tal i tiden 40 år med genbrug af forskningsdata 21

har været blandt de første dataarkiver, der overgik til DDI-L-beskrivelsesstandarden og deltager aktivt i udvikling af it-værktøj til anvendelse af standarden. Hermed har DDA et godt udgangspunkt for sin deltagelse i samarbejdet i CESSDA ERIC og i kraft af sin erfaring med DDI-L god mulighed for at præge arbejdet. Statens Arkiver/DDA er blandt de få dataarkiver, der også tilbyder forskningsservice for sundhedsvidenskabelige data. DDA vil med sin placering i CESSDA ERIC kunne arbejde for en stærkere positionering af sundhedsvidenskabelige data i forskningsinfrastrukturen. Dette arbejde vil også være motiveret af, at denne type af forskningsinfrastrukturer er mindre udbredt inden for det sundhedsvidenskabelige område. Danmark vil med sin deltagelse i forskningsinfrastrukturen udbudt af CESSDA ERIC medvirke til, at europæiske samfundsbeskrivende mikrodata gøres tilgængelige også for forskningsmiljøer uden for Europa, der i dag står med begrænsede muligheder for at finde frem til disse data. På et mere overordnet plan støtter Danmark med sin deltagelse i CESSDA ERIC forskning med internationalt sigte, der kan medvirke til at pege på veje for samarbejde og integration mellem landene. Nøglebegivenheder i DDA s 40-årige levetid Fordele for forskning og uddannelse En ERIC for samfundsbeskrivende mikrodata vil kunne tilbyde optimale muligheder for at tilgå data tværnationalt for forskere og studerende. Infrastrukturen skaber hermed unikke muligheder for komparative analyser et område, hvor netop surveyundersøgelsens forskningspotentiale udnyttes optimalt. I en globaliseret verden arbejder flere og flere forskere med problemstillinger, som bør afdækkes i international/komparativ kontekst. Fokus kan være på alt fra sundhedsvæsenets kvalitet, velfærdsstatens overlevelse, religionens betydning for dagliglivet til egentlig benchmarking mellem lande. Udgangspunktet er, at uden sammenlignelige data landene i mellem kan de opstillede forskningsspørgsmål ikke besvares, idet det er i komparation, at svarene findes. Der findes en række tværnationale surveyundersøgelser, for eksempel Eurobarometrene, ISSP og lykkemålinger. Disse datasæt er i udgangspunktet opbygget sådan, at komparation understøttes. Her vil CESSDA ERIC forskningsinfrastrukturen medvirke til, at en bredere kreds af forskere og studerende bliver opmærksom på forskningspotentialet heri. Imidlertid findes der også mange andre surveyundersøgelser og mikrodatasæt, der i udgangspunktet er rent nationale, men hvori der ligger væsentligt potentiale for sammenligning af data. Med forskningsinfrastrukturen, der udbydes af CESSDA ERIC, vil disse muligheder blive synlige for brugere og nemmere at udnytte. Som medlem af CESSDA ERIC, det vil sige som service provider, vil Statens Arkiver/DDA også være med til at arbejde for at skabe en højere grad af harmonisering mellem relaterede datasæt blandt andet mellem surveydata og andre mikrodata og hermed gøre det endnu lettere at udnytte det forskningsmæssige potentiale. 2005 Etablering af DDA Sundhed finansieret af bevillinger fra Forskningsministeriet 1996 Etablering af ERAS Enheden for Registrering og Arkivering af Sundhedsvidenskabelige Data finansieret af Grundforskningsfonden 1993 Afdeling i Statens Arkiver. Tilladelse til opbevaring af følsomme persondata fx cpr.nr. 1992 Etablering af KIP Kildeindtastningsprojektet 1978 Placering ved Odense Universitet finansieret af Undervisningsministeriet 1977 Tilsagn om fortsættelse 1973 DDA etableres som treårigt forsøg finansieret af Statens Samfundsvidenskabelige Forskningsråd 22 Tal i tiden 40 år med genbrug af forskningsdata

100% for demokratisk deling af datasæt Interview med professor Mads Meier Jæger For professor Mads Meier Jæger, Københavns Universitet og SFI, kan forskning og Open Access til datamaterialer gå hånd i hånd. Hermed er en motivationsfaktor for bearbejdning og formidling af data både udtryk for egne forskningsmæssige ambitioner og et ønske om, at flere får adgang til at udnytte et unikt datamateriale set i dansk kontekst. Forskning redder data! Jæger beskriver her sit arbejde med Ungdomsforløbsundersøgelsen: Erik Jørgen Hansen, som var initiativtager til Ungdomsforløbsundersøgelsen og som har gjort et kæmpe stykke arbejde, har løbende indleveret datasæt til arkivering i DDA. Jens Wagner (indtil for nylig DDAmedarbejder) fandt de gamle filer frem, som jeg så har sat sammen til én stor fil. Problemet var, at vi ikke havde ordentlig dokumentation på alle variable, så hvad var spørgsmål 33 og 47? Jeg har haft tre studentermedarbejdere til at hjælpe, og de har brugt 3 år på at gå det hele i gennem og dokumentere alle variable. Vi har skabt en ny samlet datafil, som også kommer tilbage til DDA, når vi har renset og dokumenteret det hele. En af udfordringerne med Ungdomsforløbsundersøgelsen er, at data fra de forskellige bølger er blevet indleveret i bidder til DDA, men at der ikke fandtes én samlet fil med data fra alle bølger. Det synes vi er vigtigt, og derfor har vi renset data og gjort det klar til kamp. Ungdomsforløbsundersøgelsen er den eneste undersøgelse af sin slags i Danmark, og vi synes at det er vigtigt, at den er tilgængelig for så mange som muligt. Fra kohorte- til generationsundersøgelse Men hvorfor har I lagt alt det arbejde i et gammelt datamateriale? Dels fordi vi synes, det er vigtigt, at denne her undersøgelse er tilgængelig, og dels fordi jeg har interviewet børnene igen, så det bliver til en generationsundersøgelse. Det betyder, at man kan koble de unge mennesker til informationen om deres forældre (og bedsteforældre). Vi har derfor en datafil, der kobler op til tre generationer. Og den datafil skal også bruges og bliver det gennem CSSR (Center for survey- og survey/ registerforskning), og den kommer også til DDA. Og der får man jo vitterligt det bedste fra begge verdener. Det er en stor survey, og så kan der kobles til registrene helt tilbage. Hvordan man har gået til lægen, hvor man har boet osv. Så det har stort potentiale. Tal i tiden 40 år med genbrug af forskningsdata 23

Unikke danske data Hvordan vil du karakterisere de særlige dataressourcer, vi har i Danmark generelt? Det, vi har, er kombinationen mellem registre og survey, som vi har i alle de skandinaviske lande, og det er rigtig vigtigt. Også for den undersøgelse om hvordan unge klarer sig, vi er i gang med lige nu, er det også en af de komparative fordele. Vi har spurgt folk om ting og sager, og så kan vi koble til registerdata for eksempel om hvad de i virkeligheden tjener. Og der har du også langtidsdata. Altså kombinationen, det er stort inden for sociologi og statskundskab. Altså, lav en survey og kobl det til registerinformation, så får du en masse information gratis. Så får du meget bedre mål for fx indkomst. Hvis du spørger folk, hvad de tjener, så er der 20 pct., der ikke ved det, 20 pct. der ikke vil svare, og nogle af dem lyver. Der sker et eller andet mærkeligt. Og det er jo det samme i USA. Der har vi så i Danmark en komparativ fordel. Og så er det godt at have et dataarkiv, der også tænker på det som en konkurrencefordel i forhold til udenlandske forskere. Jæger påpeger også, at vi som danskere som borgere udviser en særlig åbenhed i forhold til dataindsamling til survey og registre: Danmark er karakteriseret ved et højt niveau af social tillid. Det betyder, at vi som borgere accepterer, at der bliver samlet forskellige former for data ind om os. Det er et kæmpe privilegium for forskere. Mine kolleger i Tyskland er underlagt meget strikse regler om, hvad der må samles ind, og hvad man må spørge folk om. 10.000 familier Hvad ville være dit drømmedatasæt? Et drømmedatasæt skulle bestå af 10.000 familier, der interviewes en gang om året. Surveydata skal kunne kobles til registre. Der vindes så meget ved at se ind i familier. Man kunne også eksperimentere med biomarkører og genetisk information, der typisk samles ind gennem blodprøver. Vi mangler familiebaserede surveys, fordi det meste af det vi har, omhandler én person. Set fra mit synspunkt skal vi have noget om, hvad folk bruger tid på, hvad de mener, hvordan børnene lever og nogle test af færdigheder, også sociale færdigheder samt psykologiske personlighedstræk. Det har vi ikke rigtig i Danmark, og de er desværre helt vildt dyre. Hvorfor har vi det ikke? Den ene forklaring er, at vi har vores registre, og at vi derfor ikke mener, at vi behøver indsamle den slags information. Den anden forklaring er, at det er fordi, vi er sådan et lille land er det svært at finde finansiering til store dataindsamlinger. Mange af de store amerikanske undersøgelser arbejder med budgetter, som vi kun kan drømme om. Og ofte har de finansiering til langt ud i fremtiden. I Danmark skaffer man penge fra gang til gang og håber, at der også kan skaffes penge til næste runde af en undersøgelse. Det er hårdt arbejde! Det er svært at forestille sig i Danmark, at man pludselig ville prioritere en masse midler til en stor familiebaseret survey, som skal køre de næste 20 år. Det kan vi ikke, det kan de i USA. Så vi må nøjes med, hvad vi har. Ungdomsforløbsundersøgelsen i international sammenhæng To udfordringer med Ungdomsforløbsundersøgelsen har været, at der ikke rigtig har været adgang til al datamaterialet og at alt har været på dansk. I det samlede datasæt, som vi laver nu, er al dokumentationen på engelsk. Det gør vi for at forskere uden for Danmark også skal kunne arbejde med undersøgelsen. Idéen er også at eksponere Ungdomsforløbsundersøgelsen internationalt. Jeg har løbende kontakt med forskere rundt omkring i verden, som er ansvarlige for lignende undersøgelser. Jeg har bestemt tænkt mig at gøre dem opmærksom på, at vi har denne her undersøgelse i Danmark. Og det passer sådan set meget godt. Deltagerne i Ungdomsforløbsundersøgelsen er født i eller omkring 1954. I England har de en stor undersøgelse med ca. 15,000 personer, der er født i 1958, og i USA har man fulgt lidt over 10,000 personer fra Wisconsin, som er født i 1939. Så når mine kolleger sidder og kigger ud over landskabet efter undersøgelser, som de kan bruge, så kan de pt. se undersøgelser i England, USA og også én i Tyskland. Men kigger de til Skandinavien så har der ikke rigtigt været nogen indtil nu, som de kunne bruge. Det er populært at sammenligne lande, fx 24 Tal i tiden 40 år med genbrug af forskningsdata

USA og Tyskland, og med Ungdomsforløbsundersøgelsen kan man også få et skandinavisk land med i sine analyser. Jeg håber derfor, at Ungdomsforløbsundersøgelsen også af denne årsag vil blive brugt af udenlandske forskere. Fri adgang til data Et af de ord, der gentages igen og igen, når der tales om forskningsformidling, er Open Access. For det meste handler Open Access i den sammenhæng om fri adgang til publikationer ved hjælp af udgivelse i gratis www-tidsskrifter, brug af åbne repositories eller egen udgivelse. Imidlertid er der også i forskellige sammenhænge taget fat på Open Access til forskningsdata. Hvad kan gøres for at udnytte data bedre? Det handler i høj grad om at gøre data tilgængelige. Jeg tror, at det er ekstremt vigtigt med et lækkert og overskueligt interface. Når man søger på DDA s hjemmeside og finder et datasæt, som man vil bruge, så er dokumentationen en pdf-fil på over 500 sider. Det er svært at hitte ud af. Med mange af de amerikanske undersøgelser kan man downloade data direkte fra en hjemmeside, og det er meget nemt og overskueligt at navigere rundt i dokumentationen. Jeg kigger selv typisk først på hvilke variable, der er med i undersøgelsen. Er der noget jeg kan bruge? Hvis der er noget, jeg kan bruge, går jeg i kødet på den detaljerede dokumentation. Tilgængeliggørelse er det vigtigste. Det skal være nemt at søge i variable. Og måske også sådan en dender-bestilte-det-her-bestilte-også. Det er vigtigt, at jeg ikke behøver at udfylde formularer for overhovedet at kunne se en beskrivelse af data. Hvad gør du så for at fortælle om Ungdomsforløbsundersøgelsen? Jeg skriver rundt til mine kolleger og opfordrer dem til at kigge på det her fantastiske datasæt. Jeg har tidligere i dag siddet med en ph.d.-studerende, der arbejder sammen med amerikanske kolleger, som også er interesseret i data. Det er rigtigt fint, at de nu kan få adgang til data. Undersøgelsen har også sin egen hjemmeside hos SFI, som vi er ved at opdatere og gøre mere indbydende. Og så har jeg folk i gang med at lave PR-materiale, sådan noget a la Her er dit liv for deltagerne i undersøgelsen. Ideen er, at vi med udgangspunkt i data fra undersøgelsen vil fortælle om de vigtige begivenheder i deltagernes liv. De er alle født omkring 1954, og vi har fulgt dem siden de var 14 år gamle. I dag er de næsten 60, så vi ved rigtigt meget om deres liv, og det vil vi gerne dele. Og når vi skal interviewe deltagerne igen har også tænkt mig at skrive ud til dem, at de kan finde information om undersøgelsen på hjemmesiden. Men det er jo et stort arbejde, du har lagt i det? Ja, det må man sige! Man ved aldrig i udgangspunktet, hvor lang tid den slags tager. Men jeg synes, at det var et godt tidpunkt at få undersøgelsen shinet op og gjort mere tilgængelig, så det har bestemt været arbejdet værd. Jeg skal jo også takke mine medarbejdere, som har stået for broderparten af det hårde arbejde med at omkode og dokumentere de mange variable. Jeg omtaler dem undertiden som dataarkæologer. Når forskningsråd bevilliger penge, følger der altid en klausul med om, at data skal gøres offentligt tilgængelige. Det synes jeg er rigtig godt. Det er ok, at de forskere, som har lagt det hårde arbejde med at indsamle data ind har eneadgang i en periode, men det dur ikke, at de bliver siddende på data. Det er ikke optimal udnyttelse af fællesskabets ressourcer. Jeg går 100% ind for demokratisk deling af datasæt. Tal i tiden 40 år med genbrug af forskningsdata 25