Adgang til mikrodata i Danmarks Statistik Charlotte Leolnar Reif Forskningsservice
Forskningsservice Del af Afdelingen for Salg og Marketing 17 medarbejdere fordelt på akademikere og IT-specialister og én sekretær Forskerenheden etableret i 2001 med elektronisk ordning via internettet Formålet er af fremme registerforskningen
Arbejdsmarkedsdata E-indkomst Beskæftigelse for lønmodtagere BFL - Detaljeret lønmodtagerdata fra e-indkomst - Stilles til rådighed et år efter referenceperioden, dvs. 1Q2008-3Q2012 BFLA - Aggregerede lønmodtagerdata på brancher BFLB- Aggregerede lønmodtagerdata på Kommuner BFLC - Aggregerede lønmodtagerdata på sektor branche region - Mere aktuelle datasæt men til gengæld aggregerede (1Q2008 2Q2013 for BFLA og BFLB) - BFLA, BFLB og BFLC kan kun kombineres med rene personoplysninger som fx personens alder, køn, uddannelse og herkomst, men IKKE arbejdsstedsoplysninger. Datasættene må ikke kombineres indbyrdes.
Arbejdsmarkedsdata RAS Registerbaseret ArbejdsStyrkestatistik Arbejdsmarkedstilknytning i november måned (uge 48) for befolkningen ultimo året (1. januar året efter). Ved brug af socioøkonomisk status opdeles befolkningen i 3 grupper; Beskæftigede, arbejdsløse og personer uden for arbejdsstyrken Grunddata stammer fra en række interne og eksterne kilder heriblandt e-indkomstregistret, Arbejdsstedsplaceringen, Erhvervsregistret, Offentlig forsørgelse og Uddannelsesstatistikken mv. 1980-2011
Arbejdsmarkedsdata LON/LONN Lønstruktur Alle ansættelser en totaltælling (private virksomheder over 10 ansatte) Alle sektorer i samme datasæt; privat, stat, kommuner og regioner LON 1997-2008 LONN 2009-2012 (standardberegnet timefortjeneste) Arbejdsomkostninger og lønindeks er ikke en del af Forskningsservices grunddata
Arbejdsmarkedsdata CRAM, OF, RAS og AKU Ledighed Det centrale register for arbejdsmarkedsstatistik (CRAM) 1985-2007 Nettoledige Offentlig forsørgelse (OF) 2007-2012 Nettoledige (PTI_TILSTAND_KODE=5020, 5030 og 5080) Bruttoledige (Bruttoledighed_kode=1) Registerbaseret arbejdsstyrkestatistik (RAS) 1980-2011 Nettoledige (ledig i hele uge 48) Bruttoledige (ledig i hele uge 48) Arbejdskraftundersøgelsen AKU-ledige kan bestilles i AM-kontor
Demografi Longitudinel demografisk information fra1980 og frem Fx. indvandringer og udvandringer flytninger vielser og skilsmisser fødte og døde (dødsårsager) Statusoplysninger Årlige oplysninger pr. 1. januar 1980-2013 Fx civilstand, bopæl, familie og husstandsoplysninger Fertilitetsdatabase Henvisninger mellem børn og forældre Stort set komplette henvisninger for personer født fra 1960 og frem
Sundhed Landspatientregister Indlæggelser og diagnoser mv. fra 1977-2011 Lægemiddeldatabasen Fra 1995-2013 (1. halvår) Adgang kræver en godkendelse af Statens Serum Institut Sygesikring Lægebesøg mv. 1992-2012 Det centrale psykiatriregister Bestilles hos Statens Serum Institut i Århus
Indkomst og sociale oplysninger Indkomster Indkomstregister, årets indkomst 1980-2011 lønstatistik, alle ansættelser 1997-2012 E-indkomst, månedlige beskæftigelsestal 2008-2012 (3Q) Sociale oplysninger Sammenhængende socialstatistik 1984-2007 Kontanthjælpsstatistik 1987-2011 Sygedagpenge 1994-2012 Anbragte børn og unge 1977-2011 Kriminalstatistik, afgjorte sager mv. 1980-2012 Indskrevne i daginstitutioner 1995-2012 Ældredokumentation 2008-2012 Etc.
Uddannelse Befolkningens uddannelse 1981-2013 Højeste fuldførte og igangværende uddannelse, status pr. 1. okt. Integreret elevregister 1973-2012 Integreret elevregister, detaljerede uddannelsesforløb Karakterer Folkeskole 2002-2012, Gymnasium 1997-2011 og uddannelsesgennemsnit 1977-2011 Kursistregister fra 1970 erne-2012
Øvrige oplysninger Klassifikationer (Branche, Disco, Socio) RAS gælder ultimo november i det pågældende år Ellers årets væsentligste beskæftigelse IDA (til brug for arbejdsmarkedsforskning) 1980-2011 Kobler personer og arbejdssteder Boligtællingen, BBR og ejendomsregistre Erhvervsregister (firmaer og regnskaber) Forskernes egne data (fx surveys eller registre fra Statens Serum Institut)
Det Statistiske Informationssystem Personer CPR Boligen BBR Virksomheder CVR 12
Hvem kan få adgang til mikrodata? Kun forskere/analytikere fra autoriserede institutioner Stabile institutioner med en ansvarlig leder, et antal forskere/analytikere og et stabil forskningsmiljø Autorisationsaftale mellem institutionen og DST underskrives af institutlederen og Rigsstatistiker Jørgen Elmeskov Tilknyttede forskere skal tilsvarende underskrive en forskeraftale indeholdende regler for omgang til og med mikrodata Offentlige og private institutioner Enkeltmandsvirksomheder kan ikke autoriseres Private konsulentfirmaer kan som grundregel ikke få adgang til virksomhedsdata
Autoriserede institutioner - udvikling 359 institutioner er autoriserede i dag
Nye og aktive projekter 768 aktive projekter på forskermaskinerne 258 nye projekter
Forskningsservice arbejdsopgaver Rådgive forskerne i brugen af Danmarks Statistiks registre Administrativt arbejde vedrørende autorisationer, kontrakter, forskeraftaler mv. Koordinering af data fra forskellige kontorer i Danmarks Statistik (vi har selv de fleste data) Udtræk af registerdata til projekter IT-relateret arbejde (drift af forskermaskinerne) adgang til forskermaskinerne Forskerne skal primært henvende sig til Forskningsservice
Hvordan kommer man i gang? Henvendelse til forskerserviceenheden i forbindelse med et konkret projekt http://www.dst.dk/da/tilsalg/forskningsservice.aspx Find en medarbejder så er processen sat i gang!
Typisk projektforløb 1. Autorisation af institutionen 2. Godkendelse af projektbeskrivelse Beskrivelse af formål, angivelse af population og registre, periode data ønskes for Kun data efter need to know -princippet Angivelse af eventuelle eksterne data og forskere der skal tilknyttes projektet 3. En udtrækspopulation udarbejdes, hvori udtrækket af registerdata beskrives 4. Pris beregnes og kontrakt udarbejdes (over 10.000 kr.) 5. Data udtrækkes og overføres til forskermaskinen
Typisk projektforløb 6. Forsker får adgang til data på forskermaskinen efter modtagelse af projektspecifikt password og forskeraftalen er underskrevet 7. Data leveres på forskermaskinen og checkes af forskeren Hvis der er eksterne data, kræves godkendelse fra Datatilsynet (forskerens eget ansvar) For nye forskningsprojekter: 10 timers gratis startrådgivning Kørsler på forskningsmaskinen er gratis (for offentligt autoriserede institutioner)
Gode links til selvhjælp Højkvalitetsdokumentation Højkvalitetsdokumentation af ca. 600 udvalgte variabler Systematisk dokumentation Detaljeret variabel beskrivelse inklusiv databrud Angivelse af gyldighedsperiode/population Tabel og graf Værdisæt Appendiks med speciel interesse http://www.dst.dk/da/tilsalg/forskningsservice/dokumentation/hoejkvalitetsvariable.aspx
Gode links til selvhjælp Kvalitetsdeklarationer En generel beskrivelse af registrene (ansvarlig person, etc.) http://www.dst.dk/da/statistik/dokumentati on/kvalitetsdeklarationer.aspx
Regler for adgang til data Alle mikrodata inkl. forskernes data bliver i Danmarks Statistik Alt arbejde med mikrodata skal ske på forskermaskinen Forskerne må ikke printe individuelle records og må ikke downloade mikrodata Kun output med statistiske resultater (estimationer tabeller mv.) må hjemtages Grundreglen er at hjemsendt materiale skal være på statistikniveau, dvs. at det ikke er muligt at identificere enkeltpersoner eller -virksomheder Spørg os hvis i er i tvivl
Regler for adgang til data (fortsat) Output bliver (på stikprøvebasis) manuelt checket af Forskningsservice Muligt at lukke en autoriseret institution ved alvorlige brud på datasikkerheden Alle identifikationer (PNR, CVR mv.) afidentificeres med en projektspecifik nøgle inden data lægges på forskermaskinen