Data om sociale forhold til forskningsbrug i Danmarks Statistik Maj 2012
Disposition Forudsætninger for registerbaseret forskning Data i Danmarks Statistik med relevans i en social/sundhedsmæssig sammenhæng Typer af enheder Mulighed for at kombinere oplysninger Forbehold Eksempel på anvendelse af data Forskernes muligheder for at arbejde med data Information om FSE og om registre/data
Indsamlingsmetoder - datatyper Spørgeskemaer Interview Data på grundlag af administrative registre langt hovedparten af statistiske data - verdens første folke- og boligtælling på registerbasis 1981
Grundlaget for registerbaseret forskning CPR nummerets indførelse i 1968 Administrative data i elektronisk form Bearbejdning af administrative data til statistiske data Introduktion af IT
Epidemiologisk model Årsager: køn, alder, familie uddannelse arbejde: stilling og erhverv og arbejdsplads indkomst og formue sociale forhold boligforhold, nærmiljø Forekomst af sygdom: Helbredsforhold Konsekvenser: forbrug af offentlige ydelser sygelighed og dødelighed prognose for arbejde mv. for de pårørende arvelige forhold se endvidere: DIKE 1997: Registre inden for sundhedsområdet
Social position og helbred Forældres sociale position Børns sygelighed Uddannelse Erhverv Helbred Indkomst Yngwe Åberg. Health Equity Studies no. 5, 2005: Karolinska Institut Formue
Periode med oplysninger Sundhedsoplysninger Indlæggelser på hospital 1977 Dødsårsager 1977 Sygesikringsoplysninger 1987 Socioøkonomiske oplysninger Demografiske forhold 1977 Erhverv og indkomst 1977 Uddannelse 1980 Boligforhold 1980 Sociale ydelser 1984
Typer af data Fraskilt Gift Papirløs Ugift 1. Status opgørelse t1 t2 t3 t4 Fraskilt Gift Papirløs Ugift 2. Panel t1 t2 t3 t4 Fraskilt Gift Papirløs Ugift 3. Events/spells/periode t1 t2 t3 t4
Familie Familiedannelse Årlige oplysninger pr. 1. januar C-familie udgået (1980 2007) Ny E-familie fra 1986 og frem E-familie omfatter hjemmeboende børn til og med 24 år.
Familier / Husstande Familie: Personer på samme adresse Henvisninger til hinanden fx ægtefæller, børn/forældre mv. Husstande: Familier på samme adresse Ex. Plejehjem
Uddannelse - statusopgørelse Højst fuldførte uddannelse (pr. 1. januar) start i 1980 dannes ud fra elevregistret suppleres med data fra Kvalifikationsregister Folke- og boligtællingen fra 1970 Indvandrernes medbragte uddannelse variablen HF_kilde angiver kilden
Uddannelse - forløbsdata og karakterer Elevregistret detaljerede uddannelsesforløb inkl. afbrudte forløb data fra 1. oktober 1973 opdateres årligt med indberetninger fra uddannelsesinstitutionerne Karakterer folkeskole studentereksamen
Socioøkonomisk status Status (ultimo november) Registerbaseret arbejdsstyrkestatistik IDA: Kobling til arbejdssted: mulighed for at finde kollegaer Årsbetragtning AKM
Socioøkonomisk status I arbejdsstyrken Selvstændige - medhj. ægtefæller: antal ansatte Lønmodtagere (færdigshedsniveau) Arbejdsløse Uden for arbejdsstyrken
IDA-databasen - Karakteristika Enheder (kan forbindes) Personer Ansættelser Arbejdssteder Registerbaseret Administrative registre er kilde Enheder/variable er begrænset af kilder Årlig statusopgørelse (november) Longitudinel (fra 1980) enheder kan følges over tid
Fertilitetsdatabasen Henvisninger mellem børn og forældre Stort set komplette henvisninger for børn født fra 1960 og frem Baggrundsoplysninger om Mor og Far Medicinske oplysninger - om barnet Fødselsdata Moderens alder, paritet, fødselsvægt Gestationsalder, dødfødsler og spædbarnsdødelighed
Datastruktur for udtræk pr. kalenderår ÅR PNR CFELLE CSTATUS ALDER 1980 001 enlig 21 1981 001 enlig 22 1982 001 002 papirløs 23 1983 001 002 papirløs 24 1984 001 002 gift 25 1985 001 002 gift 26 1986 001 002 gift 27 1987 001 002 gift 28 1988 001 skilt 29.
Enheder Person Par Familie Husstand Bolig Firma/arbejdssted og skole Geografi (sogn, kommune, kvadratnet)
Family unit Persons living at same address Mother Husband/father Child 2 Child 2
Kvadratnet
Relation mellem enheder Person - adresse - arbejdsstedskode - ejer - ejer Bolig/ bygning - adresse Arbejdssted
Fordele ved at anvende registeroplysninger Kan være eneste kilde Totaldækkende Intet bortfald Relativt enkelt at finde små populationer Mulighed for at finde kontrolgrupper Beregning af relativ risiko for grupper af personer Mulighed for at kombinere oplysninger Oplysninger fra en længere årrække Muligheder for longitudinelle analyser (personer/enheder følges over tid)
Forbehold Databrud Familiedefinition Socioøkonomisk status Populationsafstemning Nomatch-tilfælde Relevans Operationalisering Klassifikationsfejl Familie (imputering) Socioøkonomisk status Pålidelighed/gyldighed Arbejdsløshed
Selvmord og sociale forhold Case-control studie 20-60 årige i periode 1982-1997 Ca. 9000 selvmord Ca. 180000 kontroller ------------------------------------------------------------------------------- Kilde: Social Science & Medicine 64 (2007) 451 461 Combining individual and ecological data to determine compositional and contextual socio-economic risk factors for suicide Esben Agerbo, Jonathan A.C. Sterne, David J. Gunnell
Analyse- og forsknings-potentiale Danmarks Statistik har store datamængder/mange informationer Forskeres egne data kan indgå i analyser Mange mulighederne for projekter i de Danmarks Statistiks data
Begrænsning: Diskretionsprincipper Begrænsninger som følge af: Lov om behandling af personoplysninger Danmarks Statistik Data, der kan afsløre personers eller virksomheders identitet, må ikke anvendes Bagvejsidentifikation må ikke finde sted - skal være meget vanskelig (ond tro) need-to-know princip Data forbliver i Danmarks Statistik
Typisk projektforløb Autorisation af forsknings/analyse miljø Projektbeskrivelse sendes til Danmarks Statistik Beskrivelse af formål, studiepopulation, variabler/registre, periode Planlægning af registerudtræk Beregning af pris 1187 kr. pr. time for udtræk af data (januar 2012) Vi sender en kontrakt med pris og forventet leveringstid Brug af eksterne data, kræver godkendelse fra Datatilsynet (forskerens ansvar)
Typisk projektforløb Forskeren underskriver en særlig forskeraftale Forsker får adgang til projektfolder på forskermaskine eller på egen PC/server i Danmarks Statistik- password mv. Identifikationsoplysninger (CPR-nr, CVR mv.) afidentificeres med en projektspecifik nøgle navne mv. i klartekst slettes Udtræk af data kopieres til forskermaskine og checkes af forskeren Resultater af analyse sendes vha. mail-system som vedhæftede filer til forskers mail-adresse
Regler for adgang til data Alle mikrodata inkl. forskernes data bliver i Danmarks Statistik Al arbejde med mikrodata skal ske på forskermaskine Forskerne må ikke printe individuelle records og må ikke downloade mikrodata Kun output med statistiske resultater (tabeller, estimationer mv.) må hjemtages Grundregel er at hjemsendt materiale skal være på statistikniveau - ikke er muligt at identificere enkelt personer eller virksomheder
Hvordan kan man få adgang til meta data? www.dst.dk/tilsalg/forskningsservice.aspx Registerforskning Data Dokumentation TIMES (dokumentation af enkelt registre) Højkvalitetsdokumentation (historisk dokumentation af ca. 500 variable) Varedeklarationer Adgang til data Vejledninger i brug af forskermaskiner Nyt og Meddelelser