Repræsentative undersøgelser før og nu. Peter Linde, Interviewservice pli@dst.dk

Relaterede dokumenter

Repræsentative undersøgelser Non-response Vægte. Peter Linde, DST Survey

Forebyggelse og reparation - vægtning af data. Brian Larsen Thorsted

Forskerbeskyttelse i CPR 2008

Dokumentation af interviewundersøgelser

Det gode håndværk eller simpel datafangst? Peter Linde 8. juni 2009

På alle områder er konklusionen klar: Der er en statistisk sammenhæng mellem forældre og børns forhold.

To samhørende variable

Børne- og Undervisningsudvalget BUU Alm.del Bilag 51 Offentligt. De socioøkonomiske referencer for grundskolekarakterer 2014

En ny vej - Statusrapport juli 2013

Faktaark: Iværksættere og jobvækst

Store gevinster af at uddanne de tabte unge

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Susanne Ditlevsen Institut for Matematiske Fag susanne

Notat. Notat om produktivitet og lange videregående uddannelser. Martin Junge. Oktober

Del 3: Statistisk bosætningsanalyse

Normalfordelingen og Stikprøvefordelinger

At lave dit eget spørgeskema

Det siger FOAs medlemmer om smartphones, apps og nyheder fra FOA

Sygeplejersker og stikskader

Profil af den økologiske forbruger

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

SAMFUNDSØKONOMISK AFKAST AF UDDANNELSE

Besvarelse af opgavesættet ved Reeksamen forår 2008

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Hvert femte FOA-medlem forventer ikke at kunne arbejde, til de når folkepensionalderen

Databrud i ATR ved overgang til eindkomst

BILAG 3: DETALJERET REDEGØ- RELSE FOR REGISTER- ANALYSER

Vejledning om valg af uddannelse og erhverv. Kvantitativ undersøgelse blandt elever i grundskolen og de gymnasiale uddannelser

Råd og vink 2013 om den skriftlige prøve i Samfundsfag A

ÆLDRE I TAL Folkepension. Ældre Sagen Juni 2016

2.0 Indledning til registerstudie af forbrug af sundhedsydelser

SAMFUNDSVIDENSKABELIGE STUDERENDE PÅ SDU

Fleksibilitet i arbejdslivet

HVAD BETYDER STRUKTURELLE FORSKELLE? Benchmarking af cyklingen i Region Hovedstaden Marts 2015

Analyse af binære responsvariable

FINANSIEL FORSTÅELSE OG REGNEFÆRDIGHED

Forudsætninger bag Danica PensionsTjek

Folkeskolen: Hver 3. med dårlige karakterer får ikke en uddannelse

VEJEN TIL GYMNASIET - HVEM GÅR VIA 10. KLASSE?

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Klar sammenhæng mellem børns og forældres livsindkomst

Prognose for udviklingen i brugen af efterløn. Notat. AK-Samvirke, 14. januar 2011

Kommentarer til Hillerød benchmarking-analysen April 2015

Folkeskoleelever fra Frederiksberg

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Rapport vedrørende. etniske minoriteter i Vestre Fængsel. Januar 2007

Ufaglærte har færre år som pensionist end akademikere

BOSÆTNING Bosætningsmønstre og boligpræferencer i Aalborg Kommune

Lave og stabile topindkomster i Danmark

Selvmord og selvmordstanker i Grønland

Problemstillinger omkring spørgeskemaundersøgelser blandt etniske minoriteter. Vibeke Jakobsen SFI Det Nationale Forskningscenter for Velfærd

Børn i lavindkomstfamilier KORT & KLART

Syddanmark Monitorering og effektmåling Strukturfondsindsatsen i

Børne- og Undervisningsudvalget BUU Alm.del endeligt svar på spørgsmål 19 Offentligt

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Effekter af studiejob, udveksling og projektorienterede forløb

Opholdstilladelser på individniveau

Voksende segmenter i befolkningen og deres indflydelse på bilbrug

Kvalitetsmåling i statistik

Ren By-kampagnen 2011

TAP-undersøgelsen 2014 Efterskoleforeningens undersøgelse af løn- og pensionsvilkår for efterskolernes teknisk-administrative personale

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Imputering af borgere på plejehjem/-bolig

Brug af testdata i børneforløbsundersøgelsen (BFU).

Løn- og arbejdsforhold kvinder og mænd i Kokkefaget

Kvinder er mere udsat for chikane på jobbet

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

det offentlige Hilsner fra sådan vil danskerne tiltales BJERG KOMMUNIKATION FLÆSKETORVET 68, KØBENHAVN V T: KONTAKT@BJERGK.

Transkript:

Repræsentative undersøgelser før og nu Peter Linde, Interviewservice pli@dst.dk >>

>> Dagsorden Hvad er en repræsentativ undersøgelse? Bortfald og forskerbeskyttelse Vægtning for bortfald Effekt af vægtning Brug af vægte Gentagelsesvægte Spørgsmål er velkomne undervejs diskussion tager vi til sidst - der skulle være tid 2

>> Et citat Ikke alt der tæller kan tælles og ikke alt der kan tælles tæller (Einstein) Ingen dataindsamling er bedre end sit svageste led. Tre ting kan gå rigtig galt: Population og repræsentativ stikprøve Bortfaldet Spørgsmålene, byrde og relevans 3

>> Repræsentativitet (1) Udsnit kan tages på mange måder Fx de 71 der deltager her i dag Alle udsnit siger noget om udsnittet selv ikke alle udsnit kan generaliseres Der er tre krav: 1. Alle man vil sige noget om skal kunne vælges 2. Man skal kende deres sandsynlighed for at blive valgt 3. Man skal vægte med sandsynligheden for at blive valgt 4

>> Repræsentativitet (2) Et tilfældigt udsnit der opfylder de tre repræsentativitetskrav vil have en tilfældig fejl Det rigtige kan lige så godt være større som lavere Jo flere man spørger, jo mere sikkert bliver tallet Matematikken siger, at man skal spørge fire gange så mange, hvis man vil være dobbelt så sikker 5

>> Repræsentativitet (3) Tommelfingerreglen er at usikkerheden højst er: Der udvælges 100 enheder +/- 10 % Der udvælges 400 enheder +/- 5 % Der udvælges 1600 enheder +/- 2,5% Osv. med den sædvanlige statistiske sikkerhed = et sikkerhedsinterval på 95% Er baseret på den centrale grænseværdisætning http://onlinestatbook.com/stat_sim/sampling_dist/index.html 6

>> Repræsentativitet (4) Vandret (rød): Bias (skævhed) Sort kurve: Den rene tilfældige fejl Grøn kurve: Den samlede fejl ( kvadratroden af mean square error) 7

>> Repræsentativitet (5) Repræsentativitet har kun noget med designet at gøre og har ikke noget med stikprøvestørrelsen at gøre. Sikkerheden afhænger derimod af stikprøvestørrelsen Biasen dominerer uanset stikprøvestørrelsen En pænt stor stikprøve skal gerne ligge tæt på den rigtige køns- og alderssammensætning ja tæt på enhver variabel. Det er en konsekvens af et repræsentativt design. Det er ikke noget bevis for repræsentativitet, men en indikator. 8

>> Bortfald (1) En svarprocent på 75-80% var mulig i 80 erne Siden er det gået tilbage I dag har vi en svarprocent på 50-60% Der er tre årsager: 1.Det er en generel trend i den vestlige verden 2.Det skyldes billigere dataindsamlinger 3.Og i Danmark også forskerbeskyttelsen, som fritager for at deltage i undersøgelser baseret på stikprøver, der bruger oplysninger fra CPR 9

>> Bortfald (2) Omnibus 1992 2012 I alt 67% opnåelse 58% opnåelse Mænd 66% 56% Kvinder 67% 61% 16-29 år 62% 47% 30-39 år 66% 58% 40-49 år 73% 57% 50-64 år 68% 61% 65-74 år 67% 71% 10

>> Bortfald (3) 1992 2012 Uddannelse Grundskole 62% 51% Ungdomsuddannelse 67% 56% Kort videregående 85% 73% Mellemlang videregående 83% 74% Lang videregående 80% 70% Indkomst familie Ingen registreret 42% 1-200.000 45% 200-350.000 61% 350-500.000 61% 500-750.000 70% 750.000+ 69% Indkomst 6% for høj 8% for høj 11

>> Bortfald (4) Generelt er svarprocenten faldet mest de sidste 25 år for: Mænd De unge og yngre Lavest uddannelse Mindst indkomst Tallene, der netop er vist, er fra dataindsamlingen. I 2000 kom forskerbeskyttelsen, der er på 13%. Dvs. opnåelsen i dag er 58% /1.13 = 51% For 25 år siden var vi normalt blandt de fem europæiske lande med mindst bortfald i dag er vi blandt de fem med størst bortfald 12

>> Bortfald (5) I 2000 blev muligheden for at opnå forhåndsfritagelse (forskerbeskyttelse) indført på flytteblanketten I 2007 blev den i stedet en af de services man fx kan finde på Internettet Godt 700.000 har i dag forskerbeskyttelse 13

>> Bortfald (6) 14

>> Bortfald (7) Tal om forskerbeskyttelsen 1. januar 2011 Alder 0-9 år 8,5% 10-19 12,5% 20-29 21,2% 30-39 23,7% 40-49 14,4% 50-59 9,0% 60-69 6,5% 70+ 4,9% 15

>> Bortfald (8) Socioøkonomisk status: Selvstædig 12,1% Lønmodtager 15,3% Arbejdsløs 21,4% Uddannelse 13,1% Pensioneret 7,5% Uden arbejdsstyrken 12,2% Statsborgerskab: Dansk 13,0% EU, USA, Australien mv. 9,2% Andre 8,7% 16

>> Vægtning (1) Det er muligt at vægte for skævt bortfald med registeroplysninger I den mere simple version efterstratificerer man. Fx opdeles efter køn, 5 aldersintervaller og 5 indkomstintervaller i alt 2*5*5 = 50 strata I hvert af de 50 strata laver man vægten: Population/stikprøve=N/n Det er begrænset, hvor mange faktorer man kan inddrage i efterstratificering. 17

>> Vægtning (2) Der findes mere avancerede vægtningsprogrammer, fx CLAN, som man kan finde på www.scb.se Her kan man lave de såkaldte GREG vægte, der svarer til, i en regressionsanalyse, at kombinere hovedvirkninger og vekselvirkninger af kategoriske og kontinuerte variabler. Alle hovedvirkninger og vekselvirkninger (tabeller) man medtager, genskaber man Se fx DDA.dk: Metode & Data 93 2007, side 14 18

>> Vægtning (3) I DST s forbrugsundersøgelse vægtes der efter: Statsborgerskab, beskæftigelsesstatus, socioøkonomisk status, husstandsstørrelse, region og husstandstype, uddannelsesgruppe samt: Population Opnået Vægtet Bolig Eget hus 47% 57% 47% Eget lejlighed 5% 5% 5% Lejet hus 13% 10% 13% Lejet lejlighed 33% 26% 33% Uoplyst 2% 1% 2% 19

>> Vægtning (4) Population Opnået Vægtet Boet på adressen 0-1 år 20% 23% 20% 2-4 år 19% 15% 19% 5-9 år 17% 17% 17% 10-20 år 21% 21% 21% Over 20 22% 24% 22% De vægtede tal passer (selvfølgelig) med populationen 20

>> Vægtning (5) I forbrugsundersøgelsen vægter vi også vægte for indkomst, men hvis vi ikke gør det og vægter for de nævnte sociale og demografiske faktorer, gælder: Population Opnået Vægtet Fam. indk. 520.639 557.159 518.000 Afvigelse +7% -½% Indkomsten overvurderes med ca. 7%, hvis man ikke vægter. Den samme bias var for 15 år siden ca. 3% Vægtningen med de demografiske og sociale faktorer reducerer biasen til ½%. Hvis vi også have vægtet for indkomst havde biasen være 0% (selvfølgelig) 21

>> Vægtning (6) Registerindkomsten for de der deltog (15.000) hhv. ikke deltog (5.000) i arbejdskraftundersøgelsen ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒ Spredning af Personindkomst Gennemsnit Spredning gennemsnit ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Indkomst før Indkomst før Indkomst før skat skat skat ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Uoplyst/bortfald 161077 108787 1510 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Oplyst/deltaget 180379 117918 969 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Alle 175367 115923 820 Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒœ 22

>> Eksempel (7) Vægtede og uvægtede estimater ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒ Gennemsnit Spredning Personindkomst ƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Indkomst før Indkomst før skat skat ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Vægtet efter alle: 3 + uddannelse og job 176928 116355 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Vægtet efter køn, alder og geografi 180982 118198 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Det uvægtede, jf. tabel A 180379 117918 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ Det rigtige, jf. tabel A 175367 115923 Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒœ 23

>> Effekt af vægtning (1) Vægtningen har tre virkninger: 1.Kontrollerer det der er muligt mht. non-response begrænser den største fejlkilde 2.Kan øge vægtningen af stikprøvevariansen lidt, hvis der er meget skævt bortfald nødvendigt hvis man vil kontrollere biasen (punkt 1) 3.Kan vinde stikprøvevarians svarende til graden af forklaret variation registervariabler kan fjerne usikkerhed 24

>> Effekt af vægtning (2) I eksemplet fra forbrugsundersøgelsen: Vi måler andelen af husstande, der har et årligt forbrug på over 300.000 baseret på svaret i spørgeskemaet. Uvægtet Vægtet Andel over 300.000 46% 39% Simpel Kun punkt 1 Punkt 1+2 Naiv Overvurderer Rigtig/bedst Spredning 0.0098 0.0107 0.0070 Gevinsten er 1-(0.0098/0.0070)**2 = 97% De 2.462 interviews svarer effektivt til 4.845. Man har gratis fået 2.383 interviews + reduceret bias 25

>> Programmer (1) SAS kan regne med vægte. Fx proc survey reg STATA har et særligt survey modul, der kan håndtere alt R har også programmer I SAS Proc surveymeans total= sas datasæt ; Weight vægt variabel ; Var Spørgeskema variabel ; Strata Strata variabel ; 26

>> Programmer (2) Vægte koster ikke kun varians, men vil også vinde svarende til graden af forklaret variation. Det kræver kendskab til registeroplysninger i den fulde population og stikprøven at estimere denne gevinst og de data kan ikke udleveres. Men der findes en løsning, som man fx bruger i PISA, SIALS og PIACC, og som er beskrevet. De benyttes for at kunne analysere stikprøver med forskellige stikprøvedesign, men udnytter også graden af forklaret variation fra registrene. Se www.westat.com repeated weighting 27

>> Gentagelsesvægte (1) Man kan lave et antal mindre stikprøver af den oprindelige stikprøve, der er også repræsentative Ved hjælpe af disse nye (og mindre) stikprøver er det muligt at beregne den oprindelige stikprøves varians Når producenten fx DST har lavet vægtene for hver af de mindre stikprøver, skal man angive typen og variabelnavnet og analysen laves med fuld gevinst for graden af afklaret variation SAS og STATA kan regne med gentagelsesvægte. 28

>> Gentagelsesvægte (2) BRR - Balanced Repeated Replicates Man samler de primære udvalgsenheder to og to. Afhængig af hvor mange gentagelsesvægte man vil lave, sættes den ene til 0 og den anden får den dobbelte udvalgsvægt. Derefter opregnes til registrene. Jackknife: Et antal af de primære udvalgsenheder fjernes tilfældigt og de resterende vægtes op til populationen. Inden for hvert stratum, hvis der er stratificeret. 29

>> Gentagelsesvægte (3) V ( ˆ) C c ( ( ) i wi ) i 2 C ci JK1 (n-1)/n 1 BRR 1/L 1 L antal gentagelsesvægte, n stikprøvestørrelsen 30

>> Tak for ordet Ingen statistik er bedre end sit svageste led. De tre ømme punkter er oftest: Repræsentativiteten Bortfaldet Spørgsmålene (fx Don Dillman: Mail and Internet Surveys: The Tailored Design Method, Wiley, 2007) Kontakt mig gerne om materiale og kilder. Er der nogle spørgsmål? 31