Repræsentative undersøgelser Non-response Vægte. Peter Linde, DST Survey

Repræsentative undersøgelser Non-response Vægte Peter Linde, DST Survey pli@dst.dk >>

>> Dagsorden Hvad er en repræsentativ undersøgelse? Bortfaldes betydning for repræsentativitet Vægtning for bortfald og design Effekt af vægtning Gentagelsesvægte Spørgsmål er velkomne undervejs diskussion tager vi til sidst - der skulle være tid 2

>> Et citat Ikke alt der tæller kan tælles og ikke alt der kan tælles tæller (Einstein) Ingen dataindsamling er bedre end sit svageste led. Tre ting kan gå rigtig galt: 1. Repræsentativitet mht. udvælgelsen 2. Repræsentativitet mht. opnåelsen 3. Målefejl med spørgsmålene Hvert led kan bidrage til skævheden i undersøgelsen Vægtningen er reparation forsøger at genskabe skævheden i bortfaldet Stikprøvestørrelsen, har betydning for sikkerheden. Kan ikke rette op på skævheden i punkt 1, 2 og 3. 3

>> Repræsentativitet (1) 1. Repræsentativitet i bortfaldet Alle udsnit siger noget om udsnittet selv fx de 40 der er her i dag ikke alle udsnit kan generaliseres Der er tre krav til repræsentativitet i udvælgelsen: 1. Alle man vil sige noget om skal kunne vælges 2. Udvælge tilfældigt med kendt sandsynlighed 3. Vægte med den inverse sandsynlighed for valg 4

>> Repræsentativitet (2) Et tilfældigt udsnit der opfylder de tre repræsentativitetskrav vil have en tilfældig fejl Det rigtige kan lige så godt være større som lavere Jo flere man spørger, jo mere sikkert bliver tallet Matematikken siger, at man skal spørge fire gange så mange, hvis man vil være dobbelt så sikker 5

>> Repræsentativitet (3) Tommelfingerreglen er at usikkerheden højst er: Der udvælges 100 enheder +/- 10 % Der udvælges 400 enheder +/- 5 % Der udvælges 1600 enheder +/- 2,5% Osv. med den sædvanlige statistiske sikkerhed = et sikkerhedsinterval på 95% Er baseret på den centrale grænseværdisætning http://onlinestatbook.com/stat_sim/sampling_dist/index.html 6

>> Repræsentativitet (4) Eksempel fra omnibus Procent Population Stikprøve Grundskole 34,9 34,0 Ungdomsudd. 39,6 39,3 Korte videreg. 4,2 4,0 Mellemlange videreg. 12,4 13,2 Lange videreg. 8,9 9,5 Stikprøven er 1.800 og har en tilfældig fejl på 1-2% 7

>> Repræsentativitet (5) Procent Population Stikprøve Herkomst Dansk oprindelse 88,4 89,2 Indvandre 10,2 9,2 Efterkommere 1,5 1,6 Familie Enlig uden børn 26,9 26,2 Enlig med børn 6,5 7,1 Par uden børn 31,3 31,8 Par med børn 35,2 34,9 95% af alle tabeller vil have afvigelser på under 1-2% Hvis man forhåndsstratificerer proportionalt kan man fjerne den tilfældige fejl. 8

>> Repræsentativitet (6) Vandret (rød): Bias (skævhed) Sort kurve: Den rene tilfældige fejl Grøn kurve: Den samlede fejl ( kvadratroden af mean square error) 9

>> Repræsentativitet (7) Repræsentativitet har kun noget med designet at gøre og har ikke noget med stikprøvestørrelsen at gøre. Sikkerheden afhænger derimod af stikprøvestørrelsen Biasen dominerer uanset stikprøvestørrelsen En pænt stor stikprøve skal gerne ligge tæt på den rigtige køns- og alderssammensætning ja tæt på enhver variabel. Det er univis Det er en konsekvens af et repræsentativt design. Det er ikke noget bevis for repræsentativitet, men en indikator. 10

>> Bortfald (1) En svarprocent på 75-80% var mulig i 80 erne Siden er det gået mest tilbage, men også frem Et en høj opnåelse er udtryk for at det har været let at deltage og svare. Det er også udtryk for en effektiv kontakt og dataindsamlingen Høj opnåelse er derfor den stærkeste indikator for ikke skævt bortfald Der er tre årsager: 1. Det er en generel trend i den vestlige verden 2. Det skyldes billigere dataindsamlinger 3. Mindre fokus på nye krav til brugervenlighed fra respondenterne. 11

>> Bortfald (2) Omnibus 1992 2012 I alt 67% opnåelse 58% opnåelse Mænd 66% 56% Kvinder 67% 61% 16-29 år 62% 47% 30-39 år 66% 58% 40-49 år 73% 57% 50-64 år 68% 61% 65-74 år 67% 71% 12

>> Bortfald (3) 1992 2012 Uddannelse Grundskole 62% 51% Ungdomsuddannelse 67% 56% Kort videregående 85% 73% Mellemlang videregående 83% 74% Lang videregående 80% 70% Indkomst familie Ingen registreret 42% 1-200.000 45% 200-350.000 61% 350-500.000 61% 500-750.000 70% 750.000+ 69% Indkomst 6% for høj 8% for høj 13

>> Non-response decreases 1st half 2014 Response increase 2014 Response Web Phone June 55,7 27,8 27,9 July 57,0 30,1 25,9 Always the worst month. August 63,5 37,4 26,1 Your Answer September 64,3 39,7 24,6 New code October 64,1 41,1 22,9 First on google.dk November 64,6 41,4 23,2 December 63,8 36,9 26,9 New press scandal In December, a new press scandal cost on web 14

>> Cost decrease in 2014 Sample Response Web Phone Januar 64,2 31,0 33,2.. July 57,0 30,1 25,9 August 63,5 37,4 26,1 September 1.575 64,3 39,7 (620) 24,6 (388) October 1.576 64,1 41,1 (648) 22,9 (363) November 1.570 64,6 41,4 (650) 23,2 (365) December 1.581 63,8 36,9 (583) 26,9 (426) About 150 interviews more on the web (free) Fewer costs. 1.000 euros monthly. 12.000 euros in one year. 15

>> Continuing in 2015?? Sample Response Web Phone 2015 January 1.574 66,4 41,9 24,5 February 1.575 64,9 41,0 24,0 Marts 1.572 60,7 38,3 22,4 April 1.571 64,0 42,7 21,3 Cookies and 2 reminder May 1.563 63,2 41,7 21,6 June 1.579 64,9 42,4 22,5 July 1.578 58,8 35,3 23,5 August 1.565 63,2 40,7 22,6 September 1.567 57,6 35,0 22,6 October 1.565 54,4 36,0 18,3 November 1.564 58,6 36,3 22,3 December 1.572 56,3 37,8 18,4 16

>> 60+ in 2016 Sample Response Web Phone 2016 Januar 1.814 62,8 37,9 24,9 February 1.799 55,8 32,6 23,1 Marts 1.817 61,0 41,9 19,0 April 1.705 62,6 41,9 20,8 May 1.664 64,8 47,3 17,3 June 1.665 61,4 44,5 16,9 17

>> Vægtning (1) Det er muligt at vægte for skævt bortfald med registeroplysninger I den mere simple version efterstratificerer man. Fx opdeles efter køn, 5 aldersintervaller og 5 indkomstintervaller i alt 2*5*5 = 50 strata I hvert af de 50 strata laver man vægten: Population/stikprøve=N/n. n er efter bortfald Det er begrænset, hvor mange faktorer man kan inddrage i efterstratificering. 18

>> Vægtning (2) Der findes mere avancerede vægtningsprogrammer, fx CLAN, som man kan finde på www.scb.se Her kan man lave de såkaldte GREG vægte, der svarer til, i en regressionsanalyse, at kombinere hovedvirkninger og vekselvirkninger af kategoriske og kontinuerte variabler. Alle hovedvirkninger og vekselvirkninger (tabeller) man medtager, genskaber man Se fx DDA.dk: Metode & Data 93 2007, side 14 19

>> Vægtning (3) I DST s forbrugsundersøgelse vægtes der efter: Statsborgerskab, beskæftigelsesstatus, socioøkonomisk status, husstandsstørrelse, region og husstandstype, uddannelsesgruppe samt: Population Opnået Vægtet Bolig Eget hus 47% 57% 47% Eget lejlighed 5% 5% 5% Lejet hus 13% 10% 13% Lejet lejlighed 33% 26% 33% Uoplyst 2% 1% 2% 20

>> Vægtning (4) Population Opnået Vægtet Boet på adressen 0-1 år 20% 23% 20% 2-4 år 19% 15% 19% 5-9 år 17% 17% 17% 10-20 år 21% 21% 21% Over 20 22% 24% 22% De vægtede tal passer (selvfølgelig) med populationen 21

>> Vægtning (5) I forbrugsundersøgelsen vægter vi også vægte for indkomst, men hvis vi ikke gør det og vægter for de nævnte sociale og demografiske faktorer, gælder: Population Opnået Vægtet Fam. indk. 520.639 557.159 518.000 Afvigelse +7% -½% Indkomsten overvurderes med ca. 7%, hvis man ikke vægter. Den samme bias var for 15 år siden ca. 3% Vægtningen med de demografiske og sociale faktorer reducerer biasen til ½%. Hvis vi også have vægtet for indkomst havde biasen være 0% (selvfølgelig) 22

>> Effekt af vægtning (1) Vægtningen har tre virkninger: 1.Kontrollerer det der er muligt mht. non-response begrænser den største fejlkilde 2.Kan øge stikprøvevariansen, hvis der er meget skævt bortfald nødvendigt hvis man vil kontrollere biasen (punkt 1) 3.Kan vinde stikprøvevarians svarende til graden af forklaret variation registervariabler kan fjerne usikkerhed 23

>> Effekt af vægtning (2) I eksemplet fra forbrugsundersøgelsen: Vi måler andelen af husstande, der har et årligt forbrug på over 300.000 baseret på svaret i spørgeskemaet. Uvægtet Vægtet Andel over 300.000 46% 39% Simpel Kun punkt 1 Punkt 1+2 Naiv Overvurderer Rigtig/bedst Spredning 0.0098 0.0107 0.0070 Gevinsten er 1-(0.0098/0.0070)**2 = 97% De 2.462 interviews svarer effektivt til 4.845. Man har gratis fået 2.383 interviews + reduceret bias 24

>> Programmer (1) SAS kan regne med vægte. Fx proc survey reg STATA har et særligt survey modul, der kan håndtere alt R har også programmer I SAS Proc surveymeans total= sas datasæt ; Weight vægt variabel ; Var Spørgeskema variabel ; Strata Strata variabel ; 25

>> Programmer (2) Vægte koster ikke kun varians, men vil også vinde svarende til graden af forklaret variation. Det kræver kendskab til registeroplysninger i den fulde population og stikprøven at estimere denne gevinst og de data kan ikke udleveres. Men der findes en løsning, som man fx bruger i PISA, SIALS og PIACC, og som er beskrevet. De benyttes for at kunne analysere stikprøver med forskellige stikprøvedesign, men udnytter også graden af forklaret variation fra registrene. Se www.westat.com repeated weighting 26

>> Gentagelsesvægte (1) Man kan lave et antal mindre stikprøver af den oprindelige stikprøve, der er også repræsentative Ved hjælpe af disse nye (og mindre) stikprøver er det muligt at beregne den oprindelige stikprøves varians Når producenten fx DST har lavet vægtene for hver af de mindre stikprøver, skal man angive typen og variabelnavnet og analysen laves med fuld gevinst for graden af afklaret variation SAS og STATA kan regne med gentagelsesvægte. 27

>> Gentagelsesvægte (2) BRR - Balanced Repeated Replicates Man samler de primære udvalgsenheder to og to. Afhængig af hvor mange gentagelsesvægte man vil lave, sættes den ene til 0 og den anden får den dobbelte udvalgsvægt. Derefter opregnes til registrene. Jackknife: Et antal af de primære udvalgsenheder fjernes tilfældigt og de resterende vægtes op til populationen. Inden for hvert stratum, hvis der er stratificeret. 28

>> Gentagelsesvægte (3) V ( ˆ) θ = C c ( θ ( ) θ i wi ) i 2 C ci JK1 (n-1)/n 1 BRR 1/L 1 L antal gentagelsesvægte, n stikprøvestørrelsen 29

>> Tak for ordet Ingen statistik er bedre end sit svageste led. De tre ømme punkter er oftest: Repræsentativiteten Bortfaldet Spørgsmålene (fx Don Dillman: Mail and Internet Surveys: The Tailored Design Method, Wiley, 2007) Kontakt mig gerne om materiale og kilder. Er der nogle spørgsmål? 30