Repræsentative undersøgelser Non-response Vægte. Peter Linde, DST Survey

Relaterede dokumenter
Repræsentative undersøgelser før og nu. Peter Linde, Interviewservice

Bortfaldets betydning i dag og over tid

Optimering af stikprøver vha. registre. Peter Linde, DST Survey

Forebyggelse og reparation - vægtning af data. Brian Larsen Thorsted

Det gode håndværk eller simpel datafangst? Peter Linde 8. juni 2009

1. Frekvenstabeller. Tabel 1: Ville du være modstander af, at din datter giftede sig med en dansker?

Føler du overordnet set, at det danske samfund har taget godt eller dårligt imod dig?

Hvor enig eller uenig er du i følgende udsagn: Jeg håber en dag at flytte tilbage til det land, jeg oprindeligt kommer fra.

Kvalitetsmåling i statistik

Normalfordelingen og Stikprøvefordelinger

Monitorering af danskernes rygevaner. Metodebeskrivelse m.m. Januar 2004

Problemstillinger omkring spørgeskemaundersøgelser blandt etniske minoriteter. Vibeke Jakobsen SFI Det Nationale Forskningscenter for Velfærd

Udfordringer med svarprocenter

Bilag 3: Parameterestimater og forklaringsgrader

Ændringer i AKU-opregningen 2019

Jacob Hviid Hornnes, Anne Christensen og Ulrik Hesse. Arbejdsnotat. Metode- og materialeafsnit til Sundhedsprofil for Gribskov Kommune

Bilag De socioøkonomiske referencer for gymnasiekarakterer. Bilag 1: Socioøkonomiske baggrundsoplysninger

Udsathed for vold og andre former for kriminalitet

1 Metodeappendiks. Spørgeskemaet omhandler ledernes erfaringer med forældresamarbejde og indeholder både faktuelle spørgsmål og holdningsspørgsmål.

Sundhedsstyrelsen Monitorering af danskernes rygevaner

FINANSIEL FORSTÅELSE OG REGNEFÆRDIGHED

Kvotering: Der er sat en totalkvote på gennemførte interviews

NOTATSERIE. Medborgerskab Notat nr. 1: Nydanskeres holdninger til kønsroller

Kvantitative metoder, teori og praksis

NOTATSERIE. Medborgerskab Notat nr. 2: Social kontrol blandt nydanskere og personer med dansk oprindelse

NOTATSERIE. Medborgerskab Notat nr. 3: Nydanskeres tilfredshed med livet i Danmark

Analyse af binære responsvariable

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Dokumentation af interviewundersøgelser

STATISTIK - Fase 3. Kritisk vurdere undersøgelser og data. Navn:&& & Klasse:&& Vurdering fra 1 til 5 (hvor 5 er højst) & & & & & & & & & &

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Workshop 6 Sundhedsprofilen metode og muligheder. Anne Helms Andreasen, Forskningscenter for Forebyggelse og Sundhed

NOTATSERIE. Medborgerskab Notat nr. 5: Holdninger og værdier blandt nydanskere i boligområder med stor koncentration af nydanskere

Teknisk rapport til spørgeskemaundersøgelsen "Fællesskabsforestillinger blandt danskere og nydanskere" Kongshøj, Kristian

Grundlæggende metode og. 2. februar 2011

De socioøkonomiske referencer for grundskolekarakterer

a1 Skal der være begrænsninger for, hvor mange timer om ugen dagpengemodtagere må arbejde frivilligt, hvis de står til rådighed for arbejdsmarkedet?

Grundlæggende metode og videnskabsteori. 5. september 2011

ET BILLEDE AF DE IKKE-FORSIKREDE

Fordeling af midler til specialundervisning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

PIAAC i Danmark. om bortfald og vægtning. Torben Fridberg. Selskab for Surveyforskning 27. november 2013

Teknisk note nr. 3. Dokumentation af data-grundlaget fra GDS-undersøgelserne i Danmark marts 1998 og i Sverige december 1997 / januar 1998

METODEBILAG. Til rapporten "Helhedsorienterede gadeplansindsatser med mentoring. September 2018

Morten Rasmus Puck og Jeppe Bundsgaard. Undersøgelse af repræsentativiteten AARHUS UNIVERSITET

Viden om FM-båndet og brug af digital radio

Folkebibliotekernes værdi målt ved borgernes betalingsvillighed

UDSATHED FOR VOLD OG ANDRE FORMER FOR KRIMINALITET

De socioøkonomiske referencer for gymnasiekarakterer

LUP læsevejledning til afdelingsrapporter

JUSTITSMINISTERIETS FORSKNINGSKONTOR DECEMBER 2015 LÆGDOMMERES REPRÆSENTATIVITET. Undersøgelse vedrørende perioden til

Analyse af sociale baggrundsfaktorer for elever, der opnår bonus A

Om usikkerhed i EU-SILCs målinger af indkomstfordelingen

Teknisk note nr. 1. Dokumentation af data-grundlaget fra GDS-undersøgelserne i februar/marts 1996 og februar 1997

SURVEY OM NORMERINGER I DAGINSTITUTIONER

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Uglevang Allerød DS-kode: Tabel 1. Befolkningen fordelt på oprindelse og alder 1. januar

SST - monitorering af danskernes rygevaner - december 2009

Lyngallup om EU og fremtiden

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Vurdering af epidemiologiske undersøgelser. Epidemiologisk forskning

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

MÅLING AF INKLUSION SURVEY

Indvandrere og efterkommere bliver i højere grad mønsterbrydere

Metodenotat til analysen:

Konfidensintervaller og Hypotesetest

Lillerød Boligforening afd. 10 Ørnevang Allerød DS-kode: Tabel 1. Befolkningen fordelt på oprindelse og alder 1.

Surveys. processer, muligheder og faldgruber

MEDBORGERSKABSUNDERSØGELSEN Ledige nydanskeres vej til beskæftigelse - en forløbsanalyse blandt et mindre, repræsentativt udsnit af gruppen

Den uforsikrede restgruppe indbo- og ulykkesforsikringer

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Jan Christensen og Eskild Klausen Fredslund. Fælles ældre. Opgørelse af 65+ borgere i hjemmeplejen og i hospitalssektoren

Danskerne: Lad børnefamilier arbejde mindre

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Statistik på geografi. Kvadratnet. Dokumentation af standardvariabler

Analyse af nystartende elever og omgængere i grundskolens børnehaveklasse. Baseret på data for skoleåret 2010/11

NOTATSERIE. Medborgerskab Notat nr. 4: Efterkommeres holdninger adskiller sig fra indvandreres og personer med dansk oprindelses holdninger

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

BAGGRUND OG FORMÅL MED UNDERSØGELSEN

Indhold. Undersøgelse af repræsentativiteten af ICILS Af Morten Rasmus Puck og Jeppe Bundsgaard. Test for repræsentativitet i ICILS 2013

Hver anden vil benytte øget åbningstid i dagtilbud

Teenagefødsler går i arv

STATISTIK. Beboere i den almene boligsektor 2018

Lyngallup om Thornings nytårstale Dato: 5. januar 2012

STATISTIK. Beboere i den almene boligsektor 2017

Rapport 23. november 2018

2. Indledende sonderinger (eksplorative forundersøgelser) Sekundære data Kvantitative og kvalitative Desk research

LEFT MARGIN

Egmont Fonden. Hvordan oplever børn og forældre skolestart

Optagelsesprøver på erhvervsuddannelserne 2018

NOTATSERIE. Medborgerskab 2019 Notat nr. 3: Nydanskeres forhold til Danmark og det danske sprog

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Postoperative komplikationer

Ungdomsuddannelser otte år efter 9.klasse

BEFOLKNINGENS UDDANNELSESMÆSSIGE BAGGRUND I ÅRHUS

ANALYSENOTAT Kommunalpolitikere ser effektiviseringsgevinst ved at inddrage private mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Kvantitative Metoder 1 - Forår Dagens program

RAPPORT. Unges holdninger til EU Kunde: Dansk Ungdoms fællesråd Scherfigsvej København Ø. Projektnummer: 53946

Transkript:

Repræsentative undersøgelser Non-response Vægte Peter Linde, DST Survey pli@dst.dk >>

>> Dagsorden Hvad er en repræsentativ undersøgelse? Bortfaldes betydning for repræsentativitet Vægtning for bortfald og design Effekt af vægtning Gentagelsesvægte Spørgsmål er velkomne undervejs diskussion tager vi til sidst - der skulle være tid 2

>> Et citat Ikke alt der tæller kan tælles og ikke alt der kan tælles tæller (Einstein) Ingen dataindsamling er bedre end sit svageste led. Tre ting kan gå rigtig galt: 1. Repræsentativitet mht. udvælgelsen 2. Repræsentativitet mht. opnåelsen 3. Målefejl med spørgsmålene Hvert led kan bidrage til skævheden i undersøgelsen Vægtningen er reparation forsøger at genskabe skævheden i bortfaldet Stikprøvestørrelsen, har betydning for sikkerheden. Kan ikke rette op på skævheden i punkt 1, 2 og 3. 3

>> Repræsentativitet (1) 1. Repræsentativitet i bortfaldet Alle udsnit siger noget om udsnittet selv fx de 40 der er her i dag ikke alle udsnit kan generaliseres Der er tre krav til repræsentativitet i udvælgelsen: 1. Alle man vil sige noget om skal kunne vælges 2. Udvælge tilfældigt med kendt sandsynlighed 3. Vægte med den inverse sandsynlighed for valg 4

>> Repræsentativitet (2) Et tilfældigt udsnit der opfylder de tre repræsentativitetskrav vil have en tilfældig fejl Det rigtige kan lige så godt være større som lavere Jo flere man spørger, jo mere sikkert bliver tallet Matematikken siger, at man skal spørge fire gange så mange, hvis man vil være dobbelt så sikker 5

>> Repræsentativitet (3) Tommelfingerreglen er at usikkerheden højst er: Der udvælges 100 enheder +/- 10 % Der udvælges 400 enheder +/- 5 % Der udvælges 1600 enheder +/- 2,5% Osv. med den sædvanlige statistiske sikkerhed = et sikkerhedsinterval på 95% Er baseret på den centrale grænseværdisætning http://onlinestatbook.com/stat_sim/sampling_dist/index.html 6

>> Repræsentativitet (4) Eksempel fra omnibus Procent Population Stikprøve Grundskole 34,9 34,0 Ungdomsudd. 39,6 39,3 Korte videreg. 4,2 4,0 Mellemlange videreg. 12,4 13,2 Lange videreg. 8,9 9,5 Stikprøven er 1.800 og har en tilfældig fejl på 1-2% 7

>> Repræsentativitet (5) Procent Population Stikprøve Herkomst Dansk oprindelse 88,4 89,2 Indvandre 10,2 9,2 Efterkommere 1,5 1,6 Familie Enlig uden børn 26,9 26,2 Enlig med børn 6,5 7,1 Par uden børn 31,3 31,8 Par med børn 35,2 34,9 95% af alle tabeller vil have afvigelser på under 1-2% Hvis man forhåndsstratificerer proportionalt kan man fjerne den tilfældige fejl. 8

>> Repræsentativitet (6) Vandret (rød): Bias (skævhed) Sort kurve: Den rene tilfældige fejl Grøn kurve: Den samlede fejl ( kvadratroden af mean square error) 9

>> Repræsentativitet (7) Repræsentativitet har kun noget med designet at gøre og har ikke noget med stikprøvestørrelsen at gøre. Sikkerheden afhænger derimod af stikprøvestørrelsen Biasen dominerer uanset stikprøvestørrelsen En pænt stor stikprøve skal gerne ligge tæt på den rigtige køns- og alderssammensætning ja tæt på enhver variabel. Det er univis Det er en konsekvens af et repræsentativt design. Det er ikke noget bevis for repræsentativitet, men en indikator. 10

>> Bortfald (1) En svarprocent på 75-80% var mulig i 80 erne Siden er det gået mest tilbage, men også frem Et en høj opnåelse er udtryk for at det har været let at deltage og svare. Det er også udtryk for en effektiv kontakt og dataindsamlingen Høj opnåelse er derfor den stærkeste indikator for ikke skævt bortfald Der er tre årsager: 1. Det er en generel trend i den vestlige verden 2. Det skyldes billigere dataindsamlinger 3. Mindre fokus på nye krav til brugervenlighed fra respondenterne. 11

>> Bortfald (2) Omnibus 1992 2012 I alt 67% opnåelse 58% opnåelse Mænd 66% 56% Kvinder 67% 61% 16-29 år 62% 47% 30-39 år 66% 58% 40-49 år 73% 57% 50-64 år 68% 61% 65-74 år 67% 71% 12

>> Bortfald (3) 1992 2012 Uddannelse Grundskole 62% 51% Ungdomsuddannelse 67% 56% Kort videregående 85% 73% Mellemlang videregående 83% 74% Lang videregående 80% 70% Indkomst familie Ingen registreret 42% 1-200.000 45% 200-350.000 61% 350-500.000 61% 500-750.000 70% 750.000+ 69% Indkomst 6% for høj 8% for høj 13

>> Non-response decreases 1st half 2014 Response increase 2014 Response Web Phone June 55,7 27,8 27,9 July 57,0 30,1 25,9 Always the worst month. August 63,5 37,4 26,1 Your Answer September 64,3 39,7 24,6 New code October 64,1 41,1 22,9 First on google.dk November 64,6 41,4 23,2 December 63,8 36,9 26,9 New press scandal In December, a new press scandal cost on web 14

>> Cost decrease in 2014 Sample Response Web Phone Januar 64,2 31,0 33,2.. July 57,0 30,1 25,9 August 63,5 37,4 26,1 September 1.575 64,3 39,7 (620) 24,6 (388) October 1.576 64,1 41,1 (648) 22,9 (363) November 1.570 64,6 41,4 (650) 23,2 (365) December 1.581 63,8 36,9 (583) 26,9 (426) About 150 interviews more on the web (free) Fewer costs. 1.000 euros monthly. 12.000 euros in one year. 15

>> Continuing in 2015?? Sample Response Web Phone 2015 January 1.574 66,4 41,9 24,5 February 1.575 64,9 41,0 24,0 Marts 1.572 60,7 38,3 22,4 April 1.571 64,0 42,7 21,3 Cookies and 2 reminder May 1.563 63,2 41,7 21,6 June 1.579 64,9 42,4 22,5 July 1.578 58,8 35,3 23,5 August 1.565 63,2 40,7 22,6 September 1.567 57,6 35,0 22,6 October 1.565 54,4 36,0 18,3 November 1.564 58,6 36,3 22,3 December 1.572 56,3 37,8 18,4 16

>> 60+ in 2016 Sample Response Web Phone 2016 Januar 1.814 62,8 37,9 24,9 February 1.799 55,8 32,6 23,1 Marts 1.817 61,0 41,9 19,0 April 1.705 62,6 41,9 20,8 May 1.664 64,8 47,3 17,3 June 1.665 61,4 44,5 16,9 17

>> Vægtning (1) Det er muligt at vægte for skævt bortfald med registeroplysninger I den mere simple version efterstratificerer man. Fx opdeles efter køn, 5 aldersintervaller og 5 indkomstintervaller i alt 2*5*5 = 50 strata I hvert af de 50 strata laver man vægten: Population/stikprøve=N/n. n er efter bortfald Det er begrænset, hvor mange faktorer man kan inddrage i efterstratificering. 18

>> Vægtning (2) Der findes mere avancerede vægtningsprogrammer, fx CLAN, som man kan finde på www.scb.se Her kan man lave de såkaldte GREG vægte, der svarer til, i en regressionsanalyse, at kombinere hovedvirkninger og vekselvirkninger af kategoriske og kontinuerte variabler. Alle hovedvirkninger og vekselvirkninger (tabeller) man medtager, genskaber man Se fx DDA.dk: Metode & Data 93 2007, side 14 19

>> Vægtning (3) I DST s forbrugsundersøgelse vægtes der efter: Statsborgerskab, beskæftigelsesstatus, socioøkonomisk status, husstandsstørrelse, region og husstandstype, uddannelsesgruppe samt: Population Opnået Vægtet Bolig Eget hus 47% 57% 47% Eget lejlighed 5% 5% 5% Lejet hus 13% 10% 13% Lejet lejlighed 33% 26% 33% Uoplyst 2% 1% 2% 20

>> Vægtning (4) Population Opnået Vægtet Boet på adressen 0-1 år 20% 23% 20% 2-4 år 19% 15% 19% 5-9 år 17% 17% 17% 10-20 år 21% 21% 21% Over 20 22% 24% 22% De vægtede tal passer (selvfølgelig) med populationen 21

>> Vægtning (5) I forbrugsundersøgelsen vægter vi også vægte for indkomst, men hvis vi ikke gør det og vægter for de nævnte sociale og demografiske faktorer, gælder: Population Opnået Vægtet Fam. indk. 520.639 557.159 518.000 Afvigelse +7% -½% Indkomsten overvurderes med ca. 7%, hvis man ikke vægter. Den samme bias var for 15 år siden ca. 3% Vægtningen med de demografiske og sociale faktorer reducerer biasen til ½%. Hvis vi også have vægtet for indkomst havde biasen være 0% (selvfølgelig) 22

>> Effekt af vægtning (1) Vægtningen har tre virkninger: 1.Kontrollerer det der er muligt mht. non-response begrænser den største fejlkilde 2.Kan øge stikprøvevariansen, hvis der er meget skævt bortfald nødvendigt hvis man vil kontrollere biasen (punkt 1) 3.Kan vinde stikprøvevarians svarende til graden af forklaret variation registervariabler kan fjerne usikkerhed 23

>> Effekt af vægtning (2) I eksemplet fra forbrugsundersøgelsen: Vi måler andelen af husstande, der har et årligt forbrug på over 300.000 baseret på svaret i spørgeskemaet. Uvægtet Vægtet Andel over 300.000 46% 39% Simpel Kun punkt 1 Punkt 1+2 Naiv Overvurderer Rigtig/bedst Spredning 0.0098 0.0107 0.0070 Gevinsten er 1-(0.0098/0.0070)**2 = 97% De 2.462 interviews svarer effektivt til 4.845. Man har gratis fået 2.383 interviews + reduceret bias 24

>> Programmer (1) SAS kan regne med vægte. Fx proc survey reg STATA har et særligt survey modul, der kan håndtere alt R har også programmer I SAS Proc surveymeans total= sas datasæt ; Weight vægt variabel ; Var Spørgeskema variabel ; Strata Strata variabel ; 25

>> Programmer (2) Vægte koster ikke kun varians, men vil også vinde svarende til graden af forklaret variation. Det kræver kendskab til registeroplysninger i den fulde population og stikprøven at estimere denne gevinst og de data kan ikke udleveres. Men der findes en løsning, som man fx bruger i PISA, SIALS og PIACC, og som er beskrevet. De benyttes for at kunne analysere stikprøver med forskellige stikprøvedesign, men udnytter også graden af forklaret variation fra registrene. Se www.westat.com repeated weighting 26

>> Gentagelsesvægte (1) Man kan lave et antal mindre stikprøver af den oprindelige stikprøve, der er også repræsentative Ved hjælpe af disse nye (og mindre) stikprøver er det muligt at beregne den oprindelige stikprøves varians Når producenten fx DST har lavet vægtene for hver af de mindre stikprøver, skal man angive typen og variabelnavnet og analysen laves med fuld gevinst for graden af afklaret variation SAS og STATA kan regne med gentagelsesvægte. 27

>> Gentagelsesvægte (2) BRR - Balanced Repeated Replicates Man samler de primære udvalgsenheder to og to. Afhængig af hvor mange gentagelsesvægte man vil lave, sættes den ene til 0 og den anden får den dobbelte udvalgsvægt. Derefter opregnes til registrene. Jackknife: Et antal af de primære udvalgsenheder fjernes tilfældigt og de resterende vægtes op til populationen. Inden for hvert stratum, hvis der er stratificeret. 28

>> Gentagelsesvægte (3) V ( ˆ) θ = C c ( θ ( ) θ i wi ) i 2 C ci JK1 (n-1)/n 1 BRR 1/L 1 L antal gentagelsesvægte, n stikprøvestørrelsen 29

>> Tak for ordet Ingen statistik er bedre end sit svageste led. De tre ømme punkter er oftest: Repræsentativiteten Bortfaldet Spørgsmålene (fx Don Dillman: Mail and Internet Surveys: The Tailored Design Method, Wiley, 2007) Kontakt mig gerne om materiale og kilder. Er der nogle spørgsmål? 30