Forebyggelse og reparation - vægtning af data. Brian Larsen Thorsted

Relaterede dokumenter
Repræsentative undersøgelser før og nu. Peter Linde, Interviewservice

Repræsentative undersøgelser Non-response Vægte. Peter Linde, DST Survey

Forskerbeskyttelse i CPR 2008

Det gode håndværk eller simpel datafangst? Peter Linde 8. juni 2009

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Derfor skal livrenter. betydning privatøkonomien. Forsikring & Pension Analyserapport 2011:7. Ann-Kathrine Ejsing. Andreas Østergaard Nielsen

FINANSIEL FORSTÅELSE OG REGNEFÆRDIGHED

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forsikringssvindel. - hvem, hvordan og hvorfor. Forsikring & Pension Analyserapport 2011:9. Andreas Østergaard Nielsen

Webpaneler: Rekruttering, stratificering & sampling

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Dokumentation af interviewundersøgelser

Forelæsning 11: Kapitel 11: Regressionsanalyse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Problemstillinger omkring spørgeskemaundersøgelser blandt etniske minoriteter. Vibeke Jakobsen SFI Det Nationale Forskningscenter for Velfærd

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

Kvalitetsmåling i statistik

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Stor stigning i gruppen af rige danske familier

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

To samhørende variable

Normalfordelingen og Stikprøvefordelinger

FraværsStatistik dokumentation 12. september 2008

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Kvantitative metoder 2

Konfidensintervaller og Hypotesetest

Løsning til eksaminen d. 29. maj 2009

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

ET BILLEDE AF DE IKKE-FORSIKREDE

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

JUSTITSMINISTERIETS FORSKNINGSKONTOR NOVEMBER 2011 LÆGDOMMERES REPRÆSENTATIVITET. Undersøgelse vedrørende perioden til

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kvantitative Metoder 1 - Forår Dagens program

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y))

Indledning...1. Analyse af lønforskellen mellem kvinder og mænd...2

Viden om og holdning til private og offentlige pensionsordninger

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik II 4. Lektion. Logistisk regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Den samlede model til estimation af lønpræmien er da givet ved:

Mobning på arbejdspladsen. En undersøgelse af oplevelser med mobning blandt STEM-ansatte

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

1 Metodeappendiks. Spørgeskemaet omhandler ledernes erfaringer med forældresamarbejde og indeholder både faktuelle spørgsmål og holdningsspørgsmål.

Noter til Specialkursus i videregående statistik

Fagplan for statistik, efteråret 2015

Simpel Lineær Regression: Model

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Transkript:

Forebyggelse og reparation - vægtning af data Brian Larsen Thorsted bnl@dst.dk

Indhold Usikkerhed i stikprøveundersøgelser Bortfald Estimation Regressionsestimator Reduktion af usikkerhed Repræsentativitet genskabes Konkluderende bemærkninger

Den perfekte verden In a perfect world a survey has no nonresponse. All selected elements cooperate and deliver all of the requested data, with no measurement error. In that perfect but non-existent world, a survey has only sampling error. Lundström og Särndal 2005, Estimation in Surveys with Nonresponse

Usikkerhed i stikprøver Kilder til usikkerhed: Tilfældig fejl stokastisk struktur i udvælgelse Systematisk fejl / bias målefejl bortfald/missing fejlsøgning opregning tabellering mm. Kun den tilfældige fejl kan kvantificeres Ønsker at minimere den tilfældige fejl og kontrollere den systematiske fejl Forebyggelse og reparation

Bortfald Fokus på bortfaldet Et problem hvis bortfaldet er skævt og korreleret med spørgeskemavariable resultatet er bias på estimaterne

Bortfald Eksempel (Särndal & Lundström 2005) Gennemsnitlig indkomst, M: 196 000 Kr. Gennemsnitlig indkomst, K: 135 000 Kr. Svarprocent, M: 50 pct. Svarprocent, K: 90 pct. kvinder er overrepræsenteret Gennemsnitlig indkomst er lavest for kvinder Total populationsindkomst underestimeres

Bortfald - Forskerbeskyttelse Månedlig udvikling i antal personer med forskerbeskyttelse 2004-2009 14000 12000 10000 8000 6000 4000 2000 0 jan-04 apr-04 jul-04 okt-04 jan-05 apr-05 jul-05 okt-05 jan-06 apr-06 jul-06 okt-06 jan-07 apr-07 jul-07 okt-07 jan-08 apr-08 jul-08 okt-08 jan-09 apr-09 jul-09 Månedlig vækst -2000 800000 700000 Antal personer Månedlig vækst Antal 600000 500000 400000 300000 200000 100000

Estimation Beregn en vægt for hver interviewperson Angiver hvor mange andre hver interviewperson repræsenterer Udgangspunkt er designvægten v = N n

Traditionel estimation Traditionel opregning deler baggrunds- og svarpopulation op i flerdimensional tabel Tabel dannes typisk på baggrund af køn, alder og geografi Der tages højde for skævt bortfald Fælles vægt til alle i samme celle Beregningsmæssigt ikke tungt Men demografiske faktorer forklarer typisk kun lille del af skævt bortfald stikprøvestørrelse er begrænsning

Regressionsestimat Modellerer Y vha. j hjælpevariable, X,,, i regressionsmodel 1 L X j y + + B x + k = B1 x1 k j jk e k B,, Koefficienterne bestemmes vha. mindste kvadraters metode 1 L Jo større R 2 jo større effektiv stikprøve B j

Regressionsestimat Populationstotalen estimeres da som tˆ greg y = tˆ = y i S + J N n j= 1 Bˆ j y i g i ( t x j tˆ x j ) Bemærk: Model assisted estimation!

Regressionsestimat, varians Variansen er Hvor n S n N N t V y greg y 2 2 1 ) (ˆ ˆ = 1 1 ˆ ˆ 2 2 2 1 2 2 = = = n e g n x B y g S S i i i S i J j ji j i i y

Regressionsestimator Regressionsestimat kan håndtere flere registervariable end traditionelt Forklaringskraft i registervariable udnyttes i opregning Motiveret af stigende bortfald og stigende krav til effektivitet

Regressionsestimator Traditionelle kategoriske variable (alder, køn, geografi) kan bruges I kombination med en eller flere andre variable Hovedvirkning dvs. ingen kombination!! Kategoriske og kontinuerte variable Repræsentativitet genskabes på en lang række registervariable Forskellige vægte

Reduktion af usikkerhed Arbejdskraftundersøgelsen bortfald 43 pct. Antal arbejdsløse (AKU) 2. kvt. 2009 Metode Arbejdsløse Usikkerhed Relativ usikkerhed (CV) Direkte estimat 143.000 +/-11.000 3,9 pct. Alder*køn*region 160.000 +/-13.000 4,2 pct. Anvendt estimat 177.000 +/-14.000 4,0 pct. Effektiv stikprøve forøges med 10 pct.

Repræsentativitet genskabes Population Simpel tilfældig stikprøve Stikprøve efter forskerbeskyttelse Svarstikprøven efter alt bortfald Vægte de svar Køn Mand 50 49 49 47 50 Kvinde 50 51 51 53 50 Aldersgruppe 16-19 år 7 6 6 5 7 20-29 år 15 15 13 10 15 30-39 år 19 17 15 15 19 40-49 år 20 21 22 23 20 50-59 år 18 18 19 20 18 60-74 år 21 23 25 27 21 Uddannelse Grundskole 37 36 35 29 37 Gymnasial og 44 45 45 47 44 erhvervsfagliguddannelse Mellemlang videregående 13 15 15 18 13 uddannelse Lang videregående uddannelse 6 5 5 6 6 Pct.

Repræsentativitet genskabes Population Simpel tilfældig stikprøve Stikprøve efter forskerbeskyttelse Svarstikprøven efter alt bortfald Vægtede svar Pct. Socioøkonomisk status Selvstændig 4 5 5 5 4 Lønmodtager 60 60 60 65 60 Arbejdsløs 2 2 2 2 2 Uddannelsessøgende 8 7 7 5 8 Pensionist/Efterlønsmodtager 16 18 19 18 16 Uden for arbejdsstyrken, børn, øvrige 9 9 7 5 9 Gennemsnitlige familieindkomst 0-49.999 kr. 29 27 27 25 29 50.000-99.999 kr. 14 14 14 14 14 100.000-199.999 kr. 30 32 33 33 30 200.000-299.999 kr. 15 15 15 15 15 over 300.000 kr. 12 12 12 13 12 Flyttet Flyttet efter flytteblanket 50 47 40 36 50 Ikke flyttet 50 53 60 64 50

Kontrol af estimation Estimation af kendt registerindkomst Metode Gennemsnit Spredning (Før skat i kr) Direkte estimat 180.000 118.000 Køn*alder*region 181.000 118.000 Anvendt estimat (uden 177.000 116.000 indkomst) Register 175.000 116.000

Repræsentativitet genskabes Estimater er baseret på fordeling fra registre ikke fra svarene Kvalitetsløft Reduktion af bias

Reduktion af usikkerhed Ved korrelation med registervariable sænkes usikkerhed Kvalitetsløft Smallere konfidensintervaller Større effektiv stikprøve

Analyse Regressionsanalyser bør laves på vægtede svar Sikrer repræsentativitet og middelrette estimater Konservative signifikansniveauer skyldes empirisk varians fra før g 2 e 2 i i Sˆ 2 = i S y n 1

Konkluderende bemærkninger Forebyggelse/reparation nødvendig Muligt at genskabe repræsentativitet på en række parametre Samtidig med gevinst på effektiv stikprøve men (survey)-verden bliver ikke perfekt af den grund