Kombinationer af lande- og individdata. Multilevel analyse.

Relaterede dokumenter

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Logistisk Regression - fortsat

Besvarelse af vitcap -opgaven

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

To samhørende variable

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Introduktion til GLIMMIX

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Appendiks A Anvendte test statistikker

To-sidet varians analyse

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Simpel Lineær Regression

Generelle lineære modeller

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Eksamen i Statistik for biokemikere. Blok

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Interviewereffekter på spørgsmål om sort arbejde. Rockwool Fondens Forskningsenhed Oktober 2008

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Reeksamen i Statistik for Biokemikere 6. april 2009

Module 12: Mere om variansanalyse

The Urban Turn i en dansk kontekst. Høgni Kalsø Hansen Institut for geografi & geologi, KU

Skriftlig eksamen Science statistik- ST501

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kvantitative metoder 2

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Forelæsning 11: Kapitel 11: Regressionsanalyse

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Module 12: Mere om variansanalyse

X M Y. What is mediation? Mediation analysis an introduction. Definition

Appendiks Økonometrisk teori... II

Konfidensintervaller og Hypotesetest

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Besvarelse af juul2 -opgaven

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

1 Hb SS Hb Sβ Hb SC = , (s = )

Kapitel 11 Lineær regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Notat vedr. interkalibrering af ålegræs

En Introduktion til SAS. Kapitel 5.

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Løsning til opgave i logistisk regression

Flerniveau modeller. Individuelt studieforløb. Efterårssemesteret Folkesundhedsvidenskab ved Københavns Universitet

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Morten Frydenberg Biostatistik version dato:

Simpel Lineær Regression: Model

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Module 3: Statistiske modeller

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen og Stikprøvefordelinger

Modul 11: Simpel lineær regression

Eksamen i Statistik for Biokemikere, Blok januar 2009

Transkript:

Kombinationer af lande- og individdata Multilevel analyse No 1 of 27 Kombinationer af lande- og individdata Multilevel analyse Henrik Lolle Indlæg ved arrangement i Selskab for Surveyforskning: Kunsten at sammenligne lande, onsdag den 12 september 2012

Kombinationer af lande- og individdata Multilevel analyse No 2 of 27 Multilevel data strukturer og analysemetoder Multilevel (hierarkiske) data består af variabler målt på forskellige i hinanden indlejrede niveauer, feks: Elever i skoler Borgere i kommuner Elever i skoler i klasser Måletidspunkter ved individer Borgere i lande Borgere i måletidspunkter i lande Multilevel eller mixed effect metoder er statistiske analysemetoder, der kan håndtere og udforske hierarkiske problemstillinger på hierarkisk strukturerede, eller multilevel, data på fornuftig vis

Kombinationer af lande- og individdata Multilevel analyse No 3 of 27 Hvorfor har vi brug for MLA? Standard statistical tests lean heavily on the assumption of independence of the observations If this assumption is violated (and in multilevel data this is almost always the case) the estimates of the standard errors of conventional statistical tests are much too small, and this results in many spuriously significant results (Joop Hox 2010: Multilevel Analysis) Allerede midt i forrige århundrede kendte man til disse problemer, og der blev udviklet metoder til at korrigere for nogle af de fejl, man ellers ville gøre Efterhånden holdt man op med at betragte multilevel data som irritationsmomenter, der skulle håndteres, og gik i stedet over til at se disse som noget, der giver spændende muligheder

Kombinationer af lande- og individdata Multilevel analyse No 4 of 27 To eller nogle få makroenheder (feks lande) kan nemt håndteres med ordinære analysemetoder Land 1 Land 2 i 1 i 2 i 2 i n Men egner sig kun til nogle typer af problemstillinger!

Kombinationer af lande- og individdata Multilevel analyse No 5 of 27 Eksempel på fejlestimering på individniveauanalyse på hierarkiske data Lykke En t-test ville sikkert finde signifikant forskel i gennemsnit, og det er der intet i vejen med Land 1 and 2 BNP/indb Men der vil være stor risiko for en fejlkonklusion, hvis man på baggrund af dataene siger, at denne forskel skyldes forskel i BNP!

Kombinationer af lande- og individdata Multilevel analyse No 6 of 27 Fejlestimering med lineær regression Lykke Tilsvarende gælder det for ordinær individbaseret lineær regression på hierarkiske data OLS regressionslinje BNP/indb Land 1,2 og 3 Des flere lande og des færre individer i de enkelte lande, jo mindre bliver fejlestimeringen, men så længe der er flere individer inden for enkelte lande, vil der principielt kunne ske fejlestimering

Kombinationer af lande- og individdata Multilevel analyse No 7 of 27 Aggregering af individdataene som løsning Man har mildest talt ikke gode muligheder for at spore effekter fra individvariabler Aggregeringen formindsker antallet af frihedsgrader Risiko for såkaldt økologisk fejlslutning (fra makro til mikro) Man forbiser en masse potentielt spændende information, som niveauopsplitning af variansen på den afhængige variabel og varierende effekt fra individvariabler hen over makroenhederne

Kombinationer af lande- og individdata Multilevel analyse No 8 of 27 En anden type fejlestimering med lineær regression baseret på individenhederne Lykke Nu ses der på effekten fra en individniveau variabel, SES OLS regressionslinje for de enkelte lande Overordnet OLS regressionslinje En slags frog pond-effekt SES Såkaldt fixed effect analyse kan i nogle situationer være en løsning!

Kombinationer af lande- og individdata Multilevel analyse No 9 of 27 Den tomme model (varianskomponent-model) Lykke Ingen uafhængige variabler, kun opsplitning af variansen på den afhængige variabel på de to niveauer Landene varierer i niveau, og individerne varierer inden for det enkelte land Overordnet intercept Lande Ud over interceptet er der et fejlled på både lande- og individniveau: Y 0 u0 j e

Kombinationer af lande- og individdata Multilevel analyse No 10 of 27 Random Intercept Model med en individvariabel Lykke Afvigelse fra det gennemsnitlige niveau for lykke SES ML regressionsligning: Y 0 1 x1 u0 j e

Kombinationer af lande- og individdata Multilevel analyse No 11 of 27 Random Slope Model Lykke SES Afvigelse fra den gennemsnitlige effekt fra X (SES) Nu tre fejlled (og tre variansestimater): Y 0 1 X u1 j X u0 j e

Kombinationer af lande- og individdata Multilevel analyse No 12 of 27 Random Slope Model, inkl landevariabel Z kunne feks være en variabel, der indikerer niveauet for udgifter til sociale foranstaltninger Den vil muligvis kunne forklare noget af niveauforskellen i lykke landene imellem: Y 0 1X 2Z j u1 j X u0 j e Muligvis kan effektvariansen på SES evt derudover forklares ved størrelsen af sociale udgifter, en såkaldt cross level interaction : Y 0 1X 2Z j 3XZ j u1 j X u0 j e

Kombinationer af lande- og individdata Multilevel analyse No 13 of 27 Centrering af uafhængige variabler Det er ofte bedre at estimere variation mellem makroenheder ved individvariablernes gennemsnit end i deres oprindelige nulpunkt Lykke Her er ikke et godt sted at estimere niveauforskelle Her er bedre! SES Nulpunkt i original Nulpunkt i variabel gennemsnits-centreret variabel

0 Density 2 4 6 8 1 Kombinationer af lande- og individdata Multilevel analyse No 14 of 27 Eksempel i Stata, tilfredshed med livet som afhængig variabel 0 2 4 6 8 10 How satisfied are you with your life

0 Density 2 4 6 8 1 Kombinationer af lande- og individdata Multilevel analyse No 15 of 27 Kontrol over livet som primær uafhængig 0 2 4 6 8 10 How much freedom you feel

Kombinationer af lande- og individdata Multilevel analyse No 16 of 27 Den tomme model i Stata V22 Coef Std Err z P> z [95% Conf Interval] _cons 6798144 1244536 5462 0000 655422 7042069 Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Identity var(_cons) 8638002 163872 5955681 1252839 var(residual) 4494941 0227333 4450605 4539719 LR test vs linear regression: chibar2(01) = 1463552 Prob >= chibar2 = 00000 Niveauet for den gennemsnitlige respondent i det gennemsnitlige land Varians mellem respondenter inden for det enkelte land, svarer til en stdafv på 2,1 Varians mellem lande, svarer til en stdafv på 0,9

-2-1 0 1 2 Kombinationer af lande- og individdata Multilevel analyse No 17 of 27 Interceptresidualer (landevariation) 0 20 40 60 vc_i_rank

Kombinationer af lande- og individdata Multilevel analyse No 18 of 27 Random Intercept Model V22 Coef Std Err z P> z [95% Conf Interval] c_v46 307043 0032746 9377 0000 300625 3134611 _cons 6793784 1034479 6567 0000 659103 6996538 Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Identity var(_cons) 5960752 1132422 4107618 864992 var(residual) 4041766 0204414 40019 408203 LR test vs linear regression: chibar2(01) = 1067758 Prob >= chibar2 = 00000 Effekt fra kontrol over livet Fra tom model svinder variansen på landeniveau ind fra 0,86 til 0,60: R 2 land = 0,30 Tilsvarende svinder variansen på individniveau ind fra 4,49 til 4,04: R 2 individ = 0,10 Helt efter bogen bør der i modellen også inddrages en udgave af variablen V46, der er aggregeret til landeniveau

Kombinationer af lande- og individdata Multilevel analyse No 19 of 27 Random Slope Model V22 Coef Std Err z P> z [95% Conf Interval] c_v46 3159914 0132023 2393 0000 2901154 3418673 _cons 6789863 1028847 6599 0000 6588212 6991513 Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Unstructured var(c_v46) 0090186 0018413 0060444 0134565 var(_cons) 58929 1120022 4060197 8552853 cov(c_v46,_cons) -0029616 0101356-0228269 0169038 var(residual) 39989 0202318 3959443 4038751 LR test vs linear regression: chi2(3) = 1136241 Prob > chi2 = 00000 Gennemsnitlig effekt fra kontrol over livet Mål for sammenhæng (kovarians) mellem landeintercept effekt fra kontrol over livet Variation i effekten fra kontrol over livet

-4-2 0 2 4 Kombinationer af lande- og individdata Multilevel analyse No 20 of 27 Slope-residualer 0 20 40 60 rs1_s_rank

2 4 6 8 10 Kombinationer af lande- og individdata Multilevel analyse No 21 of 27 Regressionslinjer for de enkelte lande -6-4 -2 0 2 4 c_v46

Kombinationer af lande- og individdata Multilevel analyse No 22 of 27 Flere uafhængige V22 Coef Std Err z P> z [95% Conf Interval] female 1011365 0143787 703 0000 0729547 1293184 c_age -0026442 000485-545 0000-0035948 -0016936 c_edu 0655871 0033474 1959 0000 0590262 0721479 c_v46 3089986 0131105 2357 0000 2833025 3346948 c_wbgi_cce 4017405 0756041 531 0000 2535593 5499218 _cons 6680043 0838567 7966 0000 6515686 6844399 Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Unstructured var(c_v46) 0088823 0018161 0059497 0132605 var(_cons) 3813418 0726881 2624615 5540681 cov(c_v46,_cons) -0052504 0081197-0211647 0106639 var(residual) 3970617 0200887 3931438 4010186 LR test vs linear regression: chi2(3) = 784358 Prob > chi2 = 00000 Effekt fra landeniveauvariablen kontrol over korruption

Kombinationer af lande- og individdata Multilevel analyse No 23 of 27 Samme, blot Random Intercept V22 Coef Std Err z P> z [95% Conf Interval] female 0984257 0144327 682 0000 0701382 1267132 c_age -0028035 0004857-577 0000-0037554 -0018516 c_edu 065574 0033564 1954 0000 0589955 0721524 c_v46 300559 0032818 9158 0000 2941268 3069911 c_wbgi_cce 4146373 0754912 549 0000 2666774 5625973 _cons 6684568 0834063 8014 0000 6521094 6848041 Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Identity var(_cons) 3773694 0718909 2597816 5481824 var(residual) 4012976 0202958 3973393 4052953 LR test vs linear regression: chibar2(01) = 716320 Prob >= chibar2 = 00000 Fra tom model svinder variansen på landeniveau ind fra 0,86 til 0,38: R 2 land = 0,56 Tilsvarende svinder variansen på individniveau ind fra 4,49 til 4,01: R 2 individ = 0,11

-2-1 -2-1 -1 0 1 2 BLUP re for V2: _cons 0 1 2 BLUP re for V2: _cons 0 1 2 Kombinationer af lande- og individdata Multilevel analyse No 24 of 27 Landeresidualerne svinder ind hen over modellerne 0 20 40 60 vc_i_rank 0 20 40 60 ri_i_rank 0 20 40 60 ri4_i_rank

Kombinationer af lande- og individdata Multilevel analyse No 25 of 27 Mulighed for at liste landeresidualer V2 vc_i vc_i_ste vc_i_r~k 63762 Sweden 9125032 0671719 46 66079 Netherla 9126738 0655785 47 67513 Argentin 9264378 0687064 48 68007 Canada 9497304 0463179 49 69318 Finland 1034646 0664423 50 70495 New Zeal 1082277 0714612 51 71918 Switzerl 110297 0605453 52 72820 Guatemal 1147613 0670375 53 74289 Norway 1170241 0663771 54 76662 Mexico 143201 0549395 55 77733 Colombia 1509981 0387003 56

Kombinationer af lande- og individdata Multilevel analyse No 26 of 27 Eksempel på ekstra komplikation: gentagne tværsnitsdata over mange lande Datastruktur (hvor der forestilles en længere række af lande): Land 1 Land 2 t 1 t 2 t 1 t 2 i 11 i 12 i 13 i 1n i 21 i 22 i 23 i 2n i 11 i 12 i 13 i 1n i 21 i 22 i 23 i 2n

Kombinationer af lande- og individdata Multilevel analyse No 27 of 27 Læringsmuligheder (bøger og kurser) Essex Summer School Hjemlige phd-kurser Snders, Tom A B & Bosker, Roel: An Introduction to Basic and Advanced Multilevel Modeling Hox, Joop: Multilevel Analysis Techniques and Applications Rabe-Hesketh, Sophia & Skrondal, Anders: Multilevel and Longitudinal Modeling Using Stata LEMMA learning environment: http://wwwcmmbrisacuk/lemma/login/indexphp under Centre for Multilevel Modeling i Bristol Fairbrother, Malcolm: Two Muiltilevel Modeling Techniques for Analyzing Comparative Longitudinal Survey Datasets (unpublished paper)