Kombinationer af lande- og individdata. Multilevel analyse.

Transkript

1 Kombinationer af lande- og individdata Multilevel analyse No 1 of 27 Kombinationer af lande- og individdata Multilevel analyse Henrik Lolle Indlæg ved arrangement i Selskab for Surveyforskning: Kunsten at sammenligne lande, onsdag den 12 september 2012

2 Kombinationer af lande- og individdata Multilevel analyse No 2 of 27 Multilevel data strukturer og analysemetoder Multilevel (hierarkiske) data består af variabler målt på forskellige i hinanden indlejrede niveauer, feks: Elever i skoler Borgere i kommuner Elever i skoler i klasser Måletidspunkter ved individer Borgere i lande Borgere i måletidspunkter i lande Multilevel eller mixed effect metoder er statistiske analysemetoder, der kan håndtere og udforske hierarkiske problemstillinger på hierarkisk strukturerede, eller multilevel, data på fornuftig vis

3 Kombinationer af lande- og individdata Multilevel analyse No 3 of 27 Hvorfor har vi brug for MLA? Standard statistical tests lean heavily on the assumption of independence of the observations If this assumption is violated (and in multilevel data this is almost always the case) the estimates of the standard errors of conventional statistical tests are much too small, and this results in many spuriously significant results (Joop Hox 2010: Multilevel Analysis) Allerede midt i forrige århundrede kendte man til disse problemer, og der blev udviklet metoder til at korrigere for nogle af de fejl, man ellers ville gøre Efterhånden holdt man op med at betragte multilevel data som irritationsmomenter, der skulle håndteres, og gik i stedet over til at se disse som noget, der giver spændende muligheder

4 Kombinationer af lande- og individdata Multilevel analyse No 4 of 27 To eller nogle få makroenheder (feks lande) kan nemt håndteres med ordinære analysemetoder Land 1 Land 2 i 1 i 2 i 2 i n Men egner sig kun til nogle typer af problemstillinger!

5 Kombinationer af lande- og individdata Multilevel analyse No 5 of 27 Eksempel på fejlestimering på individniveauanalyse på hierarkiske data Lykke En t-test ville sikkert finde signifikant forskel i gennemsnit, og det er der intet i vejen med Land 1 and 2 BNP/indb Men der vil være stor risiko for en fejlkonklusion, hvis man på baggrund af dataene siger, at denne forskel skyldes forskel i BNP!

6 Kombinationer af lande- og individdata Multilevel analyse No 6 of 27 Fejlestimering med lineær regression Lykke Tilsvarende gælder det for ordinær individbaseret lineær regression på hierarkiske data OLS regressionslinje BNP/indb Land 1,2 og 3 Des flere lande og des færre individer i de enkelte lande, jo mindre bliver fejlestimeringen, men så længe der er flere individer inden for enkelte lande, vil der principielt kunne ske fejlestimering

7 Kombinationer af lande- og individdata Multilevel analyse No 7 of 27 Aggregering af individdataene som løsning Man har mildest talt ikke gode muligheder for at spore effekter fra individvariabler Aggregeringen formindsker antallet af frihedsgrader Risiko for såkaldt økologisk fejlslutning (fra makro til mikro) Man forbiser en masse potentielt spændende information, som niveauopsplitning af variansen på den afhængige variabel og varierende effekt fra individvariabler hen over makroenhederne

8 Kombinationer af lande- og individdata Multilevel analyse No 8 of 27 En anden type fejlestimering med lineær regression baseret på individenhederne Lykke Nu ses der på effekten fra en individniveau variabel, SES OLS regressionslinje for de enkelte lande Overordnet OLS regressionslinje En slags frog pond-effekt SES Såkaldt fixed effect analyse kan i nogle situationer være en løsning!

9 Kombinationer af lande- og individdata Multilevel analyse No 9 of 27 Den tomme model (varianskomponent-model) Lykke Ingen uafhængige variabler, kun opsplitning af variansen på den afhængige variabel på de to niveauer Landene varierer i niveau, og individerne varierer inden for det enkelte land Overordnet intercept Lande Ud over interceptet er der et fejlled på både lande- og individniveau: Y 0 u0 j e

10 Kombinationer af lande- og individdata Multilevel analyse No 10 of 27 Random Intercept Model med en individvariabel Lykke Afvigelse fra det gennemsnitlige niveau for lykke SES ML regressionsligning: Y 0 1 x1 u0 j e

11 Kombinationer af lande- og individdata Multilevel analyse No 11 of 27 Random Slope Model Lykke SES Afvigelse fra den gennemsnitlige effekt fra X (SES) Nu tre fejlled (og tre variansestimater): Y 0 1 X u1 j X u0 j e

12 Kombinationer af lande- og individdata Multilevel analyse No 12 of 27 Random Slope Model, inkl landevariabel Z kunne feks være en variabel, der indikerer niveauet for udgifter til sociale foranstaltninger Den vil muligvis kunne forklare noget af niveauforskellen i lykke landene imellem: Y 0 1X 2Z j u1 j X u0 j e Muligvis kan effektvariansen på SES evt derudover forklares ved størrelsen af sociale udgifter, en såkaldt cross level interaction : Y 0 1X 2Z j 3XZ j u1 j X u0 j e

13 Kombinationer af lande- og individdata Multilevel analyse No 13 of 27 Centrering af uafhængige variabler Det er ofte bedre at estimere variation mellem makroenheder ved individvariablernes gennemsnit end i deres oprindelige nulpunkt Lykke Her er ikke et godt sted at estimere niveauforskelle Her er bedre! SES Nulpunkt i original Nulpunkt i variabel gennemsnits-centreret variabel

14 0 Density Kombinationer af lande- og individdata Multilevel analyse No 14 of 27 Eksempel i Stata, tilfredshed med livet som afhængig variabel How satisfied are you with your life

15 0 Density Kombinationer af lande- og individdata Multilevel analyse No 15 of 27 Kontrol over livet som primær uafhængig How much freedom you feel

16 Kombinationer af lande- og individdata Multilevel analyse No 16 of 27 Den tomme model i Stata V22 Coef Std Err z P> z [95% Conf Interval] _cons Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Identity var(_cons) var(residual) LR test vs linear regression: chibar2(01) = Prob >= chibar2 = Niveauet for den gennemsnitlige respondent i det gennemsnitlige land Varians mellem respondenter inden for det enkelte land, svarer til en stdafv på 2,1 Varians mellem lande, svarer til en stdafv på 0,9

17 Kombinationer af lande- og individdata Multilevel analyse No 17 of 27 Interceptresidualer (landevariation) vc_i_rank

18 Kombinationer af lande- og individdata Multilevel analyse No 18 of 27 Random Intercept Model V22 Coef Std Err z P> z [95% Conf Interval] c_v _cons Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Identity var(_cons) var(residual) LR test vs linear regression: chibar2(01) = Prob >= chibar2 = Effekt fra kontrol over livet Fra tom model svinder variansen på landeniveau ind fra 0,86 til 0,60: R 2 land = 0,30 Tilsvarende svinder variansen på individniveau ind fra 4,49 til 4,04: R 2 individ = 0,10 Helt efter bogen bør der i modellen også inddrages en udgave af variablen V46, der er aggregeret til landeniveau

19 Kombinationer af lande- og individdata Multilevel analyse No 19 of 27 Random Slope Model V22 Coef Std Err z P> z [95% Conf Interval] c_v _cons Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Unstructured var(c_v46) var(_cons) cov(c_v46,_cons) var(residual) LR test vs linear regression: chi2(3) = Prob > chi2 = Gennemsnitlig effekt fra kontrol over livet Mål for sammenhæng (kovarians) mellem landeintercept effekt fra kontrol over livet Variation i effekten fra kontrol over livet

20 Kombinationer af lande- og individdata Multilevel analyse No 20 of 27 Slope-residualer rs1_s_rank

21 Kombinationer af lande- og individdata Multilevel analyse No 21 of 27 Regressionslinjer for de enkelte lande c_v46

22 Kombinationer af lande- og individdata Multilevel analyse No 22 of 27 Flere uafhængige V22 Coef Std Err z P> z [95% Conf Interval] female c_age c_edu c_v c_wbgi_cce _cons Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Unstructured var(c_v46) var(_cons) cov(c_v46,_cons) var(residual) LR test vs linear regression: chi2(3) = Prob > chi2 = Effekt fra landeniveauvariablen kontrol over korruption

23 Kombinationer af lande- og individdata Multilevel analyse No 23 of 27 Samme, blot Random Intercept V22 Coef Std Err z P> z [95% Conf Interval] female c_age c_edu c_v c_wbgi_cce _cons Random-effects Parameters Estimate Std Err [95% Conf Interval] V2: Identity var(_cons) var(residual) LR test vs linear regression: chibar2(01) = Prob >= chibar2 = Fra tom model svinder variansen på landeniveau ind fra 0,86 til 0,38: R 2 land = 0,56 Tilsvarende svinder variansen på individniveau ind fra 4,49 til 4,01: R 2 individ = 0,11

24 BLUP re for V2: _cons BLUP re for V2: _cons Kombinationer af lande- og individdata Multilevel analyse No 24 of 27 Landeresidualerne svinder ind hen over modellerne vc_i_rank ri_i_rank ri4_i_rank

25 Kombinationer af lande- og individdata Multilevel analyse No 25 of 27 Mulighed for at liste landeresidualer V2 vc_i vc_i_ste vc_i_r~k Sweden Netherla Argentin Canada Finland New Zeal Switzerl Guatemal Norway Mexico Colombia

26 Kombinationer af lande- og individdata Multilevel analyse No 26 of 27 Eksempel på ekstra komplikation: gentagne tværsnitsdata over mange lande Datastruktur (hvor der forestilles en længere række af lande): Land 1 Land 2 t 1 t 2 t 1 t 2 i 11 i 12 i 13 i 1n i 21 i 22 i 23 i 2n i 11 i 12 i 13 i 1n i 21 i 22 i 23 i 2n

27 Kombinationer af lande- og individdata Multilevel analyse No 27 of 27 Læringsmuligheder (bøger og kurser) Essex Summer School Hjemlige phd-kurser Snders, Tom A B & Bosker, Roel: An Introduction to Basic and Advanced Multilevel Modeling Hox, Joop: Multilevel Analysis Techniques and Applications Rabe-Hesketh, Sophia & Skrondal, Anders: Multilevel and Longitudinal Modeling Using Stata LEMMA learning environment: under Centre for Multilevel Modeling i Bristol Fairbrother, Malcolm: Two Muiltilevel Modeling Techniques for Analyzing Comparative Longitudinal Survey Datasets (unpublished paper)