Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Størrelse: px

Starte visningen fra side:

Download "Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres."

Monika Holst
7 år siden
Visninger:

1 Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

2 Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser) i klasser givet ved krydstabullering af et antal variable. Tovejs tabel (Powers and Xie side 89): holdning/uddannelse Imod sex før ægteskab Sex før ægteskab ok Highschool or less college or above Er der en sammenhæng mellem udd. og holdning?

3 Log-lineær model Antag vi har n personer og to kategoriske variable U og H. Sandsynligheden for at en tilfældig person har holding h og uddannelse u er P U =u, H =h = uh Den forventede frekvens for U=u og H=h er da F uh =n uh

4 Log-lineær model Generelt antager vi at de log forventede frekvenser er givet ved log F uh = U u H UH h uh Som sædvanligt, så er hver kategorisk variabel udstyret med en reference kategori. Parametre der referere til en eller flere reference kategorier er sat lig nul.

5 Uafhængighed Definitionen på at U og H er uafhængige er at P U =u, H =h =P U =u P H =h uh = u h For den log-lineære model betyder det at log F uh = u U h H

6 Pearson χ 2 -test Optil H 0 hypotese, fx uafhængighed. Lad F uh være de forventede frekvenser under H 0 og f uh være de observerede frekvenser. Da er Pearsons χ 2 -test givet ved 2 = uh f uh F uh 2 F uh Jo større χ 2, jo mindre tror vi på H 0. Som sædvanlig afgør P-værdien/signifikanssandsynligheden, hvornår χ 2 er for stor.

7 Modelformel En modelformel er et praktisk alternativ til en matematisk modelformel. Den matematiske formulering log F rc = R r C RC c rc har en ækvivalent modelformel: R + C + R*C Da vi overholder det hierarkiske princip kan vi nøjes med at skrive R*C

8 Modelopbygning Først vælger vi variable af interesse. Dernæst specificerer vi en startmodel, der overholder det hierarkiske princip. Hvis startmodellen indeholder et interaktionsled, hvor alle variable indgår er startmodellen en såkaldt mættet model. Herefter tester vi modelled væk under hensynstagen til det hierarkiske princip. Vi fjerner det led med størst P-værdi over Resultatet kalder vi slutmodellen.

9 Eksempel Analyse af samvariationen af fire kategoriske variable: B: Boligstandard: 0=dårlig, 1=acceptabel, 2=god H: Helbred: 0=godt, 1=dårligt I: Isoleret: 0=ja, 1=nej A: Angst: 0=nej, 1=ja

10 Krydstabel Helbred * Boligstandard * Isoleret * Angst Crosstabulation Count Boligstandard Angst Nej Ja Isoleret Ja Nej Ja Nej Helbred Total Helbred Total Helbred Total Helbred Total Godt Dårligt Godt Dårligt Godt Dårligt Godt Dårligt Under min. standard Min.standard Modrne Total SPSS: analyze descriptive statistics crosstabs. H i row, B i column, I i layer 1 og A i layer 2.

11 Som startmodel bruger vi den mættede model. Matematisk formulering: log F abhi = a A b B h H i I AB ab AH ah AI ai BH bh BI bi HI hi ABI abi ABH abh AHI ahi BHI bhi ABHI abhi Modelformel: ABHI

12 Fortolkning af slutmodel Uafhængighed: Hvis A indgår i modelformlen, men A ikke ingår i andre led (fx A*B, A*H*I, osv), så er A uafhængig. Forklaret sammenhæng: Hvis B og H ikke indgår i samme led, så er sammenhængen mellem B og H forklaret af andre variable. Dvs. slutmodellen må ikke indeholde B*H, B*H*A, B*H*I og A*B*H*I.

13 Fortolkning fortsat... Homogen sammenhæng: Hvis A*H indgår i modellen, men A*H ikke indgår i mere komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholde A*H*I, A*B*H, A*B*H*I Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I.

14 Grafisk fortolkning 1) Tegn en cirkel for hver variabel 2) Forbind variable der indgår i samme led En isoleret variabel er uafhængig To nabo-variable med fælles nabo har en heterogen sammenhæng. To nabo-variable uden fælles nabo har en homogen sammenhæng. To forbundne ikke-nabo variable har en sammenhæng forklaret af de variable der ligger på stier der forbinder dem.

15 Eksempel Antag at slutmodellen har modelformelen: A*B + B*H*I Fortolkning: Homogen samh. ml. A og B Heterogen samh. ml. B og H, B og I, og H og I Samh. ml A og I forklaret af B Samh. ml. A og H forklaret af B

16 Modelopbygning i SPSS SPSS: Analyze Loglinear Model selection... Placer relevante (kategoriske) variable under 'Factor' og definer 'Range' for hver (trælst...). Under 'Model...' vælg 'Custom' Angiv kun de meste komplicerede interaktioner i jeres startmodel (max 5-vejs interaktion). Resten følger af det hierarkiske princip. Klik 'OK'

17 Step G enerating Class c Deleted Effect G enerating Class c Deleted Effect G enerating Class c Deleted Effect G enerating Class c Deleted Effect G enerating Class c Deleted Effect G enerating Class c Effects Chi-Square df Sig. Iterations B*H*I*A, B*H*I*A 3,546 2,170 1 B*H*I, B*H*A, B*I*A, H*I*A 3,546 2,170 B*H*I,670 2,715 1 B*H*A 4,071 2,131 1 B*I*A 2,323 2,313 1 H*I*A 1,362 1,243 1 B*H*A, B*I*A, H*I*A 4,216 4,378 B*H*A 2,942 2,230 2 B*I*A 2,240 2,326 1 H*I*A 1,782 1,182 1 B*H*A, H*I*A, B*I 6,455 6,374 B*H*A 6,189 2,045 1 H*I*A 2,239 1,135 1 B*I 24,432 2,000 1 B*H*A, B*I, H*I, I*A 8,695 7,275 B*H*A 2,090 2,352 2 B*I 23,327 2,000 1 H*I 44,269 1,000 1 I*A 15,113 1,000 1 B*I, H*I, I*A, B*H, B*A, H*A 10,785 9,291

18 Deleted Effect Generating Class c Deleted Effect Generating Class c Deleted Effect Generating Class c Deleted Effect Generating Class c B*I*A, H*I*A 4,216 4,378 B*H*A 2,942 2,230 2 B*I*A 2,240 2,326 1 H*I*A 1,782 1,182 1 B*H*A, H*I*A, B*I 6,455 6,374 B*H*A 6,189 2,045 1 H*I*A 2,239 1,135 1 B*I 24,432 2,000 1 B*H*A, B*I, H*I, I*A 8,695 7,275 B*H*A 2,090 2,352 2 B*I 23,327 2,000 1 H*I 44,269 1,000 1 I*A 15,113 1,000 1 B*I, H*I, I*A, B*H, B*A, H*A 10,785 9,291 B*I 25,843 2,000 1 H*I 45,283 1,000 2 I*A 15,675 1,000 2 B*H 27,422 2,000 2 B*A 27,132 2,000 2 H*A 31,167 1,000 2 B*I, H*I, I*A, B*H, B*A, H*A 10,785 9,291 a. For 'Deleted Effect', this is the change in the Chi-Square after the effect is deleted from the model. b. At each step, the effect with the largest significance level for the Likelihood Ratio Change is deleted

19 Slutmodel: B*I + H*I + I*A + B*H + B*A + H*A Alle to-vejs interaktioner er med, men ingen trevejs interaktioner. Dvs. mellem alle par af variable er der en homogen sammenhæng. Slutmodellen matematisk formuleret: log F abhi = a A b B h H i I AB ab AH ah AI ai BH bh BI HI bi hi

20 Parameter estimater + model kontrol SPSS: Analyze Loglinear General Under 'Model' vælg 'Custom' og specificer slutmodellen i fandt med 'Model selection' Under 'Options' vælge 'Estimates' Alle parametre der refererer til en eller flere reference kategorier er sat til nul. Som standard er sidste kategori reference. Dvs da B=2 er reference. ABH 020 =0 Under 'Options' vælge de to plot for 'Adjusted residuals'

21 Parameter Estimates c,d Parameter Constant [A =,00] [A = 1,00] [B =,00] [B = 1,00] [B = 2,00] [H =,00] [H = 1,00] [I =,00] [I = 1,00] [B =,00] * [A =,00] [B =,00] * [A = 1,00] [B = 1,00] * [A =,00] [B = 1,00] * [A = 1,00] [B = 2,00] * [A =,00] [B = 2,00] * [A = 1,00] [H =,00] * [A =,00] [H =,00] * [A = 1,00] [H = 1,00] * [A =,00] [H = 1,00] * [A = 1,00] [I =,00] * [A =,00] [I =,00] * [A = 1,00] [I = 1,00] * [A =,00] [I = 1,00] * [A = 1,00] [B =,00] * [H =,00] [B =,00] * [H = 1,00] [B = 1,00] * [H =,00] [B = 1,00] * [H = 1,00] [B = 2,00] * [H =,00] [B = 2,00] * [H = 1,00] [B =,00] * [I =,00] [B =,00] * [I = 1,00] [B = 1,00] * [I =,00] [B = 1,00] * [I = 1,00] [B = 2,00] * [I =,00] [B = 2,00] * [I = 1,00] 95% Confidence Interval Estimate Std. Error Z Sig. Lower Bound Upper Bound 5,802 a 1,403,057 24,541,000 1,291 1,515-1,853,124-14,992,000-2,096-1,611-1,338,100-13,343,000-1,535-1,142 -,326,074-4,417,000 -,471 -,181-2,819,149-18,941,000-3,111-2,527 -,387,133-2,913,004 -,647 -,126 -,513,108-4,726,000 -,725 -,300,473,079 6,001,000,318,627 -,773,161-4,792,000-1,090 -,457 -,411,114-3,619,000 -,633 -,188 -,462,095-4,858,000 -,648 -,276,811,226 3,586,000,368 1,255,960,183 5,247,000,602 1,319 Hvad er den forventede frekvens for kombinationen A=0, B=1, H=0, I=1?

22 Forventede vs observede frekvenser Ideelt: Expected Counts Observed Counts

23 Residualer: Q-Q plot 'Adjusted Residuals' bør være normalfordelte. I såfald vil prikkerne ligge usystematisk omkring en ret linie.

Relaterede dokumenter

Logistisk Regression - fortsat

Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative