Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Relaterede dokumenter
Logistisk Regression - fortsat

Generelle lineære modeller

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Multipel Lineær Regression

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistiske Modeller 1: Kontingenstabeller i SAS

Ikke-parametriske tests

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Postoperative komplikationer

Program dag 2 (11. april 2011)

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Logistisk regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Opgavebesvarelse, Basalkursus, uge 3

To-sidet variansanalyse

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Morten Frydenberg 26. april 2004

Statistik II 4. Lektion. Logistisk regression

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Konfidensintervaller og Hypotesetest

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Statistik Lektion 16 Multipel Lineær Regression

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Kausalitet. Introduktion til samfundsvidenskabelig metode. Samfundsvidenskabelig metode. Hvad er metode? Hvad er kausalitet.

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik Lektion 4. Variansanalyse Modelkontrol

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Løsning eksamen d. 15. december 2008

Statistik og skalavalidering. Opgave 1

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Reeksamen i Statistik for Biokemikere 6. april 2009

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Opgavebesvarelse, logistisk regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Lineær og logistisk regression

Epidemiologi og Biostatistik

Morten Frydenberg 14. marts 2006

Løsning til eksaminen d. 14. december 2009

Basal Statistik Kategoriske Data

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Besvarelse af vitcap -opgaven

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Maple-oversigt til matematik B-niveau: Rungsted Gymnasium Definer en funktion og funktionsværdier. Tegn grafen for en funktion.

Normalfordelingen og Stikprøvefordelinger

Opgavebesvarelse, Basalkursus, uge 3

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Introduktion til SPSS

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Eksamen i statistik 2009-studieordning

9. Chi-i-anden test, case-control data, logistisk regression.

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Transkript:

Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser) i klasser givet ved krydstabullering af et antal variable. Tovejs tabel (Powers and Xie side 89): holdning/uddannelse Imod sex før ægteskab Sex før ægteskab ok Highschool or less 873 1190 college or above 533 1208 Er der en sammenhæng mellem udd. og holdning?

Log-lineær model Antag vi har n personer og to kategoriske variable U og H. Sandsynligheden for at en tilfældig person har holding h og uddannelse u er P U =u, H =h = uh Den forventede frekvens for U=u og H=h er da F uh =n uh

Log-lineær model Generelt antager vi at de log forventede frekvenser er givet ved log F uh = U u H UH h uh Som sædvanligt, så er hver kategorisk variabel udstyret med en reference kategori. Parametre der referere til en eller flere reference kategorier er sat lig nul.

Uafhængighed Definitionen på at U og H er uafhængige er at P U =u, H =h =P U =u P H =h uh = u h For den log-lineære model betyder det at log F uh = u U h H

Pearson χ 2 -test Optil H 0 hypotese, fx uafhængighed. Lad F uh være de forventede frekvenser under H 0 og f uh være de observerede frekvenser. Da er Pearsons χ 2 -test givet ved 2 = uh f uh F uh 2 F uh Jo større χ 2, jo mindre tror vi på H 0. Som sædvanlig afgør P-værdien/signifikanssandsynligheden, hvornår χ 2 er for stor.

Modelformel En modelformel er et praktisk alternativ til en matematisk modelformel. Den matematiske formulering log F rc = R r C RC c rc har en ækvivalent modelformel: R + C + R*C Da vi overholder det hierarkiske princip kan vi nøjes med at skrive R*C

Modelopbygning Først vælger vi variable af interesse. Dernæst specificerer vi en startmodel, der overholder det hierarkiske princip. Hvis startmodellen indeholder et interaktionsled, hvor alle variable indgår er startmodellen en såkaldt mættet model. Herefter tester vi modelled væk under hensynstagen til det hierarkiske princip. Vi fjerner det led med størst P-værdi over 0.05. Resultatet kalder vi slutmodellen.

Eksempel Analyse af samvariationen af fire kategoriske variable: B: Boligstandard: 0=dårlig, 1=acceptabel, 2=god H: Helbred: 0=godt, 1=dårligt I: Isoleret: 0=ja, 1=nej A: Angst: 0=nej, 1=ja

Krydstabel Helbred * Boligstandard * Isoleret * Angst Crosstabulation Count Boligstandard Angst Nej Ja Isoleret Ja Nej Ja Nej Helbred Total Helbred Total Helbred Total Helbred Total Godt Dårligt Godt Dårligt Godt Dårligt Godt Dårligt Under min. standard Min.standard Modrne Total 5 5 23 33 13 24 52 89 18 29 75 122 107 155 1589 1851 144 208 1321 1673 251 363 2910 3524 0 3 6 9 8 14 33 55 8 17 39 64 33 48 237 318 46 81 328 455 79 129 565 773 SPSS: analyze descriptive statistics crosstabs. H i row, B i column, I i layer 1 og A i layer 2.

Som startmodel bruger vi den mættede model. Matematisk formulering: log F abhi = a A b B h H i I AB ab AH ah AI ai BH bh BI bi HI hi ABI abi ABH abh AHI ahi BHI bhi ABHI abhi Modelformel: ABHI

Fortolkning af slutmodel Uafhængighed: Hvis A indgår i modelformlen, men A ikke ingår i andre led (fx A*B, A*H*I, osv), så er A uafhængig. Forklaret sammenhæng: Hvis B og H ikke indgår i samme led, så er sammenhængen mellem B og H forklaret af andre variable. Dvs. slutmodellen må ikke indeholde B*H, B*H*A, B*H*I og A*B*H*I.

Fortolkning fortsat... Homogen sammenhæng: Hvis A*H indgår i modellen, men A*H ikke indgår i mere komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholde A*H*I, A*B*H, A*B*H*I Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I.

Grafisk fortolkning 1) Tegn en cirkel for hver variabel 2) Forbind variable der indgår i samme led En isoleret variabel er uafhængig To nabo-variable med fælles nabo har en heterogen sammenhæng. To nabo-variable uden fælles nabo har en homogen sammenhæng. To forbundne ikke-nabo variable har en sammenhæng forklaret af de variable der ligger på stier der forbinder dem.

Eksempel Antag at slutmodellen har modelformelen: A*B + B*H*I Fortolkning: Homogen samh. ml. A og B Heterogen samh. ml. B og H, B og I, og H og I Samh. ml A og I forklaret af B Samh. ml. A og H forklaret af B

Modelopbygning i SPSS SPSS: Analyze Loglinear Model selection... Placer relevante (kategoriske) variable under 'Factor' og definer 'Range' for hver (trælst...). Under 'Model...' vælg 'Custom' Angiv kun de meste komplicerede interaktioner i jeres startmodel (max 5-vejs interaktion). Resten følger af det hierarkiske princip. Klik 'OK'

Step 0 1 2 3 4 5 G enerating Class c Deleted Effect G enerating Class c Deleted Effect G enerating Class c Deleted Effect G enerating Class c Deleted Effect G enerating Class c Deleted Effect G enerating Class c 1 1 2 3 4 1 2 3 1 2 3 1 2 3 4 Effects Chi-Square df Sig. Iterations B*H*I*A,000 0. B*H*I*A 3,546 2,170 1 B*H*I, B*H*A, B*I*A, H*I*A 3,546 2,170 B*H*I,670 2,715 1 B*H*A 4,071 2,131 1 B*I*A 2,323 2,313 1 H*I*A 1,362 1,243 1 B*H*A, B*I*A, H*I*A 4,216 4,378 B*H*A 2,942 2,230 2 B*I*A 2,240 2,326 1 H*I*A 1,782 1,182 1 B*H*A, H*I*A, B*I 6,455 6,374 B*H*A 6,189 2,045 1 H*I*A 2,239 1,135 1 B*I 24,432 2,000 1 B*H*A, B*I, H*I, I*A 8,695 7,275 B*H*A 2,090 2,352 2 B*I 23,327 2,000 1 H*I 44,269 1,000 1 I*A 15,113 1,000 1 B*I, H*I, I*A, B*H, B*A, H*A 10,785 9,291

3 4 5 6 Deleted Effect Generating Class c Deleted Effect Generating Class c Deleted Effect Generating Class c Deleted Effect Generating Class c 1 2 3 1 2 3 1 2 3 4 1 2 3 4 5 6 B*I*A, H*I*A 4,216 4,378 B*H*A 2,942 2,230 2 B*I*A 2,240 2,326 1 H*I*A 1,782 1,182 1 B*H*A, H*I*A, B*I 6,455 6,374 B*H*A 6,189 2,045 1 H*I*A 2,239 1,135 1 B*I 24,432 2,000 1 B*H*A, B*I, H*I, I*A 8,695 7,275 B*H*A 2,090 2,352 2 B*I 23,327 2,000 1 H*I 44,269 1,000 1 I*A 15,113 1,000 1 B*I, H*I, I*A, B*H, B*A, H*A 10,785 9,291 B*I 25,843 2,000 1 H*I 45,283 1,000 2 I*A 15,675 1,000 2 B*H 27,422 2,000 2 B*A 27,132 2,000 2 H*A 31,167 1,000 2 B*I, H*I, I*A, B*H, B*A, H*A 10,785 9,291 a. For 'Deleted Effect', this is the change in the Chi-Square after the effect is deleted from the model. b. At each step, the effect with the largest significance level for the Likelihood Ratio Change is deleted

Slutmodel: B*I + H*I + I*A + B*H + B*A + H*A Alle to-vejs interaktioner er med, men ingen trevejs interaktioner. Dvs. mellem alle par af variable er der en homogen sammenhæng. Slutmodellen matematisk formuleret: log F abhi = a A b B h H i I AB ab AH ah AI ai BH bh BI HI bi hi

Parameter estimater + model kontrol SPSS: Analyze Loglinear General Under 'Model' vælg 'Custom' og specificer slutmodellen i fandt med 'Model selection' Under 'Options' vælge 'Estimates' Alle parametre der refererer til en eller flere reference kategorier er sat til nul. Som standard er sidste kategori reference. Dvs da B=2 er reference. ABH 020 =0 Under 'Options' vælge de to plot for 'Adjusted residuals'

Parameter Estimates c,d Parameter Constant [A =,00] [A = 1,00] [B =,00] [B = 1,00] [B = 2,00] [H =,00] [H = 1,00] [I =,00] [I = 1,00] [B =,00] * [A =,00] [B =,00] * [A = 1,00] [B = 1,00] * [A =,00] [B = 1,00] * [A = 1,00] [B = 2,00] * [A =,00] [B = 2,00] * [A = 1,00] [H =,00] * [A =,00] [H =,00] * [A = 1,00] [H = 1,00] * [A =,00] [H = 1,00] * [A = 1,00] [I =,00] * [A =,00] [I =,00] * [A = 1,00] [I = 1,00] * [A =,00] [I = 1,00] * [A = 1,00] [B =,00] * [H =,00] [B =,00] * [H = 1,00] [B = 1,00] * [H =,00] [B = 1,00] * [H = 1,00] [B = 2,00] * [H =,00] [B = 2,00] * [H = 1,00] [B =,00] * [I =,00] [B =,00] * [I = 1,00] [B = 1,00] * [I =,00] [B = 1,00] * [I = 1,00] [B = 2,00] * [I =,00] [B = 2,00] * [I = 1,00] 95% Confidence Interval Estimate Std. Error Z Sig. Lower Bound Upper Bound 5,802 a 1,403,057 24,541,000 1,291 1,515-1,853,124-14,992,000-2,096-1,611-1,338,100-13,343,000-1,535-1,142 -,326,074-4,417,000 -,471 -,181-2,819,149-18,941,000-3,111-2,527 -,387,133-2,913,004 -,647 -,126 -,513,108-4,726,000 -,725 -,300,473,079 6,001,000,318,627 -,773,161-4,792,000-1,090 -,457 -,411,114-3,619,000 -,633 -,188 -,462,095-4,858,000 -,648 -,276,811,226 3,586,000,368 1,255,960,183 5,247,000,602 1,319 Hvad er den forventede frekvens for kombinationen A=0, B=1, H=0, I=1?

Forventede vs observede frekvenser Ideelt: Expected Counts Observed Counts

Residualer: Q-Q plot 'Adjusted Residuals' bør være normalfordelte. I såfald vil prikkerne ligge usystematisk omkring en ret linie.