Logistisk regression



Relaterede dokumenter
Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik og skalavalidering. Opgave 1

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Synopsis til eksamen i Statistik

Statistik II 4. Lektion. Logistisk regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Generelle lineære modeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kausale modeller. Konstruktion og analyse

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Statistik & Skalavalidering

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Eksamen i Statistik og skalavalidering

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Tema. Dagens tema: Indfør centrale statistiske begreber.

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Statistiske Modeller 1: Kontingenstabeller i SAS

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Statistik Lektion 4. Variansanalyse Modelkontrol

Lineær og logistisk regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistiske principper

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Multipel Lineær Regression

Kvantitative metoder 2

Eksamen i Statistik for biokemikere. Blok

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Morten Frydenberg 14. marts 2006

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Logistisk Regression - fortsat

Morten Frydenberg 26. april 2004

Logistisk regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

1 Hb SS Hb Sβ Hb SC = , (s = )

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab

1 Multipel lineær regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

1 Multipel lineær regression

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Fokus på Forsyning. Datagrundlag og metode

Psykisk arbejdsmiljø og stress

Tandstatus hos søskende

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Konfidensintervaller og Hypotesetest

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Hver anden vil benytte øget åbningstid i dagtilbud

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

enige i, at der er et godt psykisk arbejdsmiljø. For begge enige i, at arbejdsmiljøet er godt. Hovedparten af sikkerhedsrepræsentanterne

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

To-sidet varians analyse

Uge 13 referat hold 4

9. Chi-i-anden test, case-control data, logistisk regression.

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Kapitel 12 Variansanalyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Lineære normale modeller (4) udkast

Program. 1. Flersidet variansanalyse 1/11

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Kapitel 11 Lineær regression

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Eksempel , opg. 2

Transkript:

Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1

Logistiske regressionsmodeller med kvantitative variable Y = arbejdsløs X = intelligens målt 25 år tidligere 2

Fordeling af intelligensprøveresultat Normalfordelt: 95 % konfidensområde 20,92-52,68 3

Den logistiske regressionsmodel P(Arbejdsløs Intelligens) = e 1 + e α+β x α+β x Dvs. P(Arbejdsløs Intelligens) = e 1 + e 0.004 0.024x 0.004 0.024x 4

Tolkning af modellen Et trin op ad intelligensskalaen: Risikoen på odds skalaen reduceres med faktoren 0.996 Risikoen på logit skalaen reduceres med 0.004 point 5

Sandsynlighed for arbejdsløshed som funktion af intelligens Bemærk, at kurven krummer lidt 6

Logit-værdi for arbejdsløshed som funktion af intelligens En ret linie. Effekten af intelligens målt på logitskalaen er lineær. 7

Er det en troværdig beskrivelse af effekten? Hvis effekten på logitskalaen er en kontinuert funktion, f(x), af intelligensen kan man altid skrive den som en potensrække f(x) = α + β 1 x + β 2 x 2 + β 3 x 3 + + β n x n +. Den logistiske regressionsmodel antager, at β 2 = β 3 = β 4 = = 0 Det behøver naturligvis ikke at være rigtigt 8

Kontrol af linearitet i logistiske regressionsmodeller Beregn nye variable, X 2 = X 2, X 3 = X 3,, etc., og inkluder dem i den logistiske regressionsmodel P(Arbejdsløs Intelligens) = e 1 + e 2 3 1x 2x 3x α+β +β +β 2 3 1x 2x 3x α+β +β +β 9

Analysen Signifikant effekt af både 2. og 3. gradsledet Effekten er altså ikke lineær 10

Estimerede sandsynligheder 11

Effekt målt på logitskalaen 12

Modeller med interaktioner Det hierarkiske princip for interaktioner i regressionsmodeller Hvis en model indeholder interaktionen mellem et vist antal variable, skal den også indeholde interaktionsparametre svarende til hver delmængde af disse variable inklusiv parametre for hovedvirkningen for disse variable. 13

En model med interaktion mellem tre variable, A, B og C skal indeholde følgende parametre: 1) Trefaktor-interaktionerne, β abc. 2) Samtlige tofaktor-interaktioner, β ab, β ac og β bc. 3) Alle hovedvirkninger, β a, β b og β c. 4) Konstantleddet, α. 14

Et eksempel : Hvilke faktorer har betydning om man bliver arbejdsløs? Potentielle faktorer: 1) K = Køn 2) U = Uddannelse opdelt i fem kategorier, LVU, MVU, KVU, Erhvervsrettet, Restgruppen 3) F = Familiesocialgruppe under opvækst 4) O = Opvækstområde (urbanisering) opdelt i fire kategorier, København, Provinsby, Mindre by og Landkommune 5) I = Intelligens målt i syvende klasse. 15

5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 Antal rigtige Fordeling af intelligensprøveresultat i syvende klasse 17

Valg og prioritering af variable. 1) De primære variable er de uafhængige variable, som er af særlig faglig interesse. Sammenhængene mellem de primære variable og den afhængige variabel er de primære sammenhænge. 2) De sekundære variable er variable, hvis eneste funktion er at optræde som kontrolvariable. Sammenhængene mellem den afhængige variabel og de sekundære variable omtales som sekundære sammenhænge.. 18

Unødvendige kontrolvariable En sekundær variabel, Z, er uden betydning som kontrolvariabel i en logistisk regressionsanalyse, hvis samtlige parametre med reference til Z er lig med nul Sådanne variable bør derfor ekskluderes. 19

Overordnet analysestrategi 1) Modellens primære struktur drejer sig om alt det, der har direkte reference til de faglige problemer, der skal belyses. 2) Modellens sekundære struktur er alt det ved modellen, der ikke henviser til disse problemer. Den sekundære struktur kan på denne måde omfatte alt fra modelegenskaber, der kan motiveres ud fra den teoretiske referenceramme, over helt åbne spørgsmål, til antagelser, der er motiveret af ønsket om at komme til at arbejde med enkle modeller, der i det mindste fungerer i praksis. 20

To analysefaser: Indledende modelkonstruktion Analyse af primære problemstillinger 21

1) Indledende modelkonstruktion - Definition af startmodel. Startmodellen bør indeholde hele den primære modelstruktur og så meget af den sekundære struktur, som det i praksis er muligt at arbejde med. - Modelsøgning. Trinvis søgning efter en model med en mere enkel sekundær struktur. - Modelkontrol. Kontrol af, at der ikke er åbenlyse tegn på at modellen er udtryk for overforenkling. 22

2) Analyse af primære problemstillinger. - Test af primære hypoteser. Bemærk, at disse test kan resultere i at nogle af de primære variable skal fjernes fra modellen. - Modelkontrol. - Estimation og tolkning af primære parametre. I praksis sker dette sammen med beregningerne af teststørrelserne for de primære hypoteser. De har dog først interesse, hvis modelkontrollen har vist, at der ikke ser ud til at være problemer med modellen. 23

Modelnotation og model formler for hierarkiske modeller En modelformel = en række additive model-led, der angiver, hvilke uafhængige variable, der indgår i modellen, og hvilke interaktioner, der er mellem effekten af disse variable. Interaktioner angives som produkter af variable ved hjælp af operatoren *. A+B*C = e P(Y=1 A=a,B=b,C=c) = 1 + A+B+C = P(Y=1 A=a,B=b,C=c) = α + β a+ β b+ β c+ β bc e e 1 + a b c bc α + β a+ β b+ β c+ β bc e a b c bc α + β a+ β b+ β c a b c α + β a+ β b+ β c a b c 25

Modeluniverset Model Model Kommentar nr. 1 A*B*C Trefaktor interaktion den mest komplicerede model. 2 A*B+A*C +B*C Ingen trefaktor, men samtlige tofaktor interaktioner. 3 A*B+A*C Ingen interaktion mellem B og C. 4 A*B+B*C Ingen interaktion mellem A og C. 5 A*C+B*C Ingen interaktion mellem A og B. 6 A*B+C Alle variable har betydning. Kun interaktion mellem A og B. 7 A*C+B Alle variable har betydning. Kun interaktion mellem A og C. 8 A+B*C Alle variable har betydning. Kun interaktion mellem B og C. 9 A*B C er uden betydning. Interaktion mellem A og B. 10 A*C B er uden betydning. Interaktion mellem A og C. 11 B*C A er uden betydning. Interaktion mellem B og C. 12 A+B+C Alle variable har betydning. Ingen interaktioner. 13 A+B C er uden betydning. Ingen interaktion. 14 A+C B er uden betydning. Ingen interaktion. 15 B+C A er uden betydning. Ingen interaktion. 16 A A er den eneste variabel, der har betydning. 17 B ditto 18 C ditto 19 - Hverken A, B eller C har betydning. En model, M 0, siges at være indlejret i en anden model, M 1, hvis M 1 dels indeholder alle de parametre, som M 0 indeholder og dels indeholder nogle parametre, der ikke indgår i M 0. 26

Indlejringer af modeller i model-universet defineret ved tre variable, A, B og C. Model nr. Model Indlejret * i 1 A*B*C - 2 A*B+A*C+B*C 1 3 A*B+A*C 1,2 4 A*B+B*C 1,2 5 A*C+B*C 1,2 6 A*B+C 1,2,3,4 7 A*C+B 1,2,3,5 8 A+B*C 1,2,4,5 9 A*B 1-4,6 10 A*C 1-3,5,7 11 B*C 1-2,4-5,8 12 A+B+C 1-5,6-8 13 A+B 1-8,9,12 14 A+C 1-8,10,12 15 B+C 1-8,11,12 16 A 1-10,12,13,14 17 B 1-9,11,12,13,15 18 C 1-8,10-12,14,15 19-1-15,16-18 27

Modelsøgning Mættet model Start model Sand model tom model 28

A*B*C A*B+A*C+B*C A*B+A*C A*B+B*C A*C+B*C A*B+C A*C+B A+B*C A*B A*C B*C A+B+C A+B A+C B+C A B C - 29

Elimination af Første trin af modelsøgning med modellen K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 som startmodel ny model Χ 2 df p K*U K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 6.99 4 0.136 K*F K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 1.30 4 0.862 K*O K*U+K*F+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 2.99 3 0.394 K*I K*U+K*F+K*O+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 0.96 1 0.324 U*F K*U+K*F+K*O+K*I+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 11.62 16 0.769 U*O K*U+K*F+K*O+K*I+U*F+U*I+F*O+F*I+O*I+I 2 +I 3 11.87 12 0.456 U*I K*U+K*F+K*O+K*I+U*F+U*O+F*O+F*I+O*I+I 2 +I 3 11.63 4 0.020 F*O K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*I+O*I+I 2 +I 3 19.27 12 0.082 F*I K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+O*I+I 2 +I 3 9.70 4 0.046 O*I K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+I 2 +I 3 1.80 3 0.616 I 2 K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 3 5.46 1 0.020 I 3 K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 5.70 1 0.017 31

Andet trin af modelsøgning. Den aktuelle model er K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3. Elimination ny model LR df p af K*U K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 6.99 4 0.136 K*O K*U+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 3.30 3 0.349 K*I K*U+K*O+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 0.88 1 0.350 U*F K*U+K*O+K*I+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 11.97 16 0.746 U*O K*U+K*O+K*I+U*F+U*I+F*O+F*I+O*I+I 2 +I 3 11.81 12 0.461 U*I K*U+K*O+K*I+U*F+U*O+F*O+F*I+O*I+I 2 +I 3 11.39 4 0.023 F*O K*U+K*O+K*I+U*F+U*O+U*I+F*I+O*I+I 2 +I 3 19.48 12 0.078 F*I K*U+K*O+K*I+U*F+U*O+U*I+F*O+O*I+I 2 +I 3 9.68 4 0.046 O*I K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+I 2 +I 3 1.80 3 0.616 I 2 K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 3 5.48 1 0.019 I 3 K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 5.73 1 0.017 32

Oversigt over interaktioner og hovedvirkninger, der blev elimineret fra modellen for arbejdsløshed blandt 32-årige. Trin model-led LR df p 1 K*F 1.30 4 0.862 2 F*U 11.97 16 0.746 3 O*I 2.14 3 0.544 4 U*O 10.31 12 0.589 5 K*O 2.21 3 0.530 6 K*I 1.89 1 0.169 7 K*U 7.45 4 0.114 8 F*O 18.88 12 0.092 9 F*I 7.95 4 0.094 10 F 3.37 4 0.498 Slutmodellen: K+O+U*I+I 2 +I 3 33

Forløbet af modelsøgningen Oversigt over beregnede signifikanssandsynligheder Trin Led 1 2 3 4 5 6 7 8 9 10 11 12 K*U.136.137.112.102.102.106.114 * K*F.862 * K*O.394.349.389.369.530 * K*I.324.350.297.255.226.169 * U*F.769.746 * U*O.456.461.603.589 * U*I.020.023.023.016.011.013.021.020.017.029.040 ** F*O.082.078.093.101.083.100.084.092 * F*I.046.046.028.026.028.036.039.045.094 * O*I.616.616.544 * I 2.020.019.024.031.035.036.028.032.032.021.010.022 I 3.017.017.019.024.027.028.020.025.026.015.008.012 O +.018.021.016.012 K +.000.000.000.000.000 F +.498 * U.000 34

Modelsøgningen slutter med en model, hvor 1) effekten af intelligens ikke kan beskrives ved en logitlineær model, 2) der optræder én interaktion mellem uddannelse og intelligens, 3) effekten af familiesocialgruppe helt er elimineret. 35

Estimater af parametre i to modeller. β 1, β 2 og β 3 er parametrene for henholdsvis I (intelligens), I 2 og I 3 model interaktion inkluderet interaktion ekskluderet parameter estimat stand.fejl estimat stand.fejl α -1.9411 1.9384-3.3053 1.4103 Køn β mand 0-0 - β kvinde +0.4501 0.0955 +0.4662 0.0948 Opv.område β kbh 0-0 - β provinsby +0.3985 0.1319 +0.4070 0.1314 β mindre by +0.2066 0.1891 +0.2098 0.1884 β land +0.1536 0.1339 +0.1591 0.1331 Uddannelse β LVU 0-0 - β MVU -4.1301 1.5141-0.5795 0.2265 β KVU -3.9455 1.4500-0.3142 0.2240 β Erhv.udd -2.1715 1.3288-0.0062 0.1964 β restgruppe -0.9936 1.3769 +0.7562 0.2111 Intelligens β 1 +0.2542 0.1346 +0.2380 0.1255 β 2-0.0099 0.0039-0.0083 0.0037 β 3 0.0000981 0.0000372 +0.0000865 0.0000349 Interaktion Udd*intel. β LVU,Int 0 - - - β MVU,int +0.0819 0.0346 - - β KVU,Int +0.0862 0.0338 - - β Erhv,Int +0.0484 0.0309 - - β Rest,Int +0.0361 0.0327 - - 37

4,0 Samlet effekt af uddannelse og intelligens 3,5 3,0 2,5 2,0 1,5 Uddannelse Restgruppe Erhvervsfaglig uddannelse KVU MVU 1,0 10 20 30 40 50 60 LVU Antal rigtige Samlet effekt af intelligens og uddannelse beregnet af en model uden interaktion mellem de to variable. 38

0,0 Samlet effekt af uddannelse og intelligens -,5-1,0-1,5-2,0-2,5-3,0-3,5 Uddannelse Restgruppe Erhvervsfaglig uddannelse KVU MVU -4,0 10 20 30 40 50 60 LVU Antal rigtige Samlet effekt af intelligens og uddannelse beregnet af en model med interaktion mellem de to variable. 39