Logistisk regression Anvendt statistik Anders Tolver Jensen Institut for Grundvidenskab og Miljø Onsdag d. 25/2-2009 ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 1 / 12
(Multinomial) logistisk regression Lad Y 1,Y 2,...,Y n være uafh. stok. var. på {1,...,k}. Til hver obs. er knyttet en målt kovariat x 1,...,x n. Med p ij = P(Y i = j) er den logistiske regressionsmodel givet ved, at ( ) pij log = α j + β j x i, j = 2,...,k,i = 1,...,n. p i1 Størrelsen p ij /p i1 kaldes odds for responsgruppe j i forhold til referencegruppen 1. R-eksempel: alligatorers fødevalg ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 2 / 12
Eksempel: hvad spiser en alligator? id length food id length food id length food 1 1.24 I 2 1.30 I 3 1.30 I 4 1.32 F 5 1.32 F 6 1.40 F 7 1.42 I 8 1.42 F 9 1.45 I 10 1.45 O 11 1.47 I 12 1.47 F More data 40 2.36 F 41 2.36 F 42 2.39 F 43 2.41 F 44 2.44 F 45 2.46 F 46 2.56 O 47 2.67 F 48 2.72 I 49 2.79 F 50 2.84 F 51 3.25 O Response: 3 different categories (F/I/O) Explanatory var.: length (continuous/covariate) ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 3 / 12
Eksempel: hvad spiser en alligator? Formålet kunne være at besvare flg. spørgsmål: 1. Afhænger det foretrukne valg af føde af alligatorens længde? 2. Hvad er odds for at en alligator på 1 meter foretrækker snegle (I) frem for fisk (F)? 3. Hvad er fordelingen af det foretrukne fødevalg for populationen af 3 meter lange alligatorer? 4. Ved hvilken længde er snegle (I) og fisk (F) lige populært hos alligatorerne? ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 4 / 12
Resultater af logistisk regression Vi fitter den statistiske model η ij = log ( pij p i1 ) = α(j) + β(j) x i med j = 1 (Fisk), j = 2 (Snegle) og j = 3 (Andet). Snegle : ˆα(2) = 3.905 [0.815, 6.995] ˆβ(2) = 2.254 [ 3.955, 0.553] Andet : ˆα(3) = 1.564 [ 5.398, 2.270] ˆβ(3) = 0.066 [ 1.737, 1.870] Stærkt signifikant effekt af længde (p = 0.008). ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 5 / 12
Alligatoreksempel: spørgsmål 4 Lige mange snegle- og fiskeædere for ( ) pi2 0 = log = α(2) + β(2) x i ˆx = ˆα(2) ˆβ(2) = t(ˆα(2), ˆβ(2)) p i1 Estimat: ˆx = 1.732 m [1.443, 2.022] Var Var(ˆx) = Dt T Var ( ˆα(2) ˆβ(2) ( ˆα(2) ˆβ(2) ) = ( 2.485 1.338 1.338 0.753 ) Dt = 0.0218 m 2. ) ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 6 / 12
Alligatorens foretrukne fødevalg Alligator Food Choice Predicted probability 0.0 0.2 0.4 0.6 0.8 1.0 Fish Other Invertebrate 0 1 2 3 4 Length of alligator (m) ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 7 / 12
Logistisk regression: binær respons Det vigtigste specialtilfælde er situationen med binær respons (Y i {0,1}). Her modelleres middelværdiparameteren p i = P(Y i = 1) gennem den kanoniske parameter, f.eks. ved ( ) pi log = α(faktor1 i ) + β(faktor2 i ) 1 p i + γ(faktor1 faktor2 i ). Dette passer fint ind i rammerne for de generaliserede lineære modeller. R-eksempel: Dødelighed af møl ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 8 / 12
Logistisk regression: overspredning Hvis Y bin(n,p) vil Var(Y) = np(1 p). For visse logistiske regressionsmodeller er det muligt at estimere en dispersionsparameter, ˆφ, som laver en form for modelkontrol af denne relation. Overspredning (ˆφ > 1) ses desværre ofte i praksis, og løses f.eks. ved at multiplicere teststørrelser og konfidensintervaller med ˆφ. I R løses problemet ved at erstatte family=binomial med family=quasibinomial. ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 9 / 12
Logistisk regression: overspredning Level of test for effect of pesticide Level 0.00 0.05 0.10 0.15 Uncorreted test Corrected test 0.5 0.0 0.5 Correlation ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 10 / 12
Multinomial ordnet respons Lad Y 1,Y 2,...,Y n være uafh. stok. var. på {1,...,k}. Udgangspunktet for stat. analyse bør være ( ) pij log = f (forklarende variable, θ) p i1 Hvis det giver mening at ordne responskategorierne risikeres meningsløse konklusioner som: Øget dosis giver større ssh. for at få respons 1,3,5,7,9 og mindre ssh. for 2, 4, 6, 8, 10. Modellen skal helst give uniform effekt af forklarende variable på alle responsgrupper. ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 11 / 12
Proportional odds model Kumulerede ssh: γ ij = P(Y i j), j = 1,...,k 1. ( ) γij Prop. odds model: log = θ j α(faktor i ) 1 γ ij θ j : intercept/threshold parametre for responsgrupper α-parametre: virker uniformt på alle responsgrupper Man kan sige, at der ikke er vekselsvirkning mellem behandlingsfaktor og responsgrupppe, fordi parametrene indgår additivt. Opfordring: forsøg at reducere (multinomial) logistisk regressionsmodel til en proportional odds model. ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 12 / 12