Introduktion til logistisk rgrssion Indhold: Sandsynlighdr, odds og logits Logistisk rgrssion Dummy variabl Wald tst SPSS 1
Rgrssionsmodllr bskrivr hvorlds én afhængig variabl, Y, afhængr af n llr flr uafhængig variabl, X 1,..,X k Modllns sandsynlighdr D btingd sandsynlighdr af Y givt X 1,..,X k P(Yy X 1 x 1,..,X k x k ) Modlln bskrivr ikk fordlingn af X 1,..,X k 2
Logistisk rgrssion antagr at Y r binær Risiko for hjrtsygdom (Y) givt rygvanr (R) og forkomst af tidligr hjrtsygdom (T) Ingn hjrtsygdom : Y0 Hjrtsygdom : Y 1 P(Y 1 R r,t t) 1 + α+β r α+β +β r t +β +β t r,t + β r,t β r og β t omtals som hovdvirkningr β r,t omtals som intraktionn mllm ffktn af R og ffktn af T på Y 3
Problmt Statistisk modllr som f.ks. P(Y 1 R r,t t) 1 + α+β r α+β +β r t +β +β t r,t + β r,t skjulr d data, som modlln bskrivr, sålds at dt kan vær gansk vanskligt at gnnmsku, hvad dt gntlig r, dr forgår. F.ks., at dr r tal om ffktmodifikation, hvis nogn af værdirn af β r,t r forskllig fra 0. 4
Sandsynlighdr, odds og logits p sandsynlighdn for at nogt forkommr Odds p 1 p P 0.5 Odds 0.5 1 1:1 0.5 P 0.25 Odds 0.25 0.75 0.3333 1:3 P 0.95 Odds 0.95 0.05 19 19:1 5
Sandsynlighdrn kan brgns ud fra odds Odds p p 1 p Odds 1 + Odds Odds 10 p 10 1 + 10 0.0909 6
Logits Logit ln(odds) Odds logit Sandsynlighdr r drfor også funktionr af logits P 1 + log it log it 7
Sandsynlighdr, odds og logits p odds logits 0.00 0.000-0.05 0.053-2.944 0.10 0.111-2.197 0.15 0.176-1.735 0.20 0.250-1.386 0.25 0.333-1.099 0.30 0.429-0.847 0.35 0.538-0.619 0.40 0.667-0.406 0.45 0.818-0.201 0.50 1.000 0.000 0.55 1.222 0.201 0.60 1.500 0.406 0.65 1.857 0.619 0.70 2.333 0.847 0.75 3.000 1.099 0.80 4.000 1.386 0.85 5.667 1.735 0.90 9.000 2.197 0.95 19.000 2.944 1.00 - - 8
Stratificrd tabllr. Confoundr (Z) Eksposition (X) nj ja Sygdom Risiko Btingt sandsynlighd for sygdom Givt X og Z Z 1 nj a 1 b 1 p 1,nj ja c 1 d 1 p 1,ja Z 2 nj a 2 b 2 P 2,nj ja c 2 d 2 P 2,ja En logistisk rgrssionsmodl r n matmatisk modl, dr udtrykkr sandsynlighdrn som funktionr af Z og X 9
Sammnhæng mllm rygvanr og hjrtsygdomm Woodward (1999) tabl 4.16. Talln i parntsr r 95% konfidnintrvallr. hjrtsygdom risiko rlativ risiko Rygr nj ja p odds logit risikoratio oddsratio nj 3495 57 0.016 (0.012 0.020) ja 2112 75 0.034 (0.027 0.042) 0.016-4.135 rf rf 0.036-3.324 2.125 2.177 (1.54 3.09) χ 2 20.05 df 1 p 0.000 Omskriv sandsynlighdrn som funktionr af logits. 10
Ikk-rygr p i sandsynlighdn for hjrtsygdom, hvis man ikk rygr o i odds for hjrtsygdom, hvis man ikk rygr α i logit for hjrtsygdom, hvis man ikk rygr p i α i 1 + α i 11
rygr p r sandsynlighdn for hjrtsygdom, hvis man rygr o r odds for hjrtsygdom, hvis man rygr α r logit for hjrtsygdom, hvis man rygr p r αr 1 + α r 12
Omparamtricring To paramtr, dr angivr logits i d to gruppr: α r og α r Sæt α α i og β α r - α i sålds at α i α α r α+β Hrftr kan sandsynlighdrn omskrivs på følgnd måd: p i αi α αi 1+ 1+ α p r αr α+β αr 1+ 1+ α+β 13
β r forsklln på d to logit-værdir, β α r - α i Hvorlds skal dnn paramtr tolks? Brgning af odds-ratio værdir for 2 2 tabllr a b c d Odds ratio ad bc Tablln md modllns sandsynlighdr Rygr ikk Ingn hjrtsygdom 1 α 1+ Hjrtsyg dom 1+ α α Rygr 1 α +β 1+ 1+ α + β α + β Odds ratio 1 1+ 1+ 1+ 1+ 1 α+β α α+β α α+β α β r lig md odds-ratio værdin β 14
p i αi αi 1+ 1+ D to sandsynlighdr α α p r αr α+β αr 1+ 1+ α+β kan samls i én forml på følgnd måd: Antag at rygvariabln, X, r kodt md værdirn 0 ikk rygr 1 rygr β x β X r lig md 0, hvis X0, og β, hvis X 1. Dn btingd sandsynlighd for hjrtsygdom (Y) givt rygvanrn (X) kan drfor skrivs som P( Y X ) x x 1+ 1+ α + β α + xβ α + β α + β sandsynlighdn i n logistisk rgrssionsmodl. x 15
Dn logistisk rgrssionsmodl kan gnralisrs på følgnd mådr: X bhøvr ikk at vær binær, mn kan ntn vær katgorivariabl md mr nd to katgorir llr kvantitativ intrval- llr ratioskalavariabl. Dr kan vær mr nd 1 uafhængig variabl 16
Logistisk rgrssion md uafhængig variabl dr har mr nd to katgorir Dødsfald ftr blodprop Aldr ikk død død 35-39 7 4 40-44 16 16 45-49 27 25 50-54 37 33 55-59 60 56 60-64 69 109 17
Brgning af odds-ratioværdir 1) Vælg rfrnckatgori (f.ks. 35-39 år). 2) Udtræk 2 2 tabllr md rfrnckatgorin og én andn aldrsgrupp. 3) Brgn odds-ratio værdir for hvr af dltabllrn 18
Sammnhængn mllm aldr og død bskrivs ikk vd én odds-ratio værdi, mn vd n tabl md flr odds-ratioværdir. Aldr ikk død død 35-39 7 4 40-44 16 16 OR 1.75 Aldr ikk død død 35-39 7 4 45-49 27 25 OR 1.62 Aldr ikk død død 35-39 7 4 50-54 37 33 OR 1.56 Aldr ikk død død 35-39 7 4 55-59 60 56 OR 1.63 Aldr ikk død død 35-39 7 4 60-64 69 109 OR 2.76 19
Odds-ratio tablln Aldr Odds-ratio 35-39 1 (rf) 40-44 1.75 45-49 1.62 50-54 1.56 55-59 1.63 60-64 2.76 20
To forskllig formulringr af n logistisk rgrssionsmodl md Entn n uafhængigvariabl md t vilkårligt antal katgorir P(Y 1 X x) hvor β x 0 for rfrnckatgorin llr P (Y 1 X x) 1 + α+β 1 α+β X x α+ β 1 +β 1 + 2 α+ x 2 +... +β hvor X i r n dummy variabl md værdirn 1 hvis Xi 0 hvis X i X i β i X i k X k β 1 X 1 + β 2 X 2 + β 3 X 3 + + β k X k β 3 hvis X 3 1 fordi all d andr dummy variabl i givt fald r lig md 0 21
Logistic rgrssion in SPSS 22
Logistisk rgrssion md kvantitativ uafhængig variabl på intrval llr ratioskalanivau 23
Logistisk rgrssion md skostørrls som katgorisk variabl SPSS vælgr dn sidst katgori som dfault Informationn om rfrnckatgorin liggr i n tabl md Catgorical variabls Coding Catgorical Variabls Codings Sho Siz <4 4 4.5 5 5.5 6+ Paramtr coding Frquncy (1) (2) (3) (4) (5) 2 1,000,000,000,000,000 2,000 1,000,000,000,000 2,000,000 1,000,000,000 2,000,000,000 1,000,000 2,000,000,000,000 1,000 2,000,000,000,000,000 Bmærk: Rfrnckatgorin r katgorin md rn nullr. Dvs. hr katgorin 6+ 24
Rgrssionsanalysn Stp 1 a SHOE SHOE(1) SHOE(2) SHOE(3) SHOE(4) SHOE(5) Constant Variabls in th Equation B S.E. Wald df Sig. Exp(B) Lowr Uppr 8,634 5,125 1,415,605 5,472 1,019 4,117 1,258 13,473 1,252,534 5,491 1,019 3,499 1,227 9,975,847,549 2,379 1,123 2,333,795 6,844,871,524 2,766 1,096 2,390,856 6,671,890,504 3,117 1,077 2,434,907 6,535-2,639,327 65,005 1,000,071 a. Variabl(s) ntrd on stp 1: SHOE. Bmærk: Rfrnckatgorin viss ikk B kolonnn logitværdirn Exp(B) odds-ratio værdirn 25 95,0% C.I.for EXP(B) Kolonnrn Wald, df, Sig indholdr rsultatr af t såkaldt Wald tst.
Wald tstt To typr af nul-hypotsr H0: Risikon r dn samm i all gruppr, β 1 β 2.. β k β H0 ab : Risikon r dn samm i to forskllig gruppr, β a β b β ab 26
Wald tst for parvis sammnligningr Dfinrr dn n grupp (a) som rfrnc og stimrr logitforsklln (β b - β a ) og standardfjln på stimatt z βˆ ˆ b β s a r tilnærmlssvist fordlt som n standardisrt normalfordling Wald Z 2 r tilnærmlssvist fordlt som n χ 2 fordling md 1 frihdsgrad 27
Wald tstt for sammnligning af mr nd to gruppr Wald tstt for hypotsn, at risikon r dn samm i all gruppr, r n gnralisring af tstt for to gruppr. Dt r tilnærmlssvist fordlt som n χ 2 fordling md t antal frihdsgradr, dr r lig md antal gruppr minus 1 28
Wald tstt i SPSS Stp 1 a SHOE SHOE(1) SHOE(2) SHOE(3) SHOE(4) SHOE(5) Constant Variabls in th Equation B S.E. Wald df Sig. Exp(B) Lowr Uppr 8,634 5,125 1,415,605 5,472 1,019 4,117 1,258 13,473 1,252,534 5,491 1,019 3,499 1,227 9,975,847,549 2,379 1,123 2,333,795 6,844,871,524 2,766 1,096 2,390,856 6,671,890,504 3,117 1,077 2,434,907 6,535-2,639,327 65,005 1,000,071 a. Variabl(s) ntrd on stp 1: SHOE. 95,0% C.I.for EXP(B) Dn først lini visr Wald tstt for dn samld hypots, β 1 β 2.. β k β D næst linir visr Wald tstn for samtlig parvis sammnligningr mllm rfrnc katgorin og d andr katgorir 29
Skostørrlsn havd tilsynladnd ingn btydning, mn Sho Siz * Kjsrsnit Crosstabulation Sho Siz Total <4 4 4.5 5 5.5 6+ Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Kjsrsnit No Ys Total 17 5 22 77,3% 22,7% 100,0% 28 7 35 80,0% 20,0% 100,0% 36 6 42 85,7% 14,3% 100,0% 41 7 48 85,4% 14,6% 100,0% 46 8 54 85,2% 14,8% 100,0% 140 10 150 93,3% 6,7% 100,0% 308 43 351 87,7% 12,3% 100,0% gamma kofficintn sigr nogt andt Symmtric Masurs Asymp. Valu Std. Error a Approx. T b Approx. Sig. Ordinal by Ordinal Gamma -,324,099-2,848,004 N of Valid Cass 351 a. Not assuming th null hypothsis. b. Using th asymptotic standard rror assuming th null hypothsis. 30
Et plot af skostørrls mod andl md kjsrsnit visr hvorfor: 31
logit Et plot af skostørrls mod logit i flg. Analysn fortællr samm histori: -1,20-1,60-2,00-2,40 <4 4 4.5 5 5.5 6+ Sho Siz Logitforsklln liggr næstn på n rt lini, hvilkt skull btyd at Logitforskl β x γ + β x 32
Logitforskl β x γ + β x Rformulring af dn logistisk rgrssionsmodl P(Y 1 X x) 1+ 1+ α+β x α+β x ( α+γ ) +β x ( α+γ ) +β x Samm rgrssionsmodl som tidligr md t nyt konstantld (α+γ) i stdt for α og β x i stdt for β x 33
Logistisk rgrssion md kvantitativ uafhængig variabl Bmærk: Sho dfinrs ikk som n katgorivariabl B S.E. Wald Df Sig. Exp(B) sko -,519,187 7,697 1,006,595 Constant,688,946,528 1,467 1,989 34
Sammnligning af rsultatr fra d to analysr Analys 1 (X katgorisk): Analys 2 (X kvantitativ): P(Y 1 X) 1 + P(Y 1 X) 1 + 2.639+β x 2.639+β 0.688 0.519x x 0.688 0.519x 35
Samld logitværdir 2.639+βx Skostørrls Kod β x 1+ 2.639+β x 1+ 0.688 0.519x 0.688 0.519x <4 X3.5 1.415-1.224-1.128 4 X4 1.252-1.387-1.388 4.5 X4.5 0.847-1.792-1.648 5 X5 0.871-1,768-1.907 5.5 X5.5 0.890-1.749-2.166 6+ X6 0-2.639-2.426 36