Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen. studieår Test og sikkerhedsinterval for en parameter. Kategoriske forklarende variable med mere to kategorier. Logistisk regression med en kontinuert forklarende variabel. Hvad vil vi se på? Analysere den kumulerede incidens af hjertesygdom. Tidsperiode: Opfølgningsperioden efter us.! Risikopopulation: 363 personer uden CHD ved. us. Risikofaktorer/indikatorer: Systolisk blodtryk: over/under 60 mmhg. Rygning: ja/nej. Alder: I år og :,, over 56 år. Køn. ln ( odds ( SYS60, SEX = β0 + β SYS60 + β2 ln ( odds( SBP 60, kvinde ln ( SYS60 ln ( SEX SYS60 odds ( SY S60,SEX = odds (,2 ( ( SYS60 MALE SEX Model antagelse: Ingen effektmodifikation/interaktion mellem køn og blodtryk. 3 a SYS60( SEX( B S.E. Wald df Sig. Exp(B.075.54 48.95.000 2.93.875.46 36.047.000 2.399-2.70.28 287.658.000.4 a. Variable(s entered on step : SYS60, SEX. Hypotesen : SYS60 = forkastes! Hypotesen : SEX = forkastes! 60 SYS SEX odds ( SBP 60, kvinde 4 /METHOD=ENTER sys60 sex /CONTRAST (sys60=indicator( /CONTRAST (sex=indicator. Hvordan passer modellen til data? Hvad er de fittede kumulerede incidenser? På basis af : ln ( odds ( SYS60, SEX = β0 + β SYS60 + β2 ln ( odds ( SYS60, SEX = 2.703 +.0753 SYS60 + 0.8750 kan man beregne: odds = exp ( ln ( odds odds p = + odds Fra den logistisk regressionsanalyse Data SEX SYS60 ln(odds odds kum.inc. kum.inc. male >60-2.703+.0753+ 0.8750 0.803 0.445 0.420 male <=60-2.703+ 0.8750 0.25 0.77 0.220 female >60-2.703+.0753 0.335 0.25 0.265 female <=60-2.703 0.4 0.02 0.097 Rimelig god overensstemmelse! Modellen fitter godt! Antagelsen om ingen effektmodifikation synes ok! Næste gang vil vi se på et test for ingen effektmodifikation! 5 Sikkerhedsintervaller (CI (Wolf/Wald- methods Ingen estimater uden sikkerhedsintervaller! (Approksimativt 95% CI: Estimat ±.96 s.e. Syg Rask +Exp a b -Exp c d 95% CI for : Først 95% CI for ln(: a = d b c s. e. ( ln( = + + + a b c d ( ( ln ( ±.96 s. e. ln Dernæst tag eksponentialfunktionen til disse grænser. 6 MPH og Cand San Logistisk regression SPSS
a Beregning af sikkerhedsintervaller i hånden. 95% grænser 95% grænser Parameter β s.e. nedre øvre nedre øvre SYS60.0753 0.537 0.774.377 2.93 2.7 3.96 SEX 0.8750 0.457 0.589.6 2.40.80 3.9-2.703 0.280-2.42 -.99 0. 0.09 0.5 Fra output Estimat ±.96 s.e. Exp I SPSS : Tilføj /PRINT CI(95 i syntaksen Output: SYS60( SEX(.075.54 48.95.000 2.93 2.69 3.96.875.46 36.047.000 2.399.803 3.92-2.70.28 287.658.000.4 a. Variable(s entered on step : SYS60, SEX. Nyt Bemærk: Intet CI for ( ln(odds i referencegruppen 7 Alder og risiko for hjertesygdom: inddeler i :,, over 56 år. CHDEVER yes ( no (0 Total kum.incidens ln(odds ln( (0 5 308 359 0.42 ref -.80.00 0.00 ( 6 298 359 0.70 -.59.24 0.2 (2 64 254 38 0.20 -.38.52 0.42 57-62 (3 92 235 327 0.28-0.94 2.36 0.86 Total 268 095 363 Fire parametre skal bestemmes. Fire mulige valg af reference gruppe. Vi vælger som reference gruppe. De fire parameter er så: ln(odds i reference gruppen. Tre log( relativt til referencegruppen 8 Der er brug for tre dummy variable: AKAT= hvis = og 0 ellers AKAT2= hvis =2 og 0 ellers AKAT3= hvis =3 og 0 ellers Modellen : ln ( odds ( = β0 + β AKAT + β2 AKAT2 + β3 AKAT3 Giver følgende: ln ( odds ( = 0 = β0 + β 0 + β2 0 + β3 0 = β0 ln ( odds ( = = β0 + β + β2 0 + β3 0 = β0 + β ln ( odds ( = 2 = β0 + β 0 + β2 + β3 0 = β0 + β2 ln ( odds ( = 3 = β0 + β 0 + β2 0 + β3 = β0 + β3 9 ln ( odds ( = β0 + β AKAT + β2 AKAT2 + β3 AKAT3 ln ( odds ( = 0 = β0 + β 0 + β2 0 + β3 0 = β0 ln ( odds ( = = β0 + β + β2 0 + β3 0 = β0 + β ln ( odds ( = 2 = β0 + β 0 + β2 + β3 0 = β0 + β2 ln ( odds ( = 3 = β + β 0 + β 0 + β = β + β 0 2 3 0 3 β = ln ( odds ( = ln ( odds ( = 0 = ln ( mod 0 β 2 = ln ( odds ( = 2 ln ( odds ( = 0 = ln ( 2 mod 0 β 3 = ln ( odds ( = 3 ln ( odds ( = 0 = ln ( 3 mod 0 0 I praksis SPSS klarer det for os! /CONTRAST (age4=indicator( /PRINT CI(95. Output: =0 er reference Frequency ( (2 (3 38.000.000.000 327.000.000.000 = bliver kaldt ( =2 bliver kaldt (2 kun 0 er =3 bliver kaldt (3 a Estimaterne i SPSS: Test for hypotesen: alle alderskoefficienten er 0 dvs ingen association mellem alder og hjertesygdom. ( (2 (3 22.75 3.000.22.206.05.305.236.825.852.49.206 4.45.042.52.06 2.277.860.95 9.474.000 2.363.63 3.462 -.798.5 4.462.000.66 a. Variable(s entered on step :. Som ved direkte beregning. er relativt til =0 P- værdi for hypotese samme risiko blandt og årrige. 2 MPH og Cand San Logistisk regression SPSS 2
Plot af estimeret ln(odds Kan vi finde en simplere sammenhæng?? 3 En simplifikation: Alle trinene lige store Dvs. lineær sammenhæng med : 4 ln(odds -.00 -.25 -.50 -.75 = 0 2 3 ln ( odds ( = β0 + β β = ln ( odds ( = ln ( odds ( = 0 = ln ( mod 0 β = ln ( odds ( = 2 ln ( odds ( = = ln ( 2 mod β = ln ( odds ( = 3 ln ( odds ( = 2 = ln ( 3 mod 2 Dvs β = ln( forskel på I SPSS /PRINT CI(95. Obs ingen indicator linie! 5 6 Output fra SPSS Intet Categorical Variables Coding for ln ( odds ( =.853 + 0.286.286.062 2.264.000.33.79.503 -.853.24 223.28.000.57 ˆ β = ln ( forskel på ln odds ( = 0 ( forskel på ln(odds -.00 -.25 -.50 ln ( odds ( =.853 + 0.286 odds ( = 0.57.33 -.75 = 0 2 3 Det så da meget pænt ud! Kan denne forsimpling testet? 7 Forskel i -2log lik.=0.858 for 2 parametre mindre 8 Ja! V.h.a. et likelihood ratio test!! Output fra første model ( kategorisk; 4 parametre: Model Summary Output fra anden model ( kontinuert ; 2 parametre : Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 328.650.06.026-2 Log Cox & Snell Nagelkerke likelihood R Square R Square 329.508.06.025 Store værdier kritiske Ingen forskel på modellerne (dvs lige store spring Forskel i -2log lik er χ²-fordelt med 2 frihedsgrader Antal frihedsgrader 2 3 4 5 Kritisk værdi 5% 3.84 5.99 7.8 9.49.07 0.858 meget mindre end 5.99: p>5% (p=65% Forskel i -2 Log Likelihood 329.508-328.650=0.858 Forskel i antal parametre 4-2=2 MPH og Cand San Logistisk regression SPSS 3
En anden simplifikation af aldersafhængigheden: ln ( odds ( AGE = β0 + β AGE Bemærk: AGE og ikke!! Lineær afhængighed af (den ikke-grupperede alder. I SPSS β = ( ln Forskel på år β 0 = ln ( odds ( AGE = 0 Nonsens! Det ser vi på om lidt! /METHOD=ENTER age /PRINT CI(95. 9 a AGE.066.04 20.678.000.068.038.099-4.882.774 39.822.000.008 a. Variable(s entered on step : AGE. Forskel på 4 år p( β 4 exp( 0 4 = =.0658 =.30 ex ˆ Aldersgrupper i spænder over ca. 4 år Forskel på år Forskel i gruppe =.3309 20 a En mere fornuftig ; brug: AGEC50=AGE-50 AGEC50 ln ( odds ( AGE = β + β ( AGE 50 β = 0 ( ( odds ( ln Forskel på år β 0 = ln AGE = 50 Det giver mening!.066.04 20.678.000.068.038.099 -.594.083 364.572.000.203 a. Variable(s entered on step : AGEC50. Uændret ln ( odds ( AGE = 50 odds ( AGE = 50 ln ( odds ( AGE =.594 + 0.066 ( AGE 50 ( AGE 50 odds( AGE = 0.203.068 2 ln(odds -.00 -.25 -.50 -.75 ln ( odds ( AGE =.594 + 0.066 ( AGE 50 = 0 2 3 22 Valg af en anden reference gruppe Reference =0. /CONTRAST (age4=indicator( /PRINT CI(95. Frequency ( (2 (3 38.000.000.000 327.000.000.000 Hvad hvis vi hellere vil sammenligne med de årrige? Reference =. Mindste værdie er reference 23 /CONTRAST (age4=indicator(2 /PRINT CI(95. = er reference 2. værdi af dvs = er reference. Frequency ( (2 (3 38.000.000.000 327.000.000.000 =0 bliver kaldt ( =2 bliver kaldt (2 kun 0 er =3 bliver kaldt (3 24 MPH og Cand San Logistisk regression SPSS 4
a ( (2 (3 22.75 3.000 -.22.206.05.305.809.540.23.208.98.097.295.23.834.85.648.87 2.052.00.92.326 2.757 -.586.4 27.392.000.205 ( a. Variable(s entered on step :. ln od ds ( = 45 48 mod 49 52 53 56 mod 49 52 Test for: samme risiko for de som de årrige Sammenligning med før: 45 48 mod 49 52 53 56 mod 49 52 = 0.8093 = = 49 52 mod 45 48.2357 53 56 mod 45 48.5209 =.2308 = =.2357 49 52 mod 45 48 25 SYS60 korrigeret for køn og alder : 3 modeller ( (2 (3 SEX( SYS60( SEX( SYS60( AGEC50 SEX( SYS60( 6.679 3.00.9.22.8.368.20.799.834.304.23 2.032.54.355.892 2.057.758.20 4.220.000 2.34.439 3.64.875.47 35.406.000 2.399.798 3.200.09.56 42.637.000 2.770 2.040 3.76-2.485.88 73.82.000.083.247.064 4.90.000.280.29.45.879.47 35.853.000 2.408.806 3.2.005.55 4.86.000 2.733 2.05 3.706-2.539.65 235.963.000.079.058.05 4.95.000.060.029.09.880.47 35.948.000 2.4.808 3.25.02.55 42.483.000 2.75 2.029 3.729-2.320.37 285.999.000.098 26 MPH og Cand San Logistisk regression SPSS 5