25. april 2. gang: Introduktion til Logistisk Regression Morten Frydenberg 22 Institut for Biostatistik, Århus Universitet MPH. studieår specialmodul Cand. San. uddannelsen. studieår Hvorfor logistisk regression Præsentation af Framingham databasen. Repetition af Odds Ratio beregning i 2x2 tabeller. Repetition af stratificeret (Mantel-Haenszel analyse. Logistic regression med en og to binære forklarende variable. Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 5-7 Systolic Blod Pressure Left Ventricular Hypertrophy Glucose Intolerance Age Serum Cholesterol Points 2 5 6 7 8 9 SBP 2 5 6 7 8 9 2 LVH No Yes GLU No Yes 6 No Yes 7 27 Note: No points added for Smoking 2 6 9 Age Chol 6 8 2 6 8 5 55 6 65 7 65 2 5 7 9 2 5 8 2 2 8 6 8 9 2 6 8 2 22 95 2 5 7 9 2 6 9 2 22 2 6 8 7 9 2 22 225 5 7 9 2 5 7 2 2 2 2 6 8 5 8 2 22 2 255 5 7 9 2 5 6 9 2 22 2 27 6 8 6 7 9 2 2 2 285 7 9 2 5 6 7 2 22 2 2 8 2 5 6 7 8 2 22 2 2 5 9 5 7 8 9 2 2 2 25 Interaktion/effekt modifikation!! 2 Calculation of Probability Enter Points (in red for 6 Systolici Blood Pressure + Left Ventricular Hypertrophy + Glucose Intolerance + 2 Age/Serum Cholesterol = Total Points TP Prob TP Prob TP Prob 5.2 7. 29.8 6. 8.6.9 7. 9.9. 8. 2.22 2.2 9. 2.25.. 22.29.6.6 2. 5.8 2.7 2. 6.2.8 25.6 7.2.9 26.5 8.26 5. 27.6 9.29 6.2 28.7.2 FRAMINGHAM HEART STUDY Follow-up undersøgelse påbegyndt i 98. Planlagt som et 2 års studie. Forekomst af cardio-vaskulære sygdomme. Klinisk undersøgelse hvert andet år. 529 personer (inkl. 7 frivillige. Vi/I har : Oplysninger fra de første gen-undersøgelser (8 års follow-up for 6 personer. Udeladt: Personer under 5 år ved. us.. Udeladt: Serum kolesterol værdi mangler ved. us.. 5 Vi/I har ud af de oprindelige 9 variable. OBS, SEX, CHD, AGE, SBP, SBP, DBP, CHOL, FRW, CIG, YRS_CHD, YRS_DTH, DEATH, CAUSE. SEX,2 for mand, 2 for kvinde CHD, : ingen CHD diag. ved de første us. : CHD diag. ved. us (prævalent case 2-: us.-nummer ved første CHD diag. AGE 5-62 Alder i år ved første us. SBP 9- Systolisk blodtryk ved første us. CIG -6 : Ikke ryger -6: Antal cigaretter pr. dag 6
25. april 2 Hvad vil vi se på? Analysere den kumulerede incidens af hjertesygdom. Tidsperiode: Opfølgningsperioden efter us.! Risikopopulation: 6 personer uden CHD ved. us. prævalente person udelades. Risikofaktorer/indikatorer: Systolisk blodtryk: over/under 6 mmhg. Rygning: ja/nej. Alder: 5-8, 9-52, 5-56 og over 56 år. Køn. SPSS Syntax: GET FILE='e:\kurser\mph2\spmodul\fram.sav'. COMPUTE chdever=chd>. COMPUTE age=(age>8+(age>52+(age>56. COMPUTE sys6=sbp>6. COMPUTE smoke=cig>. COMPUTE chdfree=chd<>. FILTER BY chdfree. EXECUTE. CROSSTABS /TABLES=sex sys6 smoke age BY chdever /STATISTIC=RISK /CELLS= COUNT. 7 8 Odds ratio beregning: Syg Rask Total +Exp a b a+b a d OR = -Exp c d c+d b c Total a+c b+c a+b+c+d Syg Rask Mand 6 79 6 66 OR = = 2. Kvinde 66 79 Rask Syg Mand 79 6 Kvinde 66 79 OR = =.9 = 6 66 2. 9 SEX yes ( no ( Total kum.incidens OR ln(or male ( 6 79 6.255 2..7 female (2 66 72. ref.. Total 268 95 6 SYS6 yes ( no ( Total kum.incidens OR ln(or >6 ( 25 6.2 2.8.9 =<6 ( 67 88 7.6 ref.. Total 268 95 6 SMOKE yes ( no ( Total kum.incidens OR ln(or yes ( 8 6.28.28.25 no ( 6 78.79 ref.. Total 268 9 62 COMPUTE smoke=cig> AGE yes ( no ( Total kum.incidens OR ln(or I SPSS 5-8 ( vil cig missing 5 8 59 give smoke.2 ref missing.!. 9-52 ( 6 298 59.7.2.2 I STATA, 5-56 (2 EPI- 6 info 25 og 8 andre.2 programmer vil.52.2 det resulterer 57-62 ( i eller 92. 25 27.28 2.6.86 Total 268 95 6 Pas på! Check det program du bruger! 2. =.9 Tilbage til vores problem: Køn, blodtryk og hjertesygdom. Forhøjet risiko for mænd Forhøjet risiko hvis SBP>6 Begge odds ratioer er ukorrigerede! estimeret OR=2.. estimeret OR=2.8. SYS6 >6 <=6 Total OR SEX male 2 5 6.5 female 2 56 72 Total 6 7 6 Mænd ikke så ofte har SBP>6. Dermed undervurderes betydningen af SBP>6! SPSS syntax for stratificeret analyse CROSSTABS /TABLES=sys6 BY chdever BY sex /STATISTIC= RISK CMH( /CELLS= COUNT. Mantel-Haenszel analyse Opdelt efter køn Test OR= Kønnet er en mulig konfounder for SBP>6. 2 2
25. april 2 Odds ratio mellem SBP>6 og CHD i opfølgningsperioden: For mænd estimeret OR=2.56. For kvinder estimeret OR=.6. Fælles (korrigeret for køn estimeret OR=2.9. Ukorrigeret estimeret OR=2.8. Det korrigerede noget større. Målet for i dag: At beregne det ukorrigerede estimat At beregne det korrigerede estimat ved hjælp af logistisk regression! Analyse af en 22 tabel vha. logistik regression. SYS6 Total 25 6 67 88 7 Total 268 95 6 p : Risiko (kumuleret incidens p odds odds = eller p = p + odds Bemærk: p odds > ln( odds ubegrænset Sammenligning af to grupper vha. odds ratio: odds ( SYS6= odds ( OR = = odds ( SYS6= odds ( odds ( ln ( OR = ln = ln[ odds ( ln[ odds ( odds ( ln[ odds ( = ln[ odds ( + ln ( OR = ln[ odds ( + ln ( OR β β ln[ odds ( SYS6 + β SYS6 5 ln[ odds ( SYS6 + β SYS6 Lad os gøre prøve: β = ln [ odds ( β SYS6=: ln[ odds ( + β = ln [ OR = ln[ odds ( SYS6=: ln [ odds ( + β + β = ln[ odds ( + ln[ OR = ln[ odds ( + ln[ odds ( ln[ odds ( = ln[ odds ( 6 SYS6 Odds Ln(odds OR Ln(OR 25.7 -.756 2.8.96 67 88.9 -.662 SPSS! ˆ β =. 662 ˆ β =.96 ^: Estimat for LOGISTIC REGRESSION VAR=chdever /METHOD=ENTER sys6 /CONTRAST (sys6=indicator(. Respons Forklarende variabel Kategorisk variabel med mindste værdi (!! som reference. 7 Step a βˆ SYS6( Constant βˆ Variables in the Equation B S.E. Wald df Sig. Exp(B.96.7 7.88. 2.75 -.662.8 87.66..9 ( ( ˆ ( ln OR = exp( ˆ β se β = se OR P-værdi for hypotesen : dvs. OR=. Intet nyt: Det ku vi godt i forvejen! Men med logistik regression kan vi mere!! 8 β =
25. april 2 Analyse af en 222 tabel vha. logistisk regression. Køn og forhøjet blodtryk : SEX og SYS6 Mantel-Haenszel analyse kan give: OR for SYS6 korrigeret for SEX (har vi lavet OR for SEX korrigeret for SYS6 (har vi ikke lavet To analyser for at få de to korrigerede estimater. Én logistisk regression vil give to korrigerede estimater! SEX SBP CHD CHD Odds ln(odds OR ln(or Mand >6 7 65.72 -.2 6.7.98 Mand 6 7.28 -.26 2.6.968 Kvinde >6 5 5.6 -.22.6.2 Kvinde 6 5 66.7-2.22.. Referenceværdi odds(,2, dvs. kvinde med lavt blodtryk odds(, odds(, odds(,2 odds(,2 Ny variabel: MALE = 2 SEX hvis mand og hvis kvinde Logistisk regression med SEX og SYS6 som forklarende variable: ln ( odds ( SYS6, SEX + β SYS6 + β2 9 2 ln ( odds ( SYS6, SEX + β SYS6 + β2 + β SYS6 + β ( 2 SEX Hvad er β, β og β? 2 2 ln ( odds (, 2 + β + β ( 2 2 2 ln ( odds (, 2 + β + β ( 2 2 + β 2 ln ( odds (, + β + β ( 2 + β 2 2 ln ( odds(, + β + β ( 2 + β + β 2 2 2 ln ( odds (, 2 ln ( odds (, 2 + β ln ( odds (, + β2 ln ( odds (, + β + β 2 β = ln ( odds (, 2 β = ln ( odds (, 2 ln ( odds (, 2 = ln ( ORSYS6 for KVINDER β = ln ( odds (, ln ( odds (, = ln ( ORSYS6 for MÆND Effekten af forhøjet blodtryk antages er være uafhængig af køn!! Når den beskrives ved odds ratio! Ingen effektmodifikation! Præcis som den stratificerede analyse, Mantel-Haenszel! 22 ln ( odds (, 2 ln ( odds (, 2 + β ln ( odds (, + β2 ln ( odds (, + β + β 2 = ln ( odds (, ln ( odds (, 2 = ln ( ORSEX for SBP 6 β < 2 = ln ( odds (, ln ( odds (, 2 = ln ( ORSEX for SBP 6 β > Effekten af køn antages er være uafhængig af forhøjet blodtryk!! Når den beskrives ved odds ratio! Ingen effektmodifikation! 2 Præcis som den stratificerede analyse, Mantel-Haenszel! 2 ln ( odds ( SYS6, SEX + β SYS6 + β2 ln ( odds ( SBP 6, kvinde ln ( OR SYS6 ln ( OR SEX Tre ukendte størrelser, der skal findes!? Det klarer statistikprogrammet for os! LOGISTIC REGRESSION VAR=chdever /METHOD=ENTER sys6 sex /CONTRAST (sys6=indicator( /CONTRAST (sex=indicator. Eller Indicator(2-2. værdi er reference. 2
25. april 2 Step a SYS6( SEX( Constant Variables in the Equation B S.E. Wald df Sig. Exp(B.75.5 8.95. 2.9.875.6 6.7. 2.99-2.7.28 287.658.. OR SYS6 OR SEX Korrigeret for SEX! ln ( odd s ( SBP 6, kvinde Korr. f. SYS6 Korrektion for køn vha. logistiske regression : OR SYS6 = 2.9 Mantel-Haenszel analysen gav 2.92 En lille, men ubetydelig, forskel. 25 5