. gang: Introduktion til Logistisk Regression Morten Frydenberg 26 Afdeling for Biostatistik, Århus Universitet MPH. studieår specialmodul 4 Cand. San. uddannelsen. studieår Hvorfor logistisk regression Præsentation af Framingham databasen. Repetition af Odds Ratio beregning i 2x2 tabeller. Repetition af stratificeret (Mantel-Haenszel analyse. Logistic regression med en og to binære forklarende variable. Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-7 Systolic Blod Pressure Left Ventricular Hypertrophy Glucose Intolerance Age Serum Cholesterol Points 2 3 4 5 6 7 8 SBP 2 3 4 5 6 7 8 2 LVH No Yes GLU No Yes 6 No Yes 7 27 Note: No points added for Smoking 6 3 2 Age Chol 36 38 4 42 44 46 48 5 55 6 65 7 65 2 4 5 7 2 5 8 2 2 8 3 4 6 8 2 6 8 2 22 5 2 3 5 7 2 3 6 2 22 2 3 4 6 8 3 4 7 2 22 225 4 5 7 2 3 5 7 2 2 23 24 4 6 8 3 4 5 8 2 22 23 255 5 7 2 3 5 6 2 22 23 27 6 8 3 4 6 7 2 23 24 285 7 2 4 5 6 7 2 22 23 24 3 8 2 3 5 6 7 8 2 22 24 24 35 3 4 5 7 8 2 23 24 25 Interaktion/effekt modifikation!! 24 4 3 Calculation of Probability Enter Points (in red for 6 Systolici Blood Pressure + Left Ventricular Hypertrophy + 3 Glucose Intolerance + 24 Age/Serum Cholesterol = 33 Total Points TP Prob TP Prob TP Prob 5.2 7.4 2.8 6.3 8.6 3.3 7.3. 3. 8.4 2.22 32.2.4 2.25 33.4.4 22.2 34.6.6 23.34 35.8 2.7 24.4 36.2 3.8 25.46 37.23 4. 26.53 38.26 5. 27.6 3.2 6.2 28.7 4.32 4 FRAMINGHAM HEART STUDY Follow-up undersøgelse påbegyndt i 48. Planlagt som et 2 års studie. Forekomst af cardio-vaskulære sygdomme. Klinisk undersøgelse hvert andet år. 52 personer (inkl. 74 frivillige. Vi/I har 3 ud af de oprindelige 34 variable. OBS, SEX, CHD, AGE, SBP, SBP, DBP, CHOL, FRW, CIG, YRS_CHD, YRS_DTH, DEATH, CAUSE. SEX,2 for mand, 2 for kvinde CHD, : ingen CHD diag. ved de første us. : CHD diag. ved. us (prævalent case 2-: us.-nummer ved første CHD diag. Vi/I har : AGE 45-62 Alder i år ved første us. Oplysninger fra de første gen-undersøgelser (8 års follow-up for 46 personer. SBP -3 Systolisk blodtryk ved første us. Udeladt: Personer under 45 år ved. us.. Udeladt: Serum kolesterol værdi mangler ved. us.. 5 CIG -6 : Ikke ryger -6: Antal cigaretter pr. dag 6 MPH og Cand San. Logistisk regression
Hvad vil vi se på? Analysere den kumulerede incidens af hjertesygdom. Tidsperiode: Opfølgningsperioden efter us.! Risikopopulation: 363 personer uden CHD ved. us. 43 prævalente person udelades. Risikofaktorer/indikatorer: Systolisk blodtryk: over/under 6 mmhg. Rygning: ja/nej. Alder: 45-48, 4-52, 53-56 og over 56 år. Køn. 7 STATA Syntax: use fram, clear generate chdever=chd> if( chd!=. generate age4=(age>48+(age>52+(age>56 if( age!=. generate sys6=sbp>6 if( sbp!=. generate smoke=cig> if( cig!=. drop if chd== tabodds chdever sex, base(2 w or tabodds chdever sys6, base( w or tabodds chdever smoke if smoke!=., base( w or tabodds chdever age4, base( w or if(cig!=. sikrer at missing cig giver missing i smoke Check altid hvordan dit program reagerer på missing!!! 8 Odds ratio beregning: Syg Rask Total +Exp a b a+b a d OR = -Exp c d c+d b c Total a+c b+c a+b+c+d Syg Rask Mand 64 47 64 66 OR = = 2.3 Kvinde 4 66 47 4 Rask Syg Mand 47 64 47 4 Kvinde 66 4 OR = =.43 = 64 66 2.3 SEX yes ( no ( Total kum.incidens OR ln(or male ( 64 47 643.255 2.3.7 female (2 4 66 72.44 ref.. Total 268 5 363 SYS6 yes ( no ( Total kum.incidens OR ln(or >6 ( 25 36.32 2.48. =<6 ( 67 88 47.6 ref.. Total 268 5 363 SMOKE yes ( no ( Total kum.incidens OR ln(or yes ( 34 48 64.28.28.25 no ( 34 64 748.7 ref.. Total 268 4 362 AGE4 yes ( no ( Total kum.incidens OR ln(or 45-48 ( 5 38 35.42 ref.. 4-52 ( 6 28 35.7.24.2 53-56 (2 64 254 38.2.52.42 57-62 (3 2 235 327.28 2.36.86 Total 268 5 363 2.3 =.43 Et eksempel på beregning i STATA. cs chdever sys6, w or sys6 Exposed Unexposed Total -----------------+------------------------+---------- Cases 67 268 Noncases 25 88 5 -----------------+------------------------+---------- Total 36 47 363 Risk.3623.5533.6625 Point estimate [5% Conf. Interval ------------------------+---------------------- Risk difference.66.426.2622 Risk ratio 2.3847.622 2.47862 Attr. frac. ex..558.382723.565483 Attr. frac. pop.88746 Odds ratio 2.47542.85428 3.33476 (Woolf +----------------------------------------------- chi2( = 3.4 Pr>chi2 =. Tilbage til vores problem: Køn, blodtryk og hjertesygdom. Forhøjet risiko for mænd Forhøjet risiko hvis SBP>6 Begge odds ratioer er ukorrigerede! estimeret OR=2.3. estimeret OR=2.48. SYS6 >6 <=6 Total OR SEX male 2 53 643.53 female 24 56 72 Total 36 47 363 Mænd ikke så ofte har SBP>6. Dermed undervurderes betydningen af SBP>6! Kønnet er en mulig konfounder for SBP>6. 2 MPH og Cand San. Logistisk regression 2
STATA syntaks for stratificeret analyse cs chdever sys6, by(sex w or!"#$$"#"%!&!% ##"!'%'( %%!!# *&#%! % #*&#$$'( +,!&'&!##"&!"%%*%&'$ -.,! %#$!!#$""$% $!$&" / (-!(#*''&23-!*%' # /-.,#4 5 -!(##'! 23-!***** Odds ratio mellem SBP>6 og CHD i opfølgningsperioden: For mænd estimeret OR=2.56. For kvinder estimeret OR=3.36. Fælles (korrigeret for køn estimeret OR=2.3. Ukorrigeret estimeret OR=2.48. Det korrigerede noget større. Målet for i dag: At beregne det ukorrigerede estimat At beregne det korrigerede estimat ved hjælp af logistisk regression! 3 4 Analyse af en 2 2 tabel vha. logistik regression. Sammenligning af to grupper vha. odds ratio: SYS6 Total 25 36 67 88 47 Total 268 5 363 p : Risiko (kumuleret incidens p odds odds = eller p = p + odds Bemærk: p odds ( SYS6= odds ( OR = = odds ( SYS6= odds ( odds ( ln ( OR = ln = ln[ odds ( ln[ odds ( odds ( ln[ odds ( = ln[ odds ( + ln ( OR = ln[ odds ( + ln ( OR odds > ln ( odds ubegrænset 5 β β ln[ odds ( SYS6 + β SYS6 6 ln[ odds ( SYS6 + β SYS6 Lad os gøre prøve: β = ln [ odds ( β SYS6=: ln[ odds ( + β = ln [ OR = ln[ odds ( SYS6=: ln [ odds ( + β + β = ln [ odds ( + ln [ OR = ln [ odds ( + ln [ odds ( ln [ odds ( = ln [ odds ( 7 SYS6 Odds Ln(odds OR Ln(OR 25.47 -.756 2.48.6 67 88. -.662 STATA: eller eller logit chdever sys6 ˆ β =. 662 ˆ β =.6 ^: Estimat for logit chdever sys6,or logistic chdever sys6 Giver ln(odds ratio i output Giver odds ratio i output 8 MPH og Cand San. Logistisk regression 3
logit chdever sys6 -, 6,75235 #$* *$&#&'!%$#$****$#'"&$## & ' 8-#$$#!*"&&## $ ****#"!'%$#& $& βˆ βˆ OR = exp( ˆ β ( ( ˆ β ( = ln se se OR P-værdi for hypotesen: β = dvs. OR=. Intet nyt: Det ku vi godt i forvejen! Men med logistik regression kan vi mere!! Sikkerhedsinterval for β logit chdever sys6,or Sikkerhedsinterval for OR -,,,6,75235 #$*!&'&!#%$&&#$#$****#"&!"%%*%&'$ Analyse af en 2 2 2 tabel vha. logistisk regression. Køn og forhøjet blodtryk : SEX og SYS6 Mantel-Haenszel analyse kan give: OR for SYS6 korrigeret for SEX (har vi lavet OR for SEX korrigeret for SYS6 (har vi ikke lavet To analyser for at få de to korrigerede estimater. Én logistisk regression vil give to korrigerede estimater! 2 SEX SBP CHD CHD Odds ln(odds OR ln(or Mand >6 47 65.723 -.324 6.74.8 Mand 6 7 44.283 -.264 2.63.68 Kvinde >6 54 5.36 -.22 3.36.2 Kvinde 6 5 466.7-2.232.. Referenceværdi odds(,2, dvs. kvinde med lavt blodtryk odds(, odds(, odds(,2 odds(,2 Ny variabel: MALE = 2 SEX hvis mand og hvis kvinde Logistisk regression med SEX og SYS6 som forklarende variable: ln ( odds ( SYS6, SEX + β SYS6 + β2 ln ( odds ( SYS6, SEX + β SYS6 + β2 + β SYS6 + β ( 2 SEX Hvad er β, β og β? 2 2 2 + β + β ( 2 2 2 ln ( odds (, 2 + β + β ( 2 2 + β 2 + β + β ( 2 + β 2 2 ln ( odds (, + β + β ( 2 + β + β 2 2 2 22 2 ln ( odds (, 2 + β + β2 ln ( odds (, + β + β 2 β = 2 β = ln ( odds (, 2 2 = ln ( ORSYS6 for KVINDER β = ln ( odds (, = ln ( ORSYS6 for MÆND Effekten af forhøjet blodtryk antages er være uafhængig af køn!! Når den beskrives ved odds ratio! Ingen effektmodifikation! Præcis som den stratificerede analyse, Mantel-Haenszel! 23 2 ln ( odds (, 2 + β + β2 ln ( odds (, + β + β 2 = 2 = ln ( ORSEX for SBP 6 β < 2 = ln ( odds (, ln ( odds (, 2 = ln ( ORSEX for SBP 6 β > Effekten af køn antages er være uafhængig af forhøjet blodtryk!! Når den beskrives ved odds ratio! Ingen effektmodifikation! 2 Præcis som den stratificerede analyse, Mantel-Haenszel! 24 MPH og Cand San. Logistisk regression 4
ln ( odds ( SYS6, SEX + β SYS6 + β2 ln ( odds ( SBP 6, kvinde ln ( OR SYS6 ln ( OR SEX Tre ukendte størrelser, der skal findes!? Det klarer statistikprogrammet for os! char sex[omit 2 char sys6[omit xi: logit chdever i.sys6 i.sex xi: logit chdever i.sys6 i.sex, or Kvinder er reference gruppe Lavt blodtryk er reference gruppe xi og i erne betyder at disse variable er kategoriske. 25 4 -, #$* #$* SYS6 -,6,75235 8#$*8##*'! #%$" #'******''&*$ #%'$#$ 88#"'& $#&'%* $******" %%'% ##$*! 8-!#'*%#!' $! #$ $****!&!##!&# # # ln ( odd s ( SBP 6, kvinde ˆ β = ln ( OR ˆ β 2 = ln ( ORSEX 4 -, #$* #$* ORSYS6 -,,,6,75235 8#$*8#! %*"&&*&%""'******!#$"$ % $#*'$ 88#!% "' %& '' $******#"*!' % %# #"!! OR SEX Korrektion for køn vha. logistiske regression : OR SYS6 = 2.3 Den stratificerede (Mantel-Haenszel analysen gav 2.32 En lille og ubetydelig forskel. 26 MPH og Cand San. Logistisk regression 5