Morten Frydenberg Verson: Thursday, 6 June 20 Logstc regresson og andre regresonsmodeller Morten Frydenberg Deartt of Bostatscs, Aarhus Unv, Denmar Hvornår an man bruge logsts regresson. Ldt om odds og sandsynlgheder Esemler En bnær og en ontnuert varabel ngen effetmodfaton En bnær og en ategors varable med flere nveauer ngen effetmodfaton En bnær og en ontnuert varabel med effetmodfaton Logsts regresson generelt Modellen og antagelserne. Data og antagelsen om uafhængghed. Estmaton og nferens : RsoDfferens modeller RelatveRso modeller Cox roortnal hazard regresson Posson regresson 2 Logstc regresson models: Introducton En logsts regressonsmodel an være en mulg model hvs den afhængge varabel (resons) er dotomt/bnært dvs døde/lve syg/ras osv. Der er INGEN antagelser om de forlarende varable. De an være ategors eller ontnuerte. Når man arbejder med bnært resons vl man ode en ostv begvenhed (fx død) som og en negatv begvenhed (lve) som 0. En logst regressons model modellerer sandsynlgheden for en ostve begvenhed va odds. Og måler assocatoner vha. odds ratoer Hus at hvs begvenheden er sjælden og assocatonerne er moderate, så an odds ratoer toles som relatve rsc. 3 Logstc regresson models: Introducton Ie matchede case-control studer an analyseres vha. logsts regresson. Ved en sådan analyse har onstant ledet ngen ng. Og odds ratoerne svarer svarer tl odds ratoerne fra et follow-u stude. Mange andre edemologs degns an/sal analyseres vha af logsts regresson. 4 Senor ursus Regresson 2 Bnært data
Morten Frydenberg Verson: Thursday, 6 June 20 Esemlet V ser å en del af Frammngham data studet, bestående 4690 ersoner med endt BMI ved start. VI fouserer her å fedme (BMI 30 g/m 2 ). Ud af de 4690 ersoner var 60 = 2.8% fede. Odelt å øn Wo Men Obese 375 (4%) 226 (.0%) Der er en højere rævalens blandt vnder: OR:.33 (;.59). Not-Obese 2268 82 Dvs. odds for at være fed var mellem 2 og 59 rocent højere for vnder end for mænd.( χ 2 =0 -værd=0.00) 5 Sandsynlgheder og odds If denotes the robablty of an event (the rs, the revalence roorton, or cumulated ncdence roorton) then the odds s gven by : = odds + odds bemær: odds= =0.5 (odds)=0 ( odds) = I matemat blver denne funton af aldt for logt funtonen. logt ( ) = 6 Sandsynlgheder og odds Fedme øn og alder: verson V har set å samhængen mellem øn og alder. Probablty.9.8.7.6.5.4 Plot0 Så lad os se å en model der nvolvere både øn og alder. Den smleste å logt salaen er : β + β woman + β age 45 ( ) ( ) 0 2 Den er baseret å fre antagelser: Addtvtet å logt salaen: Bdragene fra øn og alder adderes..3 Proortonaltet å logt salaen: Bdraget fra alder er roortonal med alderen.. 0-5 -4-3 -2-0 2 3 4 5 logt=(odds) 7 Ingen effetmodfaton å logt salaen: Bdraget fra en forlarende varabel er det samme uanset værderne af de andre forlarende varable. Uafhængghed mellem ndvder. 8 Senor ursus Regresson 2 Bnært data 2
Morten Frydenberg Verson: Thursday, 6 June 20 Fedme øn og alder: verson ( odds) = β + β woman + β ( age ) 45 0 2 ( odds) = β + β woman + β ( age ) 45 0 2 Bemær Addton å log salaen betyder multlaton å odds salaen woman ( ) ( ) ( ) ( age 45 ) ex β ex β ex β 0 2 woman ( age 45) oddsref ORsex OR age Fortong af arametrene: β 0 : log odds for en 45 årrg mand. β : log odds rato, når man samlgner en vnde med en man å samme alder β 2 : log odds rato, når man samlgner to ersoner med samme øn hvor den første er et år ældre end den anden. β 2 * age: log odds rato, når man samlgner to ersoner med samme øn hvor den første er age år ældre end den anden. 9 0 ( ) ( ) β0 + β woman + β2 age 45 Estmaton Stata: logt obese b.sex age45 Iteraton 0: log lelhood = -795.5437 Iteraton 3: log lelhood = -767.709 Logstc regresson Number of obs = 4690 LR ch2(2) = 55.68 Prob > ch2 = 0.0000 Log lelhood = -767.709 Pseudo R2 = 0.055 ---------------------------------------------------------------------- obese Coef. Std. Err. z P> z [95% Conf. Interval] ---------+------------------------------------------------------------- sex (base) 2 743976.0903385 3.04 0.002.0973374.454579 age45.0344723.005354 6.7 0.000.0244072.0445374 _cons -2.47056.07298-29.74 0.000-28856 -2.00555 ----------------------------------------------------------------------- Test: No assocaton wth sex No assocaton wth age Prevalence s 50% among 45 year old ( odds) = β + β woman + β ( age ) 45 0 2 logt obese b.sex age45,, or obese Odds Rato Std. Err. z P> z [95% Conf. Interval] --------+-------------------------------------------------------------- 2.sex.35738.8868 3.04 0.002.02232.5706 age45.035073.005355 6.7 0.000.024707.045544 ----------------------------------------------------------------------- OR for vnder versus mænd adjusted for age :.32 (.0;.57) Det uorrgerede estmat var.33 (;.59). 2 Senor ursus Regresson 2 Bnært data 3
Morten Frydenberg Verson: Thursday, 6 June 20 log odds - -.5-2 -2.5-3 Fedme øn og alder: verson 45 ( odds) = β + β woman + β ( age ) wo 0 2 revalence 5.5..05 wo Den estmerede samhæng Alder nddelt 7 gruer: Fedme øn og alder: verson 2 tabstat age,by(agegr7) stat( mn max count) Summary for varables: age by categores of: agegr7 agegr7 mn max N --------+------------------------------ 0-30 34 352 35-35 39 973 40-40 44 885 45-45 49 799 50-50 54 733 55-55 59 63 60-60 66 335 --------+------------------------------ Total 30 66 4690 --------------------------------------- 3 4 Fedme øn og alder: verson 2 logt obese b.sex b2.agegr7,baselevel Iteraton 0: log lelhood = -795.5437 Iteraton : log lelhood = -764.628 Iteraton 2: log lelhood = -763.055 Iteraton 3: log lelhood = -763.0507 Iteraton 4: log lelhood = -763.0507 Logstc regresson Number of obs = 4690 LR ch2(7) = 64.99 Prob > ch2 = 0.0000 Log lelhood = -763.0507 Pseudo R2 = 0.08 obese Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- sex (base) 2 744926.0905268 3.03 0.002.0970633.45929 agegr7 0 -.4992332 42592-2.06 0.039 -.9738566 -.0246099.044259.508345 09 0.770-55043.339756 2 (base) 3.587.550679.02 0.306 -.45274.4626375 4.4663732.49593 3 0.002.73795.7595668 5.4554387.566276 2.9 0.004.484544.762423 6.9024437.70854 57 0.000.567225 37765 _cons -2.3377 4535-8.58 0.000-2.55780-2.069633 5 Fedme øn og alder: verson 2 logt,or obese Odds Rato Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- sex (base) 2.35863.9209 3.03 0.002.093.57329 agegr7 0.6069959.469897-2.06 0.039.3776239.9756905.0454.576392 09 0.770.777630.404605 2 (base) 3.7998.87392.02 0.306.8648342.588257 4.594202 384788 3 0.002.8908 2.3735 5.576865 469805 2.9 0.004.6004 2.43464 6 2.46562.42838 57 0.000.76386 3.447899 OR for vnder versus mænd adjusted for age : før:eær alder.357 (.022;.5706) her:alder 7 gruer.359 (.09;.573) 6 Senor ursus Regresson 2 Bnært data 4
Morten Frydenberg Verson: Thursday, 6 June 20 log odds - -.5-2 -2.5-3 wo Fedme øn og alder: verson 2 revalence 5.5..05 wo Den estmerede samhæng 7 I verson : arameter tl at besrve betydnngen af alder: obese Odds Rato Std. Err. z P> z [95% Conf. Interval] --------+-------------------------------------------------------------- age45.035073.005355 6.7 0.000.024707.045544 ----------------------------------------------------------------------- I verson 2 : 6 arametre tl at besrve betydnngen af alder: obese Odds Rato Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- agegr7 0.6069959.469897-2.06 0.039.3776239.9756905.0454.576392 09 0.770.777630.404605 2 (base) 3.7998.87392.02 0.306.8648342.588257 4.594202 384788 3 0.002.8908 2.3735 5.576865 469805 2.9 0.004.6004 2.43464 6 2.46562.42838 57 0.000.76386 3.447899 De 6 -værder samlgner med referencegruen 40-44. En -værd for ngen forsel mellem aldersgruerne får ved testarm testarm.agegr7 ( ) [obese]0.agegr7 = 0 ( 2) [obese].agegr7 = 0 ( 3) [obese]3.agegr7 = 0 ( 4) [obese]4.agegr7 = 0 ( 5) [obese]5.agegr7 = 0 ( 6) [obese]6.agegr7 = 0 ch2( 6) = 545 Prob > ch2 = 0.0000 8 Fedme øn og alder: verson 3 β0 + β woman + β2 age 45 + β3 woman age 45 Estmater log odds og log odds ratoer: ( ) ( ) ( ) logt obese b.sex##c.age45 ------------------------------------------------------------------------- obese Coef. Std. Err. z P> z [95% Conf. Interval] -------------+----------------------------------------------------------- 2.sex.6797.0950345 3 09 -.0694672.30306 age45 -.005684.0083728-0.68 0.497 -.0220953.007255 sex#c.age45 2.065803.00743 6.3 0.000.0447472.0868588 _cons -2.08304.0706433-29.49 0.000-22499 -.944583 ----------------------------------------------------------------------- Men Dfference between wo and Estmates odds ratos: obese Odds Rato Std. Err z P> z [95% Conf. Interval] -------------+----------------------------------------------------------- 2.sex 389.068084 3 09.9328907.353997 age45.994332.0083254-0.68 0.497.97847.00783 sex#c.age45 2.06806.04737 6.3 0.000.045763.090743 ------------------------------------------------------------------------- 9 Fedme øn og alder: verson 3 45 45 ( odds) = β + β woman + β ( age ) + β woman ( age ) log odds -.5 - -.5-2 -2.5-3 0 2 3.4 wo revalence.3. 0 wo Den estmerede samhæng 20 Senor ursus Regresson 2 Bnært data 5
Morten Frydenberg Verson: Thursday, 6 June 20 Logstc regresson modeller generelt x = ( ) β0 Modellen bygger å tre antagelser udover uafhængghed: a.addtvtet å logt salaen: Bdragene fra de enelte forlarende varable adderes. b.proortonaltet å logt salaen: Bdraget fra en forlarende værd er roortonal med dens værd. c.ingen effetmodfaton å logt salaen: Bdraget fra en forlarende varabel er det samme uanset værderne af de andre forlarende varable Bemær a. an også formuleres som en multlatv model å odds salaen. x x2 x odds = odds OR OR OR 0 2 2 Logstc regresson modeller generelt Hvs v betrager to ersoner der afvger med x x, x 2 x 2 og x x så er dfference log odds : = β x Igen ser v at bdragene fra de enelte forlarende varable: blver adderet, er roortonale med forsellen og uafhængg af forsellene de andre forlarende varable å log odds salaen. x = ( ) β0 22 Logstc regresson modeller generelt x = ( ) β0 Hvs v betrager to ersoner der afvger med Data: Logstc regresson modeller generelt x = ( ) β0 Y =/0 Bnær/dotom afhængg varabel x x, x 2 x 2 og x x så er OR mellem dsse ersoner : OR = OR OR OR x x2 2 x Bemær modellen an også formuleres: ex β0 x = = Pr[ Y = ] = + ex β0 x = 23 x, x 2 x uafhængge/forlarende varable Som den normale regresson antages det at Y s er uafhængge gvet de forlarende varable Denne antagelse an som regel un checes ved at gennemgå desgnet. Se efter om data ommer lumer (clusters): Patenter med samme læge. Børn samme famle: Tvlger. 24 Senor ursus Regresson 2 Bnært data 6
Morten Frydenberg Verson: Thursday, 6 June 20 Estmaton: Logstc regresson model n general Med undtagelse af 2x tabeller, så fndes der e formler for estmaterne. Estmater fndes (som regel) vha maxmum lelhood. Estmaton foregår ved teraton. Standard errors, serhedsntervaller og alle test er baseret å asymtot. Dvs. al statsts nference er aroxmatv. Jo mere data jo flere events desto bedre arosmatoner. Mange teratoner (mere end 7) eller bredde serhedsntervaller (øvre OR/nedre OR >0) tyder roblemer. 25 Relatv Rso modeller Logstc regresson modeller har fous å Odds Ratoer Det er det man an og sal case-control studer. I follow-u studer er Relatv Rso ofte et mere relevant assocatonsmål. (ersonal rs). Så følgende model unne være mere relevant: Pr( event) = 0 RR RR2 RR3 { ( event) } = ( 0 ) + ( RR ) + ( RR2 ) + ( RR3 ) Pr { ( )} = α + ( β x ) Pr event gven the covarates Dvs. en eær o log-sandsynlgheds salaen. = 26 Rso Dfferens modeller Logstc regresson modeller har fous å Odds Ratoer Det er det man an og sal case-control studer. I follow-u studer er Rso Dfferens ofte et mere relevant assocatonsmål. (oulatons effeter). Så følgende model unne være mere relevant: Pr( event) = 0 + RD + RD2 + RD3 ( ) = + ( ) Pr event gven the covarates = Dvs en eær model å sandsynlgheds salaen. α β x estmaton af RR or RD modeller Relatv Rso og Rso Dfferens modeller an estmeters mange rogrammer vha såaldte Generalzed (e general) Lnear Models. I Stata gør man det lettest va bnreg ommandoen med oton rr eller rd. Men as å etmatons vl mulgvs e vre /onvergere, ford Sandsynlgheden for en event er e begrænset tl at være mndre end RR-modeller Sandsynlgheden for en event er e begrænset tl at være større end 0 eller mndre end RD-modeller. 27 28 Senor ursus Regresson 2 Bnært data 7
Morten Frydenberg Verson: Thursday, 6 June 20 Tre forsellge modeller for Obese = sex + age Tre forsellge modeller for Obese = sex + age revalence 5.5 OR RD RR OR RR RD% Sex Men 0 Wo.32 (.0;.57) 9 (.;.50).60 (-06; 3.47) Age (years).04 (.02;.05).03 (.02;.04) 0.36 (04; 0.47) Rs 45 year old man (%) 0.5 (9;.9) 0.3 (9.;.7).6 (0; 2.9)..05 29 30 h ( t) Outcome: Desgn: rob. of event before t + t gven no event before t = t Watng tme and event/censored Follow-u Measure of assocaton: Hazard (rate) ratos The default choce of statstcal model: Proortonal hazard (Cox) regresson ( β ) = ( h( t) ) = β0 ( t) + β x ( t) = h ( t) ex( β x ) Ln h 0 ex Hazard (rate) rato assocated wth Cox roortonal hazard regresson x 3 Outcome: Desgn: Number of events and tme at rs Follow-u Measure of assocaton: Rate ratos The default choce of statstcal model: Posson regresson ex Ln ( Rate) = β0 + β x Rate = Rate0ex ( β x ) ( β ) Posson regresson = Rate rato assocated wth x 32 Senor ursus Regresson 2 Bnært data 8