Logistisk regression

Transkript

1 Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet Kursushjemmeside: maj 2012

2 Dagens program Chi-i-anden (χ 2 )-testet Sandsynligheder, odds og odds-ratio Logistisk regression: En binær forklarende variabel En kategorisk forklarende variabel To binære forklarende variable En kvantitativ forklarende variabel Flere forklarende variable Prædiktion Kirkwood & Sterne: Kapitel 14, 16, 17, 19 og / 42

3 Regressionsanalyse Formålet med en regressionsanalyse er at beskrive fordelingen af én responsvariabel som en funktion af en eller flere forklarende variable Typen af respons-variablen bestemmer regressionsmodellen Respons Kvantitativ (kontinuert) Binær (0/1) Levetid (> 0, censurering) Model lineær regression logistisk regression Cox (Poisson) regression. og fortolkningen af effekten af en forklarende variabel Regressionsmodel Lineær Logistisk Cox (Poisson) Effect forskelle mellem middelværdier odds-ratio (OR), ln(or) rate / hazard ratio, ln(rate ratio). 3 / 42

4 Logistisk regression Analyse af en binær responsvariabel, e.g. syg/rask, død/levende, højt/lavt blodtryk, etc. ud fra en eller flere forklarende variable behandling, rygning, vægt, alder, køn, etc. For individ i observerer vi: Responsen { 1 hvis i er syg Y i = 0 hvis i ikke er syg og forklarende variable: x i1,..., x ip. Simpel logistisk regression: Én forklarende variabel. Multipel logistisk regression: Flere forklarende variable. 4 / 42

5 Eksempler Hvordan afhænger risikoen for hjertesygdom af køn, alder, rygning og blodtryk? Hvordan afhænger sandsynligheden for menarke af alder? Hvorledes afhænger risikoen for graft-vs-host disease af diverse forhold omkring knoglemarvstransplantationen? 5 / 42

6 χ 2 -testet Benyttes til at evaluere association mellem to kategoriske variable. Lad R and S være kategoriske variable med hhv k og m inddelinger. Uafhængighed er defineret som P(R = r, S = s) = P(R = r)p(s = s) hvorfor svarende til Andel rs Andel r Andel s Observeret rs Total antal Andel r Andel s = Forventet rs χ 2 -testet måler afstanden mellem observerede og forventede værdier. 6 / 42

7 χ 2 -testet (fortsat) Definition: Evaluering: χ 2 = r,s (Observeret rs Forventet rs ) 2 Forventet rs. Store værdier peger på manglende uafhængighed. Hvis de forventede antal alle er større end 5, kan p-værdien bestemmes i en χ 2 fordeling med (k 1) (m 1) frihedsgrader. Dette test kaldes for Pearson s chi-i-anden-test. Hvis nogle af de forventede antal er mindre end 5, benyttes i stedet Fishers eksakte test. 7 / 42

8 Framinghamstudiet Planlagt som 20-årigt kohorte studie af indbyggere i alderen i Framingham Town, Massachusetts, i Vi har data på 1406 indbyggere i alderen år. 13 variable: Baseline: sex, age, frw, sbp, dbp, chol, cig Follow-up: sbp10, chd, yrschd, death, yrsdth, cause 8 / 42

9 Framingham: Kodning af variable sex 1 for mænd, 2 for kvinder age alder (år) ved baseline (45-62) frw Framingham relative weight (pct) ved baseline (52-222) sbp systolisk blodtryk ved baseline (mmhg) (90-300) dbp diastolisk blodtryk ved baseline (mmhg) ) chol kolesterol ved baseline (mg/100ml) (96-430) cig cigaretter per dag ved baseline (0-60) chd 0 hvis ej coronary heart disease i løbet af follow-up, 1 hvis coronary heart disease ved baseline, x=2-10 hvis coronary heart disease blev diagnosticeret ved follow-up no. x. 9 / 42

10 Eksempel 1: køn og CHD Er der forskel på hyppigheden af CHD blandt mænd og kvinder? Køn vs CHD > framing$chdi<-ifelse(framing$chd>0,1,0) > framing$mand<-ifelse(framing$sex==1,1,0) > framingchd<-subset(framing,chd!=1) > attach(framingchd) > table(mand,chdi) chdi mand > chisq.test(mand,chdi) Pearson s Chi-squared test with Yates continuity correction data: mand and chdi X-squared = , df = 1, p-value = 4.175e-07 > fisher.test(mand,chdi) Fisher s Exact Test for Count Data data: mand and chdi p-value = 3.831e-07 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: sample estimates: odds ratio / 42

11 Beskrivelse af effekten Risikoen for CHD for mænd: p 1 164/643 = 0.26 Risikoen for CHD for kvinder: p 2 104/720 = 0.14 Odds for CHD for mænd: p 1 /(1 p 1 ) 164/479 = 0.34( 1 : 3) Odds for CHD for kvinder: p 2 /(1 p 2 ) 104/616 = 0.17( 1 : 6) Mulige effektmål: Absolut differens i risiko (ARR): p 1 p Relativ risiko (RR) : p 1 /p Odds-ratio (OR): p 1 /(1 p 1 )/(p 2 /(1 p 2 )) Når p 1 og p 2 er små (<0.1) er RR OR. Vi har konstateret, at der er forskel på mænd og kvinder: p 1 p 2 dvs. ARR > 0, RR 1, OR 1 11 / 42

12 Regressionsanalyse for binær respons Formålet er relatere f.eks. Y i = { 1 if i får CHD 0 if i ej får CHD til forklarende variable for det i te individ. Sæt p i = Prob (individ i får CHD) = Prob (Y i = 1) = E(Y i ). Køn som forklarende variabel, dvs. Lineær regression? x i = { 1 hvis i er en mand 0 hvis i er en kvinde p i = a + bx i Potentielt kan denne model tilskrive nogle individer sandsynligheder 12 / 42 uden for [0, 1].

13 log-odds Vi ser på ln(odds i ) = logit(p i ) = ln ( pi 1 p i ) som er ubegrænset: logit(p) / 42 p

14 Den logistiske regressionsmodel Model: ( ) pi ln = a + bx i = 1 p i { a kvinder a + b mænd. Det betyder at kønsparameteren b får følgende fortolkning b = (a + b) a = ln (odds for mænd) - ln (odds for kvinder) = ln (OR for mænd vs. kvinder) og tilsvarende b = a (a + b) = ln(or for kvinder vs. mænd). Dermed er OR = exp(b) for mænd vs kvinder. For b > 0 er der øget risiko for mænd: OR > 1. For b < 0 er der lavere risiko for mænd: OR < 1. For b = 0 er der ingen forskel: OR < / 42

15 Estimation af simpel logistisk regression med køn Data er: Y = 0 (ej CHD) Y = 1 (CHD) Z = 0 (kvinder) Z = 1 (mænd) Vi kan selv trylle estimater for regressionsparametrene frem: OR = ( ) = 2.03, b = ln(or) = ln ( ) 104 a = ln(odds for kvinder) = ln = Men hvad med usikkerheden? = / 42

16 Simpel logistisk regression i R Logistisk regression i R laves vha funktionen glm: Estimation > glm1<-glm(chdi~mand,family=binomial) > summary(glm1) Call: glm(formula = chdi ~ mand, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** mand e-07 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1361 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 16 / 42

17 Test af kønseffekten Nulhypotesen er at sandsynligheden for CHD ikke afhænger af køn: Dette kan testes med et Wald-test: z = estimat SE H 0 : b = 0. N (0, 1). Her er b = , SE = , z=5.073, p < Bemærk at z 2 = = χ 2 (df = 1) stemmer overens med standard χ 2 -testet i 2 2-tabellen: (df = 1). Der er en stærkt signifikant forskel på kønnene mht risikoen for CHD. 17 / 42

18 Kvantificering af kønseffekten OR for CHD for mænd vs kvinder er exp(0.707) = Hvor sikre er vi på dette estimat? Vi kan få et 95% KI for b ved b ± 1.94 SE. Dermed fås et KI for OR ved exp(b ± 1.94 SE). Konfidensinterval for OR > confint(glm1) Waiting for profiling to be done % 97.5 % (Intercept) mand > round( c( exp(glm1$coef[-1]), exp(confint(glm1))[-1,] ),2 ) Waiting for profiling to be done... mand 2.5 % 97.5 % > 18 / 42

19 Logistisk regression i R Logistisk regression laves i R vha funktionen glm (Generaliserede Lineære Modeller). HUSK family=binomial for logistisk regression. På et glm-objekt kan vi benytte de samme funktioner, som vi har benyttet på lm-objekter: summary confint drop1 anova predict 19 / 42

20 Forklarende variable med flere niveauer Spørgsmål: Hvorledes stiger risikoen for CHD med alderen? Inddel alder i 4 grupper: x i = Kategoriseret alder mod responsen: 1 hvis i er år 2 hvis i er år 3 hvis i er år 4 hvis i er år x = 1 x = 2 x = 3 x = Y = Y = / 42

21 Beskrivelse af alderseffekten Alderseffekten kan undersøges ved at se på odds-ratio erne: OR 1 (X = 2 vs. X = 1) = = 1.24 = exp(0.21) OR 2 (X = 3 vs. X = 1) = = exp(0.42) OR 3 (X = 4 vs. X = 1) = = exp(0.86) Vi kan benytte et sædvanligt χ 2 -test til at undersøge om OR 1 = OR 2 = OR 3 = 1: Chi-i-anden test > agegrp<-factor(1+i(age>48)+i(age>52)+i(age>56)) > chisq.test(agegrp,chdi) Pearson s Chi-squared test data: agegrp and chdi X-squared = , df = 3, p-value = 3.515e-05 > 21 / 42

22 Logistisk regression på kategorisk variabel For hver kategori estimeres ln(or) relativt til en referencekategori: ( ) pi ln = 1 p i b 1 = ln(or)(2 vs. 1) = 0.21 b 2 = ln(or)(3 vs. 1) = 0.42 b 3 = ln(or)(4 vs. 1) = 0.86 a hvis i er år a + b 1 hvis i er år a + b 2 hvis i er år a + b 3 hvis i er år. NB: Computerprogrammerne vælger referencekategorien forskelligt. R vælger laveste niveau som reference. Jævnfør ensidet variansanalyse. 22 / 42

23 Logistisk regression på kategorisk variabel i R Estimation > glm2<-glm(chdi~agegrp,family=binomial) > summary(glm2) Call: glm(formula = chdi ~ agegrp, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** agegrp agegrp * agegrp e-05 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1359 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 > 23 / 42

24 Test af alderseffekten Vi kan også lave et test for effekt af alder vha anova eller drop1. Her skal vi ALTID benytte et chi-i-anden-test (Likelihood Ratio Test): Test af alderseffekt > glm2red<-glm(chdi~1,family=binomial) > anova(glm2,glm2red,test="chisq") Analysis of Deviance Table Model 1: chdi ~ agegrp Model 2: chdi ~ 1 Resid. Df Resid. Dev Df Deviance P(> Chi ) e-05 *** -- > drop1(glm2,test="chisq") Single term deletions Model: chdi ~ agegrp Df Deviance AIC LRT Pr(Chi) <none> agegrp e-05 *** -- > 24 / 42

25 Kvantificering af alderseffekten OR incl konfidensintervaller > confint(glm2) Waiting for profiling to be done % 97.5 % (Intercept) agegrp agegrp agegrp > round( cbind( exp(glm2$coef[-1]), exp(confint(glm2))[-1,] ),2 ) Waiting for profiling to be done % 97.5 % agegrp agegrp agegrp > Risikoen for CHD stiger med alderen. De ældste har mere end dobbelt så stor odds for CHD end de yngste (OR=2.4, 95% CI ). 25 / 42

26 Valg af anden referencekategori Nogle gange ønsker vi sammenligningen en anden vej, f.eks. kunne vi sammenligne de yngre ifht de ældre. I R kan vi ændre referencekategorien vha relevel: Ny referencekategori > agegrpny<-relevel(agegrp,ref=4) > table(agegrpny) agegrpny > ref=4 specificerer at kategori nummer 4 skal være referencen (ikke værdien 4). 26 / 42

27 Kvantificering af alderseffekten OR incl konfidensintervaller > glm3<-glm(chdi~agegrpny,family=binomial) > summary(glm3) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-14 *** agegrpny e-05 *** agegrpny *** agegrpny * -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1359 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 > round( cbind( exp(glm3$coef[-1]), exp(confint(glm3))[-1,] ),2 ) Waiting for profiling to be done % 97.5 % agegrpny agegrpny agegrpny > 27 / 42

28 Logistisk regression med to kategoriske variable Spørgsmål: Hvorledes afhænger sandsynligheden for CHD af køn og aldersgruppe? ln ( pi 1 p i ) = a + b 1 mand i + b 2 ryger i a K ikke-ryger a + b = 1 M ikke-ryger a + b 2 K ryger a + b 1 + b 2 M ryger. Bemærk: b 1 = (a + b 1 ) a = (a + b 1 + b 2 ) (a + b 2 ) = ln OR (mænd vs. kvinder for givet rygestatus), b 2 = (a + b 2 ) a = (a + b 1 + b 2 ) (a + b 1 ) = ln OR (rygere vs. ikke-rygere for givet køn) NB: Dette er en additiv model / ingen interaktion. Jævnfør tosidet variansanalyse 28 / 42

29 To kategoriske variable i R Estimation > ryger<-factor(ifelse(cig>=1,1,0)) > table(ryger) ryger > glm5<-glm(chdi~mand+ryger,family=binomial) > summary(glm5) Call: glm(formula = chdi ~ mand + ryger, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** mand e-06 *** ryger (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1361 degrees of freedom Residual deviance: on 1359 degrees of freedom (1 observation deleted due to missingness) AIC: Number of Fisher Scoring iterations: 4 29 / 42

30 OR er med to forklarende variable I den logistiske regressionsmodel med to forklarende variable, er de estimerede ln(or) er indbyrdes justeret. De estimeres begge med det laveste niveau som referencekategori. OR er incl konfidensintervaller > round( cbind( exp(glm5$coef[-1]), exp(confint(glm5))[-1,] ),2 ) Waiting for profiling to be done % 97.5 % mand ryger > OR for CHD for mænd vs kvinder er 2.0 ( ). OR for rygere vs ikke-rygere er 1.03 ( ). 30 / 42

31 Kvantitativ forklarende variabel Eksempel 2: juul-datasættet i ISwR-pakken. Spørgsmål: Hvordan afhænger sandsynligheden for menarke af alder? Respons: Menarke (ja/nej) Forklarende variabel: alder. Alder vs menarke > install.packages("iswr") > library(iswr) > data(juul) > > juul2<-subset(juul,age>8 &age<=18) > juul2$agegrp<-cut(juul2$age,c(8,10,12,13,14,15,16,18)) > juul2$menarke<-ifelse(juul2$menarche==2,1,0) > attach(juul2) > table(agegrp,menarke) menarke agegrp 0 1 (8,10] (10,12] 97 4 (12,13] (13,14] (14,15] 5 36 (15,16] 0 31 (16,18] > 31 / 42

32 Plot af hyppighederne Sandsynlighed for menarke Linien angiver den estimerede regressionslinie fra en lineær model. 32 / 42 Alder

33 En kvantitativ forklarende variabel Model med alder som kvantitativ: ( ) pi ln 1 p i = a + bage i Her er b øgningen / reduktionen i log-odds per år. Hvad er forskellen i log-odds for to piger med alder a 1 og a 2? svarende til ( ) ( ) p1 p2 ln ln 1 p 1 1 p 2 = a + ba 1 (a + ba 2 ) = b(a 1 a 2 ) = log(or). OR = exp(b(a 1 a 2 )) = exp(b) (a 1 a 2 ) 33 / 42

34 Kvantitativ forklarende variabel i R Estimation > glm1a<-glm(menarke~age,family="binomial") > summary(glm1a) Call: glm(formula = menarke ~ age, family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) <2e-16 *** age <2e-16 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 472 degrees of freedom Residual deviance: on 471 degrees of freedom (389 observations deleted due to missingness) AIC: Number of Fisher Scoring iterations: 7 > 34 / 42

35 Beskrivelse af alderseffekten Konfidensintervaller > glm1a$coef (Intercept) age > confint(glm1) Waiting for profiling to be done % 97.5 % (Intercept) age > # OR incl CI > round( c(exp(glm1a$coef[-1]), exp(confint(glm1a)[-1,])),2 ) Waiting for profiling to be done... age 2.5 % 97.5 % > Når alderen øges med et år, stiger log-odds med 1.51 ( ). Når alderen øges med et år, øges odds med en faktor 4.55 ( ). Interceptet a = er log-odds for en pige på 0 år (!). 35 / 42

36 Sandsynlighed for menarke som funktion af alder Sandsynlighed for menarke Alder Kurven er baseret på den logistiske regressionsmodel. 36 / 42

37 Multipel logistisk regression Hvordan afhænger risikoen for CHD af køn, alder, rygning og SBP? ( ) pi ln 1 p i = a + b 1 mand i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i ) Estimation > glm6<-glm(chdi~mand+ryger+age+i(log2(sbp)),family=binomial) > summary(glm6) Call: glm(formula = chdi ~ mand + ryger + age + I(log2(sbp)), family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** mand e-08 *** ryger age *** I(log2(sbp)) e-13 *** > 37 / 42

38 Kvantificering af effekterne ( ) pi ln 1 p i = a + b 1 mand i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i ) Her er a=log-odds for et individ med værdi 0 af alle kovariater. OR er incl konfidensintervaller > round( cbind( exp(glm6$coef[-1]), exp(confint(glm6))[-1,] ),2 ) Waiting for profiling to be done % 97.5 % mand ryger age I(log2(sbp)) > Odds for CHD er mere end dobbelt så stor for mænd. Der er ingen øget risiko for rygere (OR=1.2, CI= ). Risikoen stiger med alder, OR=1.06 per år (CI= ). Odds 8-dobles ved en fordobling af SBP (OR=7.9, CI= ). 38 / 42

39 Den logistiske regressionsmodel på odds-skala Modellen er lineær på log-odds-skala: ( ) pi ln 1 p i = a + b 1 mand i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i ) og derfor multiplikativ på odds-skala: p i 1 p i = exp(a + b 1 mand i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i )) = exp(a) exp(b 1 mand i ) exp(b 2 ryger i ) exp(b 3 alder i ) exp(b 4 log 2 (SBP i )) = exp(a) OR mandi mand ORryger i rygning ORalderi alder OR log 2 (SBPi) SBP 39 / 42

40 Fra regressionsmodel til prædiktion Den generelle model er ( ) pi ln 1 p i = a + b 1 x i1 + + b p x ip Der er en én-til-én relation mellem log-odds og sandsynlighed: p i = exp(a + b 1 x i1 + + b p x ip ) 1 + exp(a + b 1 x i1 + + b p x ip ) 40 / 42

41 Prædiktion Vi ønsker at sammenligne sandsynligheden for CHD for en ikke-rygende mand på 50 år med sandsynligheden for en ikke-rygende kvinde på 50 år som funktion af SBP. Prædiktion i R > Mdata<-data.frame(mand=1,ryger="0",age=50,sbp=90:300) > head(mdata,3) mand ryger age sbp > pm<-predict(glm6,mdata,type="response") > head(pm) > > Kdata<-data.frame(mand=0,ryger="0",age=50,sbp=90:300) > pk<-predict(glm6,kdata,type="response") > > plot(90:300,pm,xlab="sbp",ylab="sandsynlighed for CHD",ylim=c(0,1),col="blue",type="l") > lines(90:300,pk,col="red") > legend(100,1,c("mand, ikke-ryger, 50 aar","kvinde, ikke-ryger, 50 aar"), > col=c("blue","red"),lty=1) > 41 / 42

42 Sandsynlighed for CHD som funktion af SBP Sandsynlighed for CHD Mand, ikke ryger, 50 aar Kvinde, ikke ryger, 50 aar SBP 42 / 42