Logistisk regression

Transkript

1 Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet 21. marts 2013

2 Dagens program Chi-i-anden (χ 2 )-testet Sandsynligheder, odds og odds-ratio Logistisk regression: En binær forklarende variabel En kategorisk forklarende variabel To binære forklarende variable En kvantitativ forklarende variabel Flere forklarende variable Prædiktion Kirkwood & Sterne: Kapitel 14, 16, 17, 19 og / 44

3 Regressionsanalyse Formålet med en regressionsanalyse er at beskrive fordelingen af én responsvariabel som en funktion af en eller flere forklarende variable Typen af respons-variablen bestemmer regressionsmodellen Respons Kvantitativ (kontinuert) Binær (0/1) Levetid (> 0, censurering) Model lineær regression logistisk regression Cox (Poisson) regression. og fortolkningen af effekten af en forklarende variabel Regressionsmodel Lineær Logistisk Cox (Poisson) Effect forskelle mellem middelværdier odds-ratio (OR), ln(or) rate / hazard ratio, ln(rate ratio). 3 / 44

4 Logistisk regression Analyse af en binær responsvariabel, e.g. syg/rask, død/levende, højt/lavt blodtryk, etc. ud fra en eller flere forklarende variable behandling, rygning, vægt, alder, køn, etc. For individ i observerer vi: Responsen { 1 hvis i er syg Y i = 0 hvis i ikke er syg og forklarende variable: x i1,..., x ip. Simpel logistisk regression: Én forklarende variabel. Multipel logistisk regression: Flere forklarende variable. 4 / 44

5 Eksempler Hvordan afhænger risikoen for hjertesygdom af køn, alder, rygning og blodtryk? Hvordan afhænger sandsynligheden for menarke af alder? Hvorledes afhænger risikoen for graft-vs-host disease af diverse forhold omkring knoglemarvstransplantationen? 5 / 44

6 Framinghamstudiet Planlagt som 20-årigt kohorte studie af indbyggere i alderen i Framingham Town, Massachusetts, i Vi har data på 1406 indbyggere i alderen år. 13 variable: Baseline: sex, age, frw, sbp, dbp, chol, cig Follow-up: sbp10, chd, yrschd, death, yrsdth, cause 6 / 44

7 Framingham: Kodning af variable sex 1 for mænd, 2 for kvinder age alder (år) ved baseline (45-62) frw Framingham relative weight (pct) ved baseline (52-222) sbp systolisk blodtryk ved baseline (mmhg) (90-300) dbp diastolisk blodtryk ved baseline (mmhg) ) chol kolesterol ved baseline (mg/100ml) (96-430) cig cigaretter per dag ved baseline (0-60) chd 0 hvis ej coronary heart disease i løbet af follow-up, 1 hvis coronary heart disease ved baseline, x=2-10 hvis coronary heart disease blev diagnosticeret ved follow-up no. x. 7 / 44

8 Eksempel 1: køn og CHD Er der forskel på hyppigheden af CHD blandt mænd og kvinder? Køn vs CHD > framing$chdi<-1*i(framing$chd>0) > framing$male<-1*i(framing$sex==1) > > framingchd<-subset(framing,chd!=1) > attach(framingchd) > table(male,chdi) chdi male / 44

9 Er der en association mellem køn og CHD? CHD 0 1 Kvinder 616 (85.6%) 104 (14.4%) 720 Mænd 479 (74.5%) 164 (25.5%) (80.3%) 268 (19.7%) 1363 Hvis der ikke er forskel på mænd og kvinder, ville vi forvente samme andel med CHD for begge køn: Antal mænd med CHD : = = Antal kvinder med CHD : = = Tilsvarende kan vi beregne forventede antal uden CHD. 9 / 44

10 χ 2 -testet Benyttes til at evaluere association mellem to kategoriske variable. x 11 x 12 x 1l m 1 x 21 x 22 x 2l m 2 x k1 x k2 x kl m k n 1 n 2 n l N Vi kan beregne det forventede antal i hver celle som (rækketotal søjletotal / total). E rs = n s N m r χ 2 -testet måler afstanden mellem observerede og forventede værdier. 10 / 44

11 χ 2 -testet (fortsat) Definition: Evaluering: χ 2 = r,s (Observeret rs E rs ) 2 E rs. Store værdier peger på manglende uafhængighed. Hvis de forventede antal alle er større end 5, kan p-værdien bestemmes i en χ 2 -fordeling med (k 1) (m 1) frihedsgrader. Dette test kaldes for Pearson s chi-i-anden-test. Hvis nogle af de forventede antal er mindre end 5, benyttes i stedet Fishers eksakte test. 11 / 44

12 χ 2 -testet i 2 2-tabeller χ 2 -testet i 2 2-tabeller kan forbedres ved Yates kontinuitetskorrektion: χ 2 = r,s ( Observeret rs E rs 0.5) 2 E rs. hvilket giver en lidt mindre χ 2 -størrelse. Antallet af frihedsgrader er df=(2-1) (2-1)=1. 12 / 44

13 Eksempel 1: køn og CHD Er der forskel på forekomsten af CHD blandt mænd og kvinder? Køn vs CHD > table(male,chdi) chdi male > chisq.test(male,chdi) Pearson s Chi-squared test with Yates continuity correction data: male and chdi X-squared = , df = 1, p-value = 4.175e-07 > fisher.test(male,chdi) Fisher s Exact Test for Count Data data: male and chdi p-value = 3.831e-07 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: sample estimates: odds ratio / 44

14 Beskrivelse af effekten Risikoen for CHD for mænd: p 1 164/643 = 0.26 Risikoen for CHD for kvinder: p 2 104/720 = 0.14 Odds for CHD for mænd: p 1 /(1 p 1 ) 164/479 = 0.34( 1 : 3) Odds for CHD for kvinder: p 2 /(1 p 2 ) 104/616 = 0.17( 1 : 6) Mulige effektmål: Absolut differens i risiko (ARR): p 1 p Relativ risiko (RR) : p 1 /p Odds-ratio (OR): p 1 /(1 p 1 )/(p 2 /(1 p 2 )) Når p 1 og p 2 er små (<0.1) er RR OR. Vi har konstateret, at der er forskel på mænd og kvinder: p 1 p 2 dvs. ARR > 0, RR 1, OR 1 14 / 44

15 Regressionsanalyse for binær respons Formålet er relatere f.eks. Y i = { 1 if i får CHD 0 if i ej får CHD til forklarende variable for det i te individ. Sæt p i = Prob (individ i får CHD) = Prob (Y i = 1) = E(Y i ). Køn som forklarende variabel, dvs. Lineær regression? x i = { 1 hvis i er en mand 0 hvis i er en kvinde p i = a + bx i Potentielt kan denne model tilskrive nogle individer sandsynligheder 15 / 44 uden for [0, 1].

16 log-odds Vi ser på ln(odds i ) = logit(p i ) = ln ( pi 1 p i ) som er ubegrænset: logit(p) / 44 p

17 Den logistiske regressionsmodel Model: ( ) pi ln = a + bx i = 1 p i { a kvinder a + b mænd. Det betyder at kønsparameteren b får følgende fortolkning b = (a + b) a = ln (odds for mænd) - ln (odds for kvinder) = ln (OR for mænd vs. kvinder) og tilsvarende b = a (a + b) = ln(or for kvinder vs. mænd). Dermed er OR = exp(b) for mænd vs kvinder. For b > 0 er der øget risiko for mænd: OR > 1. For b < 0 er der lavere risiko for mænd: OR < 1. For b = 0 er der ingen forskel: OR = / 44

18 Estimation af simpel logistisk regression med køn Data er: Y = 0 (ej CHD) Y = 1 (CHD) Z = 0 (kvinder) Z = 1 (mænd) Vi kan selv trylle estimater for regressionsparametrene frem: OR = ( ) = 2.03, b = ln(or) = ln ( ) 104 a = ln(odds for kvinder) = ln = Men hvad med usikkerheden? = / 44

19 Simpel logistisk regression i R Logistisk regression i R laves vha funktionen glm: Estimation > glm1<-glm(chdi~male,family=binomial) > summary(glm1) Call: glm(formula = chdi ~ male, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** male e-07 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1361 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 19 / 44

20 Test af kønseffekten Nulhypotesen er at sandsynligheden for CHD ikke afhænger af køn: Dette kan testes med et Wald-test: z = estimat SE H 0 : b = 0. N (0, 1). Her er b = , SE = , z=5.073, p < Bemærk at z 2 = = χ 2 (df = 1) stemmer overens med standard χ 2 -testet i 2 2-tabellen: (df = 1). Der er en stærkt signifikant forskel på kønnene mht risikoen for CHD. 20 / 44

21 Kvantificering af kønseffekten OR for CHD for mænd vs kvinder er exp(0.707) = Hvor sikre er vi på dette estimat? Vi kan få et 95% KI for b ved b ± 1.96 SE. Dermed fås et KI for OR ved exp(b ± 1.96 SE). Konfidensinterval for OR > confint(glm1) Waiting for profiling to be done % 97.5 % (Intercept) male > > exp(confint(glm1)) Waiting for profiling to be done % 97.5 % (Intercept) male > 21 / 44

22 Logistisk regression i R Logistisk regression laves i R vha funktionen glm (Generaliserede Lineære Modeller). HUSK family=binomial for logistisk regression. På et glm-objekt kan vi benytte de samme funktioner, som vi har benyttet på lm-objekter: summary confint drop1 anova predict 22 / 44

23 Forklarende variable med flere niveauer Spørgsmål: Hvorledes stiger risikoen for CHD med alderen? Inddel alder i 4 grupper: x i = Kategoriseret alder mod responsen: 1 hvis i er år 2 hvis i er år 3 hvis i er år 4 hvis i er år x = 1 x = 2 x = 3 x = Y = Y = / 44

24 Beskrivelse af alderseffekten Alderseffekten kan undersøges ved at se på odds-ratio erne: OR 1 (X = 2 vs. X = 1) = = 1.24 = exp(0.21) OR 2 (X = 3 vs. X = 1) = = exp(0.42) OR 3 (X = 4 vs. X = 1) = = exp(0.86) Vi kan benytte et sædvanligt χ 2 -test til at undersøge om OR 1 = OR 2 = OR 3 = 1: Chi-i-anden test > agegrp<-factor(1+i(age>48)+i(age>52)+i(age>56)) > chisq.test(agegrp,chdi) Pearson s Chi-squared test data: agegrp and chdi X-squared = , df = 3, p-value = 3.515e-05 > 24 / 44

25 Logistisk regression på kategorisk variabel For hver kategori estimeres ln(or) relativt til en referencekategori: ( ) pi ln = 1 p i b 1 = ln(or)(2 vs. 1) = 0.21 b 2 = ln(or)(3 vs. 1) = 0.42 b 3 = ln(or)(4 vs. 1) = 0.86 a hvis i er år a + b 1 hvis i er år a + b 2 hvis i er år a + b 3 hvis i er år. NB: Computerprogrammerne vælger referencekategorien forskelligt. R vælger laveste niveau som reference. Jævnfør ensidet variansanalyse. 25 / 44

26 Logistisk regression på kategorisk variabel i R Estimation > glm2<-glm(chdi~agegrp,family=binomial) > summary(glm2) Call: glm(formula = chdi ~ agegrp, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** agegrp agegrp * agegrp e-05 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1359 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 > 26 / 44

27 Test af alderseffekten Vi kan lave et test for overall effekt af alder vha anova eller drop1. Her skal vi ALTID benytte et chi-i-anden-test (Likelihood Ratio Test): Test af alderseffekt > glm2red<-glm(chdi~1,family=binomial) > anova(glm2,glm2red,test="chisq") Analysis of Deviance Table Model 1: chdi ~ agegrp Model 2: chdi ~ 1 Resid. Df Resid. Dev Df Deviance P(> Chi ) e-05 *** -- > drop1(glm2,test="chisq") Single term deletions Model: chdi ~ agegrp Df Deviance AIC LRT Pr(Chi) <none> agegrp e-05 *** -- > 27 / 44

28 Kvantificering af alderseffekten OR incl konfidensintervaller > exp(coef(glm2)) (Intercept) agegrp2 agegrp3 agegrp > exp(confint(glm2)) Waiting for profiling to be done % 97.5 % (Intercept) agegrp agegrp agegrp > Risikoen for CHD stiger med alderen. De ældste har mere end dobbelt så stor odds for CHD end de yngste (OR=2.4, 95% CI ). 28 / 44

29 Valg af anden referencekategori Nogle gange ønsker vi sammenligningen en anden vej, f.eks. kunne vi sammenligne de yngre ifht de ældre. I R kan vi ændre referencekategorien vha relevel: Ny referencekategori > agegrpny<-relevel(agegrp,ref=4) > table(agegrpny) agegrpny > ref=4 specificerer at kategori nummer 4 skal være referencen (ikke værdien 4). 29 / 44

30 Kvantificering af alderseffekten OR incl konfidensintervaller > glm3<-glm(chdi~agegrpny,family=binomial) > summary(glm3) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-14 *** agegrpny e-05 *** agegrpny *** agegrpny * -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1359 degrees of freedom AIC: > exp(coef(glm3)) (Intercept) agegrpny1 agegrpny2 agegrpny > exp(confint(glm3)) Waiting for profiling to be done % 97.5 % (Intercept) agegrpny agegrpny agegrpny3 30 / >

31 Logistisk regression med to kategoriske variable Spørgsmål: Hvorledes afhænger sandsynligheden for CHD af køn og rygning? ln ( pi 1 p i ) = a + b 1 male i + b 2 ryger i a K ikke-ryger a + b = 1 M ikke-ryger a + b 2 K ryger a + b 1 + b 2 M ryger. Bemærk: b 1 = (a + b 1 ) a = (a + b 1 + b 2 ) (a + b 2 ) = ln OR (mænd vs. kvinder for givet rygestatus), b 2 = (a + b 2 ) a = (a + b 1 + b 2 ) (a + b 1 ) = ln OR (rygere vs. ikke-rygere for givet køn) NB: Dette er en additiv model / ingen interaktion. Jævnfør tosidet variansanalyse 31 / 44

32 To kategoriske variable i R Estimation > ryger<-1*i(cig>=1) > table(ryger) ryger > glm5<-glm(chdi~factor(male)+factor(ryger),family=binomial) > summary(glm5) Call: glm(formula = chdi ~ factor(male) + factor(ryger), family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** factor(male) e-06 *** factor(ryger) Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1361 degrees of freedom Residual deviance: on 1359 degrees of freedom (1 observation deleted due to missingness) AIC: / 44

33 OR er med to forklarende variable I den logistiske regressionsmodel med to forklarende variable, er de estimerede ln(or) er indbyrdes justeret. De estimeres begge med det laveste niveau som referencekategori. OR er incl konfidensintervaller > exp(coef(glm5)) (Intercept) factor(male)1 factor(ryger) > exp(confint(glm5)) Waiting for profiling to be done % 97.5 % (Intercept) factor(male) factor(ryger) > OR for CHD for mænd vs kvinder er 2.0 ( ). OR for rygere vs ikke-rygere er 1.03 ( ). 33 / 44

34 Kvantitativ forklarende variabel Eksempel 2: juul-datasættet i ISwR-pakken. Spørgsmål: Hvordan afhænger sandsynligheden for menarke af alder? Respons: Menarke (ja/nej) Forklarende variabel: alder. Alder vs menarke > install.packages("iswr") > library(iswr) > data(juul) > > juul2<-subset(juul,age>8 &age<=18) > juul2$agegrp<-cut(juul2$age,c(8,10,12,13,14,15,16,18)) > juul2$menarke<-1*i(juul2$menarche==2) > attach(juul2) > table(agegrp,menarke) menarke agegrp 0 1 (8,10] (10,12] 97 4 (12,13] (13,14] (14,15] 5 36 (15,16] 0 31 (16,18] > 34 / 44

35 Plot af hyppighederne Sandsynlighed for menarke Linien angiver den estimerede regressionslinie fra en lineær model. 35 / 44 Alder

36 En kvantitativ forklarende variabel Model med alder som kvantitativ: ( ) pi ln 1 p i = a + bage i Her er b øgningen / reduktionen i log-odds per år. Hvad er forskellen i log-odds for to piger med alder a 1 og a 2? svarende til ( ) ( ) p1 p2 ln ln 1 p 1 1 p 2 = a + ba 1 (a + ba 2 ) = b(a 1 a 2 ) = log(or). OR = exp(b(a 1 a 2 )) = exp(b) (a 1 a 2 ) 36 / 44

37 Kvantitativ forklarende variabel i R Estimation > glm1a<-glm(menarke~age,family="binomial") > summary(glm1a) Call: glm(formula = menarke ~ age, family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) <2e-16 *** age <2e-16 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 472 degrees of freedom Residual deviance: on 471 degrees of freedom (389 observations deleted due to missingness) AIC: Number of Fisher Scoring iterations: 7 > 37 / 44

38 Beskrivelse af alderseffekten Konfidensintervaller > coef(glm1a) (Intercept) age > confint(glm1a) Waiting for profiling to be done % 97.5 % (Intercept) age > > exp(coef(glm1a)) (Intercept) age e e+00 > exp(confint(glm1a)) Waiting for profiling to be done % 97.5 % (Intercept) e e-08 age e e+00 Når alderen øges med et år, stiger log-odds med 1.51 ( ). Når alderen øges med et år, øges odds med en faktor 4.55 ( ). Interceptet a = er log-odds for en pige på 0 år (!). 38 / 44

39 Sandsynlighed for menarke som funktion af alder Sandsynlighed for menarke Alder Kurven er baseret på den logistiske regressionsmodel. 39 / 44

40 Multipel logistisk regression Hvordan afhænger risikoen for CHD af køn, alder, rygning og SBP? ( ) pi ln 1 p i = a + b 1 male i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i ) Estimation > glm6<-glm(chdi~male+ryger+age+i(log2(sbp)),family=binomial) > summary(glm6) Call: glm(formula = chdi ~ male + ryger + age + I(log2(sbp)), family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** male e-08 *** ryger age *** I(log2(sbp)) e-13 *** > 40 / 44

41 Kvantificering af effekterne ( ) pi ln 1 p i = a + b 1 male i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i ) Her er a=log-odds for et individ med værdi 0 af alle kovariater. OR er incl konfidensintervaller > exp(coef(glm6)) (Intercept) factor(male)1 factor(ryger)1 age I(log2(sbp)) e e e e e+00 > exp(confint(glm6)) Waiting for profiling to be done % 97.5 % (Intercept) e e-07 factor(male) e e+00 factor(ryger) e e+00 age e e+00 I(log2(sbp)) e e+01 Odds for CHD er mere end dobbelt så stor for mænd. Der er ingen øget risiko for rygere (OR=1.2, CI= ). Risikoen stiger med alder, OR=1.06 per år (CI= ). 41 / Odds 44 8-dobles ved en fordobling af SBP (OR=7.9, CI= ).

42 Fra regressionsmodel til prædiktion Den generelle model er ( ) pi ln 1 p i = a + b 1 x i1 + + b p x ip Højresiden kaldes også for den lineære prædiktor. Der er en én-til-én relation mellem log-odds og sandsynlighed: p i = exp(a + b 1 x i1 + + b p x ip ) 1 + exp(a + b 1 x i1 + + b p x ip ) 42 / 44

43 Prædiktion Vi ønsker at estimere sandsynligheden for CHD for en ikke-rygende mand på 50 år og en ikke-rygende kvinde på 50 år som funktion af SBP. Prædiktion i R > Mdata<-data.frame(male=1,ryger=0,age=50,sbp=90:300) > head(mdata,3) male ryger age sbp > pm<-predict(glm6,mdata,type= response ) > head(pm) > > Kdata<-data.frame(male=0,ryger=0,age=50,sbp=90:300) > pk<-predict(glm5,kdata,type= response ) > > plot(90:300,pm,xlab="sbp",ylab="sandsynlighed for CHD",ylim=c(0,1),col="blue",type="l") > lines(90:300,pk,col="red") > legend(100,1,c("mand, ikke-ryger, 50 aar","kvinde, ikke-ryger, 50 aar"), > col=c("blue","red"),lty=1) > 43 / 44

44 Sandsynlighed for CHD som funktion af SBP Sandsynlighed for CHD Mand, ikke ryger, 50 aar Kvinde, ikke ryger, 50 aar SBP 44 / 44