Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Transkript

1 Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen år. Parrene blev fulgt i 6 måneder eller indtil graviditet var opnået. Vi vil interessere os for følgende variable: ttp TTP in dage (kontinuert variabel) Kgravid censureringsvariabel (1=gravid, 0=censurering) Kryg ryge status for kvinden (0=Nej, 1=Ja) Mryg ryge status for manden (0=Nej, 1=Ja) Kalk antal genstande per uge for kvinden Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Spørgsmål 1 Data læses ind i R med ttpdata<-read.fwf("ttp.txt",header=f,sep=";", widths=c(4,7,12,6,11,10,10,10,10,10,10,10,10,8,8)) names(ttpdata)<-c("obs","fcyklus","ttp","fxid","kalk","kcof","mcof", "KMryg","Kryg","Mryg","Malk","Mryg","MMryg", "Mzkon0","Kgravid") hvor.fwf står for Fixed Widt Format, widths angiver søjlebredden på hver enkelt variabel (antal tegn til hver variabel i tekst-filen med data). Vi ser først på Kaplan-Meier kurverne opdelt på rygning for hhv kvinder og mænd. Follow-up-tiden er tid til graviditet dvs overlevelseskurven angiver sandsynligheden for at graviditet endnu ikke er indtruffet. 1

2 Kaplan-Meier-plottet laves med KM1<-survfit(Surv(ttp,Kgravid)~Kryg) plot(km1,mark.time=f,lty=1:2,cex=2,xlab="dage") legend(125,1,c("k ej ryger","k ryger"),lty=1:2) survdiff(surv(ttp,kgravid)~kryg) title("tid til graviditet opdelt på Kryg") og vi får følgende kurver: Tid til graviditet opdelt på Kryg K ej ryger K ryger Dage Vi ser at forskellen mellem de to grupper øges efter 50 dage. Gruppen af ikke-rygere har den laveste overlevelse hvilket indikerer, at par for hvilken kvinden er ikke-ryger hurtigere bliver gravide end par for hvilken kvinden 2

3 ryger. Tegner vi en vandret linie gennem overlevelsessandsynligheden svarende til 0.5, finder vi median tid til graviditet for gruppen med kvindelige ikke-ryger på ca 110 dage mens median tid til graviditet for gruppen med kvindelige rygere er ca 145 dage. På samme måde kan vi se på grupperne med mandlige rygere / ikke-rygere: KM2<-survfit(Surv(ttp,Kgravid)~Mryg) plot(km2,mark.time=f,lty=1:2,cex=2,xlab="dage") legend(125,1,c("m ej ryger","m Ryger"),lty=1:2) survdiff(surv(ttp,kgravid)~mryg) title("tid til graviditet opdelt på Mryg") Tid til graviditet opdelt på Mryg M ej ryger M Ryger Dage 3

4 Her ser vi det samme mønster, omend forskellen mellem de to grupper allerede optræder ved 20 dage. Igen bliver gruppen med mandlige ikke-rygere hurtigere gravide (median ca 120 dage) end gruppen med mandlige rygere (median ca 145 dage). Spørgsmål 2 Vi skal nu kvantificere effekten af Kryg og Mryg. Dette gøres vha Cox modellen. cox1<-coxph(surv(ttp,kgravid)~kryg) summary(cox1) coxph(formula = Surv(ttp, Kgravid) ~ Kryg) Kryg * Kryg Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 5.9 on 1 df, p= Wald test = 5.58 on 1 df, p= Score (logrank) test = 5.64 on 1 df, p= Dvs harzard ratio for at blive gravid for par for hvilken kvinden ryger er ifht par for hvilken kvinden ikke ryger. Eller : chancen for at blive gravid er 41.2% større for ikke-rygere end for rygere. Vi bemærker at forskellen på ikke-rygere og rygere er signifikant med en p-værdi på

5 Tilsvarende kan vi beskrive forskellen for par for hvilken manden er ikke-ryger / ryger: cox2<-coxph(surv(ttp,kgravid)~mryg) summary(cox2) og vi får coxph(formula = Surv(ttp, Kgravid) ~ Mryg) Mryg Mryg Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 2.08 on 1 df, p= Wald test = 2.03 on 1 df, p= Score (logrank) test = 2.04 on 1 df, p= Dvs HR for at blive gravid for par for hvilken manden ryger er ifht par for hvilken manden ikke ryger. Eller : par for hvilken manden ikke ryger, har 21.8% større chance for at blive gravide end par for hvilken manden ryger. Forskellen er dog ikke signifikant. Spørgsmål 3 Vi tester for mulig interaktion mellem Kryg og Mryg: cox3<-coxph(surv(ttp,kgravid)~kryg+mryg+kryg*mryg) summary(cox3) Bemærk at vi ikke behøver at lave dette test som et likelihood ratio test da interaktionen er beskrevet med 1 parameter og vi derfor kan aflæse p-værdien direkte i Wald-testet: 5

6 coxph(formula = Surv(ttp, Kgravid) ~ Kryg + Mryg + Kryg * Mryg) Kryg Mryg Kryg:Mryg Kryg Mryg Kryg:Mryg Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 6.31 on 3 df, p= Wald test = 6.01 on 3 df, p= Score (logrank) test = 6.07 on 3 df, p= Med en p-værdi på for interaktionsleddet accepterer vi hypotesen om manglende interaktion og benytter i stedet den additive model og fitter denne med λ(t) = λ 0 (t) exp(β 1 Kryg + β 2 Mryg) cox4<-coxph(surv(ttp,kgravid)~kryg+mryg) summary(cox4) coxph(formula = Surv(ttp, Kgravid) ~ Kryg + Mryg) Kryg * Mryg

7 Kryg Mryg Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 6.16 on 2 df, p= Wald test = 5.83 on 2 df, p= Score (logrank) test = 5.89 on 2 df, p= Justeret for mandlig ryger er HR for at blive gravid for par for hvilken kvinden ryger 0.73 ifht par for hvilken kvinden ikke ryger, dvs stort set uændret i forhold til den ujusterede analyse. Bemærk dog at p-værdien nu er tæt på de Der er stadig ingen signifikant effekt af mandlig ryger, omend det tyder på, at de par for hvilken manden ryger har en reduceret chance for at blive gravide ifht par for hvilken manden er ikke-ryger, HR=0.93. Spørgsmål 4 Vi skal bestemme HR for Mryg=1, Kryg=1 vs Mryg=0, Kryg=0, svarende til HR når begge er rygere i forhold til begge er ikke-rygere. Denne HR er exp(β 1 + β 2 ). Vi kan gange de to HR i output sammen, = Men vi skal også bruge et konfidensinterval og det kan vi ikke umiddelbart bestemme i hånden. Vi får derfor R til at udføre beregningerne, som angivet i opgaveteksten: install.packages("multcomp") library(multcomp) K2<-rbind("beta1+beta2"=c(1,1)) summary(glht(cox4,linfct=k2)) Vi bruger her pakken multcomp. K2 er en matrix med 1 række og 2 søjler. At denne skal dannes med rbind (=RowBIND) skyldes alene at funktionen glht kræver denne form. Vi vil estimere KI for β 1 + β 2 = 1 β β 2 - heraf de to 1-taller (vi kan angive en hvilken som helst lineær kombination af 7

8 parametrene her). glht kan nu bruges på det fittede coxph-objekt, resultatet fås med summary: Simultaneous Tests for General Linear Hypotheses Fit: coxph(formula = Surv(ttp, Kgravid) ~ Kryg + Mryg) Linear Hypotheses: Estimate Std. Error z value Pr(> z ) beta1+beta2 == * (Adjusted p values reported -- single-step method) Vi mangler nu at bestemme KI for exp(β 1 + β 2 ) og finder HR<- exp( ) lower<- exp( *0.1712) upper<- exp( *0.1712) HR ; lower ; upper [1] [1] [1] Dvs HR når begge er rygere i forhold til ikke-rygere er 0.67 med et KI på Dvs at chancen for at blive gravid er reduceret med 33% (= ) (KI 5%-52%) for de par for hvilken begge er rygere ifht de par for hvilken ingen ryger. Spørgsmål 5 Vi laver den nye variabel, som angiver om hhv manden, kvinden eller begge ryger og fitter Cox-modellen indeholdende denne variabel, dvs λ(t) = λ 0 (t) exp(β 1 1 (Kryg=0, Mryg=1) +β 2 1 (Kryg=1, Mryg=0) +β 3 1 (Kryg=1, Mryg=1) ) 8

9 MKryg<-ifelse(Mryg==1 & Kryg==0,1,0)+ 2*ifelse(Mryg==0&Kryg==1,1,0)+3*ifelse(Mryg==1&Kryg==1,1,0) cox4<-coxph(surv(ttp,kgravid)~factor(mkryg)) summary(cox4) og vi finder coxph(formula = Surv(ttp, Kgravid) ~ factor(mkryg)) factor(mkryg) factor(mkryg) factor(mkryg) * factor(mkryg) factor(mkryg) factor(mkryg) Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 6.31 on 3 df, p= Wald test = 6.01 on 3 df, p= Score (logrank) test = 6.07 on 3 df, p= Vi ser, at par for hvilken begge ryger har en HR på 0.69 (KI ) for at blive gravide sammenlignet med par for hvilken ingen ryger (jvf spørgsmål 4), p=0.04. Vi prøver nu at lave et trend-test for at se, om vi i stedet for at opfatte MKryg som kategorisk med 4 niveauer kan benytte MKryg som en kvantitiv variabel (lineær model). cox4r<-coxph(surv(ttp,kgravid)~mkryg) LLR<--2*(cox4r$loglik[2]-cox4$loglik[2]) 9

10 LLR p<-1-pchisq(llr,df=2) p > LLR [1] > p<-1-pchisq(llr,df=2) > p [1] Antallet af frihedsgrader er 2 idet den fulde model bruger 3 parametre til at beskrive effekten af MKryg, mens modellen under hypotesen kun bruger 1 parameter (df=3-1). Vi kan derfor acceptere trend-modellen. 1 Spørgmsål 6 Vi vil nu fokusere på effekten af alkohol på chancen for at blive gravid og fitter modellen λ(t) = λ 0 (t) exp(β 1 gkalk) hvor gkalk er kvindens alkoholforbrug inddelt i 4 grupper: gkalk<-1+ifelse(kalk>0,1,0)+ifelse(kalk>5,1,0)+ifelse(kalk>10,1,0) cox5<-coxph(surv(ttp,kgravid)~factor(gkalk)) summary(cox5) Vi finder coxph(formula = Surv(ttp, Kgravid) ~ factor(gkalk)) factor(gkalk) * factor(gkalk) factor(gkalk) * 10

11 factor(gkalk) factor(gkalk) factor(gkalk) Concordance= 0.56 (se = ) Rsquare= (max possible= ) Likelihood ratio test= 8.26 on 3 df, p= Wald test = 8.27 on 3 df, p= Score (logrank) test = 8.39 on 3 df, p= Vi ser umiddelbart en signifikant forskel mellem gruppe 2 og 1, 4 og 1. Chancen for at blive gravid for kvinder med et alkoholindtag mellem 1-5 genstande om ugen er 0.71 gange chancen for at blive gravid for de kvinder som ikke drikker etc. Vi ønsker at lave et trend test cox5r<-coxph(surv(ttp,kgravid)~gkalk) LLR<--2*(cox5r$loglik[2]-cox5$loglik[2]) LLR p<-1-pchisq(llr,df=2) p > LLR [1] > p<-1-pchisq(llr,df=2) > p [1] og finder at vi kan acceptere hypotesen om en trend. > summary(cox5r) coxph(formula = Surv(ttp, Kgravid) ~ gkalk) gkalk * 11

12 gkalk Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 5.92 on 1 df, p= Wald test = 5.72 on 1 df, p= Score (logrank) test = 5.73 on 1 df, p= Dvs for hver gang en kvinde øger sit alkoholforbrug svarende til disse 4 grupper, reduceres HR for at blive gravid med en faktor 0.84 (KI ). Spørgsmål 7 Vi starter med at teste for linearitet af Kalk: Kalk2<-Kalk^2 cox6<-coxph(surv(ttp,kgravid)~kalk+kalk2) summary(cox6) og finder coxph(formula = Surv(ttp, Kgravid) ~ Kalk + Kalk2) Kalk * Kalk Kalk Kalk Concordance= (se = ) 12

13 Rsquare= (max possible= ) Likelihood ratio test= 4.6 on 2 df, p= Wald test = 4.47 on 2 df, p= Score (logrank) test = 4.49 on 2 df, p=0.106 Vi konkluderer at vi kan udelade kvadratleddet, dvs at modellen er lineær på log-hazard-skalaen, svarende til modellen cox7<-coxph(surv(ttp,kgravid)~kalk) summary(cox7) coxph(formula = Surv(ttp, Kgravid) ~ Kalk) Kalk Kalk Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 2.46 on 1 df, p= Wald test = 2.27 on 1 df, p=0.132 Score (logrank) test = 2.27 on 1 df, p= Ifølge denne model har alkoholindtaget ikke nogen effekt på chancen for at blive gravid. Dette stemmer ikke overens med trend-testet ovenfor. Det kunne derfor tyde på, at det ikke er rimeligt at inkludere alkoholindtaget lineært. Med den lineære model postuleres, at effekten af at indtag på 35 vs 34 er den samme som 5 vs 4, hvilket næppe er rimeligt. Vi prøver derfor at inkludere kvadratroden af Kalk i stedet (hvorfor ikke log?) sqkalk<-sqrt(kalk) cox8<-coxph(surv(ttp,kgravid)~sqkalk) summary(cox8) 13

14 coxph(formula = Surv(ttp, Kgravid) ~ sqkalk) sqkalk * sqkalk Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 4.7 on 1 df, p= Wald test = 4.59 on 1 df, p= Score (logrank) test = 4.6 on 1 df, p= Vi finder igen en signifikant effekt af alkoholforbrug. Spørgsmål 7 Vi undersøger om der er interaktion mellem (kvindelig) rygning og alkoholindtag: cox9<-coxph(surv(ttp,kgravid)~sqkalk+kryg+kryg*sqkalk) summary(cox9) coxph(formula = Surv(ttp, Kgravid) ~ sqkalk + Kryg + Kryg * sqkalk) sqkalk Kryg sqkalk:kryg

15 sqkalk Kryg sqkalk:kryg Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= on 3 df, p= Wald test = 9.35 on 3 df, p= Score (logrank) test = 9.54 on 3 df, p= Vi ser at der ikke er interaktion mellem alkohol og rygning, dvs at effekten af alkohol ikke afhænger af rygning (og omvendt). Vi udelader interaktionsleddet og finder: cox10<-coxph(surv(ttp,kgravid)~sqkalk+kryg) summary(cox10) coxph(formula = Surv(ttp, Kgravid) ~ sqkalk + Kryg) sqkalk Kryg * sqkalk Kryg Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 9.61 on 2 df, p= Wald test = 9.25 on 2 df, p= Score (logrank) test = 9.32 on 2 df, p= Vi ser fortsat en signifikant negativ effekt af rygning således at chancen for at blive gravid reduceres til gange chancen for at blive gravid for ikkerygere. Omvendt er der tilsyneladende ikke nogen effekt af alkohol, når vi 15

16 har justeret for rygning (omend p-værdien er borderline). Kan det skyldes, at de kvinder som ryger måske har en tendens til at drikke mere alkohol? 16