Introduktion til overlevelsesanalyse

Relaterede dokumenter
Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Lineær og logistisk regression

Introduktion til overlevelsesanalyse

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Overlevelsesanalyse. Faculty of Health Sciences

Dag 6: Interaktion. Overlevelsesanalyse

Eksamen Efterår 2013

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Opgavebesvarelse vedr. overlevelsesanalyse

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Morten Frydenberg 26. april 2004

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Statistik II 4. Lektion. Logistisk regression

Multipel Lineær Regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Morten Frydenberg 14. marts 2006

Statistiske Modeller 1: Kontingenstabeller i SAS

MPH specialmodul Epidemiologi og Biostatistik

Morten Frydenberg Biostatistik version dato:

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Logistisk Regression - fortsat

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Introduktion til overlevelsesanalyse

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Introduktion til R. Faculty of Health Sciences

Logistisk regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik og skalavalidering. Opgave 1

Uge 13 referat hold 4

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Logistisk regression

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Statistik Lektion 16 Multipel Lineær Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik II 1. Lektion. Analyse af kontingenstabeller

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Tema. Dagens tema: Indfør centrale statistiske begreber.

Løsning til opgave i logistisk regression

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Analyse af binære responsvariable

Opgavebesvarelse vedr. overlevelsesanalyse

Hjemmeopgave, efterår 2009

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Synopsis til eksamen i Statistik

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Løsning til øvelsesopgaver dag 4 spg 5-9

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Logistisk regression

Normalfordelingen. Statistik og Sandsynlighedsregning 2

8.2 Statistiske analyse af hver enkelt indikator

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Eksamen i Statistik og skalavalidering

Estimation og konfidensintervaller

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Træningsaktiviteter dag 3

Logistisk regression

Opgavebesvarelse, logistisk regression

Susanne Ditlevsen Institut for Matematiske Fag susanne

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Module 4: Ensidig variansanalyse

Kvantitative metoder 2

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Transkript:

Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression II Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/survival2011

Program for dag 2 Repetition: Hazard funktionen Cox modellen med en kategorisk variabel. Likelihood Ratio testet To kategoriske variable Interaktion mellem to kategoriske variable En kontinuert variabel. Herunder modelkontrol. Interaktion mellem en kategorisk og en kontinuert variabel Gennemgående eksempel: Leukæmi patienter i remission. Dagens gennemgang svarer til Kleinbaum & Klein kapitel 3. Til næste gang skal I have pakken timereg installeret. 2 / 43

Hazardfunktionen Hazardfunktionen (eller hazard raten / intensitet): for et lille h > 0. λ(t) P(t T < t + h T t). h Vi fokuserer på hazard ratio mellem to individer i og j λ i (t) λ j (t) = P(t T i < t + h T t) P(t T j < t + h T t). Fortolkning: Til ethvert tidspunkt angiver HR hvor meget større / mindre sandsynligheden er for at individ i dør i forhold til individ j. 3 / 43

Cox-modellen Med behandlingsgruppe som forklarende variabel lyder modellen: λ i (t) = λ 0 (t) exp(βx i ) hvor X i = I(patient i fik 6MP). Dvs λ i (t) = { λ0 (t) patient i fik placebo λ 0 (t) exp(β) patient i fik 6MP. I Cox-modellen afhænger HR=exp(β) ikke af t, dvs. vi har proportionale hazards formulerer vi ikke en model for baseline hazard λ 0 (t) HR = exp(β) udtrykker risikoen for at en behandlet patient får tilbagefald i forhold til en patient i placebogruppen. 4 / 43

Cox s (partielle) Likelihood Funktion Lad t 1,..., t k være de ordnede observerede levetider. Den partielle likelihood er L(β) = k exp(βx j ) h R(t j ) exp(βx h) j=1 hvor R(t j ) er mængden af individer under risiko for død umiddelbart før tid t j. Likelihood en angiver sandsynligheden for at observere de data vi har observeret, for alle mulige værdier af β. Når vi skal beskrive data vha. modellen vælger vi det β som gør vores observerede data mest sandsynligt vi vælger β som maksimaliserer likelihoodfunktionen. 5 / 43

(Partielt) Likelihood Ratio test Når vi har estimeret β ved β kan vi beregne likelihood en for modellen, L( β). Vi ønsker at teste en hypotese, f.eks. H 0 : β = 0. Vi kan da sammenligne likelihood en for modellen (L( β)) med likelihood en for hypotesen (L(0)). Er de tæt på hinanden vælger vi at tro på hypotesen : hypotesen stemmer lige så godt overens med data som den oprindelige model. I praksis sammenligner vi -2 log(likelihood) for modellen og hypotesen vha Likelihood Ratio testet: LLR = 2 ( log-likelihood for H 0 log-likelihood for modellen ) = 2 ( L(0) L( β) ) som følger en χ 2 -fordeling med antal frihedsgrader lig forskellen mellem antal parametre i modellen og hypotesen (her=1). 6 / 43

Hvornår kan vi lave et Likelihood Ratio test? Vi kan udføre Likelihood Ratio testet når hypotesen er en simplificering af modellen. Det svarer til at hypotesen skal være indeholdt i modellen. For remissionsdata med behandling er modellen: λ i (t) = { λ0 (t) patient i fik placebo λ 0 (t) exp(β) patient i fik 6MP mens modellen under hypotesen H 0 : β = 0 er λ i (t) = { λ0 (t) patient i fik placebo λ 0 (t) exp(0) patient i fik 6MP = λ 0 (t). Idet hypotesen kan skrives på samme form som modellen er hypotesen indeholdt i modellen og vi kan udføre LLR-testet. 7 / 43

LLR for behandling i R For at udføre LLR-testet har vi brug for 1) likelihood L( β) under modellen 2) likelihood L(0) under hypotesen. R gemmer log-likelihood (LL) som hentes ud vha. $loglik: > treatment<-1-placebo > cox2<-coxph(surv(time,event) ~ treatment) > LL<-cox2$loglik > LL [1] -93.18427-85.00842 Bemærk at der er to tal: Det første element er LL for modellen helt uden kovariater (her H 0 ), andet element er LL for modellen. LLR beregnes som to gange differensen: > -2*(LL[1]-LL[2]) [1] 16.35169 > 1-pchisq(16.35169,df=1) [1] 5.260921e-05 Sammenlign med summary(cox2). 8 / 43

LLR for kategoriseret logwbc Her er modellen λ i (t) = λ 0 (t) logwbc i < 2.37 λ 0 (t) exp(β 1 ) logwbc i [2.37; 3.23) λ 0 (t) exp(β 2 ) logwbc i 3.23. Vi ønsker at teste hypotesen H 0 : β 1 = β 2 (= β 12 ) svarende til at der ikke er nogen forskel på mellem og høj logwbc. Under hypotesen lyder modellen { λ0 (t) logwbc λ i (t) = i < 3.23 = λ 0 (t) exp(β 12 ) logwbc i 3.23. λ 0 (t) logwbc i < 2.37 λ 0 (t) exp(β 12 ) logwbc i [2.37; 3.23) λ 0 (t) exp(β 12 ) logwbc i 3.23. og hypotesen er derfor indeholdt i modellen og vi kan lave et LLR-test. 9 / 43

LLR for kategoriseret logwbc i R Vi estimerer først det fælles β 12 under hypotesen H 0 : β 1 = β 2 (= β 12 ). Derfor defineres en ny variabel, som svarer til inddelingen af logwbc under hypotesen (dvs. i grupper lav, mellem-høj) og derefter fittes denne model: > cox4<-coxph(surv(time,event)~factor(logwbc3)) # fuld model > logwbc2<-logwbc3; logwbc2[logwbc3==3]<-2 > cox4r<-coxph(surv(time,event)~factor(logwbc2)) # hypotesen Nu kan log-likelihood hentes for begge modeller > cox4$loglik [1] -93.18427-81.91457 > cox4r$loglik [1] -93.18427-88.02179 10 / 43

Vi skal kun bruge log-likelihood for modellerne indholdende parametrene, dvs vi skal sammenligne element 2 i hver af de to vektorer med log-likelihoods: > LLR<--2*(cox4r$loglik[2]-cox4$loglik[2]) > LLR [1] 12.21444 > p<-1-pchisq(llr,df=1) > p [1] 0.0004742102 Bemærk at denne hypotese ikke automatisk efterprøves i R. Hvordan kan vi tvinge R til det? 11 / 43

To kategoriske variable Vi ønsker at beskrive effekten af behandling justeret for (kategoriseret) logwbc. Cox modellen bliver λ i (t) = λ 0 (t) exp(β 1 X i + β 2 I(Z i = 2) + β 3 I(Z i = 3)) λ 0 (t) placebo, logwbc i < 2.37 λ 0 (t) exp(β 2 ) placebo, logwbc i [2.37; 3.23) λ 0 (t) exp(β 3 ) placebo, logwbc i 3.23. = λ 0 (t) exp(β 1 ) behandling, logwbc i < 2.37 λ 0 (t) exp(β 1 + β 2 ) behandling, logwbc i [2.37; 3.23) λ 0 (t) exp(β 1 + β 3 ) behandling, logwbc i 3.23. Fortolkning af regressionsparametrene: 12 / 43 β 1 er effekten af behandling for fastholdt (givet) logwbc-gruppe. Effekten af behandling er den samme for alle niveauer af logwbc-gruppe. Tilsvarende er effekten af logwbc-gruppen den samme uanset behandlingsgruppe.

Log-hazard for to kategoriske variable Vi kan også angive modellen på log-hazard-skalaen: log(λ i (t)) = log(λ 0 (t)) + β 1 X i + β 2 I(Z i = 2) + β 3 I(Z i = 3) log(λ 0 (t)) placebo, logwbc i < 2.37 log(λ 0 (t)) + β 2 placebo, logwbc i [2.37; 3.23) log(λ 0 (t)) + β 3 placebo, logwbc i 3.23. = log(λ 0 (t)) + β 1 behandling, logwbc i < 2.37 log(λ 0 (t)) + β 1 + β 2 behandling, logwbc i [2.37; 3.23) log(λ 0 (t)) + β 1 + β 3 behandling, logwbc i 3.23. 13 / 43

Den additive model Vi kan illustrere modellen i følgende tabel på log-hazard-skalaen: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 β 1 + β 3 Forskellen mellem placebo og behandling er den samme for hvert niveau af logwbc-gruppe (β 1 ). Forskellen mellem logwbc-grupperne er den samme for hver behandlingsgruppe. HR for behandling vs placebo er exp(β 1 ) uanset logwbc-gruppe. HR for logwbc-gruppe 2 vs 1 er exp(β 2 ) uanset behandling. HR for logwbc-gruppe 3 vs 1 er exp(β 3 ) uanset behandling. Denne model kaldes også den additive model. 14 / 43

Den additive model i R På højre side af ~ i survfit inkluderes begge variable adskilt af +: > cox5<-coxph(surv(time,event)~factor(treatment)+factor(logwbc3)) > summary(cox5) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + factor(logwbc3)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-1.4173 0.2424 0.4268-3.320 0.000899 *** factor(logwbc3)2 0.6757 1.9654 0.5145 1.313 0.189078 factor(logwbc3)3 2.2160 9.1707 0.5518 4.016 5.93e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 factor(treatment)1 0.2424 4.1258 0.105 0.5595 factor(logwbc3)2 1.9654 0.5088 0.717 5.3875 factor(logwbc3)3 9.1707 0.1090 3.109 27.0475 Concordance= 0.812 (se = 0.061 ) Rsquare= 0.563 (max possible= 0.988 ) Likelihood ratio test= 34.8 on 3 df, p=1.341e-07 Wald test = 29.69 on 3 df, p=1.604e-06 Score (logrank) test = 39.9 on 3 df, p=1.12e-08 15 / 43

Interaktion mellem kategoriske variable Den additive model Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 β 1 + β 3 forudsætter, at der ikke er interaktion (vekselvirkning). Interaktionsmodellen tillader at effekten af behandling afhænger af logwbc: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β4 β5 dvs. en model hvor parametrene varierer fuldstændigt frit. 16 / 43

Omparameterisering af interaktionsmodellen Vi skal kontrollere, om der er interaktion. Det er nyttigt at skrive interaktionsmodellen på formen: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 + β 4 β 1 + β 3 + β 5 Hypotesen om manglende interaktion kan da formuleres: H 0 : β 4 = β 5 = 0. Hypotesen kan testes ved et LLR-test, hvor teststørrelsen følger en χ 2 -fordeling med 2 frihedsgrader. 17 / 43

Parameterisering af interaktionsmodel Vi definerer to interaktionsled ved V i = W i = { 1 Xi = 1 og Z i = 2 0 ellers { 1 Xi = 1 og Z i = 3 0 ellers Cox modellen med interaktionsled er λ i (t) = λ 0 (t) exp(β 1 X i + β 2 I(Z i = 2) + β 3 I(Z i = 3) + β 4 V i + β 5 W i ) 18 / 43

Interaktionsmodellen i R Interaktioner mellem 2 variable angives med en *: > cox6<-coxph(surv(time,event)~factor(treatment)*factor(logwbc3)) > summary(cox6) Call: coxph(formula = Surv(time, event) ~ factor(treatment) * factor(logwbc3)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-2.1540 0.1160 0.8481-2.540 0.01109 * factor(logwbc3)2 0.4188 1.5201 0.6227 0.673 0.50125 factor(logwbc3)3 1.8200 6.1719 0.6191 2.940 0.00328 ** factor(treatment)1:factor(logwbc3)2 0.7183 2.0509 1.1096 0.647 0.51742 factor(treatment)1:factor(logwbc3)3 1.2261 3.4078 1.0434 1.175 0.23997 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 factor(treatment)1 0.116 8.6193 0.02201 0.6116 factor(logwbc3)2 1.520 0.6578 0.44856 5.1516 factor(logwbc3)3 6.172 0.1620 1.83434 20.7666 factor(treatment)1:factor(logwbc3)2 2.051 0.4876 0.23306 18.0472 factor(treatment)1:factor(logwbc3)3 3.408 0.2934 0.44088 26.3407 Concordance= 0.812 (se = 0.061 ) Rsquare= 0.578 (max possible= 0.988 ) Likelihood ratio test= 36.23 on 5 df, p=8.557e-07 Wald test = 27.1 on 5 df, p=5.444e-05 Score (logrank) test = 40.68 on 5 df, p=1.09e-07 19 / 43

En kontinuert forklarende variabel Vi har set, at effekten af logwbc ser ud til at være monoton: Jo højere logwbc, jo højere risiko. I stedet for at kategorisere logwbc (arbitrært) kan vi f.eks. inkludere WBC (i antal 10 9 pr L). Antal 0 10 20 30 0 50 100 150 wbc Antal 0 5 10 15 1 2 3 4 5 logwbc 20 / 43

Cox-modellen med WBC Cox-modellen er λ i (t) = λ 0 (t) exp(βwbc i ) Sammenlignes to patienter med en forskel på 1 i WBC, når det laveste er referencen, fås HR = λ 0(t) exp(β(wbc + 1) λ 0 (t) exp(βwbc) = exp(β). Sammenlignes to patienter med en forskel på 5 i WBC fås HR = λ 0(t) exp(β(wbc + 5) λ 0 (t) exp(βwbc) = exp(β 5). = exp(β) 5. Dvs fortolkningen er : for hver gang WBC øges med 1, skal HR ganges med exp(β). 21 / 43

Log-hazard for en kontinuert variabel Cox-modellen på log-hazard-skala lyder log(λ i (t)) = log(λ 0 (t)) + βwbc i dvs. effekten af WBC er lineær på log-hazard-funktionen: baseline log hazard 0 2 4 6 8 10 0 50 100 150 WBC 22 / 43

Cox-modellen med WBC i R > wbc<-exp(logwbc) > cox7<-coxph(surv(time,event) ~ wbc) > summary(cox7) Call: coxph(formula = Surv(time, event) ~ wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) wbc 0.042824 1.043754 0.007791 5.496 3.88e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 wbc 1.044 0.9581 1.028 1.06 Concordance= 0.809 (se = 0.062 ) Rsquare= 0.514 (max possible= 0.988 ) Likelihood ratio test= 30.3 on 1 df, p=3.702e-08 Wald test = 30.21 on 1 df, p=3.877e-08 Score (logrank) test = 56.71 on 1 df, p=5.04e-14 Men er dette en rimelig model? 23 / 43

Test af trend I første omgang kan vi undersøge modellen indeholdende den kategoriserede version af WBC nærmere - er der en monoton sammenhæng, og hvordan ser den ud? λ i (t) = λ 0 (t) logwbc i < 2.37 λ 0 (t) exp(β 1 ) logwbc i [2.37; 3.23) λ 0 (t) exp(β 2 ) logwbc i 3.23. Et test for trend kan udføres ved at sammenligne denne model med modellen hvor kategoriseret logwbc opfattes som kvantitativ: λ 0 (t) logwbc i < 2.37 λ i (t) = λ 0 (t) exp(β) logwbc i [2.37; 3.23) λ 0 (t) exp(2β) logwbc i 3.23. dvs. hypotesen er H 0 : β 2 = 2β 1 = 2β. 24 / 43

Grafisk check af mulig trend Illustration af modellerne på log-hazard-skalaen: baseline log hazard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Fuld model Hypotesen 0.00 2.37 3.23 5.00 logwbc Det er altid en god idé at starte med at se på den kategoriserede version af en kontinuert variabel. 25 / 43

LLR test af trend i R > logwbc3<-1 + ifelse(logwbc > 2.37,1,0) + ifelse(logwbc > 3.23,1,0) > cox4<-coxph(surv(time,event) ~ factor(logwbc3)) > logwbc3kvant<-logwbc3-1 > cox4r<-coxph(surv(time,event) ~ logwbc3kvant) > LLR<--2*(cox4r$loglik[2]-cox4$loglik[2]) > LLR [1] 1.039691 > p<-1-pchisq(llr,df=1) > p [1] 0.3078934 > Vi accepterer hypotesen og ser en monotont (voksende) sammenhæng mellem WBC og risikoen for tilbagefald. 26 / 43

Test for linearitet En måde at foretage et test for, om WBC kan inkluderes lineært er at tilføje et kvadratled i Cox-modellen: λ i (t) = λ 0 (t) exp(β 1 WBC i + β 2 WBC 2 i ). på log-hazard-skalaen er dette en parabel, log(λ i (t)) = log(λ 0 (t)) + β 1 WBC i + β 2 WBC 2 i. Et test af H 0 : β 2 = 0 er et test for (afvigelse fra) linearitet. 27 / 43

Test for linearitet i R > wbc2<-wbc^2 > cox8<-coxph(surv(time,event) ~ wbc+wbc2) > summary(cox8) Call: coxph(formula = Surv(time, event) ~ wbc + wbc2) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) wbc 0.0703038 1.0728341 0.0201857 3.483 0.000496 *** wbc2-0.0002209 0.9997791 0.0001495-1.478 0.139375 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 wbc 1.0728 0.9321 1.0312 1.116 wbc2 0.9998 1.0002 0.9995 1.000 Concordance= 0.809 (se = 0.062 ) Rsquare= 0.539 (max possible= 0.988 ) Likelihood ratio test= 32.49 on 2 df, p=8.793e-08 Wald test = 32.62 on 2 df, p=8.258e-08 Score (logrank) test = 60.05 on 2 df, p=9.104e-14 Dvs vi kan ikke påvise en eventuel ikke-lineær effekt af WBC. 28 / 43

WBC eller logwbc som forklarende variabel Vi kan ud fra de foregående tests ikke umiddelbart afvise, at effekten af WBC er lineær. Men biologisk giver modellen ikke så meget mening: Effekten af en øgning af WBC på 1 er den samme, uanset om man har højt eller lavt WBC: HR(5 vs 4) = HR(100 vs 99) = exp( β) (= 1.043754). Det er formentligt værre at stige 1 for lave WBC-tal end for høje. En log-transformation mindsker afstanden mellem de store målinger og spreder de små. 29 / 43

WBC vs logwbc som forklarende variabel Bemærk at vi ikke kan teste modellen indholdende WBC mod modellen indeholdende logwbc med et likelihood-ratio-test. Men vi kan prøve at inkludere begge variable for at se, om den ene kan undværes, når vi kontrollerer for den anden: > cox9<-coxph(surv(time,event) ~ logwbc + wbc) > summary(cox9) Call: coxph(formula = Surv(time, event) ~ logwbc + wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) logwbc 1.23135 3.42586 0.56489 2.180 0.0293 * wbc 0.01295 1.01303 0.01527 0.848 0.3965 ---...... Vi vælger modellen indeholdende logwbc alene. 30 / 43

logwbc som forklarende variabel i R > cox10<-coxph(surv(time,event) ~ logwbc) > summary(cox10) Call: coxph(formula = Surv(time, event) ~ logwbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) logwbc 1.646 5.189 0.298 5.525 3.29e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 logwbc 5.188 0.1927 2.893 9.304 Concordance= 0.809 (se = 0.062 ) Rsquare= 0.564 (max possible= 0.988 ) Likelihood ratio test= 34.84 on 1 df, p=3.577e-09 Wald test = 30.53 on 1 df, p=3.294e-08 Score (logrank) test = 36.62 on 1 df, p=1.433e-09 31 / 43

Fortolkning af effekten af WBC på log-skala HR øges med en faktor 5.189 for hver gang logwbc øges med 1. Hvad betyder det? det vil sige at 1 = log(wbc 1 ) log(wbc 2 ) = log( WBC 1 WBC 2 ) WBC 1 WBC 2 = exp(1) = 2.72. Dermed er fortolkningen, at HR øges med en faktor 5.189 for hver gang WBC øges med en faktor 2.72. Løsning: Brug logaritme med base 2 i stedet. 32 / 43

Cox-modellen med log 2 (WBC) > log2wbc<-log2(wbc) > cox11<-coxph(surv(time,event) ~ log2wbc) > summary(cox11) Call: coxph(formula = Surv(time, event) ~ log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) log2wbc 1.1412 3.1306 0.2066 5.525 3.29e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 log2wbc 3.131 0.3194 2.088 4.693 Concordance= 0.809 (se = 0.062 ) Rsquare= 0.564 (max possible= 0.988 ) Likelihood ratio test= 34.84 on 1 df, p=3.577e-09 Wald test = 30.53 on 1 df, p=3.294e-08 Score (logrank) test = 36.62 on 1 df, p=1.433e-09 Ved en fordobling af WBC øges HR med en faktor 3.13 (95% KI 2.09-4.69). Bemærk at teststørrelserne og p-værdierne er uændrede. 33 / 43

En binær og en kontinuert forklarende variabel Vi kan nu vurdere effekten af behandling justeret for log 2 WBC: > treatment<-1-placebo > cox12<-coxph(surv(time,event) ~ factor(treatment)+log2wbc) > summary(cox12) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-1.3861 0.2501 0.4248-3.263 0.0011 ** log2wbc 1.1720 3.2286 0.2328 5.034 4.8e-07 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 factor(treatment)1 0.2501 3.9991 0.1088 0.5749 log2wbc 3.2286 0.3097 2.0456 5.0955 Concordance= 0.852 (se = 0.062 ) Rsquare= 0.671 (max possible= 0.988 ) Likelihood ratio test= 46.71 on 2 df, p=7.187e-11 Wald test = 33.6 on 2 df, p=5.061e-08 Score (logrank) test = 46.07 on 2 df, p=9.921e-11 34 / 43

Interaktion mellem binær og kontinuert variabel Interaktionsmodellen lyder (med placebo som baseline) λ i (t) = = { λ0 (t) exp(β 1 + β 2 log 2 WBC i ) hvis i får 6MP (1) λ 0 (t) exp(β 3 log 2 WBC i ) hvis i får placebo { λ0 (t) exp(β 1 + β 2 log 2 WBC i ) hvis i får 6MP λ 0 (t) exp((β 2 + β 3 ) log 2 WBC i ) hvis i får placebo (2) eller på log-hazard-skalaen: log(λ i (t)) = { log(λ0 (t)) + β 1 + β 2 log 2 WBC i hvis i får 6MP log(λ 0 (t)) + β 3 log 2 WBC i hvis i får placebo. Effekten af log 2 WBC afhænger af behandlingsgruppe. Effekten af behandling afhænger af log 2 WBC. Hypotesen om manglende interaktion lyder 35 / 43 H 0 : β 2 = β 3 (model (1)) β 3 = 0 (model (2)).

Illustration af interaktionsmodellen baseline log hazard 2 0 2 4 6 Placebo Behandling Placebo H_0 Behandling H_0 0 1 2 3 4 5 logwbc På log-hazard-skalaen svarer manglende interaktion (H 0 ) til parallelle linier. 36 / 43

Interaktionsmodellen i R Model (1): > cox13<-coxph(surv(time,event) ~ factor(treatment)+factor(treatment):log2wbc) > summary(cox13) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + factor(treatment):log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-2.37491 0.09302 1.70547-1.393 0.164 factor(treatment)0:log2wbc 1.07777 2.93812 0.27633 3.900 9.61e-05 *** factor(treatment)1:log2wbc 1.29786 3.66145 0.31289 4.148 3.35e-05 *** --- Model (2): > cox14<-coxph(surv(time,event) ~ factor(treatment)+log2wbc+factor(treatment)*log2wbc) > summary(cox14) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc + factor(treatment) * log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-2.37491 0.09302 1.70547-1.393 0.164 log2wbc 1.07777 2.93812 0.27633 3.900 9.61e-05 *** factor(treatment)1:log2wbc 0.22009 1.24619 0.36445 0.604 0.546 --- 37 / 43

Flere variable Vi kan vurdere effekten af behandling justeret for køn og logwbc: > cox15<-coxph(surv(time,event) ~ factor(treatment)+log2wbc+factor(female)) > summary(cox15) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc + factor(female)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-1.5036 0.2223 0.4615-3.258 0.00112 ** log2wbc 1.1658 3.2086 0.2333 4.997 5.82e-07 *** factor(female)1 0.3147 1.3698 0.4545 0.692 0.48872 --- Hvad er baselinegruppen i denne model? Hvilken model skal vi vælge som den endelige model? 38 / 43

Øvelser Maligne melanomer: 1. Aktivér timereg pakken og gør data tilgængelige med kommandoen data(melanoma). Vi vil fortsat fokusere på død pga melanomer, dvs. død af andre årsager skal betragtes som censurering. 2. Lav en inddeling af thick i 4 nogenlunde lige store grupper. Fit modellen med thick som kategorisk variabel. Hvordan er mønsteret? Lav evt et plot på log-hazard-skalaen som på slide 25. 3. Lav et trend-test. Hvad er konklusionen? 4. Lav en inddeling af tykkelse i grupper 0-2 / 2-5 / > 5 mm og gentag 2-3. Hvad er moralen? 39 / 43

5. Lav et test for linearitet ved at inkludere thick som kontinuert incl. et kvadratled. Hvad er konklusionen? Illustrér effekten på log-hazard-skalaen ved et plot. Kan du foreslå en nyttig - og biologisk fortolkelig - transformation af tykkelse? Fit modellen. 6. Undersøg om der er en interaktion mellem køn og den transformerede tykkelse (samme transformation som benyttet under punkt 5). Estimér i interaktionsmodellen effekten af (transformeret) tykkelse for hvert køn for sig. 40 / 43

Tid til graviditet. 423 par blev fulgt fra start graviditetsforsøg frem til graviditet eller end-of-follow-up (til og med 6. cyklus). 137 par blev censureret i 6. cyklus, 3, 5, 6, 12 og 4 blev censureret i henholdsvis cyklus 1 til 5. Flere detaljer i Bonde et al (1998), Journal of Reprod. Toxicol, 12, 19-27. Vi vil her undersøge effekten af rygning og alkohol på tid til graviditet. Vi skal bruge følgende variable i ttp.txt (fra hjemmesiden): Observationsnummer TTP (time to pregnancy) Kgravid (1=gravid, 0=censurering) Kryg (1=Kvinde ryger, 0=Kvinde ej ryger) Mryg (1=Mand ryger, 0=Mand ej ryger) Kalk (antal genstande pr uge (kvinde)) 41 / 43

1. Lav Kaplan-Meier kurver for henholdsvis Kryg og Mryg. Kommentér. 2. Kvantificer effekten (ujusteret) af henholdsvis Kryg og Mryg. 3. Undersøg om der er en interaktion mellem Kryg og Mryg. 4. I den additive model indeholdende Kryg og Mryg, udfyld tabellen med effekterne på log-hazard skala. Estimer HR for (Kryg=1,Mryg=1) vs (Kryg=0,Mryg=0). Hvis vi skal have et konfidensinterval for denne HR, er vi nødt til at få R til at bestemme det. Det kan gøres vha funktionen glht i pakken multcomp således. cox4<-coxph(surv(ttp,kgravid)~kryg+mryg) K2<-rbind("beta1+beta2"=c(1,1)) summary(glht(cox4,linfct=k2)) Dvs R beregner her β 1 + β 2 incl. standardafvigelse (check med estimaterne i cox4). Bestem nu konfidensintervallet for HR. 42 / 43

5. Definer en ny rygevariabel MKryg: 0= K ej ryger, M ej ryger, 1= M ryger, K ej ryger, 2= M ej ryger, K ryger, 3= M ryger, K ryger (dosis-respons effekt). Lav et trend-test. 6. Inddél alkohol i grupper 1= 0, 2= 1-5, 3= 6-10,4= 10+ og lav et trend-test. 7. Benyt Kalk som kvantitativ forklarende variabel. Lav et test for linearitet. Prøv at bruge kvadratroden af Kalk. 8. Analyser effekten af Kryg og kradratroden af Kalk, indbyrdes justerede. Afhænger effekten af alkohol af rygning? 43 / 43