Introduktion til overlevelsesanalyse

Relaterede dokumenter
Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Dag 6: Interaktion. Overlevelsesanalyse

Overlevelsesanalyse. Faculty of Health Sciences

Introduktion til overlevelsesanalyse

Lineær og logistisk regression

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Morten Frydenberg Biostatistik version dato:

Opgavebesvarelse vedr. overlevelsesanalyse

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Introduktion til overlevelsesanalyse

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Eksamen Efterår 2013

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Morten Frydenberg 26. april 2004

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II 4. Lektion. Logistisk regression

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Opgavebesvarelse vedr. overlevelsesanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

MPH specialmodul Epidemiologi og Biostatistik

Multipel Lineær Regression

MPH specialmodul Epidemiologi og Biostatistik

Dynamisk statistisk modellering af vedligeholdelsesbehandling af børn med akut lymfoblastær leukæmi

Morten Frydenberg 14. marts 2006

Analyse af binære responsvariable

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Faculty of Health Sciences. Basal statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 1. april 2019

Effektmålsmodifikation

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Logistisk regression

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Statistik Lektion 4. Variansanalyse Modelkontrol

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Løsning til opgave i logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Effektmålsmodifikation

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Logistisk regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

REEKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Løsning til øvelsesopgaver dag 4 spg 5-9

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Module 4: Ensidig variansanalyse

Statistik II 1. Lektion. Analyse af kontingenstabeller

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

1 Regressionsproblemet 2

1 Hb SS Hb Sβ Hb SC = , (s = )

Eksamen i Statistik og skalavalidering

Logistisk Regression - fortsat

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Synopsis til eksamen i Statistik

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Opgavebesvarelse, logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistiske Modeller 1: Kontingenstabeller i SAS

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Logistisk regression

Uge 13 referat hold 4

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Transkript:

Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression III Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/survival2011

Program for dag 4 Repetition to kategoriske variable: Den additive model Interaktion En kontinuert variabel Interaktion mellem en kategorisk og en kontinuert variabel Forsinket indgang Proportional hazards antagelsen Stratificering Modelkontrol : Simple grafiske metoder Gennemgående eksempel: Leukæmi patienter i remission. Dagens gennemgang svarer til Kleinbaum & Klein rest kapitel 3, kapitel 4 (I-V) og kapitel 5. 2 / 44

To kategoriske variable Vi ønsker at beskrive effekten af behandling justeret for (kategoriseret) logwbc. Cox modellen bliver 1 placebo, logwbc i < 2.37 exp(β 2 ) placebo, logwbc i [2.37; 3.23) exp(β 3 ) placebo, logwbc i 3.23. λ i (t) = λ 0 (t) exp(β 1 ) behandling, logwbc i < 2.37 exp(β 1 + β 2 ) behandling, logwbc i [2.37; 3.23) exp(β 1 + β 3 ) behandling, logwbc i 3.23. = λ 0 (t) exp(β 1 behandling i + β 2 {WBC-grp 2} i + β 3 {WBC-grp 3} i ) Fortolkning af regressionsparametrene: exp(β 1 ) er HR for behandling vs placebo for fastholdt WBC. exp(β 2 ) er HR for WBC-gruppe 2 vs WBC-gruppe 1 for fastholdt behandling. Tilsvarende for exp(β 3 ). 3 / 44

Den additive model Vi kan illustrere modellen i følgende tabel på log-hazard-skalaen: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 β 1 + β 3 Forskellen mellem placebo og behandling er den samme for hvert niveau af logwbc-gruppe. Forskellen mellem logwbc-grupperne er den samme for hver behandlingsgruppe. Denne model kaldes også den additive model. 4 / 44

Interaktion mellem kategoriske variable Den additive model Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 β 1 + β 3 forudsætter, at der ikke er interaktion (vekselvirkning). Interaktionsmodellen tillader at effekten af behandling afhænger af logwbc: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 + β 4 β 1 + β 3 + β 5 dvs. en model hvor parametrene varierer fuldstændigt frit. 5 / 44

En kontinuert forklarende variabel Cox-modellen med WBC som kontinuert forklarende variabel er λ i (t) = λ 0 (t) exp(βwbc i ). Sammenlignes to patienter med en forskel på 1 i WBC, når det laveste er referencen, fås HR = λ 0(t) exp(β(wbc + 1) λ 0 (t) exp(βwbc) = exp(β). Dvs fortolkningen er : for hver gang WBC øges med 1, skal HR ganges med exp(β). 6 / 44

Log-hazard for en kontinuert variabel Cox-modellen på log-hazard-skala lyder log(λ i (t)) = log(λ 0 (t)) + βwbc i dvs. effekten af WBC er lineær på log-hazard-funktionen: baseline log hazard 0 2 4 6 8 10 0 50 100 150 WBC 7 / 44

logwbc som forklarende variabel Sidst nåede vi frem til Cox modellen som inkluderer WBC på log-skala. Vi fandt: > cox10<-coxph(surv(time,event) ~ logwbc) > summary(cox10) Call: coxph(formula = Surv(time, event) ~ logwbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) logwbc 1.646 5.189 0.298 5.525 3.29e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 logwbc 5.188 0.1927 2.893 9.304 Concordance= 0.809 (se = 0.062 ) Rsquare= 0.564 (max possible= 0.988 ) Likelihood ratio test= 34.84 on 1 df, p=3.577e-09 Wald test = 30.53 on 1 df, p=3.294e-08 Score (logrank) test = 36.62 on 1 df, p=1.433e-09 8 / 44

Fortolkning af effekten af WBC på log-skala HR øges med en faktor 5.189 for hver gang logwbc øges med 1. Hvad betyder det? det vil sige at 1 = log(wbc 1 ) log(wbc 2 ) = log( WBC 1 WBC 2 ) WBC 1 WBC 2 = exp(1) = 2.72. Dermed er fortolkningen, at HR øges med en faktor 5.189 for hver gang WBC øges med en faktor 2.72. Løsning: Brug logaritme med base 2 i stedet. 9 / 44

Cox-modellen med log 2 (WBC) > log2wbc<-log2(exp(logwbc)) > cox11<-coxph(surv(time,event) ~ log2wbc) > summary(cox11) Call: coxph(formula = Surv(time, event) ~ log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) log2wbc 1.1412 3.1306 0.2066 5.525 3.29e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 log2wbc 3.131 0.3194 2.088 4.693 Concordance= 0.809 (se = 0.062 ) Rsquare= 0.564 (max possible= 0.988 ) Likelihood ratio test= 34.84 on 1 df, p=3.577e-09 Wald test = 30.53 on 1 df, p=3.294e-08 Score (logrank) test = 36.62 on 1 df, p=1.433e-09 Ved en fordobling af WBC øges HR med en faktor 3.13 (95% KI 2.09-4.69). Eller : risikoen for tilbagefald mere end 3-dobles ved en fordobling af WBC. Bemærk at teststørrelserne og p-værdierne er uændrede. 10 / 44

En binær og en kontinuert forklarende variabel Vi kan nu vurdere effekten af behandling justeret for log 2 WBC. Modellen lyder på log-hazard skalaen log(λ i (t)) = log(λ 0 (t)) + β 1 behandling i + β 2 log 2 (WBC i ) dvs. effekten af log 2 WBC er lineær på log-hazard-funktionen, men vi tillader forskelligt niveau (intercept) afhængigt af behandlingsgruppe: baseline log hazard 0 2 4 6 8 Placebo Behandling 0 2 4 6 8 log2wbc 11 / 44

En binær og en kontinuert forklarende variabel i R > treatment<-1-placebo > cox12<-coxph(surv(time,event) ~ factor(treatment)+log2wbc) > summary(cox12) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-1.3861 0.2501 0.4248-3.263 0.0011 ** log2wbc 1.1720 3.2286 0.2328 5.034 4.8e-07 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 factor(treatment)1 0.2501 3.9991 0.1088 0.5749 log2wbc 3.2286 0.3097 2.0456 5.0955 Concordance= 0.852 (se = 0.062 ) Rsquare= 0.671 (max possible= 0.988 ) Likelihood ratio test= 46.71 on 2 df, p=7.187e-11 Wald test = 33.6 on 2 df, p=5.061e-08 Score (logrank) test = 46.07 on 2 df, p=9.921e-11 12 / 44

Interaktion mellem binær og kontinuert variabel Interaktionsmodellen lyder (med placebo som baseline) λ i (t) = { λ0 (t) exp(β 1 + β 2 log 2 WBC i ) hvis i får 6MP λ 0 (t) exp( β 3 log 2 WBC i ) hvis i får placebo svarende til at vi har to ikke-parallelle linier på log-hazard-skalaen: baseline log hazard 0 2 4 6 8 Placebo Behandling 0 2 4 6 8 log2wbc 13 / 44

Fortolkning af interaktionen λ i (t) = { λ0 (t) exp(β 1 + β 2 log 2 WBC i ) hvis i får 6MP λ 0 (t) exp( β 3 log 2 WBC i ) hvis i får placebo I denne model er HR for behandling vs placebo: exp(β 1+β 2log 2 WBC) exp(β 3log 2 WBC) log 2 WBC+1 vs log 2 WBC: exp(β 1+β 2(log 2 WBC+1)) exp(β 1+β 2log 2 WBC) exp(β 3(log 2 WBC+1)) exp(β 3log 2 WBC) = exp(β 1 + (β 2 β 3 )log 2 WBC) = exp(β 2 ) hvis behandlet = exp(β 3 ) hvis placebo. Dvs: Effekten af behandling afhænger af WBC. Effekten af WBC afhænger af behandlingsgruppe. 14 / 44

Interaktion mellem binær og kontinuert variabel I interaktionsmodellen λ i (t) = { λ0 (t) exp(β 1 + β 2 log 2 WBC i ) hvis i får 6MP λ 0 (t) exp( β 3 log 2 WBC i ) hvis i får placebo (1) lyder hypotesen om manglende interaktion H 0 : β 2 = β 3. Vi kan omparameterisere modellen til λ i (t) = { λ0 (t) exp(β 1 + β 2 log 2 WBC i ) hvis i får 6MP λ 0 (t) exp( (β 2 + β 3 ) log 2 WBC i ) hvis i får placebo (2) hvorved hypotesen lyder H 0 : β 3 = 0. 15 / 44

Illustration af interaktion vs den additive model baseline log hazard 2 0 2 4 6 Placebo Behandling Placebo H_0 Behandling H_0 0 1 2 3 4 5 logwbc På log-hazard-skalaen svarer manglende interaktion (H 0 ) til parallelle linier. 16 / 44

Interaktionsmodellen i R Model (1): > cox13<-coxph(surv(time,event) ~ factor(treatment)+factor(treatment):log2wbc) > summary(cox13) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + factor(treatment):log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-2.37491 0.09302 1.70547-1.393 0.164 factor(treatment)0:log2wbc 1.07777 2.93812 0.27633 3.900 9.61e-05 *** factor(treatment)1:log2wbc 1.29786 3.66145 0.31289 4.148 3.35e-05 *** --- Model (2): > cox14<-coxph(surv(time,event) ~ factor(treatment)+log2wbc+factor(treatment)*log2wbc) > summary(cox14) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc + factor(treatment) * log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-2.37491 0.09302 1.70547-1.393 0.164 log2wbc 1.07777 2.93812 0.27633 3.900 9.61e-05 *** factor(treatment)1:log2wbc 0.22009 1.24619 0.36445 0.604 0.546 --- 17 / 44

Flere variable Vi kan vurdere effekten af behandling justeret for køn og logwbc: > cox15<-coxph(surv(time,event) ~ factor(treatment)+log2wbc+factor(female)) > summary(cox15) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc + factor(female)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-1.5036 0.2223 0.4615-3.258 0.00112 ** log2wbc 1.1658 3.2086 0.2333 4.997 5.82e-07 *** factor(female)1 0.3147 1.3698 0.4545 0.692 0.48872 --- Hvad er baselinegruppen i denne model? Hvilken model skal vi vælge som den endelige model? 18 / 44

Forsinket indgang Kun de individer, for hvilken en hændelse er indtruffet, bliver observeret. Eksempel: Vedligeholdelsesbehandling af børn med leukæmi. 0 Start VB Tid 0 er diagnosedatoen, men patienterne starter ikke vedligeholdelsesbehandlingen samtidigt. 19 / 44

Illustration af forsinket indgang Vedligeholdelsesbehandling af ALL Patient 1 2 3 4 5 6 7 8 9 10 365 730 1095 År siden diagnose 20 / 44

Håndtering af forsinket indgang For hvert dødstidspunkt t i holdes øje med risikomængden R(t i ) (mængden af patienter under risiko for død umiddelbart før t i ). Udtrykket for den partielle likelihood for Cox-modellen er uændret L(β) = k i=1 exp(βx i ) j R(t i ) exp(βx j), men forskellen er, at patienterne tillades at træde ind og ikke kun ud af studiet på forskellige tidspunkter. Tilsvarende for Kaplan-Meier-estimatoren. Forsinket indgang er let at styre i R, idet vi definerer vores respons ved: Surv(indgang,udgang,event). 21 / 44

Cox modellens antagelser Den generelle Cox model er λ i (t) = λ 0 (t) exp(β 1 X i1 + β 2 X i2 + + β p X ip ) når vi inkluderer p forklarende variable i modellen. Antagelserne er 1) effekten af de forklarende variable er additiv og lineær på log-hazard-skalaen 2) kun baseline hazard afhænger af tiden t, dvs. at den relative risiko imellem to individer er konstant over tid (proportional hazards). Vi er nødt til at kontrollere om disse antagelser er rimelige. Sidst så vi på 1) og vi vil nu gå videre med 2). 22 / 44

Proportionale hazards med én forklarende variabel For Cox-modellen indeholdende én forklarende variabel λ i (t) = λ 0 (t) exp(βi(patient i behandlet)) er proportionalitetsantagelsen at hazard ratio for i behandlet vs j placebo λ i (t) λ j (t) = exp(β) ikke afhænger af tiden t dvs. at λ i (t) λ j (t) med mindre f er en konstant. f (t) 23 / 44

PH med flere forklarende variable For den generelle Cox-model indeholdende flere forklarende variable λ i (t) = λ 0 (t) exp(β 1 X i1 + β 2 X i2 +... + β p X ip ) er proportionalitetsantagelsen at hazard ratio mellem individ i og j er konstant λ i (t) λ j (t) = exp(β 1 (X i1 X j1 ) +... + β p (X ip X jp )), dvs. ikke afhænger af tiden t. Bemærk at dette svarer til at vi skal have PH mellem grupper for de kategoriske variable. 24 / 44

Et eksempel på en stratificeret model Vedligeholdelsesbehandling af børn med ALL, stratificeret på risikogruppe. Intermediær risiko Standard risiko hazard rate 2 1 0 1 2 3 4 5 6 År siden ophør af vedligeholdelsesbehandling 25 / 44

Hvorfor bekymre sig om PH-antagelsen? Det er vigtigt at undersøge proportionalitetsantagelsen: Hvis PH ikke er opfyldt vil estimatet fra Cox regressionen være en gennemsnitlig effekt over tid. Hvis vi ikke tager højde for en eventuel tidsafhængig effekt kan der opstå bias for nogle af de øvrige estimerede effekter i modellen. Det kan være vigtigt at forstå, hvordan effekten varierer over tid, idet det kan gøre os klogere på de mekanismer, som genererer data. I nogle sammenhænge kan den gennemsnitlige effekt dog være en interessant / acceptabel beskrivelse af effekten - men det er vigtigt at kende til konkvenserne af at ignorere en tidsafhængig effekt. 26 / 44

Manglende PH med en forklarende variabel Når Cox-modellen indeholdende én forklarende variabel λ i (t) = { λ0 (t) hvis i får placebo λ 0 (t) exp(β) hvis i får behandling ikke er rimelig er en mulighed at lade hazarden variere fuldstændigt frit i hver kategori λ i (t) = { λ01 (t) hvis i får placebo λ 02 (t) hvis i får behandling Vi har nu ingen model og må estimere hazarden (snarere overlevelseskurverne) vha Kaplan-Meier metoden. Kategorierne kaldes nu for strata (ental: stratum). 27 / 44

Manglende PH med to forklarende variable Cox-modellen med behandling og log 2 WBC lyder λ i (t) = λ 0 (t) exp(β 1 I(patient i behandlet) + β 2 log 2 WBC i ). Antag at PH kun er opfyldt for log 2 WBC, dvs at λ i (t) λ j (t) = exp(β 2 (log 2 WBC i log 2 WBC j )) for fastholdt behandlingsgruppe mens λ i (t) λ j (t) = f (t) exp(β 1 ). for fastholdt WBC. En mulig løsning er at stratificere på behandlingsgruppe: 28 / 44 λ i (t) = { λ01 (t) exp(β log 2 (WBC)) hvis i får placebo λ 02 (t) exp(β log 2 (WBC)) hvis i får behandling

Stratificering Den generelle stratificerede model lyder λ i (t) = λ 0k (t) exp(β 1 X i1 + β p X ip ) hvor hvert strata k = 1,..., K har sin egen baseline hazard. Bemærk at der ikke er interaktion mellem strata-variablen og de øvrige variable (bør undersøges). Fordele og ulemper ved stratificering: 29 / 44 Nyttigt når vi er nødt til at inkludere nuisance variable i modellen og er ligeglade med at beskrive effekten af variablene. Ikke hensigtsmæssigt hvis variablen er af primær interesse (eg. behandling). Vi kan ikke teste om strata-variablen har en effekt på overlevelsen.

Den stratificerede Cox-model i R I R angives en strata-variabel vha strata: > cox14<-coxph(surv(time,event) ~ strata(treatment)+log2wbc) > summary(cox14) Call: coxph(formula = Surv(time, event) ~ strata(treatment) + log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) log2wbc 1.0514 2.8616 0.2226 4.723 2.32e-06 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 log2wbc 2.862 0.3495 1.85 4.427 Concordance= 0.814 (se = 0.098 ) Rsquare= 0.467 (max possible= 0.962 ) Likelihood ratio test= 26.45 on 1 df, p=2.71e-07 Wald test = 22.31 on 1 df, p=2.32e-06 Score (logrank) test = 26.15 on 1 df, p=3.152e-07 30 / 44

Simpel grafisk modelkontrol Observeret (KM) vs forventet (Cox) overlevelse: Behandling Grupperet WBC 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35 Køn 0.0 0.2 0.4 0.6 0.8 1.0 OBS! 0 5 10 15 20 25 30 35 Jævnfør øvelserne dag 2. 31 / 44

Grafisk modelkontrol via log(-log(overlevelse)) For Cox-modellen er overlevelseskurven givet den forklarende variabel X i = I(patient i behandlet) { S(t X i ) = S 0 (t) exp(βx i) S0 (t) = exp(β) hvis i får behandling S 0 (t) hvis i får placebo. Det betyder at log( log(s(t X i ))) = log( log(s 0 (t))) + βx i svarende til at differensen log( log(s(t X i ))) log( log(s(t X j ))) = β(x i X j ) mellem to individer i og j ikke afhænger af tiden t, dvs at overlevelseskurverne er parallelle som funktion af t. log(-log( ))-funktionen kaldes også for cloglog-funktionen. 32 / 44

cloglog-kurver for kategoriske variable Med kategoriske forklarende variable kan vi estimere overlevelseskurven for hvert niveau af variablen ved Kaplan-Meier-kurven og plotte log(-log(s))-kurverne i ét plot: Behandling logwbc 2.0 1.0 0.0 1.0 Placebo Behandling 2.5 1.5 0.5 0.5 Lav Mellem Høj 1 2 5 10 20 1 2 5 10 20 Køn 3.0 2.0 1.0 0.0 Mand Kvinde OBS! Bemærk log-skala på x-aksen (default i R). 1 2 5 10 20 33 / 44

Simultan evaluering af PH-antagelsen Vi bør evaluere PH-antagelsen simultant (samtidigt) når vi har flere forklarende variable. Kategoriser de kontinuerte og se på cloglog-kurverne for alle kombinationer af de forklarende variable: 2.0 1.0 0.0 1 2 5 10 20 Uoverskueligt med flere variable. Nogle strata har meget få events, hvorfor det bliver svært at sammenligne kurverne. 34 / 44

Simultan evaluering af PH vha Cox-modellen Vi kan kontrollere PH-antagelsen for én variabel i en Cox model, hvor vi har justeret for de øvrige variable: 1) Stratificér Cox-modellen på variablen, for hvilken PH skal kontrolleres. 2) Estimér de justerede overlevelseskurver for hvert stratum. Disse afhænger af de øvrige kovariatværdier vælg eventuelt gennemsnitlige / median værdier. 3) Plot cloglog-kurver for hvert stratum som funktion af t (evt log(t)) og vurdér om linierne er parallelle. Udfør 1)-3) for alle variablene. Derved kan vi vurdere, om der skal stratificeres på en eller flere variable. 35 / 44

Justerede cloglog-kurver i R Vi vil vurdere PH for køn i remissionsdata. Den stratificerede model inkluderende alle variable lyder: λ i (t) = { λ01 (t) exp(β 1 beh i + β 2 log 2 WBC i ) hvis i er mand λ 02 (t) exp(β 1 beh i + β 2 log 2 WBC i ) hvis i er kvinde. hvor beh i =1 hvis i er behandlet, 0 ellers. I R fittes modellen, overlevelseskurverne bestemmes og cloglog-kurverne plottes med: cox15<-coxph(surv(time,event) ~ strata(female)+factor(treatment)+log2wbc) surv15<-survfit(cox15,newdata=data.frame(treatment=0,log2wbc=mean(log2wbc))) plot(surv15,fun="cloglog",lty=1:2,lwd=2) 36 / 44

Proportionalitetsantagelsen for køn er stadig ikke opfyldt: 3 2 1 0 1 1 2 5 10 20 37 / 44

Mulige løsninger på manglende PH Der kan tages højde for afvigelse fra PH-antagelsen på følgende måder: 1) Stratificering. 2) Benyt en anden model (e.g. Accelerated Failure Time, additiv hazard model). 3) Inddeling af tidsaksen. Måske holder PH-antagelsen over mindre tidsintervaller. Lav separate analyser. 38 / 44

4) Vi kan acceptere Cox-modellen med en tidsafhængig effekt λ i (t) = λ 0 (t) exp(β(t)x i ) og forsøge at beskrive denne effekt ved at tilføje en tidsafhængig version af X. F.eks. kan vi formulere en tidsafhængig effekt ved β 1 X 1 + β 2 X 2 (t) = { β1 X 1 t < 1 år (β 1 + β 2 )X 1 t 1 år hvor X 2 (t) = X 1 I(t 1 år) er den tidsafhængige variabel. 39 / 44

4) Fortsat: Måske øges / reduceres effekten lineært med tiden svarende til modellen λ i (t) = λ 0 (t) exp(β(t)x i ) = λ 0 (t) exp((β 1 + β 2 t)x i ) som kan beskrives vha. den tidsafhængige variabel X 2 (t) = t X β 1 X + β 2 X 2 (t) = β 1 X + β 2 tx = (β 1 + β 2 t)x. For at kunne formulere en sådan model er vi nødt til at undersøge hvordan den tidsafhængige effekt ser ud. (Vi undersøger dette næste gang vha. residualer). Håndteringen af tidsafhængige variable i R kræver lidt programmering (men er principielt simpelt nok). Se KK kapitel 6. 40 / 44

Øvelser PBC-data (Primary Biliary Cirrhosis). Vi vil her forsøge at beskrive risikoen for død (status=2) vha følgende forklarende variable: Alder, køn, edema, bilirubin, prothrombin time, albumin. 1) Aktivér datasættet pbc i survival-pakken. Find eventuelt beskrivelser af dette datasæt ved at søge på nettet. 2) Formulér en passende model: Overvej i hvilken form de kontinuerte variable skal inkluderes. Vurdér hvordan edema skal inkluderes (lav evt. et trendtest). 3) Afhænger effekten af edema af køn? 4) Afhænger effekten af de kontinuerte variable af køn? Kan man forestille sig andre mulige interaktioner? I så fald, udfør et passende test. 41 / 44

5) Lav et overall test for effekten af bilirubin, prothrombin og albumin. 6) Prøv at formulere (i ord), hvad modellen fortæller. Når du beskriver effekten af bilirubin, så giv et estimat for HR for en patient med bili=3.4 vs bili=0.8 (ens på de øvrige variable). Disse tal er fundet ved kommandoen quantile(bili,c(.25,.75)) Hvad beskriver denne HR? Find også et KI. (Beregn det selv i hånden. Kan du ikke huske regnereglerne, se evt. vink til øvelserne fra sidste gang, TTP spg 4). Hvor meget større er risikoen for en patient, som er et årti ældre end en anden patient (men sammenlignelig på de øvrige variable)? Bestem et KI. 7) Kontroller PH-antagelsen for alle variablene. 42 / 44

Akut Lymfoblastær Leukæmi: I 1992-1996 blev 538 nordiske børn med ALL randomiseret til traditionel vedligeholdelsesbehandling (VB) eller pharmakologisk baseret VB. Vi har her nogle data til rådighed for 468 af børnene med oplysninger om st sl recidiv pige kontrol wbc tpmtsnit start på VB EOF i dage 1=recidiv, 0 ellers 1=pige, 0=dreng 1=traditionel, 0=pharmakologi wbc ved diagnose gennemsnit TPMT-værdi (aktivitet af enzym) Data ligger på kursushjemmesiden i ALL.csv. 1) Formuler en model og kontroller den (dvs check PH, linearitet og vekselvirkninger). Er der nogle sammenhænge i disse data, som man ikke umiddelbart ville forvente? 43 / 44

2) Kør den model, du er nået frem til, stratificeret på risikogruppe. Test om effekten af tpmtsnit er den samme over de tre strata. 3) Sammenlign resultaterne med Schmiegelow et al., JCO (2003), som kan hentes som pdf fra http://pubget.com/paper/12663723. Fit din model med den samme parameterisering af køn og randomiseringsgruppe. Hvorfor tror du, at man har valgt netop denne parameterisering? 44 / 44