Introduktion til overlevelsesanalyse



Relaterede dokumenter
Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse

Overlevelsesanalyse. Faculty of Health Sciences

Introduktion til overlevelsesanalyse

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Dag 6: Interaktion. Overlevelsesanalyse

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Lineær og logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II 4. Lektion. Logistisk regression

Opgavebesvarelse vedr. overlevelsesanalyse

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Introduktion til R. Faculty of Health Sciences

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Morten Frydenberg Biostatistik version dato:

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Morten Frydenberg 26. april 2004

Introduktion til overlevelsesanalyse

Morten Frydenberg 14. marts 2006

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Multipel Lineær Regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Eksamen Efterår 2013

Analyse af binære responsvariable

Logistisk regression

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

MPH specialmodul Epidemiologi og Biostatistik

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Logistisk Regression - fortsat

Statistiske Modeller 1: Kontingenstabeller i SAS

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Logistisk regression

Opgavebesvarelse, logistisk regression

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Uge 13 referat hold 4

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik Lektion 16 Multipel Lineær Regression

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Postoperative komplikationer

Opgavebesvarelse vedr. overlevelsesanalyse

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Skriftlig eksamen Science statistik- ST501

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Løsning til øvelsesopgaver dag 4 spg 5-9

MPH specialmodul Epidemiologi og Biostatistik

Løsning til opgave i logistisk regression

Lineær regression i SAS. Lineær regression i SAS p.1/20

Statistik og skalavalidering. Opgave 1

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Synopsis til eksamen i Statistik

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Statistik Lektion 4. Variansanalyse Modelkontrol

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Konfidensintervaller og Hypotesetest

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

1 Regressionsproblemet 2

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

1 Multipel lineær regression

Dynamisk statistisk modellering af vedligeholdelsesbehandling af børn med akut lymfoblastær leukæmi

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Forelæsning 11: Kapitel 11: Regressionsanalyse

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Opgavebesvarelse, Basalkursus, uge 3

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

8.2 Statistiske analyse af hver enkelt indikator

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

1 Multipel lineær regression

Kvantitative metoder 2

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2. Jon K. Bjerregaard

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Tema. Dagens tema: Indfør centrale statistiske begreber.

Logistisk regression

Transkript:

Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/survival2011

Program for dag 2 Hazard funktionen Cox Proportional Hazards model En binær variabel En kategorisk variabel To kategoriske variable Interaktion mellem to kategoriske variable Gennemgående eksempel: Leukæmi patienter i remission. Dagens gennemgang svarer til Kleinbaum & Klein kapitel 3 (som dog ser på en binær og en kontinuert variabel). 2 / 43

Remission data Freirich et al. (1963). The effect of 6-mercaptopurine on the duration of remission time of steroid induced remission in acute leukaemia. Blood. Vi har set, at der er forskel på remissionstid afhængigt af behandling logwbc ved baseline køn. Vi så sidst, at logwbc var højere for patienter i placebogruppen end behandlingsgruppen. Kan dette forklare forskellen på de to de to behandlingsgrupper? 3 / 43

Hazardfunktionen Hazardfunktionen (eller hazard raten / intensitet): λ(t) P(t T < t + h T t) h hvor sandsynligheden i tælleren læses: Den betingede sandsynlighed for at dø i det næste lille tidsinterval (t + h) givet i live ved begyndelsen af intervallet (t). 0 t t + h Hazardfunktion giver en lokal beskrivelse af risikoen for død. 4 / 43

Sammenhæng mellem overlevelses- og hazardfkt. Der er en en-til-en relation mellem overlevelses- og hazardfunktionen: hvor S(t) = exp( Λ(t)) Λ(t) = t 0 λ(s)ds er den integrerede hazard funktion (kumulativ hazard eller kumulativ intensitet). Overlevelsesfunktionen giver en kumulativ beskrivelse af risikoen for død. Den integrerede hazard funktion har ikke nogen simpel fortolkning, men er nyttig i forbindelse med modelkontrol. 5 / 43

Konstant hazard funktion Den simpleste model for overlevelsesdata er modellen med konstant hazard, λ(t) = λ for λ > 0. Den kumulative hazard er Λ(t) = t 0 λ(s)ds = t 0 λds = λ t og dermed er overlevelsesfunktionen S(t) = exp( λt). Denne model kaldes den eksponentielle overlevelsesmodel. 6 / 43

Den eksponentielle overlevelsesmodel Eksponentialfordelingen, e.g. tid til død for rask population. λ(t) = λ S(t) = exp( λt) Hazard 0.000 0.002 0.004 0.006 Overlevelsessandsynlighed 0.0 0.2 0.4 0.6 0.8 1.0 0 50 100 150 200 0 50 100 150 200 Tid Tid Λ(t) = λt Integreret hazard 0.00 0.05 0.10 0.15 0.20 0 50 100 150 200 7 / 43 Tid

Andre eksempler på hazardfunktioner Non responderende leukæmipatienter At komme sig efter operation Tid (t) Tid (t) Død af tuberkulose 8 / 43 Tid (t)

Cox regression Regressionsmodeller er nyttige når vi ønsker at beskrive effekten af flere variable på levetiden. Regressionsmodeller for overlevelsesdata formuleres typisk via hazard funktionen. Langt den vigtigste er Cox modellen. Lad X i = (X i1, X i2,..., X ip ) være en liste af kovariatværdier for individ i. Cox modellen specificerer hazarden for individ i ved λ i (t) = λ 0 (t) exp(β 1 X i1 + β 2 X i2 + + β p X ip ). Når alle kovariater (X er) er 0 får vi baseline hazard λ i (t) = λ 0 (t). Fortolkning: Baseline hazarden er hazarden for et individ med alle kovariatværdier lig 0. 9 / 43

Proportional Hazards (PH) Cox modellen: λ i (t) = λ 0 (t) exp(β 1 X i1 + β 2 X i2 + + β p X ip ). For to individer, i og j, er forholdet mellem hazards (hazard ratio (HR) eller relativ risiko) λ i (t) λ j (t) = exp(β 1 (X i1 X j1 ) + + β p (X ip X jp )) dvs. denne afhænger ikke af t. Dette er PH-antagelsen. Ingen antagelser på λ 0 (t) - det primære er regressionsparametrene (β 1,..., β p ). Modellen siges derfor at være semiparametrisk. 10 / 43

Eksempel på hazardkurve og HR er Børn med Akut Lymfoblastær Leukæmi i vedligeholdelsesbehandling diagnosticeret 1992-1996 (Schmiegelow et al., JCO 2003). Hazard for intermediær risikogruppe, tid til recidiv: hazard rate 0.000 0.004 0.008 0.012 0.016 0.020 HR=2 HR=0.5 HR=3 Baseline hazard 2 1 0 1 2 3 4 5 6 11 / 43 Years since cessation of therapy

Endnu en egenskab ved Cox modellen Cox modellen er λ i (t) = λ 0 (t) exp(β 1 X i1 + β 2 X i2 + + β p X ip ) og kan derfor skrives på (naturlig) log-skala log(λ i (t)) = log(λ 0 (t) exp(β 1 X i1 + β 2 X i2 + + β p X ip )) = log(λ 0 (t)) + β 1 X i1 + β 2 X i2 + + β p X ip. Det betyder, at Cox-modellen forudsætter at effekten af kovariaterne er additiv og lineær på log-hazard-skalaen. 12 / 43

Antagelser for Cox-modellen En opsummering af de antagelser som ligger til grund for Cox modellen λ i (t) = λ 0 (t) exp(β 1 X i1 + β 2 X i2 + + β p X ip ) : baseline hazard kan variere frit, dvs. ikke-parametrisk kun baseline hazard afhænger af tiden t effekten af kovariater er additiv og lineær på log-hazard-skalaen den relative risiko imellem to individer er konstant over tid (proportional hazards). Vi er nødt til at kontrollere om disse antagelser er rimelige. Meget mere om dette senere. 13 / 43

KM-plot for begge behandlingsgrupper 0.0 0.2 0.4 0.6 0.8 1.0 Behandling Placebo 0 5 10 15 20 25 30 35 Tid (uger) Hvad er HR mellem placebo og behandling? 14 / 43

Simpel Cox-model for remissionsdata Én binær kovariat for remissionsdata: X i = { 0 hvis individ i får placebo 1 hvis individ i får behandling. Cox modellen er λ i (t) = λ 0 (t) exp(βx i ) = { λ0 (t) hvis i får placebo λ 0 (t) exp(β) hvis i får behandling. Hazard ratio (relativ risiko) mellem placebo og behandling er λ 0 (t) exp(β) λ 0 (t) = exp(β). 15 / 43

Fortolkning af regressionsparameteren Hazard ratio: λ 0 (t) exp(β) λ 0 (t) = exp(β). Sandsynligheden for at en behandlet patient får tilbagefald er exp(β) gange sandsynligheden for at en ubehandlet patient får tilbagefald til ethvert tidspunkt. HR < 1 (β < 0) : Behandlede får sjældnere tilbagefald end ubehandlede HR = 1 (β = 0) : Behandlede og ubehandlede har samme risiko HR > 1 (β > 0) : Behandlede får oftere tilbagefald end ubehandlede. Fortolkningsmæssigt er vi interesserede i HR=exp(β). Vi har brug for et estimat af β for at få et estimat af HR. 16 / 43

Cox s (partielle) Likelihood Funktion Lad t 1,..., t k være de ordnede observerede levetider. Det kan vises, at vi får det bedste bud på β ved at finde det β som maksimaliserer den partielle likelihood L(β) = k exp(βx j ) h R(t j ) exp(βx h) j=1 hvor R(t j ) er risikomængden til tid t j, dvs. mængden af individer under risiko for død umiddelbart før tid t i (jvf Y(t j ) som var antallet under risiko umiddelbart før t i ). Vi har brug for et statistikprogram for at maksimere likelihoodfunktionen. Det tilhørende estimat β kaldes maximum likelihood estimatet for β. 17 / 43

Cox-regression i R Cox-regression i R laves med pakken survival. Vi får brug for følgende funktioner: Surv : Laver survivalobjekter (=responsen). coxph : Fitter Cox-regression. summary : Giver output for den fittede Cox-model. 18 / 43

Remissionsdata Data: > head(rdata) time event sex logwbc placebo 1 35 0 1 1.45 0 2 34 0 1 1.47 0 3 32 0 1 2.20 0 4 32 0 1 2.53 0 5 25 0 1 1.78 0 6 23 1 1 2.57 0 > table(placebo) placebo 0 1 21 21 19 / 43

Simpel Cox-model i R for remissionsdata > cox1<-coxph(surv(time,event) ~ placebo) > summary(cox1) Call: coxph(formula = Surv(time, event) ~ placebo) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) placebo 1.5721 4.8169 0.4124 3.812 0.000138 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 placebo 4.817 0.2076 2.147 10.81 Concordance= 0.69 (se = 0.053 ) Rsquare= 0.322 (max possible= 0.988 ) Likelihood ratio test= 16.35 on 1 df, p=5.261e-05 Wald test = 14.53 on 1 df, p=0.0001378 Score (logrank) test = 17.25 on 1 df, p=3.283e-05 Her er coef = β = 1.5721. HR=exp(coef)=exp( β) = 4.82. Dvs den estimerede model er λ i (t) = λ 0 (t) exp(1.5721 X i ). 20 / 43

Konfidensinterval og test Et 95% konfidensinterval (KI) for β får vi som β ± 1.96 SE( β), hvor SE( β) = Standard Error af β. Fra R-output finder vi 1.5721 ± 1.96 0.4124 = (0.76, 2.38). Et 95%-KI for HR=exp( β) =4.8169 får vi ved at tage eksponentialfunktionen til dette, (2.15, 10.81). Et Wald test for hypotesen H 0 : β = 0 (HR=1) er: Z = β 1.5721 = SE( β) 0.4124 = 3.81 approx N (0, 1). 21 / 43

Alternativ Cox-model i R for remissionsdata Ønsker vi i stedet placebogruppen som baselinegruppe: > treatment<-1-placebo > cox2<-coxph(surv(time,event) ~ treatment) > summary(cox2) Call: coxph(formula = Surv(time, event) ~ treatment) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) treatment -1.5721 0.2076 0.4124-3.812 0.000138 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 treatment 0.2076 4.817 0.09251 0.4659 Concordance= 0.69 (se = 0.053 ) Rsquare= 0.322 (max possible= 0.988 ) Likelihood ratio test= 16.35 on 1 df, p=5.261e-05 Wald test = 14.53 on 1 df, p=0.0001378 Score (logrank) test = 17.25 on 1 df, p=3.283e-05 Her er coef = β = -1.5721. HR=exp(coef)=exp(β) = 0.21. 22 / 43

Kategoriske variable Til øvelserne så vi på en kategoriseret version af logwbc for remissionsdata, f.eks. 1 logwbc i < 2.37 Z i = 2 2.37 logwbc i < 3.23 3 logwbc i 3.23. > table(logwbc3) logwbc3 1 2 3 14 14 14 23 / 43

KM-kurver for kategoriseret logwbc Vi så en monoton sammenhæng: 0.0 0.2 0.4 0.6 0.8 1.0 Lav Mellem Høj 0 5 10 15 20 25 30 35 LogRank-testet viste en signifikant forskel på grupperne (p<.0001). Kan vi kvantificere forskellen mellem grupperne? 24 / 43

Cox-model for kategoriseret logwbc Det er nyttigt at definere dummy -variable: V i = { 1 hvis Xi = 2 0 ellers og W i = { 1 hvis Xi = 3 0 ellers. Vi kan formulere Cox-modellen vha. dummy-variablene: λ i (t) = λ 0 (t) exp(β 1 V i + β 2 W i ) dvs. λ i (t) = λ 0 (t) logwbc i < 2.37 λ 0 (t) exp(β 1 ) logwbc i [2.37; 3.23) λ 0 (t) exp(β 2 ) logwbc i 3.23. Hvad er HR for gruppe 2 vs 1? Gruppe 3 vs 1? Gruppe 3 vs 2? 25 / 43

Cox med kategoriseret logwbc i R > v<-ifelse(logwbc3==2,1,0) > w<-ifelse(logwbc3==3,1,0) > > cox3<-coxph(surv(time,event)~v+w) > summary(cox3) Call: coxph(formula = Surv(time, event) ~ v + w) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) v 0.7749 2.1704 0.5095 1.521 0.128 w 2.3730 10.7298 0.5292 4.485 7.31e-06 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 v 2.17 0.4607 0.7996 5.891 w 10.73 0.0932 3.8034 30.270 Concordance= 0.743 (se = 0.058 ) Rsquare= 0.415 (max possible= 0.988 ) Likelihood ratio test= 22.54 on 2 df, p=1.275e-05 Wald test = 22.14 on 2 df, p=1.56e-05 Score (logrank) test = 28.35 on 2 df, p=6.979e-07 26 / 43

Kategoriske variable i R En klassevariabel kaldes også en faktor. R kan også håndtere faktorer, dvs. vi behøver ikke at definere dummy-variable for at fitte modellen: > cox4<-coxph(surv(time,event)~factor(logwbc3)) > summary(cox4) Call: coxph(formula = Surv(time, event) ~ factor(logwbc3)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(logwbc3)2 0.7749 2.1704 0.5095 1.521 0.128 factor(logwbc3)3 2.3730 10.7298 0.5292 4.485 7.31e-06 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 factor(logwbc3)2 2.17 0.4607 0.7996 5.891 factor(logwbc3)3 10.73 0.0932 3.8034 30.270 Concordance= 0.743 (se = 0.058 ) Rsquare= 0.415 (max possible= 0.988 ) Likelihood ratio test= 22.54 on 2 df, p=1.275e-05 Wald test = 22.14 on 2 df, p=1.56e-05 Score (logrank) test = 28.35 on 2 df, p=6.979e-07 27 / 43

Mere om kategoriske variable i R Bemærk at R vælger det laveste niveau af variablen som baselinegruppe. Når variablen består af tekst (f.eks køn som pige, dreng ) sorterer R alfabetisk. Vi kan selv definere baselinegruppen med relevel(): > logwbc3r<-relevel(factor(logwbc3),3) > cox4n<-coxph(surv(time,event)~logwbc3r) > summary(cox4n) Call: coxph(formula = Surv(time, event) ~ logwbc3r) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) logwbc3r1-2.3730 0.0932 0.5292-4.485 7.31e-06 *** logwbc3r2-1.5981 0.2023 0.4681-3.414 0.00064 *** ---...... 28 / 43

Parameterisering Den første model lød (når I() er en indikatorfunktion (0/1)) og den anden model λ i (t) = λ 0 (t) exp(β 1 I(Z i = 2) + β 2 I(Z i = 3)) (1) λ i (t) = λ 0 (t) exp( β 1 I(Z i = 1) + β 2 I(Z i = 2)). (2) Den anden model er en omparameterisering af den første. De estimerede effekter for hvert niveau af X: X Model (1) Model (2) 1. 0 β1-2.3730 2 β 1 0.7749 β2-1.5981 3 β 2 2.3730. 0 HR(3 vs 1) = exp(β 2 0) = exp(0 β 1 ), HR(2 vs 1) = exp(β 1 0) = exp( β 2 β 1 ) etc. 29 / 43

(Partielt) Likelihood Ratio test R giver Wald-tests for hver enkelt parameter samt et overall test for alle parametre på en gang. Nogle gange ønsker vi at lave andre tests, f.eks. H 0 : β 1 = β 2 > 0. Når en model er en simplificering af en anden, kan vi udføre et Likelihood Ratio test: LLR = -2log-likelihood(reduceret)-(-2log-likelihood(fuld)). Denne teststørrelse følger en χ 2 -fordeling med df= parametre (fuld) - parametre (reduceret). 30 / 43

Likelihood Ratio test i R Når vi har fittet en Cox-regression i R, kan vi hente log-likelihood ud vha $loglik: > cox4$loglik [1] -93.18427-81.91457 Her er første element log-likelihood (LL) for modellen helt uden kovariater, andet element for den fulde model. Vi slår gruppe 2 og 3 sammen (svarende til H 0 ) og henter LL: > logwbc2<-logwbc3; logwbc2[logwbc3==3]<-2 > cox4r<-coxph(surv(time,event)~factor(logwbc2)) > cox4r$loglik [1] -93.18427-88.02179 Beregner nu LLR og tilhørende p-værdi: > LLR<--2*(cox4r$loglik[2]-cox4$loglik[2]) > LLR [1] 12.21444 > p<-1-pchisq(llr,df=1) > p [1] 0.0004742102 31 / 43

To kategoriske variable Vi ønsker at beskrive effekten af behandling justeret for (kategoriseret) logwbc. Cox modellen bliver λ i (t) = λ 0 (t) exp(β 1 X i + β 2 I(Z i = 2) + β 3 I(Z i = 3)) Fortolkning af regressionparametrene: β 1 er effekten af behandling for fastholdt (givet) logwbc-gruppe. Effekten af behandling er den samme for alle niveauer af logwbc-gruppe. Tilsvarende er effekten af logwbc-gruppen den samme uanset behandlingsgruppe. HR for behandling vs placebo er exp(β 1 ) uanset logwbc-gruppe. HR for logwbc-gruppe 2 vs 1 er exp(β 2 ) uanset behandling. HR for logwbc-gruppe 3 vs 1 er exp(β 3 ) uanset behandling. 32 / 43

Den additive model Vi kan illustrere modellen i følgende tabel: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 β 1 + β 3 Forskellen mellem placebo og behandling er den samme for hvert niveau af logwbc-gruppe (β 1 ). Forskellen mellem logwbc-grupperne er den samme for hver behandlingsgruppe. Denne model kaldes også den additive model. 33 / 43

Den additive model i R På højre side af ~ i survfit inkluderes begge variable adskilt af +: > cox5<-coxph(surv(time,event)~treatment+factor(logwbc3)) > summary(cox5) Call: coxph(formula = Surv(time, event) ~ treatment + factor(logwbc3)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) treatment -1.4173 0.2424 0.4268-3.320 0.000899 *** factor(logwbc3)2 0.6757 1.9654 0.5145 1.313 0.189078 factor(logwbc3)3 2.2160 9.1707 0.5518 4.016 5.93e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 treatment 0.2424 4.1258 0.105 0.5595 factor(logwbc3)2 1.9654 0.5088 0.717 5.3875 factor(logwbc3)3 9.1707 0.1090 3.109 27.0475 Concordance= 0.812 (se = 0.061 ) Rsquare= 0.563 (max possible= 0.988 ) Likelihood ratio test= 34.8 on 3 df, p=1.341e-07 Wald test = 29.69 on 3 df, p=1.604e-06 Score (logrank) test = 39.9 on 3 df, p=1.12e-08 34 / 43

Interaktion mellem kategoriske variable Den additive model forudsætter, at der ikke er interaktion (vekselvirkning). Dette er en antagelse vi skal kontrollere. Vi definerer to interaktionsled ved V i = W i = { 1 Xi = 1 og Z i = 2 0 ellers { 1 Xi = 1 og Z i = 3 0 ellers Cox modellen med interaktionsled er λ i (t) = λ 0 (t) exp(β 1 X i + β 2 I(Z i = 2) + β 3 I(Z i = 3) + β 4 V i + β 5 W i ) 35 / 43

Parameterisering af interaktionsmodel Vi kan illustrere modellen i følgende tabel: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 + β 4 β 1 + β 3 + β 5 Bemærk at denne tabel svarer til omparameteriseringen Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β4 β5 dvs. en model hvor parametrene varierer fuldstændigt frit. 36 / 43

Test for interaktion Hypotesen om manglende interaktion lyder: H 0 : β 4 = β 5 = 0. Hypotesen kan testes ved et likelihood-ratio test, hvor teststørrelsen følger en χ 2 -fordeling med 2 frihedsgrader. 37 / 43

Interaktionsmodellen i R Interaktioner mellem 2 variable angives med en *: > cox6<-coxph(surv(time,event)~factor(treatment)*factor(logwbc3)) > summary(cox6) Call: coxph(formula = Surv(time, event) ~ factor(treatment) * factor(logwbc3)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment)1-2.1540 0.1160 0.8481-2.540 0.01109 * factor(logwbc3)2 0.4188 1.5201 0.6227 0.673 0.50125 factor(logwbc3)3 1.8200 6.1719 0.6191 2.940 0.00328 ** factor(treatment)1:factor(logwbc3)2 0.7183 2.0509 1.1096 0.647 0.51742 factor(treatment)1:factor(logwbc3)3 1.2261 3.4078 1.0434 1.175 0.23997 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 exp(coef) exp(-coef) lower.95 upper.95 factor(treatment)1 0.116 8.6193 0.02201 0.6116 factor(logwbc3)2 1.520 0.6578 0.44856 5.1516 factor(logwbc3)3 6.172 0.1620 1.83434 20.7666 factor(treatment)1:factor(logwbc3)2 2.051 0.4876 0.23306 18.0472 factor(treatment)1:factor(logwbc3)3 3.408 0.2934 0.44088 26.3407 Concordance= 0.812 (se = 0.061 ) Rsquare= 0.578 (max possible= 0.988 ) Likelihood ratio test= 36.23 on 5 df, p=8.557e-07 Wald test = 27.1 on 5 df, p=5.444e-05 Score (logrank) test = 40.68 on 5 df, p=1.09e-07 38 / 43

Øvelser Remissionsdata: Lav et LLR test for hypotesen H 0 : β 1 = 0 i Cox-modellen indeholdende logwbc kategoriseret i tre grupper (cox4 slide 27). Sammenlign med Wald-testet. Forklar i ord hvad det er for en hypotese, der testes. Udregn HR for kategoriset logwbc i den additive model på slide 34: gruppe 1 vs 3, 2 vs 3 og 1 vs 2. Bestem også konfidensintervallerne. Lav et test for interaktion mellem behandlingsgruppe og kategoriseret logwbc. 39 / 43

Maligne melanomer: 1. Et datasæt om maligne melanomer er tilgængeligt i pakken timereg. Installér og aktivér pakken. Datasættet melanoma gøres tilgængeligt med kommandoen data(melanoma). 2. Dan et overblik over data med tabeller og histogrammer. Info om kodningen af variablene kan findes på: http://www.oga-lab.net/rgm2/func.php?rd_id=timereg:melano (Kan findes ved at google R timereg melanoma ). 3. Vi vil fokusere på død pga melanomer, dvs. død af andre årsager skal betragtes som censurering. Er der forskel på risikoen for død af maligne melanomer for mænd og kvinder? Lav et Kaplan-Meier plot og et LogRank-test. Kvantificer og beskriv forskellen. 40 / 43

4. Lav et hurtigt grafisk check af, om den estimerede Cox-model er rimelig til at beskrive forskellen på mænd og kvinder. Dette kan gøres ved at bruge R til at estimere overlevelseskurverne for hhv. mænd og kvinder baseret på Cox-modellen. Disse sammenlignes med Kaplan-Meier-kurverne. Vi beder R om at beregne overlevelsessandsynlighederne med surv1<-survfit(cox1,newdata=data.frame(sex=c(0,1))) hvor cox1 er den fittede Cox-model med sex som forklarende variabel. Med newdata fortæller vi R for hvilke værdier vi ønsker kurverne beregnet. Vi kan nu lave et plot med plot(surv1) Vi vil gerne sammenligne disse kurver med KM-kurverne og kan derfor vælge at lave to sidestillede plots: par(mfrow=c(1,2)); plot(km1); plot(surv1) Ser Cox-modellen ud til at være rimelig? 41 / 43

Sammenligningen bliver lettere, hvis vi lægger graferne oven i hinanden. Dette gøres med par(mfrow=c(1,1)) # 1 plot pr vindue igen plot(km1); lines(surv1) Fjern mærkerne fra kurverne, sæt farver og legend på. Hvad tror du der sker, hvis vi i surv1 erstatter c(0,1) med f.eks c(2,3) - giver det mening? 42 / 43

5. Er der forskel på tumortykkelsen for mænd og kvinder? 6. Definér en kategoriset version af tumortykkelse med mindst 3 grupper. Hvad sker der med effekten af køn, når vi tager højde for tumortykkelsen? 7. Fit modellen indholdende alle tre forklarende variable. Test for alle parvise interaktioner. 43 / 43