Introduktion til overlevelsesanalyse



Relaterede dokumenter
Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse

Overlevelsesanalyse. Faculty of Health Sciences

Lineær og logistisk regression

Dag 6: Interaktion. Overlevelsesanalyse

Introduktion til overlevelsesanalyse

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Morten Frydenberg Biostatistik version dato:

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

MPH specialmodul Epidemiologi og Biostatistik

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

1 Hb SS Hb Sβ Hb SC = , (s = )

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Opgavebesvarelse vedr. overlevelsesanalyse

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Statistik II 4. Lektion. Logistisk regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Morten Frydenberg 26. april 2004

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Forelæsning 11: Kapitel 11: Regressionsanalyse

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Økonometri Lektion 1 Simpel Lineær Regression 1/31

1 Regressionsproblemet 2

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Erik Parner Sektion for Biostatistik. Biostatistisk metode et par eksempler

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Logistisk regression

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Faculty of Health Sciences. Basal statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 1. april 2019

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Dynamisk statistisk modellering af vedligeholdelsesbehandling af børn med akut lymfoblastær leukæmi

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Lineær regression i SAS. Lineær regression i SAS p.1/20

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Opgavebesvarelse, logistisk regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Module 4: Ensidig variansanalyse

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Kvantitative metoder 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Introduktion til R. Faculty of Health Sciences

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kapitel 11 Lineær regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Teoretisk Statistik, 13 april, 2005

Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Løsning til opgave i logistisk regression

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Opgavebesvarelse, brain weight

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

MPH specialmodul Epidemiologi og Biostatistik

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Logistisk regression

Kvantitative metoder 2

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Logistisk regression

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Løsning til eksaminen d. 14. december 2009

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Kapitel 12 Variansanalyse

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

1 Multipel lineær regression

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Klasseøvelser dag 2 Opgave 1

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Transkript:

Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression IV. Competing risks. Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/survival2011

Program for dag 5 Modelkontrol baseret på residualer Competing risks Kapitel 9 i Kleinbaum & Klein handler om competing risks, men er ikke særligt godt skrevet. Litteraturforslag på slide 46. 2 / 47

Grafisk modelkontrol via log(-log(overlevelse)) For Cox-modellen med X i = I(i behandlet) er overlevelsen S(t X i ) = S 0 (t) exp(βx i) Det betyder at = { S0 (t) exp(β) hvis i får behandling S 0 (t) hvis i får placebo. log( log(s(t X i ))) = log( log(s 0 (t))) + βx i svarende til at differensen log( log(s(t X i ))) log( log(s(t X j ))) = β(x i X j ) mellem to individer i og j ikke afhænger af tiden t, dvs at overlevelseskurverne er parallelle som funktion af t. log(-log( ))-funktionen kaldes også for cloglog-funktionen (complementary log log). 3 / 47

cloglog-kurver PBC-data Vi så sidste gang på cloglog-kurver for PBC-data. Der var problemer med edema og protime: cloglog kurver for edema (0/1) 6 5 4 3 2 1 0 ( β =.49) 50 100 200 500 1000 2000 5000 Dage Vi ser at effekten aftager over tid. 4 / 47

cloglog kurver for kategoriseret protime 6 5 4 3 2 1 0 50 100 200 500 1000 2000 5000 Dage Vi ser igen at effekten aftager over tid. PH mest problematisk for patienter med lav protime. 5 / 47

Ulemper ved cloglog-metoden clogclog-metoden er svær at benytte i praksis fordi vurderingen af om linierne er parallelle er subjektiv. vi ikke kan vurdere, hvor stor afvigelsen er og om den reelt er et problem inddelingen i grupper er mere eller mindre tilfældig for kontinuerte variable Vi vil gerne supplere vurderingen af PH med mere sofistikerede grafiske metoder og en p-værdi. 6 / 47

Residualer Residualer bruges til at kontrollere, om en given model passer til data. For hver enkelt patient, er et residual afvigelsen mellem det observerede udfald (respons) og det forventede udfald baseret på modellen. For overlevelsesdata findes ikke nogen umiddelbar pendant til observeret minus forventet værdi som i lineær regression. Derfor findes forskellige typer af residualer: martingal, deviance, score og Schoenfeld. Residualerne kan benyttes i grafik og i teststørrelser, hvorved rimeligheden af modellen kan vurderes. 7 / 47

Residualer og software R (og de fleste andre programmer) har implementeret en tilgang baseret på Schoenfeld residualerne. Her kan konklusionen dog afhænge af, hvilken tidsskala man vurderer PH-antagelsen mod og man kan derfor opnå modstridende resultater. Et stærkt værktøj, som ikke afhænger af tidsskalaen, er implementeret i pakken timereg. Metoden er beskrevet i Martinussen & Scheike (2006): Dynamic Regression Models for Survival Data (for statistikere). 8 / 47

Martingal residualer Vi definerer en respons for hvert individ i ved og den forventede værdi ved Λ i (t) = N i (t) = I(T i t) t 0 λ 0 (t) exp(β 1 X i1 + + β p X ip ) = Λ 0 (t) exp(β 1 X i1 + + β p X ip ) og sammenligner disse i martingal residualet M i (t) = N i (t) Λ 0 (t) exp(β 1 X i1 + + β p X ip ). Hvis Cox-modellen er korrekt vil disse residualer have middelværdi 0. 9 / 47

Det estimerede martingal residual Når vi har estimeret Cox-modellen kan vi estimere residualet ved M i (t) = N i (t) Λ 0 (t) exp( β 1 X i1 + + β p X ip ). Når vi skal kontrollere modellen er ideen at se på forskellige summer af de estimerede residualer. Er modellen korrekt vil disse også have middelværdi 0. Dette kan vi illustrere grafisk og teste. 10 / 47

Test for proportionalitet Vha. funktionen cox.aalen i timereg-pakken kan vi udføre et test for proportionalitet baseret på score processen. Modellen vi skal kontrollere er cox3<-coxph(surv(time,status==2)~age+edema01+l2bili+l2pro+albumin) hvilket kan gøres ved syntaksen cox.a1<-cox.aalen(surv(time,status==2)~prop(age)+prop(edema01)+ prop(l2bili)+prop(l2pro)+prop(albumin), weighted.test=0) summary(cox.a1) Her angiver prop() at disse variable skal have en proportional effekt (som i Cox-modellen, men cox.aalen kan også fitte andre modeller). 11 / 47

Cox-Aalen Model Test for Aalen terms Test for nonparametric terms Test for non-significant effects Supremum-test of significance p-value H_0: B(t)=0 (Intercept) 0.421 0.846 Test for time invariant effects Kolmogorov-Smirnov test p-value H_0:constant effect (Intercept) 0.00113 0.718 Proportional Cox terms : Coef. SE Robust SE D2log(L)^-1 z P-val prop(age) 0.0393 0.00692 0.00926 0.00766 4.24 2.22e-05 prop(edema01) 0.4860 0.18800 0.21900 0.19200 2.21 2.68e-02 prop(l2bili) 0.6090 0.05210 0.06140 0.05700 9.91 0.00e+00 prop(l2pro) 1.7500 0.41100 0.65000 0.51700 2.70 6.99e-03 prop(albumin) -0.8050 0.21900 0.20800 0.20700-3.87 1.09e-04 Test for Proportionality sup hat U(t) p-value H_0 prop(age) 99.40 0.440 prop(edema01) 9.18 0.012 prop(l2bili) 18.10 0.156 prop(l2pro) 3.49 0.002 prop(albumin) 4.69 0.308 Call: cox.aalen(surv(time, status == 2) ~ prop(age) + prop(edema01) + prop(l2bili) + prop(l2pro) + prop(albumin), weighted.test = 0) 12 / 47

Konklusion pba. test for PH Estimaterne i den øverste blok er ikke helt identiske med estimaterne fra coxph. Vi ser, at testene i den nederste blok bekræftiger, at der er problemer med PH-antagelsen for edema og protime. Vi kan undersøge afvigelsen lidt nærmere ved et plot: par(mfrow=c(2,3)) plot(cox.a1,score=t,xlab="dage") Her angiver score=t at vi vil have score-processen. 13 / 47

prop(age) prop(edema01) prop(l2bili) Cumulative coefficients 200 100 0 100 200 Cumulative coefficients 5 0 5 Cumulative coefficients 30 20 10 0 10 20 30 0 1000 3000 Dage 0 1000 3000 Dage 0 1000 3000 Dage prop(l2pro) prop(albumin) Cumulative coefficients 3 2 1 0 1 2 3 Cumulative coefficients 5 0 5 0 1000 3000 Dage 0 1000 3000 Dage 14 / 47

Fortolkning af plots Hvert plot indeholder 50 simulerede score-processer, som illustrerer hvordan score-processen ville se ud, hvis Cox-modellen var korrekt. Den sorte linie er den observerede score-proces, de grå er de simulerede. Score-processen er en vægtning af det observerede antal døde minus det forventede antal døde. For edema ligger kurven for højt hvilket illustrerer, at der dør flere patienter end forventet. Konklusion: Problemer med PH for edema og protime. 15 / 47

Modelkontrol baseret på kumulative residualer Vha. de kumulative martingal residualer kan vi kontrollere om vi har fået inkluderet de kontinuerte variable i den rette form. I R skriver vi: cox.a2<-cox.aalen(surv(time,status==2)~prop(age)+prop(edema01)+ prop(l2bili)+prop(l2pro)+prop(albumin), residuals=1,n.sim=0) resids<-cum.residuals(cox.a2,cum.resid=1) summary(resids) og får Test for cumulative MG-residuals Grouped cumulative residuals not computed, you must provide modelmatrix to get these (see help) Residual versus covariates consistent with model sup hat B(t) p-value H_0: B(t)=0 prop(age) 7.402 0.814 prop(l2bili) 10.484 0.392 prop(l2pro) 8.536 0.668 prop(albumin) 6.486 0.910 Call: cum.residuals(cox.a2, cum.resid = 1) 16 / 47

Plot af kumulerede residualer par(mfrow=c(2,2)) plot(resids,score=2) prop(age) prop(l2bili) Cumulative residuals 20 10 0 10 20 Cumulative residuals 20 10 0 10 20 30 40 50 60 70 80 prop(age) 1 0 1 2 3 4 5 prop(l2bili) prop(l2pro) prop(albumin) Cumulative residuals 20 10 0 10 20 Cumulative residuals 20 10 0 10 20 3.2 3.4 3.6 3.8 4.0 4.2 2.0 2.5 3.0 3.5 4.0 4.5 prop(l2pro) prop(albumin) Igen angiver de grå linier hvordan de kumulerede residualer ville se ud, hvis modellen var rigtig. 17 / 47

Kumulerede residualer, bilirubin ej transformeret Vi prøver at inkludere bilirubin i sin oprindelige form: > cox.a3<-cox.aalen(surv(time,status==2)~prop(age)+prop(edema01) + +prop(bili)+prop(l2pro)+prop(albumin), + residuals=1,n.sim=0) > resids<-cum.residuals(cox.a3,cum.resid=1) > summary(resids) Test for cumulative MG-residuals Grouped cumulative residuals not computed, you must provide modelmatrix to get these (see help) Residual versus covariates consistent with model sup hat B(t) p-value H_0: B(t)=0 prop(age) 6.312 0.900 prop(bili) 33.452 0.000 prop(l2pro) 12.755 0.192 prop(albumin) 5.582 0.972 Call: cum.residuals(cox.a3, cum.resid = 1) > plot(resids,score=2) > 18 / 47

prop(age) prop(bili) Cumulative residuals 20 10 0 10 20 Cumulative residuals 30 10 0 10 20 30 30 40 50 60 70 80 prop(age) 0 5 10 15 20 25 prop(bili) prop(l2pro) prop(albumin) Cumulative residuals 15 5 0 5 10 15 Cumulative residuals 20 10 0 10 20 3.2 3.4 3.6 3.8 4.0 4.2 2.0 2.5 3.0 3.5 4.0 4.5 prop(l2pro) prop(albumin) Vi ser at der er problemer med bilirubin utransformeret (i overensstemmelse med de tests for linearitet vi lavede til øvelserne sidste gang). 19 / 47

Opsummering Med metoderne baseret på residualer kan vi vurdere PH-antagelsen og de kontinuerte variables funktionelle form. Formen på en afvigelse fra PH kan evt. vurderes ved cloglog-plots (som supplement). Når vi vurderer modellen for en variabel forudsætter vi, at modellen er opfyldt for de øvrige variable. Når vi har fundet ud af, hvordan vi skal tage højde for manglende PH / linearitet for en variabel, skal vi derfor kontrollere modellen igen. Vi kan tage højde for manglende PH ved stratificering. Alternative (og ofte mere tilfredsstillende) metoder er beskrevet i KK kapitel 6. 20 / 47

Øvelser i modelkontrol Behandling af børn med Akut Lymfoblastær Leukæmi: I 1992-1996 blev 538 nordiske børn med ALL randomiseret til traditionel vedligeholdelsesbehandling (VB) eller pharmakologisk baseret VB. Vi har her nogle data til rådighed for 468 af børnene med oplysninger om st sl recidiv pige kontrol wbc tpmtsnit start på VB EOF i dage 1=recidiv, 0 ellers 1=pige, 0=dreng 1=traditionel, 0=pharmakologi wbc ved diagnose gennemsnit TPMT-værdi (aktivitet af enzym) Data ligger på kursushjemmesiden under dag 4 i ALL.csv. Læs data ind med kommandoen ALLdata<-read.table("ALL.csv",header=T,sep=",") 21 / 47

Vær opmærksom på forsinket indgang (start VB). 1) Undersøg vha Kaplan-Meier-kurver og log-rank tests effekten af køn og behandlingsgruppe på risikoen for recidiv. Check vekselvirkningen - hvad ser vi? 2) Formuler en model og kontroller den. 3) Test om effekten af tpmtsnit er den samme over de tre strata. 4) Sammenlign resultaterne med Schmiegelow et al., JCO (2003), som kan hentes som pdf fra http://pubget.com/paper/12663723. Fit din model med den samme parameterisering af køn og randomiseringsgruppe. Hvorfor tror du, at man har valgt netop denne parameterisering? 22 / 47

Maligne melanomer: 1) Aktivér timereg pakken og gør data tilgængelige med kommandoen data(melanoma). Vi vil fortsat fokusere på død pga melanomer (status=1), dvs. død af andre årsager skal betragtes som censurering. 2) Formuler en model indeholdende ulceration, tykkelse og køn. Kontroller PH for alle variablene. 3) Gentag 2) med log2(tykkelse). Ændrer det noget? 4) Gentag 3) stratificeret på ulceration. 5) Hvilken slutmodel vælger du? 23 / 47

Competing Risks 24 / 47

Overlevelsesdata Responsen er tid til event (eg. død). Vi kan illustrere data i følgende diagram: I live λ(t) Død hvor λ(t) er hazarden : λ(t) P(t T<t+h T t) h Vi har set på overlevelsesfunktionen for h lille. t S(t) = P(T > t) = exp( λ(s)ds) 0 og estimeret denne ved Kaplan-Meier-kurven eller vha. en Cox-model. 25 / 47

Højrecensurering Vi har hidtil set på højrecensurerede data. Eksempler på årsager til højrecensurering for et studie vedr. tid til cancer: ophør på studie emigration, mistet for follow-up død pga trafikulykke død af blodprop Antagelsen er, at censureringen skal være uafhængig af tid til cancer. 26 / 47

Competing risks Flere forskellige hændelser er mulige: I live Død af årsag 1 Død af årsag 2... Død af årsag k 27 / 47

Forudsætninger for competing risks Typisk er én årsag af primær interesse. Eksempel: Ved behandling af leukæmi-patienter kan følgende hændelser indtræffe Recidiv Sekundær cancer Behandlingsrelateret død Når fokus er på risikoen for recidiv, kan vi ikke betragte sekundær cancer / behandlingsrelateret død som censurering. Forekomsten af disse hændelser ændrer på risikoen for og udelukker recidiv. 28 / 47

Kumulativ incidens I competing risks beskriver vi data ved de kumulative incidenser P 1 (t) = P(T t, død af årsag 1) P 2 (t) = P(T t, død af årsag 2) P k (t) = P(T t, død af årsag k) hvorved overlevelsen S bliver S(t) = 1 P 1 (t) P k (t). 29 / 47

Data eksempel Knoglemarvstransplantation af 35 leukæmipatienter. Observerer tid til recidiv (n = 15) eller behandlingsrelateret død (TRM, n=9). Kumulative incidenser Sandsynlighed 0.0 0.2 0.4 0.6 0.8 1.0 TRM Recidiv Overlevelse 0 10 20 30 40 50 60 70 År 30 / 47

Kumulativ incidens baseret på Kaplan-Meier Illustrativt eksempel: 10 patienter, 2 konkurrerende årsager: Recidiv (R) og behandlingsrelateret død (D): Follow-up (+ er censurering): R + R D + R D D R + 0 1 2 3 4 5 6 7 8 9 10 Tid KM når død betragtes som censurering (antal under risiko / antal recidiver) : 0 1 2 3 4 5 6 7 8 9 10 1 9 10 10 9 8 7 6 5 4 3 2 1 1 0 1 0 0 1 0 0 1 0 7 8 = 1 0.9 0.7875 0.63 0.315 31 / 47 4 5 1 2

Alternativ beregning af KM For hvert dødstidspunkt t i er sandsynligheden for død af type 1: P 1 (T t i ) = P 1 (T 1) + P 1 (1 < T 2) +... + P 1 (t i 1 < T t i ) = P 1 (T 1) 1 + P 1 (T 2 T > 1) S(1) +... + P 1 (T t i T > t i 1 ) S(t i 1 ). Hvis vi beregner S ved at censurere de døde fås 10 9 8 7 6 5 4 3 2 1 1 0 1 0 0 1 0 0 1 0 0 1 2 3 4 5 6 7 8 9 10 1 0 + 10 1 + 1 8 9 1 + 10 5 9 7 1 + 10 8 2 9 7 4 10 8 5 0 + 0.1 + 0.1125 + 0.1575 + 0.315 = 0 0.1 0.2125 0.37 0.685 dvs. præcis 1 minus KM-estimatoren. 32 / 47

Men 1-KM er et estimat for den kumulative incidens i en population, hvor patienterne ikke kan dø! Det generelle udtryk for den kumulative incidens er P 1 (T t i ) = i P 1 (T t j T > t j 1 ) S(t j 1 ). j=1 Vi estimerer i stedet S ved KM baseret på både recidiv (R) og død (D) (i.e. overall survival): 10 9 8 7 6 5 4 3 2 1 1(R) 0 1(R) 1(D) 0 1(R) 1(D) 1(D) 1(R) 0 0 1 2 3 4 5 6 7 8 9 10 1 0 + 10 1 + 1 8 9 1 + 10 5 9 7 6 1 + 10 8 7 2 9 7 6 4 3 2 10 8 7 5 4 3 0 + 0.1 + 0.1125 + 0.135 + 0.135 = 0 0.1 0.2125 0.3475 0.4825 33 / 47

Sammenligning af 1-KM og den kumulative incidens Kumulativ incidens 0.0 0.2 0.4 0.6 0.8 1.0 KM metode CR metode 0 2 4 6 8 10 Tid 34 / 47

KM vs CR-metoden Konklusion: Ved beregning af kumulativ incidens i en competing risks situation må de konkurrerende events ikke censureres. 1-KM baseret på censurering af de konkurrerende årsager overestimerer sandsynligheden for død af årsag 1. Estimatoren for den kumulative incidens kaldes Aalen-Johansen estimatoren. 35 / 47

Sammenligning af kumulative incidenser Vi vil ofte ønske at sammenligne kumulative incidenser mellem grupper (f.eks. for forskellige behandlinger / diagnoser). Dette kan gøres ikke-parametrisk ved Gray s test. Testet undersøger, om den kumulative incidens for én specifik årsag er den samme i alle grupperne (dvs. vi kan lave lige så mange tests, som der er konkurrerende årsager). Princippet bag Gray s test svarer til princippet bag log-rank testet for standard overlevelsesanalyse (uden konkurrerende events er de to test identiske). Teststørrelserne følger en χ 2 -fordeling med antallet af frihedsgrader lig antal grupper minus 1. 36 / 47

Sammenligning af kumulative incidenser for BMT Kumulative incidencer for BMT data Sandsynlighed 0.0 0.2 0.4 0.6 0.8 1.0 AML, TRM ALL, TRM AML, recidiv ALL, recidiv 0 10 20 30 40 50 60 70 Årsag teststørrelse df p Gray s test: TRM 1.30 1 0.2539 Recidiv 7.08 1 0.0078 37 / 47

Competing risks i R Competing risks data analyseres i R vha. pakken cmprsk. Knoglemarvsdata kan hentes fra kursushjemmesiden (dag 5). Pakken installeres, loades og data indlæses: install.packages("cmprsk") library(cmprsk) bmtdata<-read.csv("bmt.csv",header=t,sep=";") attach(bmtdata) Data indeholder: ftime (tid i år), status (1=TRM, 2=recidiv), dis (0=AML,1=ALL). > head(bmtdata) dis ftime status 1 0 13 2 2 0 1 1 3 0 72 0 4 0 7 2 5 0 8 2 6 1 67 0 > table(dis,status) status dis 0 1 2 0 2 3 12 1 9 6 3 > 38 / 47

Plot af kumulative incidencer Kumulative incidenser beregnes vha cuminc og plottes (total samt opsplittet på diagnose): # total ci1<-cuminc(ftime,status) plot(ci1,curvlab=c("trm","recidiv"),wh=c(50,1),xlab="år", ylab="sandsynlighed",lwd=2,main="kumulative incidenser") box() # opsplittet på diagnose ci2<-cuminc(ftime,status,dis) plot(ci2,curvlab=c("aml, TRM", "ALL, TRM", "AML, recidiv", "ALL, recidiv"), xlab="",col=c("black","black","grey","grey"),lwd=2,ylab="sandsynlighed", main="kumulative incidencer for BMT-data") box() Bemærk at plot her ikke tegner en boks rundt om hele plottet. Denne tilføjes med kommandoen box(). Bemærk også at syntaksen er ændret i forhold til syntaksen i survfit og coxph. 39 / 47

Gray s test i R cuminc udfører automatisk Gray s test, når de kumulative incidenser er beregnet for flere grupper: > ci2<-cuminc(ftime,status,dis) > ci2 Tests: stat pv df 1 1.301635 0.253914871 1 2 7.082278 0.007784998 1 Estimates and Variances: $est 20 40 60 0 1 0.1764706 0.1764706 0.1764706 1 1 0.3681858 0.3681858 0.3681858 0 2 0.5882353 0.7058824 0.7058824 1 2 0.2057075 0.2057075 0.2057075 $var 20 40 60 0 1 0.009344169 0.009344169 0.009344169 1 1 0.016011046 0.016011046 0.016011046 0 2 0.016046478 0.014584906 0.014584906 1 2 0.013358379 0.013358379 0.013358379 > 40 / 47

summary virker ikke på et cuminc-objekt! Bemærk at de kumulative incidenser og varianserne på disse estimater beregnes for udvalgte tidspunkter. Vi kan selv få disse frem for andre tidspunkter vha. kommandoen timepoints: > s<-timepoints(ci2,c(10,20,50)) > s $est 10 20 50 0 1 0.1176471 0.1764706 0.1764706 1 1 0.3681858 0.3681858 0.3681858 0 2 0.4705882 0.5882353 0.7058824 1 2 0.2057075 0.2057075 0.2057075 $var 10 20 50 0 1 0.006489812 0.009344169 0.009344169 1 1 0.016011046 0.016011046 0.016011046 0 2 0.015954950 0.016046478 0.014584906 1 2 0.013358379 0.013358379 0.013358379 41 / 47

Regressionsmodeller for competing risks Der findes flere metoder, hvoraf de to mest udbredte er: Formulering af en årsagsspecifik (Cox-)model for hver årsag. Fine and Gray model (direkte regression af den kumulative incidens). 42 / 47

Årsagsspecifik Cox-regression I live λ 1 (t) Død af årsag 1 λ 2 (t) Død af årsag 2 hvor vi formulerer en Cox-model for begge hazards λ 1 (t) λ 2 (t) P(t T < t + h, årsag = 1 T t) h P(t T < t + h, årsag = 2 T t). h Den kumulative incidens P 1 (t) afhænger af både λ 1 og λ 2. 43 / 47

Det er let at formulere og estimere de årsagsspecifikke hazards. I praksis laver man to Cox-analyser: 1: Censurér alle events af årsag 2 og estimér en Cox-model. 2: Censurér alle events af årsag 1 og estimér en Cox-model. Det er svært at vurdere effekten af en kovariat på den kumulative incidens, fordi denne afhænger på kompliceret måde af kovariaterne inkluderet i de to Cox-modeller. I R er en pakke ved navn comprisk på vej. I SAS findes en macro beskrevet i Rosthøj et al. (2004). 44 / 47

Direkte regression af den kumulative incidens I Fine and Gray-modellen specificeres en model for den kumulative incidens P 1 (t): log(p 1 (t)) = H 1 (t) exp(β 1 X 1 +... + β p X p ) hvor H 1 (t) er en uspecificeret, voksende, positiv funktion. Modellen giver en direkte relation mellem kovariaterne og risikoen men fortolkningen af regressionsparametrene β 1,... β p er ikke simpel. I R kan denne analyse udføres vha crr i cmprsk-pakken. Til SAS findes diverse macro er på nettet. 45 / 47

Litteratur Forslag til litteratur om competing risks: Udførlig beskrivelse af beregning af Aalen-Johansen estimatoren: Kim (2007). Cumulative incidence in competing risks data and competing risks regression analysis. Clinical cancer research. Aalen-Johansen / Gray s test i R (bmtdata): Scrucca et al. (2007). Competing risk analysis using R: an easy guide for clinicians. Bone marrow transplantation Fine and Gray-modellen i R: Scrucca et al. (2010). Regression modeling of competing risk using R: an in depth guide for clinicians. Bone marrow transplantation. SAS-macro til bestemmelse af kum. incidens pba årsagsspecifikke Cox-modeller: Rosthøj et al. (2004). SAS macros for estimation of the cumulative incidence functions based on a Cox regression model for competing risks survival data.computer methods and programs in biomedicine. I øvrigt findes en del oversigtsartikler i den medicinske litteratur. 46 / 47

Øvelser i competing risks Maligne melanomer: 1) Aktivér timereg pakken og gør data tilgængelige med kommandoen data(melanoma). 2) Beregn og plot de kumulative incidenser for død af maligne melanomer / andre årsager. Sammenlign den kumulative incidens for død af maligne melanomer med 1-KM for de maligne melanomer (lav gerne et plot hvor du lægger de to kurver oven i hinanden). 3) Beregn og plot de kumulative incidencer splittet op på ulceration. 4) Sammenlign incidenserne ved et test. 5) Beregn 5-års risikoen for død af melanomer / andre årsager splittet op på ulceration. Bestem konfidensintervaller for incidenserne. 47 / 47