Faculty of Health Sciences Introduktion til overlevelsesanalyse Kaplan-Meier estimatoren Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/survival2011
Kursets form Fem onsdage fra kl 9-16 i ugerne 40, 41, 42, 44 og 45. Kurset består af forelæsninger, computerøvelser og litteraturlæsning. Kurset bestås ved deltagelse i minimum 80% af timerne. Formål: I skal selv blive i stand til at udføre de mest gængse typer af overlevelsesanalyser og kontrollere at forudsætningerne for at udføre disse analyser er opfyldt. 2 / 27
Program for dag 1 Overlevelsesdata Kaplan-Meier estimatoren Log rank test Introduktion til software Data eksempel: Leukæmi patienter i remission. Dagens gennemgang svarer til Kleinbaum & Klein kapitel 1: I-II,V-VII og kapitel 2: I-V. Derudover et kapitel om R til download, se slides om R. 3 / 27
Overlevelsesdata Responsen er en levetid, dvs. tid indtil en hændelse forekommer. Tid fra start på behandling til recidiv (eller død eller begge dele) Tid fra fyldning af en tand til fyldningen falder ud Tid fra første forsøg på at blive gravid til graviditet Tid fra graviditet til fødsel... Overlevelsesdata er karakteriseret ved: Fordelingen er højreskæv (ikke et problem). Ufuldstændige data: Censurering og trunkering. 4 / 27
Metodekurset På metodekurset har I set på Kvantitative data Kontinuerte data: Målinger af blodtryk, koncentration, højde. 1. Histogrammer, scatter plots. Gennemsnit, standardafvigelse, median. 2. t-test, lineær regressionsanalyse. Kategoriske data Binære data: Ja/nej, syg/rask, død/levende. Diskrete data: Race, uddannelsesniveau, aldersgruppe. 1. Frekvenser, tovejs-tabeller. 2. χ 2 -tests, logistisk regression. Disse metoder kan ikke benyttes for overlevelsesdata. 5 / 27
Censurering Oftest vil data være højre censureret, dvs. kun en nedre grænse for levetiden er kendt pga: Studiet afsluttes Patienten mistes for follow-up under studiet. 0 Studie ophør Venstre censurering forekommer når kun en øvre grænse er kendt, f.eks. Tid til infektion med HIV Alder for hvilken et barn lærer en færdighed Test NB: Censurering skal være uafhængig af levetiden. 6 / 27
Trunkering Hvis forudsætningen for at et individ indgår i et studie er bestemt af hvorvidt en hændelse er forekommet, siges data at være trunkeret. Højretrunkering De individer, for hvilken hændelsen endnu ikke er indtruffet, observeres ikke. Eksempel: Tid til AIDS for HIV-inficerede patienter. Venstretrunkering Kun de individer, for hvilken en hændelse er indtruffet, bliver observeret. Eksempel: Vedligeholdelsesbehandling af børn med leukæmi. 0 Start VB Venstretrunkering kaldes også forsinket indgang. 7 / 27
Overlevelsesfunktionen Lad T betegne en levetid. Overlevelsesfunktionen er S(t) = P(T > t) = sandsynligheden for at være i live til tid t. S(t) 0 for alle t 0. Ej voksende S(0) = 1 S( ) = 0 8 / 27
Eksempler på overlevelsesfunktioner Survival probability 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 Time Overlevelsesfunktionen estimeres som regel ved den ikke-parametriske Kaplan-Meier (KM) estimator. 9 / 27
Remissionstid for akut leukæmi Eksempel hentet fra Kleinbaum and Klein: Freirich et al. (1963). The effect of 6-mercaptopurine on the duration of remission time of steroid induced remission in acute leukaemia. Blood, 21 699:716. 42 patienter med akut leukæmi rekrutteret 1959-1960 og randomiseret til placebo eller 6-MP-behandling. Formål: At studere effekten af behandling, køn og WBC ved diagnose på remissionstid. 10 / 27
Remissionsdata Behandlingsgruppen: 21 patienter, 9 tilbagefald, resten højrecensureret. 0 10 20 30 40 Tid (uger) Placebogruppen: 21 patienter, 21 tilbagefald: 0 10 20 30 40 Tid (uger) = tilbagefald = censurering 11 / 27
Kaplan-Meier estimatoren uden censurering Placebogruppen (n = 21) for t 10: Data: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,... 0 1 2 3 4 5 6 7 8 9 10 2 2 1 2 2 0 0 4 0 0 Antal hændelser Overlevelsesfunktionen estimeres ved 0 1 2 3 4 5 6 7 8 9 10 1 19 21 17 21 16 21 14 21 12 21 12 21 12 21 8 21 8 21 12 / 27
KM estimatoren for placebogruppen 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 Tid (uger) Hvad er den mediane levetid? 13 / 27
Alternativ formel for Kaplan-Meier estimatoren 0 1 2 3 4 5 6 7 8 9 10 For det i te interval I i er sandsynligheden for at overleve givet i live ved intervallets start p i = { 1 hvis alle overlever i Ii Y i D i Y i hvis D i patienter dør i I i hvor Y i = antal i live ved starten af I i og under risiko. Sandsynligheden for at overleve de 3 første intervaller er p 1 p 2 p 3 = P(T > 2). 14 / 27
KM-estimatoren uden censurering, alternativt Placebogruppen (t 5). Antal under risiko 21 21 19 17 16 14 0 1 2 3 4 5 2 2 1 2 2 Antal hændelser Overlevelsesfunktionen estimeres ved 0 1 2 3 4 5 1 1 19 21 19 17 21 19 19 17 16 21 19 17 19 17 16 14 21 19 17 16 15 / 27
KM-estimatoren for behandlingsgruppen Behandlingsgruppen (t 10). Data: 6, 6, 6, 6+, 7, 9+, 10, 10+,... Antal under risiko 21 21 21 21 21 21 21 17 16 16 15 0 1 2 3 4 5 6 7 8 9 10 0 0 0 0 0 3/1 1 0 0/1 1/1 Antal hændelser / Antal censureringer Overlevelsesfunktionen estimeres ved 0 6 7 8 10 11 16 / 27 1 1 18 21 18 16 21 17 18 16 21 17 1 18 21 16 14 17 15
KM-estimatoren for behandlingsgruppen 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 25 30 35 Tid (uger) 17 / 27
Generel formel for KM-estimatoren Det centrale er af vi kan estimere den betingede sandsynlighed for at et individ overlever givet at individet er i live. Denne kan vi beregne for censurerede data også. Lad t 1,, t k betegne de ordnede observerede levetider. Lad Y(t i ) = antal i live umiddelbart før t i. Den generelle formel for t j t < t j+1 er: Ŝ(t) = P(T > t 1 T t 1 )... P(T > t j T t j ) ( ) ( ) Y(t1 ) m 1 Y(tj ) m j =... Y(t 1 ) Y(t j ) = ( 1 m ) i Y(t t i t i ) hvor m i = antal hændelser til tid t i. 18 / 27
Standard afvigelse og konfidensinterval Greenwood s formel: SE(Ŝ(t)) = Ŝ(t) t i t m i Y(t i )(Y(t i ) m i ) Konfidensinterval hvis antal individer er stort: Ŝ(t) ± Z α/2 SE(Ŝ(t)) hvor Z α/2 er α 2 -fraktilen i standard normalfordelingen. Potentielt kan dette interval ramme uden for (0, 1). 19 / 27
Alternativt konfidensinterval Baseret på eksponentiel Greenwood formel (cloglog = log(-log)): L = log( log(ŝ(t))) Z 1 α/2 log(ŝ(t)) t i t U = log( log(ŝ(t))) + Z 1 α/2 log(ŝ(t)) t i t m i Y(t i )(Y(t i ) m i ) m i Y(t i )(Y(t i ) m i ). Konfidensintervallet er: (exp( exp(u)), exp( exp(l))) 20 / 27
KM med konfidensinterval for behandlingsgruppen 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 25 30 35 Tid (uger) Hvad viser det punktvise konfidensinterval? 21 / 27
KM-plot for begge behandlingsgrupper 0.0 0.2 0.4 0.6 0.8 1.0 Behandling Placebo 0 5 10 15 20 25 30 35 Tid (uger) 22 / 27
Sammenligning af to grupper Hypotese: H 0 : De to overlevelseskurver er ens (S 1 = S 2 ). Sammenligningen kan foretages ved LogRank-testet. Princippet er, for hver observeret levetid t i, at se på død i live under risiko gruppe 1 m i1 Y 1 (t i ) m i1 Y 1 (t i ) gruppe 2 m i2 Y 2 (t i ) m i2 Y 2 (t i ) total m i Y(t i ) m i Y(t i ) Hvis risikoen er den samme i de to grupper (H 0 ) vil det forventede antal døde i gruppe 1 til tid t i være Ê i1 = Y 1 (t i ) m i Y(t i ). Hvorfor? 23 / 27
LogRank-testet Det forventede antal døde i gruppe 1 er Ê 1 = k Ê i1, hvor k er antal forskellige observerede levetider i begge grupper. LogRank-testet er i=1 LR = (O 1 Ê1) 2 Var(O 1 Ê1) O 1 = i m i1 er antallet af døde i gruppe 1. Under H 0 er LR approksimativt χ 2 -fordelt med 1 frihedsgrad. Hvornår afvises hypotesen? 24 / 27
Bemærk at Ê 1 + Ê2 = = = = k (Êi1 + Êi2) i=1 k i=1 k i=1 k m i i=1 = O 1 + O 2. Y 1 (t i ) m i Y(t i ) + Y 2(t i ) m i Y(t i ) (Y 1 (t i ) + Y 2 (t i )) m i Y(t i ) Dvs. O 1 Ê1 = (O 2 Ê2) og det er ligegyldigt om LogRank-testet baseres på gruppe 1 eller 2. 25 / 27
LogRank-test for leukæmidata N Observeret Forventet LogRank Placebo 21 21 10.74 16.79 Behandling 21 9 19.26 16.79 χ 2 -fordelingen med 1 frihedsgrad giver p<.0001. Vi konkluderer at der er signifikant forskel på de to behandlingsgrupper mht. overlevelse. 26 / 27
Sammenligning af mere end to grupper For G > 2 grupper findes også et LogRank-test, men formlen er kompliceret. Hypotesen er H 0 : Alle overlevelseskurver er ens (S 1 = S 2 = = S G ). LogRank-testet er χ 2 -fordelt med G 1 frihedsgrader. 27 / 27