Introduktion til overlevelsesanalyse



Relaterede dokumenter
Overlevelsesanalyse. Faculty of Health Sciences

Introduktion til overlevelsesanalyse

Dag 6: Interaktion. Overlevelsesanalyse

Lineær og logistisk regression

Introduktion til overlevelsesanalyse

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

MPH specialmodul Epidemiologi og Biostatistik

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

MPH specialmodul Epidemiologi og Biostatistik

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Konfidensintervaller og Hypotesetest

Statistik II 4. Lektion. Logistisk regression

Morten Frydenberg Biostatistik version dato:

1 Hb SS Hb Sβ Hb SC = , (s = )

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Introduktion til overlevelsesanalyse

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik II 1. Lektion. Analyse af kontingenstabeller

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Basal statistik. 30. januar 2007

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Morten Frydenberg 26. april 2004

Løsning til eksaminen d. 29. maj 2009

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Morten Frydenberg 14. marts 2006

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Løsning til eksaminen d. 14. december 2009

Analyse af binære responsvariable

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Løsning eksamen d. 15. december 2008

Introduktion til R. Faculty of Health Sciences

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

c) For, er, hvorefter. Forklar.

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Indblik i statistik - for samfundsvidenskab

Forelæsning 9: Inferens for andele (kapitel 10)

Løsning til eksamen d.27 Maj 2010

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Produkt og marked - matematiske og statistiske metoder

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Logistisk regression

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Estimation og konfidensintervaller

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Opgaver til kapitel 3

Epidemiologiske associationsmål

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Susanne Ditlevsen Institut for Matematiske Fag susanne

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Introduktion til overlevelsesanalyse

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Preben Blæsild og Jens Ledet Jensen

Kursets hjemmeside:

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kvantitative metoder 2

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Multiple choice opgaver

Kapitel 12 Variansanalyse

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Dynamisk statistisk modellering af vedligeholdelsesbehandling af børn med akut lymfoblastær leukæmi

Note til styrkefunktionen

Vejledende løsninger kapitel 8 opgaver

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kvantitative metoder 2

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2011 Kursus nr : (navn) (underskrift) (bord nr)

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Transkript:

Faculty of Health Sciences Introduktion til overlevelsesanalyse Kaplan-Meier estimatoren Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/survival2011

Kursets form Fem onsdage fra kl 9-16 i ugerne 40, 41, 42, 44 og 45. Kurset består af forelæsninger, computerøvelser og litteraturlæsning. Kurset bestås ved deltagelse i minimum 80% af timerne. Formål: I skal selv blive i stand til at udføre de mest gængse typer af overlevelsesanalyser og kontrollere at forudsætningerne for at udføre disse analyser er opfyldt. 2 / 27

Program for dag 1 Overlevelsesdata Kaplan-Meier estimatoren Log rank test Introduktion til software Data eksempel: Leukæmi patienter i remission. Dagens gennemgang svarer til Kleinbaum & Klein kapitel 1: I-II,V-VII og kapitel 2: I-V. Derudover et kapitel om R til download, se slides om R. 3 / 27

Overlevelsesdata Responsen er en levetid, dvs. tid indtil en hændelse forekommer. Tid fra start på behandling til recidiv (eller død eller begge dele) Tid fra fyldning af en tand til fyldningen falder ud Tid fra første forsøg på at blive gravid til graviditet Tid fra graviditet til fødsel... Overlevelsesdata er karakteriseret ved: Fordelingen er højreskæv (ikke et problem). Ufuldstændige data: Censurering og trunkering. 4 / 27

Metodekurset På metodekurset har I set på Kvantitative data Kontinuerte data: Målinger af blodtryk, koncentration, højde. 1. Histogrammer, scatter plots. Gennemsnit, standardafvigelse, median. 2. t-test, lineær regressionsanalyse. Kategoriske data Binære data: Ja/nej, syg/rask, død/levende. Diskrete data: Race, uddannelsesniveau, aldersgruppe. 1. Frekvenser, tovejs-tabeller. 2. χ 2 -tests, logistisk regression. Disse metoder kan ikke benyttes for overlevelsesdata. 5 / 27

Censurering Oftest vil data være højre censureret, dvs. kun en nedre grænse for levetiden er kendt pga: Studiet afsluttes Patienten mistes for follow-up under studiet. 0 Studie ophør Venstre censurering forekommer når kun en øvre grænse er kendt, f.eks. Tid til infektion med HIV Alder for hvilken et barn lærer en færdighed Test NB: Censurering skal være uafhængig af levetiden. 6 / 27

Trunkering Hvis forudsætningen for at et individ indgår i et studie er bestemt af hvorvidt en hændelse er forekommet, siges data at være trunkeret. Højretrunkering De individer, for hvilken hændelsen endnu ikke er indtruffet, observeres ikke. Eksempel: Tid til AIDS for HIV-inficerede patienter. Venstretrunkering Kun de individer, for hvilken en hændelse er indtruffet, bliver observeret. Eksempel: Vedligeholdelsesbehandling af børn med leukæmi. 0 Start VB Venstretrunkering kaldes også forsinket indgang. 7 / 27

Overlevelsesfunktionen Lad T betegne en levetid. Overlevelsesfunktionen er S(t) = P(T > t) = sandsynligheden for at være i live til tid t. S(t) 0 for alle t 0. Ej voksende S(0) = 1 S( ) = 0 8 / 27

Eksempler på overlevelsesfunktioner Survival probability 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 Time Overlevelsesfunktionen estimeres som regel ved den ikke-parametriske Kaplan-Meier (KM) estimator. 9 / 27

Remissionstid for akut leukæmi Eksempel hentet fra Kleinbaum and Klein: Freirich et al. (1963). The effect of 6-mercaptopurine on the duration of remission time of steroid induced remission in acute leukaemia. Blood, 21 699:716. 42 patienter med akut leukæmi rekrutteret 1959-1960 og randomiseret til placebo eller 6-MP-behandling. Formål: At studere effekten af behandling, køn og WBC ved diagnose på remissionstid. 10 / 27

Remissionsdata Behandlingsgruppen: 21 patienter, 9 tilbagefald, resten højrecensureret. 0 10 20 30 40 Tid (uger) Placebogruppen: 21 patienter, 21 tilbagefald: 0 10 20 30 40 Tid (uger) = tilbagefald = censurering 11 / 27

Kaplan-Meier estimatoren uden censurering Placebogruppen (n = 21) for t 10: Data: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,... 0 1 2 3 4 5 6 7 8 9 10 2 2 1 2 2 0 0 4 0 0 Antal hændelser Overlevelsesfunktionen estimeres ved 0 1 2 3 4 5 6 7 8 9 10 1 19 21 17 21 16 21 14 21 12 21 12 21 12 21 8 21 8 21 12 / 27

KM estimatoren for placebogruppen 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 Tid (uger) Hvad er den mediane levetid? 13 / 27

Alternativ formel for Kaplan-Meier estimatoren 0 1 2 3 4 5 6 7 8 9 10 For det i te interval I i er sandsynligheden for at overleve givet i live ved intervallets start p i = { 1 hvis alle overlever i Ii Y i D i Y i hvis D i patienter dør i I i hvor Y i = antal i live ved starten af I i og under risiko. Sandsynligheden for at overleve de 3 første intervaller er p 1 p 2 p 3 = P(T > 2). 14 / 27

KM-estimatoren uden censurering, alternativt Placebogruppen (t 5). Antal under risiko 21 21 19 17 16 14 0 1 2 3 4 5 2 2 1 2 2 Antal hændelser Overlevelsesfunktionen estimeres ved 0 1 2 3 4 5 1 1 19 21 19 17 21 19 19 17 16 21 19 17 19 17 16 14 21 19 17 16 15 / 27

KM-estimatoren for behandlingsgruppen Behandlingsgruppen (t 10). Data: 6, 6, 6, 6+, 7, 9+, 10, 10+,... Antal under risiko 21 21 21 21 21 21 21 17 16 16 15 0 1 2 3 4 5 6 7 8 9 10 0 0 0 0 0 3/1 1 0 0/1 1/1 Antal hændelser / Antal censureringer Overlevelsesfunktionen estimeres ved 0 6 7 8 10 11 16 / 27 1 1 18 21 18 16 21 17 18 16 21 17 1 18 21 16 14 17 15

KM-estimatoren for behandlingsgruppen 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 25 30 35 Tid (uger) 17 / 27

Generel formel for KM-estimatoren Det centrale er af vi kan estimere den betingede sandsynlighed for at et individ overlever givet at individet er i live. Denne kan vi beregne for censurerede data også. Lad t 1,, t k betegne de ordnede observerede levetider. Lad Y(t i ) = antal i live umiddelbart før t i. Den generelle formel for t j t < t j+1 er: Ŝ(t) = P(T > t 1 T t 1 )... P(T > t j T t j ) ( ) ( ) Y(t1 ) m 1 Y(tj ) m j =... Y(t 1 ) Y(t j ) = ( 1 m ) i Y(t t i t i ) hvor m i = antal hændelser til tid t i. 18 / 27

Standard afvigelse og konfidensinterval Greenwood s formel: SE(Ŝ(t)) = Ŝ(t) t i t m i Y(t i )(Y(t i ) m i ) Konfidensinterval hvis antal individer er stort: Ŝ(t) ± Z α/2 SE(Ŝ(t)) hvor Z α/2 er α 2 -fraktilen i standard normalfordelingen. Potentielt kan dette interval ramme uden for (0, 1). 19 / 27

Alternativt konfidensinterval Baseret på eksponentiel Greenwood formel (cloglog = log(-log)): L = log( log(ŝ(t))) Z 1 α/2 log(ŝ(t)) t i t U = log( log(ŝ(t))) + Z 1 α/2 log(ŝ(t)) t i t m i Y(t i )(Y(t i ) m i ) m i Y(t i )(Y(t i ) m i ). Konfidensintervallet er: (exp( exp(u)), exp( exp(l))) 20 / 27

KM med konfidensinterval for behandlingsgruppen 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 25 30 35 Tid (uger) Hvad viser det punktvise konfidensinterval? 21 / 27

KM-plot for begge behandlingsgrupper 0.0 0.2 0.4 0.6 0.8 1.0 Behandling Placebo 0 5 10 15 20 25 30 35 Tid (uger) 22 / 27

Sammenligning af to grupper Hypotese: H 0 : De to overlevelseskurver er ens (S 1 = S 2 ). Sammenligningen kan foretages ved LogRank-testet. Princippet er, for hver observeret levetid t i, at se på død i live under risiko gruppe 1 m i1 Y 1 (t i ) m i1 Y 1 (t i ) gruppe 2 m i2 Y 2 (t i ) m i2 Y 2 (t i ) total m i Y(t i ) m i Y(t i ) Hvis risikoen er den samme i de to grupper (H 0 ) vil det forventede antal døde i gruppe 1 til tid t i være Ê i1 = Y 1 (t i ) m i Y(t i ). Hvorfor? 23 / 27

LogRank-testet Det forventede antal døde i gruppe 1 er Ê 1 = k Ê i1, hvor k er antal forskellige observerede levetider i begge grupper. LogRank-testet er i=1 LR = (O 1 Ê1) 2 Var(O 1 Ê1) O 1 = i m i1 er antallet af døde i gruppe 1. Under H 0 er LR approksimativt χ 2 -fordelt med 1 frihedsgrad. Hvornår afvises hypotesen? 24 / 27

Bemærk at Ê 1 + Ê2 = = = = k (Êi1 + Êi2) i=1 k i=1 k i=1 k m i i=1 = O 1 + O 2. Y 1 (t i ) m i Y(t i ) + Y 2(t i ) m i Y(t i ) (Y 1 (t i ) + Y 2 (t i )) m i Y(t i ) Dvs. O 1 Ê1 = (O 2 Ê2) og det er ligegyldigt om LogRank-testet baseres på gruppe 1 eller 2. 25 / 27

LogRank-test for leukæmidata N Observeret Forventet LogRank Placebo 21 21 10.74 16.79 Behandling 21 9 19.26 16.79 χ 2 -fordelingen med 1 frihedsgrad giver p<.0001. Vi konkluderer at der er signifikant forskel på de to behandlingsgrupper mht. overlevelse. 26 / 27

Sammenligning af mere end to grupper For G > 2 grupper findes også et LogRank-test, men formlen er kompliceret. Hypotesen er H 0 : Alle overlevelseskurver er ens (S 1 = S 2 = = S G ). LogRank-testet er χ 2 -fordelt med G 1 frihedsgrader. 27 / 27