Overlevelsesanalyse. Faculty of Health Sciences

Relaterede dokumenter
Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse

Dag 6: Interaktion. Overlevelsesanalyse

Introduktion til overlevelsesanalyse

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Lineær og logistisk regression

Morten Frydenberg Biostatistik version dato:

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

MPH specialmodul Epidemiologi og Biostatistik

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Introduktion til overlevelsesanalyse

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Løsning til opgave i logistisk regression

Morten Frydenberg 26. april 2004

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Opgavebesvarelse vedr. overlevelsesanalyse

Logistisk regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Konfidensintervaller og Hypotesetest

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Opgavebesvarelse, Basalkursus, uge 3

Faculty of Health Sciences. Basal statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 1. april 2019

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

1 Hb SS Hb Sβ Hb SC = , (s = )

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

MPH specialmodul Epidemiologi og Biostatistik

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Postoperative komplikationer

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Statistik II 4. Lektion. Logistisk regression

Logistisk regression

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Basal statistik. 30. oktober 2007

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Uge 13 referat hold 4

Morten Frydenberg 14. marts 2006

Statistiske Modeller 1: Kontingenstabeller i SAS

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

REEKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Basal statistik. 30. oktober Den generelle lineære model

Analyse af binære responsvariable

Vejledende besvarelse af hjemmeopgave, forår 2015

Simpel og multipel logistisk regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgavebesvarelse, logistisk regression

Løsning eksamen d. 15. december 2008

Logistisk Regression - fortsat

Basal statistik. 30. januar 2007

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Eksamen i Statistik for Biokemikere, Blok januar 2009

Besvarelse af vitcap -opgaven

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Multipel Lineær Regression

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Løsning til øvelsesopgaver dag 4 spg 5-9

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Opgavebesvarelse, Basalkursus, uge 3

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Transkript:

Faculty of Health Sciences Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Program Overlevelsesdata Kaplan-Meier estimatoren Log rank test Cox modellen med én kategorisk forklarende variabel Den multiple Cox model Simpel grafisk modelkontrol Gennemgående eksempel Leukæmi patienter i remission. Forslag til litteratur: Kleinbaum & Klein (2005) : Survival Analysis, A Self-Learning Text. 2 / 53

Overlevelsesdata Responsen er en levetid, dvs. tid indtil en hændelse forekommer. Tid fra start på behandling til recidiv (eller død eller begge dele) Tid fra fyldning af en tand til fyldningen falder ud Tid fra ansættelse til arbejdsrelateret sygdom Tid fra graviditet til fødsel... Overlevelsesdata er karakteriseret ved: Fordelingen er højreskæv (ikke et problem). Ufuldstændige data: Censurering og trunkering. De sædvanlige metoder kan ikke benyttes. 3 / 53

Censurering Oftest vil data være højre censureret, dvs. kun en nedre grænse for levetiden er kendt pga: Studiet afsluttes Patienten mistes for follow-up under studiet. 0 Studie ophør Venstre censurering forekommer når kun en øvre grænse er kendt, f.eks. Tid til infektion med HIV Alder for hvilken et barn lærer en færdighed Test NB: Censurering skal være uafhængig af levetiden. 4 / 53

Trunkering Hvis forudsætningen for at et individ indgår i et studie er bestemt af hvorvidt en hændelse er forekommet, siges data at være trunkeret. Højretrunkering De individer, for hvilken den primære hændelse endnu ikke er indtruffet, observeres ikke. Eksempel: Tid til AIDS for HIV-inficerede patienter. Venstretrunkering Kun de individer, for hvilken en mellemliggende hændelse er indtruffet, bliver observeret. Eksempel: Vedligeholdelsesbehandling af børn med leukæmi. 0 Start VB Venstretrunkering kaldes også forsinket indgang. 5 / 53

Overlevelsesfunktionen Lad T betegne en levetid. Overlevelsesfunktionen er S(t) = P(T > t) = sandsynligheden for at være i live til tid t. S(t) 0 for alle t 0. Ej voksende S(0) = 1 S( ) = 0 6 / 53

Eksempler på overlevelsesfunktioner Survival probability 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 Time Overlevelsesfunktionen estimeres som regel ved den ikke-parametriske Kaplan-Meier (KM) estimator. 7 / 53

Remissionstid for akut leukæmi Eksempel hentet fra Kleinbaum and Klein: Freirich et al. (1963). The effect of 6-mercaptopurine on the duration of remission time of steroid induced remission in acute leukaemia. Blood, 21 699:716. 42 patienter med akut leukæmi rekrutteret 1959-1960 og randomiseret til placebo eller 6-MP-behandling. Formål: At studere effekten af behandling, køn og WBC ved diagnose på remissionstid. Data kan downloades fra hjemmesiden (fil: remissionami.csv) 8 / 53

Remissionsdata Behandlingsgruppen: 21 patienter, 9 tilbagefald, resten højrecensureret. 0 10 20 30 40 Tid (uger) Placebogruppen: 21 patienter, 21 tilbagefald: 0 10 20 30 40 Tid (uger) = tilbagefald = censurering 9 / 53

KM-estimatoren for behandlingsgruppen Behandlingsgruppen (t 10). Data: 6, 6, 6, 6+, 7, 9+, 10, 10+,... Antal under risiko 21 21 21 21 21 21 21 17 16 16 15 0 1 2 3 4 5 6 7 8 9 10 0 0 0 0 0 3/1 1 0 0/1 1/1 Antal hændelser / Antal censureringer Overlevelsesfunktionen estimeres ved 0 6 7 8 10 11 1 1 18 21 10 / 53 18 16 21 17 18 16 21 17 1 18 21 16 14 17 15

KM-estimatoren for behandlingsgruppen 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 25 30 35 Tid (uger) Hvad er den mediane levetid? 11 / 53

KM med konfidensinterval for behandlingsgruppen 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 25 30 35 Tid (uger) Sandsynligheden for at være i live efter 1/2 år er 0.45 (95% CI 0.25-0.81). 12 / 53

KM-plot for begge behandlingsgrupper 0.0 0.2 0.4 0.6 0.8 1.0 Behandling Placebo 0 5 10 15 20 25 30 35 Tid (uger) 13 / 53

Sammenligning af to (eller flere) grupper Hypotese: H 0 : De to overlevelseskurver er ens (S 1 = S 2 ). Sammenligningen kan foretages ved LogRank-testet. Under H 0 er LR approksimativt χ 2 -fordelt med 1 frihedsgrad (antal grupper -1). For remissionsdata er LogRank teststørrelsen 16.79, p<.0001. Vi konkluderer at der er signifikant forskel på de to behandlingsgrupper mht. overlevelse. 14 / 53

Videre analyse af remissionsdata Vi vil gerne beskrive og kvantificere effekten af behandlingen. Vi ønsker at beskrive effekten af behandling justeret for relevante kovariater. Vi har brug for en model! I overlevelsesanalyse formuleres modeller typisk via hazardfunktionen. 15 / 53

Hazardfunktionen Hazardfunktionen (eller hazard raten / intensitet): h(t) P(t T < t + d T t) d hvor sandsynligheden i tælleren læses: Den betingede sandsynlighed for at dø i det næste lille tidsinterval (t + d) givet i live ved begyndelsen af intervallet (t). 0 t t + d Hazardfunktion giver en lokal beskrivelse af risikoen for død. 16 / 53

Sammenhæng mellem overlevelses- og hazardfkt. Der er en en-til-en relation mellem overlevelses- og hazardfunktionen: t S(t) = exp( h(s)ds). 0 Overlevelsesfunktionen giver en kumulativ beskrivelse af risikoen for død. 17 / 53

Konstant hazard funktion Den simpleste model for overlevelsesdata er modellen med konstant hazard, for h > 0. h(t) = h Dermed er overlevelsesfunktionen S(t) = exp( t 0 h(s)ds) = exp( t 0 hds) = exp( h t) Denne model kaldes den eksponentielle overlevelsesmodel. 18 / 53

Den eksponentielle overlevelsesmodel Eksponentialfordelingen, e.g. tid til død for rask population. h(t) = h S(t) = exp( ht) Hazard (h) 0.000 0.001 0.002 0.003 0.004 0.005 0.006 Overlevelsessandsynlighed (S(t)) 0.0 0.2 0.4 0.6 0.8 1.0 19 / 53 0 100 200 300 400 500 Tid (t) 0 100 200 300 400 500 Tid (t)

Andre eksempler på hazardfunktioner Non responderende leukæmipatienter At komme sig efter operation Tid (t) Tid (t) Død af tuberkulose 20 / 53 Tid (t)

Hazard ratio Et hyppigt effektmål i overlevelsesanalyse er hazard ratio: For remissionsdata vil vi fokusere på hazard ratio mellem behandlede og ubehandlede h B (t) h P (t) = P(t T < t + d T t, Behandlet) P(t T < t + d T t, Placebo). Fortolkning: Til ethvert tidspunkt angiver HR hvor meget større / mindre sandsynligheden er for at et behandlet individ dør i forhold til et ubehandlet individ. 21 / 53

Cox modellen Langt den vigtigste model i overlevelsesanalyse er Cox modellen. Modellen lyder h(t) = (model) = { h B (t) hvis behandlet h P (t) hvis placebo { h P (t) exp(b) hvis behandlet h P (t) hvis placebo hvor b er en konstant. Hazard ratio er HR= exp(b). 22 / 53

Cox modellen Modellen kan også skrives h B (t) = h P (t) exp(b). og kaldes derfor for Cox proportionale hazards model. For denne model afhænger hazard ratio exp(b) ikke af tiden t. formulerer vi ikke en model for baseline hazard h P (t) h P (t) kaldes baseline hazard funktionen og placebo-gruppen er reference (baseline) gruppen. 23 / 53

Fortolkning af Cox modellen Hazard ratio exp(b) udtrykker risikoen for at en behandlet patient får tilbagefald i forhold til en patient i placebogruppen til ethvert tidspunkt. HR < 1 (b < 0) : Behandlede får sjældnere tilbagefald end ubehandlede HR = 1 (b = 0) : Behandlede og ubehandlede har samme risiko HR > 1 (b > 0) : Behandlede får oftere tilbagefald end ubehandlede. Vi har brug for et estimat af b for at få et estimat af HR. 24 / 53

Data I overlevelsesanalyse skal data for hver patient bestå af tre slags variable 1) tid til event / censurering i år / uger / dage / timer. Typisk regnet fra veldefineret tid 0 (eks diagnosetidspunkt, alder). 2) censureringsindikator med to niveauer, f.eks. 0 hvis patienten er censureret, 1 hvis patienten er død. 3) kovariater (f.eks. behandling, alder, bmi). Data for hver enkelt patient skal stå i en linie. 25 / 53

Remissionsdata Første 25 linier af data: tid doed WBC kvinde behandling 35 0 4.263 1 1 34 0 4.349 1 1 32 0 9.025 1 1 32 0 12.554 1 1 25 0 5.930 1 1 23 1 13.066 1 1 22 1 10.176 1 1 20 0 7.463 1 1 19 0 7.768 0 1 17 0 8.671 0 1 16 1 36.598 1 1 13 1 17.814 0 1 11 0 13.464 0 1 10 0 14.880 0 1 10 1 19.298 0 1 9 0 16.445 0 1 7 1 83.931 0 1 6 0 24.533 0 1 6 1 10.074 0 1 6 1 57.974 1 1 6 1 26.576 0 1 23 1 7.171 1 0 22 1 15.333 0 0 17 1 19.106 0 0 15 1 9.974 0 0 26 / 53

Muligt output fra regressionsanalyse I SAS er output (forkortet) fra PHREG proceduren Summary of the Number of Event and Censored Values Percent Total Event Censored Censored 42 30 12 28.57 Analysis of Maximum Likelihood Estimates Parameter Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq behandling 1-1.50919 0.40956 13.5783 0.0002 Analysis of Maximum Likelihood Estimates Hazard 95% Hazard Ratio Parameter Ratio Confidence Limits behandling 0.221 0.099 0.493 Her er b = -1.509. HR=exp(coef)=exp( β) = 0.221. 27 / 53

Konfidensinterval og test Et 95% konfidensinterval (CI) for b får vi som b ± 1.96 SE( b), hvor SE( b) = Standard Error af b. Fra output finder vi 1.5092 ± 1.96 0.4096 = ( 2.312, 0.706). Et 95%-CI for HR=exp( b) =0.221 får vi ved at tage eksponentialfunktionen til dette, (0.099, 0.493). Et Wald test for hypotesen H 0 : b = 0 (HR=1) er: Z = b SE( b) = 1.5092 0.4096 = 3.68 som i en normalfordeling giver p=0.0002. Bemærk at vi i output får et chi-square test (=Z 2 ). 28 / 53

Konklusion om behandlingseffekten Vi ser en gavnlig effekt af behandlingen på risikoen for død med en estimeret hazard ratio på 0.22 (95% CI 0.10-0.49, p=0.0002) for behandling i forhold til placebo. Hvis vi ønsker effekten af placebo i forhold til behandling finder man (sæt placebo=1-behandling) Analysis of Maximum Likelihood Estimates Parameter Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq placebo 1 1.50919 0.40956 13.5783 0.0002 Analysis of Maximum Likelihood Estimates Hazard 95% Hazard Ratio Parameter Ratio Confidence Limits placebo 4.523 2.027 10.094 Vi ser en øget risiko for død for patienterne i placebogruppen med en hazard ratio på 4.52 (95% CI 2.03-10.1, p=0.0002) for placebo i forhold til behandling (reciprokværdien). 29 / 53

Skyldes behandlingseffekten WBC? Måske skyldes den gavnlige effekt af behandling, at vi har fået en uheldig randomisering, idet patienter med lav WBC (White Blood Count) klarer sig bedre. Behandling Antal 0 2 4 6 8 10 0 50 100 150 WBC Placebo Antal 0 2 4 6 8 10 0 50 100 150 30 / 53 WBC

Er der forskel på niveauet af WBC i de to grupper? Vi laver et t-test på log(wbc). Output fra SAS proc TTEST: Variable: log_wbc behandling N Mean Std Dev Std Err Minimum Maximum 0 21 3.2243 0.9723 0.2122 1.4996 5.0000 1 21 2.6361 0.7739 0.1689 1.4493 4.4300 Diff (1-2) 0.5881 0.8787 0.2712 behandling Method Mean 95% CL Mean Std Dev 0 3.2243 2.7817 3.6669 0.9723 1 2.6361 2.2839 2.9884 0.7739 Diff (1-2) Pooled 0.5881 0.0401 1.1362 0.8787 Diff (1-2) Satterthwaite 0.5881 0.0392 1.1371 Method Variances DF t Value Pr > t Pooled Equal 40 2.17 0.0361 Satterthwaite Unequal 38.083 2.17 0.0364 Dvs der er en mulighed for at behandlingseffekten (eller en del af den) kan tilskrives WBC. 31 / 53

Den generelle Cox model Vi ønsker at justere modellen for WBC og har derfor brug for en regressionsmodel. Lad X i = (X i1, X i2,..., X ik ) være en liste af kovariatværdier for patient i. Den multiple Cox model specificerer hazarden for individ i ved h i (t) = h 0 (t) exp(b 1 X i1 + b 2 X i2 + + b k X ip ). Bemærk at der ikke er noget intercept (hvorfor?). Når alle kovariater (X er) er 0 får vi baseline hazard λ i (t) = λ 0 (t). Fortolkning: Baseline hazarden er hazarden for et individ med alle kovariatværdier lig 0. 32 / 53

En kontinuert forklarende variabel Cox modellen med WBC som kontinuert forklarende variabel er h i (t) = h 0 (t) exp(b WBC i ). Sammenlignes to patienter med en forskel på 1 i WBC, når det laveste er referencen, fås HR = h 0(t) exp(b (WBC + 1)) h 0 (t) exp(b WBC) = exp(b). Dvs fortolkningen er : for hver gang WBC øges med 1, skal HR ganges med exp(b). 33 / 53

log(wbc) som forklarende variabel Fordelingen af WBC er højreskæv (nogle få patienter har meget høje værdier). Det er derfor mere rimeligt at inkludere WBC på en log-skala. Output fra SAS: Analysis of Maximum Likelihood Estimates Parameter Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq log_wbc 1 1.59369 0.29673 28.8462 <.0001 Hazard 95% Hazard Ratio Parameter Ratio Confidence Limits log_wbc 4.922 2.751 8.804 34 / 53

Fortolkning af effekten af WBC på log-skala HR øges med en faktor 4.92 for hver gang log(wbc) øges med 1. Hvad betyder det? det vil sige at 1 = log(wbc 1 ) log(wbc 2 ) = log( WBC 1 WBC 2 ) WBC 1 WBC 2 = exp(1) = 2.72. Dermed er fortolkningen, at HR øges med en faktor 4.92 for hver gang WBC øges med en faktor 2.72. Løsning: Brug logaritme med base 2 i stedet. 35 / 53

Cox modellen med log 2 (WBC) Analysis of Maximum Likelihood Estimates Parameter Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq log2_wbc 1 1.10466 0.20568 28.8462 <.0001 Analysis of Maximum Likelihood Estimates Hazard 95% Hazard Ratio Parameter Ratio Confidence Limits log2_wbc 3.018 2.017 4.517 Ved en fordobling af WBC øges HR med en faktor 3.02 (95% KI 2.02-4.52). Eller : risikoen for tilbagefald 3-dobles ved en fordobling af WBC. Bemærk at teststørrelserne og p-værdierne er uændrede ifht. den naturlige logaritme. 36 / 53

Den multiple Cox model Vi har set, at der er forskel på niveauet af WBC i behandlingsog placebogruppen og at der er en effekt af WBC på overlevelsen. I den multiple Cox model kan vi vurdere effekten af behandling justeret for log 2 (WBC), dvs. h i (t) = h 0 (t) exp(b 1 behandlet i + b 2 log 2 (WBC) i ) = h 0 (t) exp(b 1 behandlet i ) exp(b 2 log 2 (WBC) i ) hvor behandlet=1 i behandlingsgruppen, 0 ellers. På log-hazard-skalaen lyder modellen log(h i (t)) = log(h 0 (t)) + b 1 behandlet i + b 2 log 2 (WBC) i svarende til at vi har parallelle linier. 37 / 53

Output fra multipel regressionsanalyse Analysis of Maximum Likelihood Estimates Parameter Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq behandling 1-1.29409 0.42211 9.3990 0.0022 log2_wbc 1 1.11198 0.22827 23.7302 <.0001 Analysis of Maximum Likelihood Estimates Hazard 95% Hazard Ratio Parameter Ratio Confidence Limits behandling 0.274 0.120 0.627 log2_wbc 3.040 1.944 4.756 Konklusion: Vi ser at der fortsat er en gavnlig effekt af behandling, idet HR=0.27 (95% CI 0.12-0.63) for behandling vs placebo når vi justerer for log 2 (WBC). 38 / 53

Cox modellens antagelser Den generelle Cox model er h i (t) = h 0 (t) exp(b 1 X i1 + b 2 X i2 + + b k X ik ) når vi inkluderer k forklarende variable i modellen. Vi har ingen antagelser / restriktioner på baseline hazard h 0 (t). Antagelserne er 1) effekten af de forklarende variable er additiv og lineær på log-hazard-skalaen 2) hazarden for hver enkelt patient afhænger af tiden på samme måde idet hazarden (h i ) er et multiplum af baseline hazard (h 0 ) (proportional hazards). Vi er nødt til at vurdere om disse antagelser er rimelige. 39 / 53

Proportionale hazards med én forklarende variabel For Cox-modellen indeholdende én forklarende variabel h i (t) = h 0 (t) exp(b behandlet i ) er proportionalitetsantagelsen at hazard ratio for i behandlet vs j placebo h i (t) h j (t) = exp(b) ikke afhænger af tiden t dvs. at h i (t) h j (t) med mindre f er en konstant. f (t) 40 / 53

PH med flere forklarende variable For den generelle Cox-model indeholdende flere forklarende variable h i (t) = h 0 (t) exp(b 1 X i1 + b 2 X i2 +... + b p X ip ) er proportionalitetsantagelsen at hazard ratio mellem individ i og j er konstant h i (t) h j (t) = exp(b 1 (X i1 X j1 ) +... + b p (X ip X jp )), dvs. ikke afhænger af tiden t. Bemærk at dette svarer til at vi skal have PH mellem grupper for de kategoriske variable. 41 / 53

Hvorfor bekymre sig om PH-antagelsen? Det er vigtigt at undersøge proportionalitetsantagelsen: Hvis PH ikke er opfyldt vil estimatet fra Cox regressionen være en gennemsnitlig effekt over tid. Hvis vi ikke tager højde for en eventuel tidsafhængig effekt kan der opstå bias for nogle af de øvrige estimerede effekter i modellen. Det kan være vigtigt at forstå, hvordan effekten varierer over tid, idet det kan gøre os klogere på de mekanismer, som genererer data. I nogle sammenhænge kan den gennemsnitlige effekt dog være en interessant / acceptabel beskrivelse af effekten - men det er vigtigt at kende til konkvenserne af at ignorere en tidsafhængig effekt. 42 / 53

Grafisk modelkontrol via log(-log(overlevelse)) For den simple Cox model baseret på behandling er overlevelseskurven for de behandlede patienter S B (t) = S P (t) exp(b) hvor S P er overlevelseskurven i placebogruppen. Det betyder at log( log(s B (t))) = log( log(s P (t))) + b svarende til at differensen log( log(s B (t))) log( log(s P (t))) = b ikke afhænger af tiden t, dvs at overlevelseskurverne er parallelle som funktion af t. log(-log( ))-funktionen kaldes også for cloglog-funktionen. 43 / 53

cloglog-kurver for kategoriske variable Med kategoriske forklarende variable kan vi estimere overlevelseskurven for hvert niveau af variablen ved Kaplan-Meier-kurven og plotte cloglog-overlevelseskurverne i ét plot: 2.0 1.5 1.0 0.5 0.0 0.5 1.0 Placebo Behandling 1 2 5 10 20 44 / 53

Simultan evaluering af PH-antagelsen Vi bør evaluere PH-antagelsen simultant (samtidigt) når vi har flere forklarende variable. Kategoriser de kontinuerte (her tre WBC-grupper) og se på cloglog-kurverne for alle kombinationer af de forklarende variable: 2.0 1.0 0.0 1 2 5 10 20 Uoverskueligt med flere variable. Nogle inddelinger har meget få events, hvorfor det bliver svært at sammenligne kurverne. 45 / 53

Ulemper ved cloglog-metoden clogclog-metoden er svær at benytte i praksis fordi vurderingen af om linierne er parallelle er subjektiv. vi ikke kan vurdere, hvor stor afvigelsen er og om den reelt er et problem inddelingen i grupper er mere eller mindre tilfældig for kontinuerte variable Proportional hazards antagelsen kan også vurderes med mere sofistikerede metoder baseret på residualer (e.g. Schoenfeld-residualer som er implementeret i de fleste statistikprogrammer). Residualerne kan benyttes i grafik og i teststørrelser. 46 / 53

Mulige løsninger på manglende PH Der kan tages højde for afvigelse fra PH-antagelsen på følgende måder: 1) Stratificering hvor vi tillader forskellig baseline i grupper, e.g. h i (t) = { h P (t) exp(b log 2 (WBC i )) hvis i får placebo h B (t) exp(b log 2 (WBC i )) hvis i får behandling 2) Benyt en anden model (e.g. Accelerated Failure Time, additiv hazard model). 3) Inddeling af tidsaksen. Måske holder PH-antagelsen over mindre tidsintervaller. Lav separate analyser. 47 / 53

4) Vi kan acceptere Cox-modellen med en tidsafhængig effekt h i (t) = h 0 (t) exp(b(t)x i ) og forsøge at beskrive denne effekt ved at tilføje en tidsafhængig version af X. F.eks. kan vi formulere en tidsafhængig effekt ved b 1 X 1 + b 2 X 2 (t) = { b1 X 1 t < 1 år (b 1 + b 2 )X 1 t 1 år hvor X 2 (t) = X 1 I(t 1 år) er den tidsafhængige variabel. Afhængigt af hvilket program man benytter, kræves mere eller mindre programmering. 48 / 53

Mere materiale Mere udførlige slides kan downloades fra: www.biostat.ku.dk/~sr/forskningsaar/survival2011 som indeholder materiale til et 5-dages kursus i overlevelsesanalyse. Slides fra dagens gennemgang samt materiale til opgaverne kan downloades fra www.biostat.ku.dk/~sr/ami 49 / 53

Opgave 1 Tid til invalidepension: Læs og diskutér artiklen Albertsen et al. (2007). Predictors of disability pension over a 10-year period for men and women. Scandinavian Journal of Public Health. I kan tage udgangspunkt i følgende spørgsmål: 1) Hvilke typer analyser er der lavet? 2) Hvilken type censurering er der tale om? Hvad kan årsagerne til censurering være? Kan alle disse årsager tænkes at være uafhængige af invalidepension (dvs. er der nogle årsager, som kan tænkes at udelukke muligheden for invalidepension)? 50 / 53

3) Hvorfor tror I at man har valgt at lave det som en overlevelsesanalyse frem for f.eks. en logistisk regression (vi har jo mulighed for at finde information om alle som får førtidspension i den periode). Vink: Nogle vil have mulighed for at opnå invalidepension efter sidste follow-up (men man kunne dog vælge at fokusere på den 10-årige periode) og derudover har de ikke samme risikotid. F.eks. følges en 59-årig måske kun i 1 år, mens en 20-årig følges i 10 år. 4) Hvad er tidsaksen? Hvad er tid 0? Kunne man have valgt en anden tidsskala - og hvilket spørgsmål kunne man så have besvaret? Vink: kalendertid vs alder. 51 / 53

5) Diskutér hvilke Cox-analyser, forfatterne har lavet. 6) På side 82 skriver de, at de har testet for mulige interaktioner med køn baseret på hele datasættet. Hvordan kan de tænkes at have gjort det? Hvilke forudsætninger bygger disse tests på? Hvis de ville sammenligne HR erne som angivet i tabel II, hvordan kunne de så have gjort det? (Jvf slide 47). 7) Diskutér tabel 3. 8) Fra min hjemmeside kan hentes et datasæt indeholdende nogle af de beskrevne risikofaktorer (invalide.csv) for lidt færre personer end analyseret i artiklen. Udfør nogle af de analyser, som er beskrevet i artiklen. Kontrollér om der kan antages at være proportionale hazards mellem mænd og kvinder. 52 / 53

Opgave 2 Remissionsdata: Data kan downloades som csv-fil fra min hjemmeside (remissionami.csv). 53 / 53 1) Genskab KM-plots og Cox-analyserne af remissionsdata. I skal under Cox-regressionen være opmærksomme på, at I ikke nødvendigvis får præcis det samme output. Det skyldes at der er ties i data - flere patienter dør på samme dag. Statistikprogrammerne håndterer ties forskelligt (SAS bruger en såkaldt Breslow-metode). 2) Afhænger effekten af behandlingen af WBC? (Lav et test for interaktion mellem behandling og log2(wbc)). 3) Inkludér køn i Cox-modellen. Hvad er konklusionen? 4) Lav et plot indeholdende KM-kurverne for begge køn. Vurdér ud fra dette, om PH-antagelsen er opfyldt (lav evt også et cloglog-plot).