Caerphilly studiet Design og Data Biostatistik uge 14 mandag Morten Frydenberg, Afdeling for Biostatistik Poisson regression En primær tidsakse og ikke stykkevise konstante rater Cox proportional hazard model Estimation af overlevelsesfunktionen/kumuleret incidens Højre censurering Kaplan-Meier estimatet ved højre censureret data Interval censurering Competing risk Follow-up studiet med fokus på risikofaktorer for hjertekarsygdomme. Inklusion i perioden juli 1979 til oktober 1983. Studiepopulation(her): mænd alder 43-61 ved start. Primære outcome(her): MI eller død. End of study(her): februar 1999 Vi glemmer alt om selektionsproblemer og andet i denne gennemgang! Et Lexis diagram er en god start til forståelse af studiet: www.epi.bris.ac.uk/caerphilly/caerphillyprospectivestudy.htm 1 2 Lexis-diagram for syv deltagere i studiet 20 0 7 random persons entry First MI death heart death other 01jan1920 01jan19 01jan19 01jan19 01jan200 Data (her): Dato for fødsel Dato for indgang i studiet( = første undersøgelse) Dato for første MI Dato for død (hvis død inden studie slut) Dødsårsag Dato for emigrering (dato studie slut) Personkarakteristiska ved studiestart: Alder Rygevaner BMI Blodtryk Socialklasse mv 3 4
Lexis-diagram for syv deltagere i studiet Lexis-diagram for alle 7 random persons all 1786 persons 70 50 First MI death heart death other 01jan19 01jan1985 01jan1990 01jan1995 01jan200 20 0 First MI death heart death other 01jan1920 01jan19 01jan19 01jan19 01jan2000 5 6 Caerphilly studiet analyse af rater Lexis-diagram for alle all 1786 persons Vi vil her se på udfaldet/endpoint/outcome/event: Første MI eller død pga. hjertekarsygdom. 7 random persons 70 70 50 entry First MI death heart death other 01jan19 01jan1985 01jan1990 01jan1995 01jan2000 50 Mi or death heart 01jan19 01jan1985 01jan1990 01jan1995 01jan2000 7 8
Time at risk - Person Years at Risk: For hver person kan beregne hvor lang tid der går fra indgang i studiet til event eller udgang af studiet samt hvorvidt personen oplevede eventet (MI eller hjertedød). Vi kan så lave en tabel, der opdelt efter karakteristika ved start: Person-years Rate per 1,000 years Rate ratio Events at risk est CI est CI All 348 26,161.0 13.30 (11.98; 14.78) Smoking No 118 12,182.5 9.69 (8.09; 11.) ref Yes 230 13,978.5 16.45 (14.46; 18.72) 1.70 (1.36; 2.12) Social class I 7 1,216.9 5.75 (2.74; 12.07) 0. (0.19; 0.86) II 51 4,709.3 10.83 (8.23; 14.25) 0.76 (0.56; 1.03) IIINM 190 13,317.5 14.27 (12.38; 16.45) ref IIIM 38 2,785.0 13.64 (9.93; 18.75) 0.96 (0.68; 1.35) IV 43 3,120.9 13.78 (10.22; 18.58) 0.97 (0.69; 1.34) V 19 1,011.4 18.79 (11.98; 29.45) 1.32 (0.82; 2.11) 9 Opdeling af tid i risiko i 5 års aldersintervaller: 70 50 7 random persons Mi or death heart 01jan19 01jan1985 01jan1990 01jan1995 01jan200 10 Person-years Rate per 1,000 years Rate ratio Events at risk est CI est CI All 348 26,161.0 13.30 (11.98; 14.78) Smoking No 118 12,182.5 9.69 (8.09; 11.) ref Yes 230 13,978.5 16.45 (14.46; 18.72) 1.70 (1.36; 2.12) Social class I 7 1,216.9 5.75 (2.74; 12.07) 0. (0.19; 0.86) II 51 4,709.3 10.83 (8.23; 14.25) 0.76 (0.56; 1.03) IIINM 190 13,317.5 14.27 (12.38; 16.45) ref IIIM 38 2,785.0 13.64 (9.93; 18.75) 0.96 (0.68; 1.35) IV 43 3,120.9 13.78 (10.22; 18.58) 0.97 (0.69; 1.34) V 19 1,011.4 18.79 (11.98; 29.45) 1.32 (0.82; 2.11) Age (current) 41-50 11 1,627.3 6.76 (3.74; 12.21) 0.64 (0.34; 1.21) 50-55 45 4,268.1 10.54 (7.87; 14.12) 1.00 (0.69; 1.45) 55-71 6,718.4 10.57 (8.37; 13.34) ref -65 102 7,114.1 14.34 (11.81; 17.41) 1.36 (1.00; 1.84) 65-70 77 4,296.3 17.92 (14.34; 22.41) 1.70 (1.23; 2.34) 70-75 29 1,867.3 15.53 (10.79; 22.35) 1.47 (0.95; 2.26) 75+ 13 269.5 48.24 (28.01; 83.08) 4.56 (2.53; 8.25) OBS:Tal for alder afviger lidt fra Table 24.11 i KS 11 Vi kan vha. computer opregne risikotid og events i en stor tabel givet ved alle kombinationer af Aldersgruppe (7 niveauer) Socialgruppe (6 niveauer) Rygning (2 niveauer) Dvs. en tabel med 7*6*2 = 84 kombinationer/linier. De første 10 linier +-------------------------------------------------+ curage socclass cursmoke event pyr ------------------------------------------------- 1. 0 I No 0 52.8323 2. 50 I No 0 110.8118 3. 55 I No 0 179.8412 4. I No 2 191.9459 5. 65 I No 1 131.9979 6. 70 I No 0 62.3128 7. 75 I No 0 9.4367 8. 0 II No 0 196.6995 9. 50 II No 2 487.5551 10. 55 II No 2 757.2485 +-------------------------------------------------+ 12
En model for raten for event (første MI eller hjertedød): ( rate) β0 β1 = + Smoking 7 41 8 50 9 10 65 11 70 12 75 Smoking indikator for at være ryger SC # indikator for at være i socialgruppe # A # indikator for at være i aldersgruppe med start # Vi kan se at β 0 er log raten for en ikke ryger, 55- år gammel i socialgruppe IIINM. β 1 er log rateratioen rygning, for to personer i samme aldergruppe og i samme socialgruppe. Vi kan se at β 1 er log rateratioen rygning, for to personer i samme aldergruppe og i samme socialgruppe: Rygeren: Ikkerygeren: ( rate) = β0 + β1 2 I 3 II 4 IIIM 5 IV 6 V ( rate) = β0 7 41 8 50 9 10 65 11 70 12 75 2 I 3 II 4 IIIM 5 IV 6 V 7 41 8 50 9 10 65 11 70 12 75 ( rateryger ) ( rateikke ryger ) = ( rateryger rateikke ryger ) = β1 13 14 = + Smoking ( rate) β0 β1 2 I 3 II 4 IIIM 5 IV 6 V 7 41 8 50 9 10 65 11 70 12 75 Log raten for en 52-årige ryger i socialklasse IV ( rate) = β0 + β1 + β5 + β8 Raten for en 52-årige ryger i socialklasse IV ( 0 1 5 8 ) ( β ) ( β ) ( β ) ( β ) rate = exp β + β + β + β = exp exp exp exp 0 1 5 8 = + Smoking ( rate) β0 β1 7 41 8 50 9 10 65 11 70 12 75 Modellen er en Poisson regression. Data er tabel over risikotid og antal events for hver eneste kombination af de forklarende faktorer. Som i logistisk regression sker analysen vha. af computer. Det primære output er er β erne med se, CI og test for β =0. Rateratioer med CI findes ved transformation vha. eksponentialfunktionen. Rate for reference Rateratioer 15 16
Risikotid i 1000 år. ----------------------------------------------------------------------- event Beta Std. Err. z P>z [95% Conf. Inter] -------------+--------------------------------------------------------- _cons 2.1089 0.1518 13.90 0.000 1.8114 2.63 cursmoke 0 (base) 1 0.4959 0.1144 4.34 0.000 0.2717 0.7200 socclass I -0.8554 0.3855-2.22 0.026-1.6110-0.0998 II -0.1672 0.1590-1.05 0.293-0.4788 0.1444 IIINM (base) IIIM -0.0039 0.1783-0.02 0.983-0.3533 0.3455 IV -0.0422 0.1690-0.25 0.3-0.3733 0.2890 V 0.2582 0.27 1.07 0.283-0.2136 0.7300 curage 41-0.4334 0.3241-1.34 0.181-1.0686 0.2018 50-0.0014 0.1906-0.01 0.994-0.3749 0.3721 55 (base) 0.3013 0.1546 1.95 0.051-0.0016 0.43 65 0.5301 0.1646 3.22 0.001 0.2076 0.8527 70 0.3789 0.2205 1.72 0.086-0.0532 0.8110 75 1.5309 0.3019 5.07 0.000 0.9392 2.1226 ----------------------------------------------------------------------- Risikotid i 1000 år. event Exp(beta) [95% Conf. I] P>z -------------+------------------------------------- _cons 8.24 6.12 11.09 --- cursmoke 0 (base) 1 1.64 1.31 2.05 0.000 socclass I 0.43 0.20 0.90 0.026 II 0.85 0.62 1.16 0.293 IIINM (base) IIIM 1.00 0.70 1.41 0.983 IV 0.96 0.69 1.34 0.3 V 1.29 0.81 2.08 0.283 curage 41 0.65 0.34 1.22 0.181 50 1.00 0.69 1.45 0.994 55 (base) 1.35 1.00 1.83 0.051 65 1.70 1.23 2.35 0.001 70 1.46 0.95 2.25 0.086 75 4.62 2.56 8.35 0.000 -------------------------------------------------- Rate ref. person Korrigerede (adjusted) rateratioer 17 18 Præsentation i artikel: Rate ratio Person-years Crude Adjusted Events at risk est CI est CI Smoking No 118 12,182.5 ref ref Yes 230 13,978.5 1.70 (1.36; 2.12) 1.64 (1.31; 2.05) Social class I 7 1,216.9 0. (0.19; 0.86) 0.43 (0.20; 0.90) II 51 4,709.3 0.76 (0.56; 1.03) 0.85 (0.62; 1.16) IIINM 190 13,317.5 ref ref IIIM 38 2,785.0 0.96 (0.68; 1.35) 1.00 (0.70; 1.41) IV 43 3,120.9 0.97 (0.69; 1.34) 0.96 (0.69; 1.34) V 19 1,011.4 1.32 (0.82; 2.11) 1.29 (0.81; 2.08) Age (current) 41-50 11 1,627.3 0.64 (0.34; 1.21) 0.65 (0.34; 1.22) 50-55 45 4,268.1 1.00 (0.69; 1.45) 1.00 (0.69; 1.45) 55-71 6,718.4 ref ref -65 102 7,114.1 1.36 (1.00; 1.84) 1.35 (1.00; 1.83) 65-70 77 4,296.3 1.70 (1.23; 2.34) 1.70 (1.23; 2.35) 70-75 29 1,867.3 1.47 (0.95; 2.26) 1.46 (0.95; 2.25) 75+ 13 269.5 4.56 (2.53; 8.25) 4.62 (2.56; 8.35) Rate: ikke ryger, alder 55-, socialgruppe IIINM: 8.24 (6.12;11.09) per 1000 år. Rate ryger, alder 55-, socialgruppe IIINM: 8.24*1.64 = 13.51 per 1000 år. Rate ryger, alder 72, socialgruppe IIINM: 8.24*1.64*1.46 = 19.73 per 1000 år. Korrigeret rateratio aldersgruppe70-75 vs 41-50: 1.46/0.65 = 2.24 Korrigeret rateratio mellem A: ryger, 72 årig, socialgruppe IIIM B: ikke ryger, 62 årig, socialgruppe V 1.64 1.46 1.00 1.64 1.46 1.00 IRR AvsB = = = 1.37 1.35 1.29 1 1.35 1.29 19 20
λ ( t) = lim h 0 ( event i [ t t + h] givet ikke event før t) Pr, h Lad her tiden være alder og event være først MI eller hjertedød. Et eksempel på en Cox proportional hazard regression model: ( ( )) ( ( )) I Poisson regressionen antog vi stykkevise konstante rater og fik estimater både for raten og rate ratioer. En alternativ analyse kan være en Cox proportional hazard model, der ikke antager stykkevise konstante rater. Model tager udgangspunkt raten/hazarden til tid t: λ t = λ t + α Smoking 0 1 + α SC + α SC + α SC + α S + α SC 21 ( ( )) ( ( )) λ t = λ t + α Smoking 0 1 + α SC + α SC + α SC + α S + α SC Vi ser at λ 0 (t) er hazard/raten som funktion af alder for en reference person: ikke ryger i socialgruppe IIINM Modellen antager ikke at denne rate er stykvis konstant, som vi gjorde i Poisson regressions modellen til start. λ 0 (t) kaldes ofte baseline hazard. Fokus i en Cox model er ikke på baseline hazard eller i det hele taget på hazard fokus er på hazard ratioer. Obs når man laver Poission regression taler man om rater og når man laver Cox regressioner taler man om hazard. 22 ( ) ( ) exp[ λ t = λ t α Smoking 0 1 + α SC + α SC + α SC + α S + α SC Hazard for en ryger i socialgruppe IIINM ( t) = ( t) exp[ ] λ λ α 0 1 Vi ser at den er er proportional med baseline hazard med en faktor der er: = exp α HRSmoking [ ] Som ved de andre regressionsmodeller ser vi at hazard ratioen ved sammenligning af en ryger med en ikke ryger er den samme blot de to er i samme socialgruppe og har samme alder (t). 1 ] Model estimeres vha. af computer Det primære output er α erne (log hazard ratioerne), med se, CI og test for α =0. Coef. Std. Err. z P>z [95% Conf. Inter] -------------+-------------------------------------------------------- cursmoke 0 (base) 1 0.4956 0.1144 4.33 0.000 0.2714 0.7198 socclass I -0.8564 0.3855-2.22 0.026-1.6120-0.1008 II -0.1639 0.1590-1.03 0.303-0.4756 0.1478 IIINM (base) IIIM -0.0089 0.1783-0.05 0.9-0.3584 0.35 IV -0.0448 0.1690-0.26 0.791-0.37 0.2865 V 0.29 0.28 1.08 0.279-0.2111 0.7329 ---------------------------------------------------------------------- 23 24
I artikler rapporteres Hazard ratioer og CI ( evt p-værdi for hazard ratio lig 1). Haz. Ratio [95% CI] P>z -------------+--------------------------------- cursmoke 0 (base) 1 1.64 1.31 2.05 0.000 socclass I 0.42 0.20 0.90 0.026 II 0.85 0.62 1.16 0.303 IIINM (base) IIIM 0.99 0.70 1.41 0.9 IV 0.96 0.69 1.33 0.791 V 1.30 0.81 2.08 0.279 ------------------------------------------------ Kommentarer til Cox regression I analysen brugte vi alder = tid siden fødsel som tidsakse. Vi kunne også af brugt tid siden indgang i studiet eller kalendertid som tidsakse. Generelt bør man vælge den tidsakse som betyder mest for variation i raten. Korrektion for de andre kan ske ved at man introducere tidsafhængige forklarende variable. Fx hvis vi bruger alder som tidsakse, så kan vi have en variabel, der skifter niveau alt efter hvor lang tid person har være i studiet. Bemærk vi får ikke noget estimate for raten hazarden kun hazard ratioen. 25 26 Cox regression og Poisson regression Begge metoder bruges til at analyse af raten for en begivenhed. Begge bruger rateratioer som associationsmål. Poisson regression antager stykkevise konstante rater og estimerer disse. Cox regressionen pålægger ikke baseline raten nogle betingelser, men giver heller ikke noget estimat for denne. Hvis tidsintervallerne i Poission modellen (her alders intervallerne) er små, så vil de to modeller givet stort samme rate ratioer. 27 Ventetidsfordeling/kumuleret incidens funktion Kaplan-Meier estimator Antag at vi for hver person i studiepopulationen har følgende: t : Tid fra observation start til observation slut d : Indikator for hvorvidt follow-up slutter med event (død) Dvs. vi for de personer, der dør, ved vi hvornår det sker og for de andre ved vi hvornår de sidst var observeret i live. Disse personer siges at være højre-censorede: Vi ved at de vil dø senere, men vi ved ikke hvornår. I Caerphilly studiet vil personer, der er forlader studiet undervejs eller er i live, når studiet slutter, være højrecensorede. Med sådan data kan man estimere overlevelsefunktionen, S(t), dvs sandsynligheden for at man ikke er død, vha. Kaplan-Meier estimatoren. 28
Overlevelses funktion Kaplan-Meier estimator med 95% CI 1 Kaplan-Meier survival estimate Kumuleret mortalitet funktion Kaplan-Meier estimator.5 KMP t ( ) = 1 S ( t) Kaplan-Meier failure estimate.75.4 andel i live.5 andel døde.3.2.25.1 0 Number at risk 1786 1651 1471 1276 0 0 Number at risk 1786 1651 1471 1276 0 29 30 Kumuleret mortalitet funktion Kaplan-Meier estimator Opdelt efter rygning ved start Kumuleret mortalitet funktion Kaplan-Meier estimator Opdelt efter alder ved start 0.50 0. cursmoke = No cursmoke = Yes 0.50 0. agegr = 0- agegr = 50- agegr = - andel døde 0.30 0.20 andel døde 0.30 0.20 0.10 0.10 0.00 Number at risk cursmoke = No 796 751 695 625 0 cursmoke = Yes 990 900 776 651 0 0.00 Number at risk agegr = 0-626 598 557 510 0 agegr = 50-1085 982 856 722 0 agegr = - 75 71 58 44 0 31 32
Kommentarer til brug af Kaplan-Meier estimatoren Kaplan-Meier overlevelseskurver er en valid estimator i situationer med højre censurering. Ofte er data interval censureret, dvs. vi ved ikke præcist hvornår eventet er indtruffet, men blot at det er sket i et kendt tidsinterval. Fx personen var rask ved forrige kontrolbesøg, men ved det kontrolbesøg er vedkommende syg.vi ved således at personen er blevet syg på tidspunkt mellem de to besøg. Lille Peter havde ikke hul i tanden ved forrige besøg hos tandlægen, men har det nu. Vi ved ikke hvornår Peter fik hul i tanden. Kaplan-Meier estimat er ikke valid hvis vi har interval censureret data! 33 Kommentarer til brug af Kaplan-Meier estimatoren Kaplan-Meier overlevelseskurver er en valid estimator i situationer med højre censurering. Metoden er kræver også at censurering ikke ændre sandsynligheden/raten for den begivenhed man betragter man blive censureret pga. Competing Risk. Antag fx at begivenhed er MI, så vil udgang af studiet pga. død betyde at man aldrig får et MI. død er en competing event. Kaplan-Meier estimatoren er ikke valid i situationer med competing risk. I Caerphilly studiet vil Kaplan-Meier metoden ikke kunne bruges til at estimere den kumulerede incidens af MI/hjertedød, da nogle personer bliver censureret på brug af død af en anden årsag. Disse person kan jo ikke senere få MI eller død pga hjertekarsygdom. 34 Kommentarer til brug af Kaplan-Meier estimatoren Man kan teste hypotesen om ingen forskel mellem flere overlevelsesfunktioner eller kumuleret incidens kurver vha. et Log-Rank test: 0.50 0. agegr = 0- agegr = 50- agegr = - Log-rank test for equality of survivor functions chi2(2) = 24.87 Pr>chi2 = 0.0000 andel døde 0.30 0.20 0.10 0.00 Hypotesen om ingen forskel i dødelighed i de tre aldersgrupper må forkastes. Dødelighed stiger med alder: 35