Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Faculty of Health Sciences Styrkeberegninger Poisson regression Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Forsøgsplanlægning Det kommer an på forsøgsplanen Hvor mange personer skal vi bruge? hvor store effekter man leder efter hvor sikker man vil være på at finde dem og formålet med undersøgelsen at opnå en given præcision af et estimat at opnå en given styrke (power) af et test (langt det hyppigste). 2 / 31

Præcision Vi ønsker at vurdere risikoen for CHD for kvinder med en given præcision: p ± a. Konfidensintervallet (95%) beregnes ved: p ± 1.96 p(1 p) Dvs a = 1.96 p(1 p) Vi behøver et gæt på p. n og dermed n = 3.84p(1 p) a 2. Eksempel: For p = 0.10 og a = 0.04 er n = 216. n. Tilsvarende fås for en kvantitativ respons n = 3.84( SD a )2 hvis vi ønsker en præcision for middelværdien µ på ±a. 3 / 31

Hypoteseprøvning Et test af en hypotese H 0 kan give to typer af fejl: Type I: Forkaste nulhypotesen selvom den er sand. Type II: Acceptere nulhypotesen selvom den er falsk. Sandsynlighed for type I fejl: α = signifikansniveau. Sandsynligheden for type II fejl: β. 1 β = styrke. Virkelighed Konklusion Hypotese sand Hypotese falsk Accept Korrekt konklusion Type II fejl 1 α β Afvis Type I fejl Korrekt konklusion α 1 β 4 / 31

Sammenligning af to grupper Bestemmer antal individer n i hver gruppe. Binær respons: Fastsæt p 1, p 2, α og β. Sæt = p 1 p 2. n = p 1(1 p 1 ) + p 2 (1 p 2 ) 2 f (α, β) Kvantitativ respons: Fastsæt µ 1, µ 2, SD, α og β. Sæt = µ 1 µ 2. n = 2 SD2 f (α, β) 2 Bemærk at vi kan nøjes med at fastsætte isf. µ 1 og µ 2. 5 / 31

Hvad bestemmer stikprøvestørrelsen? Ud over signifikansniveauet (α) og styrken (1 β) afhænger den nødvendige stikprøvestørrelse af forskellen mellem grupper ( ) : jo større forskel, jo mindre er det nødvendige antal observationer variationen (SD) : jo større variation, jo større er det nødvendige antal observationer 6 / 31

En nyttig tabel Funktionen f (α, β) er en sum af fraktiler, f (α, β) = (z 1 α/2 + z 1 β ) 2 hvor z p er fraktilerne i en normalfordeling, e.g. z 0.975 = 1.96 etc. Nyttige værdier: β α 0.05 0.10 0.20 0.50 0.10 10.8 8.6 6.2 2.7 0.05 13.0 10.5 7.9 3.8 0.02 15.8 13.0 10.0 5.5 0.01 17.8 14.9 11.7 6.6 7 / 31

Eksempel Antag vi vil finde en forskel i blodtryk på 10 ( = 10) for kvinder randomiseret til placebo / behandling. Vi vil være 90% sikre på at finde forskellen (1 β = 0.90) når vi tester på et 5% s-niveau (α = 0.05). I Framingham data var spredningen 25 (SD = 25). Indsæt i formel n = 2f (0.05, 0.10)( SD )2 = 2 10.5 ( 25 10 )2 = 131.25. Det vil sige at vi skal bruge 132 kvinder i hver gruppe. 8 / 31

Styrkeberegninger i SAS I SAS kan styrkeberegninger udføres vha. PROC POWER. Sammenligning af to grupper med binær respons: proc power; twosamplefreq test=pchi groupproportions= 0.6 0.8 alpha=0.05 power=0.9 npergroup=.; run; Sammenligning af to grupper med kvantitativ respons: proc power; twosamplemeans test=diff meandiff=10 stddev=25 alpha=0.05 power=0.9 npergroup=.; run; PROC POWER er meget fleksibel idet proceduren også kan benyttes til regressionsanalyse, levetidsdata, tillader forskellige gruppestørrelser,... 9 / 31

Grupper af forskellig størrelse Hvis grupperne ikke skal have samme størrelse kan det totale antal bestemmes ved følgende fremgangsmåde: 1) beregn først N = 2n som hvis grupperne skulle være lige store 2) beregn dernæst k = n 1 /n 2 som forholdet mellem gruppestørrelserne 3) beregn endelig det totale antal observationer som N = N (1+k)2 4k. Eksempel: Hvis, i eksemplet ovenfor, vi vil have gruppe 1 dobbelt så stor som gruppe 2: 10 / 31 1) N = 2 132 = 264 2) k = 2 3) N = N (1+k)2 4k = 264 9 8 = 297, dvs. n 1 = 198 og n 2 = 99.

Poisson data Examples: Number of alpha particles emitted from a source in a given time interval Number of hits on a homepage during one day Number of customers in waiting lines in a given time period Number of prairie dogs found in a prairie Number of deaths in a healthy population i.e. number of events in a specific time period or unit. 11 / 31

Summarizing Poisson data We describe Poisson data using rates, e.g. Number of telephone calls per hour Number of customers in waiting line per hour Number of prairie dogs found per square mile of prairie Number of admissions to a hospital per 100 person-years Number of deaths per 100 000 person-years We denote the rate by λ, e.g. λ = No of occurrences. Total time 12 / 31

Estimation We are particularly interested in longitudinal data, λ = d T where d = No or events and T = Total person-years of observation. Rates are positive, λ > 0, and we therefore consider log-rate, log(λ). Standard error: SE(log(λ)) = 1 d Confidence interval for log-rate (log(λ)) ± 1.96 1 d and for the rate 13 / 31 exp((log(λ)) ± 1.96 1 d ).

Comparing rates Example: Smoking and mortality Smoking Deaths (d) Person-years (T) λ 1000 0 101 39222 2.58 1 630 142247 4.43 We may consider rate ratios (RR): Standard error of log-rate-ratio RR = λ 1 λ 0 = d 1/T 1 d 0 /T 0 = 1.72 SE(log(RR)) = 1 + 1 = 0.11 d 0 d 1 which we can use to calculate CIs or perform a Wald-test ( log(rr) ) 2 Z 2 = = 25.59 SE(log(RR)) 14 / 31 which is chi-square with df=1, i.e. p=<.0001.

Comparing rates using Poisson regression Define X i = { 1 if i is smoking 0 if i is not smoking For Poisson counts we consider the log-linear model for the rate { a + b smokers log(λ i ) = a + bx i = a non-smokers Here b is the regression-coefficient representing the effect of smoking. Since log(λ 1 ) log(λ 0 ) = b = log( λ 1 ) λ 0 the rate-ratio is λ 1 = exp(b) 15 / 31 λ 0

Poisson regression in SAS Since λ = d T we write the model log(d i ) = a + bx i + log(t i ). We model the count d i using log(t i ) as an offset variable. data smoking; input smoker deaths personyrs; cards; 1 630 142247 0 101 39222 ; data smoking; set smoking; logpyrs=log(personyrs); run; person Obs smoker deaths Yrs logpyrs 1 1 630 142247 11.8653 2 0 101 39222 10.5770 16 / 31

Poisson regression in SAS We use PROC GENMOD to do the Poisson regression: PROC GENMOD DATA=smoking; CLASS smoker; MODEL deaths = smoker / DIST=POIS OFFSET=logpYrs TYPE3; ESTIMATE RR smoker -1 1; RUN; and find Standard Wald 95% Confidence Wald Parameter DF Estimate Error Limits Chi-Square Pr > ChiSq Intercept 1-5.4196 0.0398-5.4977-5.3415 18504.4 <.0001 smoker 0 1-0.5423 0.1072-0.7523-0.3322 25.60 <.0001 smoker 1 0 0.0000 0.0000 0.0000 0.0000.. Scale 0 1.0000 0.0000 1.0000 1.0000 17 / 31

Poisson regression in SAS Because of the ESTIMATE-statement we get Contrast Estimate Results Mean Mean L Beta Standard Label Estimate Confidence Limits Estimate Error Alpha RR 1.7199 1.3940 2.1220 0.5423 0.1072 0.05 Contrast Estimate Results L Beta Chi- Label Confidence Limits Square Pr > ChiSq RR 0.3322 0.7523 25.60 <.0001 We find RR for smoking is 1.72 (1.39-2.12). Is this the true effect of smoking? 18 / 31

Multiple Poisson regression For p covariates we consider the model log(d i ) = a + b 1 X i1 + + b p X ip + log(t i ). b 1,..., b p are the regression-coefficients representing the effect of the covariates. b 1 is the effect of X i1 adjusted for the other covariates We find RR 1 =exp(b 1 ) comparing e.g. an individual with X 1 = 1 vs an individual with X 1 = 0 an individual with X 1 = x + 1 vs an individual with X 1 = x assuming all other variables X 2,..., X p are equal. The rate-ratios RR 1 = exp(b 1 ),,RR p = exp(b p ) are mutually adjusted. 19 / 31

Poisson regression vs survival analysis We use Poisson regression for longitudinal data if data are in tabular form (aggregated data) the rate can be assumed constant over time (e.g. mortality in a healthy population). If the rate changes over over time, we should do survival analysis instead. Examples: Recovery from surgery Relapse following chemotherapy 20 / 31

Levetidsdata Responsvariablen er en levetid, dvs. tid til en hændelse indtræffer Tid fra exposure til sygdom Tid fra start behandling til recidiv (eller død) Tid fra tandfyldning til fyldningen falder ud Levetidsdata er specielt ved at være skævt mod højre (ikke et problem) ufuldstændigt observeret: Censurering 21 / 31

Censurering Højre censurering hvor kun den nedre grænse for levetiden er kendt er hyppigst forekommende pga at : - studietiden udløber - individet udgår af studiet (loss to follow up) 0 Slut studie Standardmetoder for kvantitative data kan derfor ikke benyttes (histogram, gennemsnit, t-tests, ANOVA,...) I stedet fokuserer man på overlevelsesfunktionen Prob(Survival Time > t) som estimeres ved den ikke-parametriske Kaplan-Meier-estimator. 22 / 31

Remissionstid for patienter med akut leukæmi Data er hentet fra: Kleinbaum and Klein (2005). Survival analysis. A Self-Learning Text. 42 patienter med akut leukæmi i 1959-1960 randomiseret til: 1) Behandling: 21 patienter, 9 tilbagefald: 0 10 20 30 40 Tid (uger) 2) Placebo: 21 patienter, 21 tilbagefald: 0 10 20 30 40 Tid (uger) 23 / 31

Kaplan-Meier overlevelseskurver 0.0 0.2 0.4 0.6 0.8 1.0 Placebo Treatment 0 5 10 15 20 25 30 35 Time (weeks) 24 / 31

Ikke-parametrisk overlevelsesanalyse i SAS I SAS kan Kaplan-Meier-estimatoren og log-rank-testet findes vha. PROC LIFETEST: data remission; filename remdata url http://www.biostat.ku.dk/~sr/mph13/dag6/remdata.txt ; infile remdata; input weeks event female logwbc placebo; run; proc lifetest data=remission plots=(s); time weeks*event(0); strata placebo; run; 25 / 31

Regressionsanalyse af overlevelsesdata Cox (proportional hazards) regression Poisson regression I SAS kan PROC PHREG benyttes til Cox-regression. I begge modeller estimeres (ln ) RATE RATIO er. Som i logistisk og lineær regression kan vi inkludere kategoriske forklarende variable (køn) kvantitative forklarende variable (logwbc) interaktioner. 26 / 31

Øvelser i styrkeberegning 1. I en kohorte undersøgelse forventes 5-års risikoen for hjerteinfarkt at være 0.05 for personer i erhverv (=de ueksponerede). Hvor mange personer i erhverv og uden for erhverv (=de eksponerede) skal indgå i en 5-årig kohorte undersøgelse for at have en styrke på 1 β = 0.9 svarende til en relativ risiko på 2. Signifikansniveauet er det sædvanlige α = 0.05. Løs opgaven ved selv at sætte ind i formlerne men udfør også beregningerne i SAS. 2. Samme spørgsmål, hvis den ueksponerede gruppe er tre gange så stor som den eksponerede. Find selv ud af hvordan beregningerne udføres i SAS vha SAS support-hjemmeside. (Bemærk at npergroup=. skal erstattes af ntotal=. og at du også for brug for groupweights). 27 / 31

Øvelser i Poisson regression Vi vil undersøge sammenhængen mellem rygning og dødelighed yderligere. I tabellen nedenfor er data stratificeret på aldersgrupper. Age-group Dead Person-years Smoker 35-44 32 52407 1 35-44 2 18790 0 45-54 104 43248 1 45-54 12 10673 0 54-64 206 28612 1 54-64 28 5712 0 65-74 186 12663 1 65-74 28 2585 0 75-84 102 5317 1 75-84 31 1462 0 Koden til at generere data ligger på hjemmesiden i filen rygning.sas. 28 / 31 1. Beregn RR pba af disse data og sammenlign med tallene i slides fra dagens gennemgang. 2. Beregn RR justeret for alder.

Øvelser i overlevelsesanalyse Vi skal igen se på Framingham data. Variablen cause angiver dødsårsagen, hvor de som var i live ved studiets ophør fik kode 0. Data til at indlæse data ligger på hjemmesiden i filen framing.sas. 1. Definer en event-variabel (0/1) som angiver, om personen er i live eller ej ved studiets ophør. 2. Undersøg, om fordelingen af levetiden YRSDTH er den samme for mænd og kvinder. 3. Undersøg, om fordelingen af levetiden YRSDTH er den samme i de 4 aldersgrupper 45-48, 49-52, 53-56, 57-62. 29 / 31

Yderligere øvelser i Poisson regression Vi vender tilbage til remissionsdata. 1. Lav Kaplan-Meier kurverne for de to behandlingsgrupper og vurdér om, kurverne er signifikant forskellige. 2. Beregn RR for behandlingseffekten: Tæl op, hvor mange events der er i hver gruppe samt antallet af personuger. Definér derefter selv et nyt datasæt som på slide 16 til anvendelse i proc genmod. 3. Lav nu en analyse i proc genmod baseret på det oprindelige remissionsdata (en linie pr. patient). Beregn RR og sammenlign med den RR du fandt ovenfor. 4. Beregn RR for behandlingseffekten justeret for køn og logwbc. Sammenlign med RR en ovenfor og kommentér. 5. Antag nu at behandlingseffekten afhænger af køn. Beregn RR for hhv mænd og kvinder. 6. Afhænger behandlingseffekten af køn? 30 / 31