Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Relaterede dokumenter
Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

MPH specialmodul Epidemiologi og Biostatistik

Dag 6: Interaktion. Overlevelsesanalyse

Lineær og logistisk regression

Introduktion til overlevelsesanalyse

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Overlevelsesanalyse. Faculty of Health Sciences

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Morten Frydenberg Biostatistik version dato:

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Postoperative komplikationer

Løsning til opgave i logistisk regression

Logistisk Regression - fortsat

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

MPH specialmodul Epidemiologi og Biostatistik

Logistisk regression

Logistisk regression

Analyse af binære responsvariable

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Forsøgsplanlægning Stikprøvestørrelse

Træningsaktiviteter dag 3

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Morten Frydenberg 26. april 2004

Statistik for MPH: 7

Statistik for MPH: november Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Statistiske Modeller 1: Kontingenstabeller i SAS

Reeksamen i Statistik for Biokemikere 6. april 2009

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Løsning til eksaminen d. 29. maj 2009

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Morten Frydenberg 14. marts 2006

Løsning eksamen d. 15. december 2008

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Forsøgsplanlægning Stikprøvestørrelse

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Multipel Lineær Regression

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Konfidensintervaller og Hypotesetest

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

9. Chi-i-anden test, case-control data, logistisk regression.

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Besvarelse af vitcap -opgaven

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Generelle lineære modeller

Morten Frydenberg Biostatistik version dato:

Epidemiologiske associationsmål

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

k normalfordelte observationsrækker (ensidet variansanalyse)

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Vejledende løsninger kapitel 8 opgaver

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Løsning til eksaminen d. 14. december 2009

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Forelæsning 11: Kapitel 11: Regressionsanalyse

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Kapitel 12 Variansanalyse

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Transkript:

Faculty of Health Sciences Styrkeberegninger Poisson regression Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Forsøgsplanlægning Det kommer an på forsøgsplanen Hvor mange personer skal vi bruge? hvor store effekter man leder efter hvor sikker man vil være på at finde dem og formålet med undersøgelsen at opnå en given præcision af et estimat at opnå en given styrke (power) af et test (langt det hyppigste). 2 / 31

Præcision Vi ønsker at vurdere risikoen for CHD for kvinder med en given præcision: p ± a. Konfidensintervallet (95%) beregnes ved: p ± 1.96 p(1 p) Dvs a = 1.96 p(1 p) Vi behøver et gæt på p. n og dermed n = 3.84p(1 p) a 2. Eksempel: For p = 0.10 og a = 0.04 er n = 216. n. Tilsvarende fås for en kvantitativ respons n = 3.84( SD a )2 hvis vi ønsker en præcision for middelværdien µ på ±a. 3 / 31

Hypoteseprøvning Et test af en hypotese H 0 kan give to typer af fejl: Type I: Forkaste nulhypotesen selvom den er sand. Type II: Acceptere nulhypotesen selvom den er falsk. Sandsynlighed for type I fejl: α = signifikansniveau. Sandsynligheden for type II fejl: β. 1 β = styrke. Virkelighed Konklusion Hypotese sand Hypotese falsk Accept Korrekt konklusion Type II fejl 1 α β Afvis Type I fejl Korrekt konklusion α 1 β 4 / 31

Sammenligning af to grupper Bestemmer antal individer n i hver gruppe. Binær respons: Fastsæt p 1, p 2, α og β. Sæt = p 1 p 2. n = p 1(1 p 1 ) + p 2 (1 p 2 ) 2 f (α, β) Kvantitativ respons: Fastsæt µ 1, µ 2, SD, α og β. Sæt = µ 1 µ 2. n = 2 SD2 f (α, β) 2 Bemærk at vi kan nøjes med at fastsætte isf. µ 1 og µ 2. 5 / 31

Hvad bestemmer stikprøvestørrelsen? Ud over signifikansniveauet (α) og styrken (1 β) afhænger den nødvendige stikprøvestørrelse af forskellen mellem grupper ( ) : jo større forskel, jo mindre er det nødvendige antal observationer variationen (SD) : jo større variation, jo større er det nødvendige antal observationer 6 / 31

En nyttig tabel Funktionen f (α, β) er en sum af fraktiler, f (α, β) = (z 1 α/2 + z 1 β ) 2 hvor z p er fraktilerne i en normalfordeling, e.g. z 0.975 = 1.96 etc. Nyttige værdier: β α 0.05 0.10 0.20 0.50 0.10 10.8 8.6 6.2 2.7 0.05 13.0 10.5 7.9 3.8 0.02 15.8 13.0 10.0 5.5 0.01 17.8 14.9 11.7 6.6 7 / 31

Eksempel Antag vi vil finde en forskel i blodtryk på 10 ( = 10) for kvinder randomiseret til placebo / behandling. Vi vil være 90% sikre på at finde forskellen (1 β = 0.90) når vi tester på et 5% s-niveau (α = 0.05). I Framingham data var spredningen 25 (SD = 25). Indsæt i formel n = 2f (0.05, 0.10)( SD )2 = 2 10.5 ( 25 10 )2 = 131.25. Det vil sige at vi skal bruge 132 kvinder i hver gruppe. 8 / 31

Styrkeberegninger i SAS I SAS kan styrkeberegninger udføres vha. PROC POWER. Sammenligning af to grupper med binær respons: proc power; twosamplefreq test=pchi groupproportions= 0.6 0.8 alpha=0.05 power=0.9 npergroup=.; run; Sammenligning af to grupper med kvantitativ respons: proc power; twosamplemeans test=diff meandiff=10 stddev=25 alpha=0.05 power=0.9 npergroup=.; run; PROC POWER er meget fleksibel idet proceduren også kan benyttes til regressionsanalyse, levetidsdata, tillader forskellige gruppestørrelser,... 9 / 31

Grupper af forskellig størrelse Hvis grupperne ikke skal have samme størrelse kan det totale antal bestemmes ved følgende fremgangsmåde: 1) beregn først N = 2n som hvis grupperne skulle være lige store 2) beregn dernæst k = n 1 /n 2 som forholdet mellem gruppestørrelserne 3) beregn endelig det totale antal observationer som N = N (1+k)2 4k. Eksempel: Hvis, i eksemplet ovenfor, vi vil have gruppe 1 dobbelt så stor som gruppe 2: 10 / 31 1) N = 2 132 = 264 2) k = 2 3) N = N (1+k)2 4k = 264 9 8 = 297, dvs. n 1 = 198 og n 2 = 99.

Poisson data Examples: Number of alpha particles emitted from a source in a given time interval Number of hits on a homepage during one day Number of customers in waiting lines in a given time period Number of prairie dogs found in a prairie Number of deaths in a healthy population i.e. number of events in a specific time period or unit. 11 / 31

Summarizing Poisson data We describe Poisson data using rates, e.g. Number of telephone calls per hour Number of customers in waiting line per hour Number of prairie dogs found per square mile of prairie Number of admissions to a hospital per 100 person-years Number of deaths per 100 000 person-years We denote the rate by λ, e.g. λ = No of occurrences. Total time 12 / 31

Estimation We are particularly interested in longitudinal data, λ = d T where d = No or events and T = Total person-years of observation. Rates are positive, λ > 0, and we therefore consider log-rate, log(λ). Standard error: SE(log(λ)) = 1 d Confidence interval for log-rate (log(λ)) ± 1.96 1 d and for the rate 13 / 31 exp((log(λ)) ± 1.96 1 d ).

Comparing rates Example: Smoking and mortality Smoking Deaths (d) Person-years (T) λ 1000 0 101 39222 2.58 1 630 142247 4.43 We may consider rate ratios (RR): Standard error of log-rate-ratio RR = λ 1 λ 0 = d 1/T 1 d 0 /T 0 = 1.72 SE(log(RR)) = 1 + 1 = 0.11 d 0 d 1 which we can use to calculate CIs or perform a Wald-test ( log(rr) ) 2 Z 2 = = 25.59 SE(log(RR)) 14 / 31 which is chi-square with df=1, i.e. p=<.0001.

Comparing rates using Poisson regression Define X i = { 1 if i is smoking 0 if i is not smoking For Poisson counts we consider the log-linear model for the rate { a + b smokers log(λ i ) = a + bx i = a non-smokers Here b is the regression-coefficient representing the effect of smoking. Since log(λ 1 ) log(λ 0 ) = b = log( λ 1 ) λ 0 the rate-ratio is λ 1 = exp(b) 15 / 31 λ 0

Poisson regression in SAS Since λ = d T we write the model log(d i ) = a + bx i + log(t i ). We model the count d i using log(t i ) as an offset variable. data smoking; input smoker deaths personyrs; cards; 1 630 142247 0 101 39222 ; data smoking; set smoking; logpyrs=log(personyrs); run; person Obs smoker deaths Yrs logpyrs 1 1 630 142247 11.8653 2 0 101 39222 10.5770 16 / 31

Poisson regression in SAS We use PROC GENMOD to do the Poisson regression: PROC GENMOD DATA=smoking; CLASS smoker; MODEL deaths = smoker / DIST=POIS OFFSET=logpYrs TYPE3; ESTIMATE RR smoker -1 1; RUN; and find Standard Wald 95% Confidence Wald Parameter DF Estimate Error Limits Chi-Square Pr > ChiSq Intercept 1-5.4196 0.0398-5.4977-5.3415 18504.4 <.0001 smoker 0 1-0.5423 0.1072-0.7523-0.3322 25.60 <.0001 smoker 1 0 0.0000 0.0000 0.0000 0.0000.. Scale 0 1.0000 0.0000 1.0000 1.0000 17 / 31

Poisson regression in SAS Because of the ESTIMATE-statement we get Contrast Estimate Results Mean Mean L Beta Standard Label Estimate Confidence Limits Estimate Error Alpha RR 1.7199 1.3940 2.1220 0.5423 0.1072 0.05 Contrast Estimate Results L Beta Chi- Label Confidence Limits Square Pr > ChiSq RR 0.3322 0.7523 25.60 <.0001 We find RR for smoking is 1.72 (1.39-2.12). Is this the true effect of smoking? 18 / 31

Multiple Poisson regression For p covariates we consider the model log(d i ) = a + b 1 X i1 + + b p X ip + log(t i ). b 1,..., b p are the regression-coefficients representing the effect of the covariates. b 1 is the effect of X i1 adjusted for the other covariates We find RR 1 =exp(b 1 ) comparing e.g. an individual with X 1 = 1 vs an individual with X 1 = 0 an individual with X 1 = x + 1 vs an individual with X 1 = x assuming all other variables X 2,..., X p are equal. The rate-ratios RR 1 = exp(b 1 ),,RR p = exp(b p ) are mutually adjusted. 19 / 31

Poisson regression vs survival analysis We use Poisson regression for longitudinal data if data are in tabular form (aggregated data) the rate can be assumed constant over time (e.g. mortality in a healthy population). If the rate changes over over time, we should do survival analysis instead. Examples: Recovery from surgery Relapse following chemotherapy 20 / 31

Levetidsdata Responsvariablen er en levetid, dvs. tid til en hændelse indtræffer Tid fra exposure til sygdom Tid fra start behandling til recidiv (eller død) Tid fra tandfyldning til fyldningen falder ud Levetidsdata er specielt ved at være skævt mod højre (ikke et problem) ufuldstændigt observeret: Censurering 21 / 31

Censurering Højre censurering hvor kun den nedre grænse for levetiden er kendt er hyppigst forekommende pga at : - studietiden udløber - individet udgår af studiet (loss to follow up) 0 Slut studie Standardmetoder for kvantitative data kan derfor ikke benyttes (histogram, gennemsnit, t-tests, ANOVA,...) I stedet fokuserer man på overlevelsesfunktionen Prob(Survival Time > t) som estimeres ved den ikke-parametriske Kaplan-Meier-estimator. 22 / 31

Remissionstid for patienter med akut leukæmi Data er hentet fra: Kleinbaum and Klein (2005). Survival analysis. A Self-Learning Text. 42 patienter med akut leukæmi i 1959-1960 randomiseret til: 1) Behandling: 21 patienter, 9 tilbagefald: 0 10 20 30 40 Tid (uger) 2) Placebo: 21 patienter, 21 tilbagefald: 0 10 20 30 40 Tid (uger) 23 / 31

Kaplan-Meier overlevelseskurver 0.0 0.2 0.4 0.6 0.8 1.0 Placebo Treatment 0 5 10 15 20 25 30 35 Time (weeks) 24 / 31

Ikke-parametrisk overlevelsesanalyse i SAS I SAS kan Kaplan-Meier-estimatoren og log-rank-testet findes vha. PROC LIFETEST: data remission; filename remdata url http://www.biostat.ku.dk/~sr/mph13/dag6/remdata.txt ; infile remdata; input weeks event female logwbc placebo; run; proc lifetest data=remission plots=(s); time weeks*event(0); strata placebo; run; 25 / 31

Regressionsanalyse af overlevelsesdata Cox (proportional hazards) regression Poisson regression I SAS kan PROC PHREG benyttes til Cox-regression. I begge modeller estimeres (ln ) RATE RATIO er. Som i logistisk og lineær regression kan vi inkludere kategoriske forklarende variable (køn) kvantitative forklarende variable (logwbc) interaktioner. 26 / 31

Øvelser i styrkeberegning 1. I en kohorte undersøgelse forventes 5-års risikoen for hjerteinfarkt at være 0.05 for personer i erhverv (=de ueksponerede). Hvor mange personer i erhverv og uden for erhverv (=de eksponerede) skal indgå i en 5-årig kohorte undersøgelse for at have en styrke på 1 β = 0.9 svarende til en relativ risiko på 2. Signifikansniveauet er det sædvanlige α = 0.05. Løs opgaven ved selv at sætte ind i formlerne men udfør også beregningerne i SAS. 2. Samme spørgsmål, hvis den ueksponerede gruppe er tre gange så stor som den eksponerede. Find selv ud af hvordan beregningerne udføres i SAS vha SAS support-hjemmeside. (Bemærk at npergroup=. skal erstattes af ntotal=. og at du også for brug for groupweights). 27 / 31

Øvelser i Poisson regression Vi vil undersøge sammenhængen mellem rygning og dødelighed yderligere. I tabellen nedenfor er data stratificeret på aldersgrupper. Age-group Dead Person-years Smoker 35-44 32 52407 1 35-44 2 18790 0 45-54 104 43248 1 45-54 12 10673 0 54-64 206 28612 1 54-64 28 5712 0 65-74 186 12663 1 65-74 28 2585 0 75-84 102 5317 1 75-84 31 1462 0 Koden til at generere data ligger på hjemmesiden i filen rygning.sas. 28 / 31 1. Beregn RR pba af disse data og sammenlign med tallene i slides fra dagens gennemgang. 2. Beregn RR justeret for alder.

Øvelser i overlevelsesanalyse Vi skal igen se på Framingham data. Variablen cause angiver dødsårsagen, hvor de som var i live ved studiets ophør fik kode 0. Data til at indlæse data ligger på hjemmesiden i filen framing.sas. 1. Definer en event-variabel (0/1) som angiver, om personen er i live eller ej ved studiets ophør. 2. Undersøg, om fordelingen af levetiden YRSDTH er den samme for mænd og kvinder. 3. Undersøg, om fordelingen af levetiden YRSDTH er den samme i de 4 aldersgrupper 45-48, 49-52, 53-56, 57-62. 29 / 31

Yderligere øvelser i Poisson regression Vi vender tilbage til remissionsdata. 1. Lav Kaplan-Meier kurverne for de to behandlingsgrupper og vurdér om, kurverne er signifikant forskellige. 2. Beregn RR for behandlingseffekten: Tæl op, hvor mange events der er i hver gruppe samt antallet af personuger. Definér derefter selv et nyt datasæt som på slide 16 til anvendelse i proc genmod. 3. Lav nu en analyse i proc genmod baseret på det oprindelige remissionsdata (en linie pr. patient). Beregn RR og sammenlign med den RR du fandt ovenfor. 4. Beregn RR for behandlingseffekten justeret for køn og logwbc. Sammenlign med RR en ovenfor og kommentér. 5. Antag nu at behandlingseffekten afhænger af køn. Beregn RR for hhv mænd og kvinder. 6. Afhænger behandlingseffekten af køn? 30 / 31