Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Relaterede dokumenter
Dag 6: Interaktion. Overlevelsesanalyse

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Introduktion til overlevelsesanalyse

Lineær og logistisk regression

Introduktion til overlevelsesanalyse

Overlevelsesanalyse. Faculty of Health Sciences

Introduktion til overlevelsesanalyse

Morten Frydenberg Biostatistik version dato:

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

MPH specialmodul Epidemiologi og Biostatistik

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Præcision og effektivitet (efficiency)?

Morten Frydenberg 14. marts 2006

Analyse af binære responsvariable

Morten Frydenberg 26. april 2004

Morten Frydenberg Biostatistik version dato:

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Besvarelse af opgavesættet ved Reeksamen forår 2008

9. Chi-i-anden test, case-control data, logistisk regression.

Dynamisk statistisk modellering af vedligeholdelsesbehandling af børn med akut lymfoblastær leukæmi

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Forsøgsplanlægning Stikprøvestørrelse

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Postoperative komplikationer

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Vejledende løsninger kapitel 8 opgaver

Logistisk Regression - fortsat

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Løsning eksamen d. 15. december 2008

REEKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

1 Hb SS Hb Sβ Hb SC = , (s = )

Basal Statistik Kategoriske Data

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Løsning til opgave i logistisk regression

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Kapitel 12 Variansanalyse

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Introduktion til overlevelsesanalyse

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Logistisk regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kapitel 12 Variansanalyse

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

2 Logaritme- og eksponentialfunktion 6

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statistik II 4. Lektion. Logistisk regression

Konfidensintervaller og Hypotesetest

Vurdering af epidemiologiske undersøgelser. Epidemiologisk forskning

Note til styrkefunktionen

Statistik II 1. Lektion. Analyse af kontingenstabeller

c) For, er, hvorefter. Forklar.

Løsning til øvelsesopgaver dag 4 spg 5-9

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Transkript:

Faculty of Health Sciences Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Forsøgsplanlægning Sammenligning af to grupper : Hvor mange personer skal vi bruge? Det kommer an på hvor store effekter man leder efter hvor sikker man vil være på at finde dem 2 / 32

Hypoteseprøvning Et test af en hypotese H 0 kan give to typer af fejl: Type I: Forkaste nulhypotesen selvom den er sand. Type II: Acceptere nulhypotesen selvom den er falsk. Sandsynlighed for type I fejl: α = signifikansniveau. Sandsynligheden for type II fejl: β. 1 β = styrke. Virkelighed Konklusion Hypotese sand Hypotese falsk Accept Korrekt konklusion Type II fejl 1 α β Afvis Type I fejl Korrekt konklusion α 1 β 3 / 32

Sammenligning af to grupper Bestemmer antal individer n i hver gruppe. Binær respons: Fastsæt p 1, p 2, α og β. Sæt = p 1 p 2. n = p 1(1 p 1 ) + p 2 (1 p 2 ) 2 f (α, β) Kvantitativ respons: Fastsæt µ 1, µ 2, SD, α og β. Sæt = µ 1 µ 2. n = 2 SD2 f (α, β) 2 Bemærk at vi kan nøjes med at fastsætte isf. µ 1 og µ 2. 4 / 32

Hvad bestemmer stikprøvestørrelsen? Ud over signifikansniveauet (α) og styrken (1 β) afhænger den nødvendige stikprøvestørrelse af forskellen mellem grupper ( ) : jo større forskel, jo mindre er det nødvendige antal observationer variationen (SD) : jo større variation, jo større er det nødvendige antal observationer 5 / 32

En nyttig tabel Funktionen f (α, β) er en sum af fraktiler, f (α, β) = (z 1 α/2 + z 1 β ) 2 hvor z p er fraktilerne i en normalfordeling, e.g. z 0.975 = 1.96 etc. Nyttige værdier: β α 0.05 0.10 0.20 0.50 0.10 10.8 8.6 6.2 2.7 0.05 13.0 10.5 7.9 3.8 0.02 15.8 13.0 10.0 5.5 0.01 17.8 14.9 11.7 6.6 6 / 32

Eksempel Antag vi vil finde en forskel i blodtryk på 10 ( = 10) for kvinder randomiseret til placebo / behandling. Vi vil være 90% sikre på at finde forskellen (1 β = 0.90) når vi tester på et 5% s-niveau (α = 0.05). I Framingham data er spredningen på SBP lig 25 (SD=25). Indsæt i formel n = 2 f (0.05, 0.10) ( = )2 Det vil sige at vi skal bruge kvinder i hver gruppe. 7 / 32

Styrkeberegninger i SAS I SAS kan styrkeberegninger udføres vha. proc power. Sammenligning af to grupper med binær respons: proc power; twosamplefreq test=pchi groupproportions= 0.6 0.8 alpha=0.05 power=0.9 npergroup=.; run; Sammenligning af to grupper med kvantitativ respons: proc power; twosamplemeans test=diff meandiff=10 stddev=25 alpha=0.05 power=0.9 npergroup=.; run; proc power er meget fleksibel idet proceduren også kan benyttes til regressionsanalyse, levetidsdata, tillader forskellige gruppestørrelser,... 8 / 32

Grupper af forskellig størrelse Hvis grupperne ikke skal have samme størrelse kan det totale antal bestemmes ved følgende fremgangsmåde: 1) beregn først N = 2n som hvis grupperne skulle være lige store 2) beregn dernæst k = n 1 /n 2 som forholdet mellem gruppestørrelserne 3) beregn endelig det totale antal observationer som N = N (1+k)2 4k. Eksempel: Hvis, i eksemplet ovenfor, vi vil have gruppe 1 dobbelt så stor som gruppe 2: 9 / 32 1) N = 2 132 = 264 2) k = 2 3) N = N (1+k)2 4k = 264 9 8 = 297, dvs. n 1 = 198 og n 2 = 99.

Levetidsdata Responsvariablen er en levetid, dvs. tid til en hændelse indtræffer Tid fra exposure til sygdom Tid fra start behandling til recidiv (eller død) Tid fra tandfyldning til fyldningen falder ud Levetidsdata er specielt ved at være skævt mod højre ufuldstændigt observeret: Censurering 10 / 32

Censurering Højre censurering hvor kun den nedre grænse for levetiden er kendt er hyppigst forekommende pga at : - studietiden udløber - individet udgår af studiet (loss to follow up) 0 Slut studie Standardmetoder for kvantitative data kan derfor ikke benyttes. I stedet fokuserer man på overlevelsesfunktionen Prob(Survival Time > t) som estimeres ved den ikke-parametriske Kaplan-Meier-estimator. 11 / 32

Remissionstid for patienter med akut leukæmi 42 patienter med akut leukæmi i 1959-1960 randomiseret til: 1) Behandling: 21 patienter, 9 tilbagefald: 0 10 20 30 40 Tid (uger) 2) Placebo: 21 patienter, 21 tilbagefald: 0 10 20 30 40 Tid (uger) 12 / 32

Datasættet Første 7 observationer: log Obs time event female WBC treatment 1 35 0 1 1.45 1 2 34 0 1 1.47 1 3 32 0 1 2.20 1 4 32 0 1 2.53 1 5 25 0 1 1.78 1 6 23 1 1 2.57 1 7 22 1 1 2.32 1 Responsen består af tid (time) og en event-indikator (event) (0/1). 13 / 32

Kaplan-Meier overlevelseskurver 0.0 0.2 0.4 0.6 0.8 1.0 Placebo Treatment 0 5 10 15 20 25 30 35 Time (weeks) 14 / 32

Ikke-parametrisk overlevelsesanalyse i SAS Kaplan-Meier-estimatoren og log-rank-testet findes vha. proc lifetest: proc lifetest data=remission; time weeks*event(0); strata placebo; run; 15 / 32

Hazardfunktionen Hazardfunktionen (eller hazard raten / intensitet): λ(t) P(t T < t + h T t) h hvor sandsynligheden i tælleren læses: Den betingede sandsynlighed for at dø i det næste lille tidsinterval (t + h) givet i live ved begyndelsen af intervallet (t). 0 t t + h Hazardfunktion giver en lokal beskrivelse af risikoen for død. 16 / 32

Cox-modellen Cox modellen specificerer hazarden for individ i ved λ i (t) = λ 0 (t) exp(b treatment i ) hvor treatment = 0/1 er indikator for behandling. Dvs modellen er λ i (t) = { λ0 (t) exp(b) i fik behandling λ 0 (t) i fik placebo Hazard ratio for behandling vs placebo HR = λ 0(t) exp(b) λ 0 (t) = exp(b) 17 / 32

Eksempel på hazardkurve og HR er Børn med Akut Lymfoblastær Leukæmi i vedligeholdelsesbehandling diagnosticeret 1992-1996 (Schmiegelow et al., JCO 2003). Hazard for intermediær risikogruppe, tid til recidiv: hazard rate 0.000 0.004 0.008 0.012 0.016 0.020 HR=2 HR=0.5 HR=3 Baseline hazard 2 1 0 1 2 3 4 5 6 18 / 32 Years since cessation of therapy

Den multiple Cox regressions model Vi kan inkludere kategoriske forklarende variable (køn) kvantitative forklarende variable (logwbc) og teste for linearitet ved kvadratledstest interaktioner i den multiple Cox model λ i (t) = λ 0 (t) exp(b treatment i + c logwbc i + d female i ). og får justeret HR for behandlingseffekten HR = λ 0(t) exp(b + c logwbc + d) λ 0 (t) exp(c logwbc + d) = exp(b) hvis vi sammenligner to kvinder med samme WBC, den ene behandlet, den anden placebo. 19 / 32

Matchning Matchning er en design metode til at justere for confounding og / eller øge efficiens. Eksempel: BCG vaccine og leprosy (spedalskhed). Eksponeringen (vaccine) bedømt ved tilstedeværelse af ar. BCG Leprosy Rask population Ar 101 46028 Intet ar 159 34594 OR = 0.48 (0.37, 0.61) 20 / 32

Reduktion af antal kontroller Vi udvælger 1040 (4 260) tilfældige kontroller blandt den raske population: BCG Leprosy Kontrol Ar 101 571 Intet ar 159 469 OR = 0.52 (0.40, 0.69) Bemærk at præcisionen ikke bliver væsentligt dårligere af at vi reducerer antalet af kontroller. 21 / 32

Stratificering på alder Rask Odds Leprosy population ratio BCG + + estimat Alder 0 4 1 1 7593 11719 0.65 5 9 11 14 7143 10184 0.89 10 14 28 22 5611 7561 0.58 15 19 16 28 2208 8117 0.48 20 24 20 19 2438 5588 0.41 25 29 36 11 4356 1625 0.82 30 34 47 6 5245 1234 0.54 Total 159 101 34594 46028 0.48 OR MH = 0.59 (0.45, 0.77) 22 / 32

Aldersstratifikation med reduceret antal kontroller Leprosy Kontrol BCG + + Alder 0 4 1 1 106 144 5 9 11 14 95 116 10 14 28 22 85 103 15 19 16 28 30 91 20 24 20 19 26 71 25 29 36 11 65 21 30 34 47 6 62 25 159 101 469 571 OR MH = 0.60 (0.44, 0.81) Her er nogle af kontrollerne spildte : Der er langt flere kontroller per case for de yngste. 23 / 32

Matchning på alder Ved at matche på alder bliver aldersfordelingen identisk for cases og kontroller. Her er valgt 4 kontroller per case fra samme aldersgruppe: Cases Controls BCG + + Age 0 4 1 1 3 5 5 9 11 14 48 52 10 14 28 22 67 133 15 19 16 28 46 130 20 24 20 19 50 106 25 29 36 11 126 62 30 34 47 6 174 38 101 159 514 526 OR MH = 0.57 (0.42, 0.77). Bemærk at konfidensintervallet er (lidt) smallere idet (frekvens) matchningen bruger kontrollerne mere effektivt. 24 / 32

Logistisk regression I det oprindelige studie fås forskelle i log-odds: OR= exp( 0.547) = 0.58. Parameter Estimate SE Intercept -8.880 0.7093 Age 5-9 2.624 0.7340 Age 10-14 3.583 0.7203 Age 15-19 3.824 0.7228 Age 20-24 3.900 0.7244 Age 25-29 4.156 0.7224 Age 30-34 4.158 0.7213 BCG -0.547 0.1409 25 / 32

Logistic regression i matchede data Her får man Parameter Estimate SE Intercept -1.0670 0.800 Age 5-9 -0.0421 0.827 Age 10-14 0.0119 0.812 Age 15-19 0.0713 0.814 Age 20-24 0.0244 0.816 Age 25-29 -0.1628 0.814 Age 30-34 -0.2380 0.813 BCG -0.5721 0.155 OR= exp( 0.572) = 0.564. NB: Besynderlig alderseffekt! Det skyldes at vi ikke kan estimere alderseffekten når vi har matchet på alder (aldersfordelingen er den samme hos cases og kontroller). 26 / 32

Justering for match-variablen Hvorfor ikke udelade alder helt af analysen? Cases Controls Odds Stratum + + ratio 1 89 11 80 20 2.0 2 67 33 50 50 2.0 3 33 67 20 80 2.0 Total 189 111 150 150 1.7 Justér ALTID for alder i en case-kontrol analyse i et alders-matched design. Ved at ignorere match-variablen opnås en bias mod 1. 27 / 32

Individuel matchning Hver kontrol (eller flere kontroller) matches til en specifik case. Eksempler: familie, skole, naboområde, kalenderår,... Det simpleste tilfælde opnås ved 1:1 matchning (matched pairs). Eksempel fra McNeil (p. 238): Cases: 223 kvinder med for tidlig fødsel Kontroller: 223 kvinder med fuldbåren fødsel på det samme hospital i Thailand i samme perode (1992-1993), matched på alder og paritet. Eksponering: Overvejende arbejdsform i løbet af første trimester (stående vs ikke-stående). 28 / 32

Data For disse data er der fire mulige kombinationer for hvert par Kontrol Case stående ikke-stående Stående 177 31 Ikke-stående 14 1 NB: Tabellen består af 223 par og ikke af 446 kvinder. 29 / 32

De fire muligheder for hvert par Konkordante par (strata) Case Control Case Control +Exp 1 1 0 0 -Exp 0 0 1 1 1 1 1 1 Diskordante par (strata) Case Control Case Control +Exp 1 0 0 1 -Exp 0 1 1 0 1 1 1 1 30 / 32

Analyse af matched case-kontrol studier I en Mantel-Haenszel-analyse stratificeret på par bidrager kun de diskordante par: MH-test bliver OR MH = 31 14 = 2.21, 1 SE(ln(OR MH )) = 31 + 1 14. X 2 MH = (31 14)2 31 + 14 = 6.42, P = 0.011 og er også kendt som McNemar s test. Almindelig (unconditional) logistisk regression kan ikke benyttes for individuelt matchede case-control-studier. I stedet skal man benytte betinget (conditional) logistisk 31 / 32 regression.

Fordele og ulemper ved matchning Fordele intuitivt simpelt vi kan klare os med færre individer Ulemper vi kan ikke estimere effekten af match-variablene komplicerer analysen - der skal justeres for matchvariablene risiko for over-matchning hvis eksponering er stærkt relateret til en matchvariabel (e.g. matchning på familie i ernæringsmæssig epidemiologi). 32 / 32