Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/ 1
bronkitis data hoster om natten som 14 årig bronkitis som 5 årig ja nej total ja 26 247 273 nej 44 1002 1046 total 70 1249 1319 Hvis π ja = π nej = π ville vi estimere p = 70 1319. 2
Opgave 0 data fra artikel om dødelighed efter udskrivelse. Group 0: patients discharged on day of prediction of risk Group 1: patients who stayed additional 24 hours Alive (%) Died (%) total Group 0 581 (72) 230 (28) 811 Group 1 126 (87) 19 (13) 145 Hvis der er samme risiko π 0 = π 1 = π hvad ville vi da estimere den til at være. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:1274. 3
Obs. vs. forv. hoster om natten som 14 årig bronkitis som 5 årig ja nej total ja 26 247 273 nej 44 1002 1046 total 70 1249 1319 Ville forvente at 70 273 p = 273 1319 ud af de 273 hostede om natten som 14-årige. 4
Tilsvarende ville vi forvente at 1046 p = 1046 70 1319 ud af de 1046 hostede om natten som 14-årige. Forventet antal i en givet celle beregnes som rækkesum søjlesum total 5
Opgave 1 data fra artikel om dødelighed efter udskrivelse. Group 0: patients discharged on day of prediction of risk Group 1: patients who stayed additional 24 hours Alive (%) Died (%) total Group 0 581 (72) 230 (28) 811 Group 1 126 (87) 19 (13) 145 Beregn den forventede tabel. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:1274. 6
χ 2 test Sammenligner observerede antal med forventede antal under nulhypotesen. Test for H 0 : π ja = π nej observeret forventet 1 2 total 1 O 11 O 12 E 11 E 12 2 O 21 O 22 E 21 E 22 total χ 2 = (O 11 E 11 ) 2 E 11 + (O 12 E 12 ) 2 E 12 + (O 21 E 21 ) 2 E 21 + (O 22 E 22 ) 2 Store værdier: data passer dårligt med H 0 χ 2 -fordeling med 1 frihedsgrad. Kan beregne og slå p-værdi op (tabel A5). E 22 7
χ 2 test - bronkitis data χ 2 = (26 14.5)2 14.5 observeret forventet bronkitis ja nej total ja 26 247 273 14.5 258.5 nej 44 1002 1046 55.5 990.5 total 70 1249 1319 + (247 258.5)2 258.5 + (44 55.5)2 55.5 + (1002 990.5)2 990.5 = 12.1 Kan slå p-værdi op i tabel A5 (χ 2 -fordeling med 1 frihedsgrad) p < 0.001. 8
Opgave 2 dødelighed efter udskrivelse. Group 1: patients who stayed additional 24 hours Group 2: patients who stayed additional 48 hours Alive (%) Died (%) total Group 1 126 (87) 19 (13) 145 Group 2 86 (83) 17 (17) 103 forventede antal under nulhypotesen: Alive Died total Group 1 124 21 145 Group 2 88 103 Beregn χ 2 testet. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:1274. 9
χ 2 test i 2 2 tabeller status population ja nej total ssh 1 a b n 1 π 1 2 c d n 2 π 2 total s 1 s 2 N Nulhypotese - ingen association H 0 : π 1 = π 2 (ækvivalent med H 0 : OR = 1 og med H 0 : RR = 1): nemmere formel χ 2 = (ad bc)2 N n 1 n 2 s 1 s 2 χ 2 -fordelt med 1 frihedsgrad. 10
Opgave 2 revisited dødelighed efter udskrivelse. Group 1: patients who stayed additional 24 hours Group 2: patients who stayed additional 48 hours Alive (%) Died (%) total Group 1 126 (87) 19 (13) 145 Group 2 86 (83) 17 (17) 103 Beregn χ 2 testet med den nemme formel og sammenlign med resultatet fra tidligere. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:1274. 11
R C tabel (dvs. R rækker og C søjler) Forventet antal i celle i j beregnes som Teststørrelse række sum(i) søjle sum(j) E ij = Total χ 2 = alle celler (O ij E ij ) 2 E ij (ingen nem formel). Under nulhypotesen χ 2 -fordelt med frihedsgrader. (R 1) (C 1) (I en 2 2 tabel er R = C = 2, dvs. (2 1) (2 1) = 1 frihedsgrad.) 12
Odds anden måde at udtrykke sandsynlighed kan regne frem og tilbage O = p/(1 p) og p = O/(1 + O). Tre ækvivalente formuleringer H 0 : π 1 = π 2 H 0 : RR = π 1 π 2 = 1 H 0 : OR = π 1/(1 π 1 ) π 2 /(1 π 2 ) = 1 Odds giver nemmere beregninger, men er sværere at forstå. Nødvendigt at bruge odds til: (i) case-control, (ii) logistisk regression 13
For at regne på odds transformeres med logaritmen Test af nulhypotesen H 0 : OR = 1 kan laves som z-test: Vi tester H 0 : β = log(or) = 0 Test z = β/s.e.(β). Slå op i Tabel A1. Bemærk s.e.(β) = s.e.(log(or)) Vi bruger altid den naturlige logaritme ( ln ). 14
Case-control data Data indsamlet ved at man har nogen cases og derefter indsamler data på sammenlignelige kontroller (typisk 5 gange så mange). Man kan ikke beregne ikke beregne risikoestimater. Man kan beregne OR præcis som hvis data havde været indsamlet som et kohorte studium. Fordel: nemmere at få mange cases (og dermed større styrke) end i kohortestudie Ulemper: ingen ordning hen over tid (først eksponering siden sygdom) kan kun estimere OR. Mulig bias (f.eks. forsk. information for cases og kontroller). 15
Case-control data Hele populationen case control total exposed A B A+B unexposed C D C+D total A+C B+D A+B+C+D Sampler cases med hyppighed f 1, kontroller med hyppighed f 2. Typisk er f 1 > f 2. Den forventede værdi af samplet bliver case control total exposed f 1 A f 2 B f 1 A+f 2 B unexposed f 1 C f 2 D f 1 C+f 2 D total f 1 (A+C) f 2 (B+D) f 1 (A+C)+f 2 (B+D) 16
Den forventede værdi af odds-ratio i case-control studiet er f 1 f 2 AD f 1 f 2 BC = AD BC Bemærk risiko hos eksponerede er A/(A + B). I case-control studiet får vi f 1 A/(f 1 A + f 2 C) risiko hos ikke-eksp. C/(C + D). I case-control studiet får vi f 1 C/(f 1 C + f 2 D). 17
logistisk regression 2. sem: binomialfordeling (risiko) 1. sem: normalfordeling (middelværdi) π svarer til MEAN p = d/n svarer til x s.e.(p) svarer til s.e.( x) = SEM 2 2 tabel svarer til t-test logistisk regression svarer til lineær regression 18
Eksempel: lungefunktion hos peruvianske børn FEV1 normalfordeling, middelværdi, t-test, lineær regression. respsymp= { 1, symptomer; 0, ellers. vi vil sige noget om en risiko/sandsynlighed p = P (respsymp = 1), vi ved at 0 < p < 1, men observerer kun respsymp = 0 eller respsymp = 1. 19
20
Transformation 0 < p < 1 0 < p 1 p < p < log( 1 p ) < ssh odds log(odds) p/(1 p) 0 10 20 30 40 log(p/(1 p)) 4 2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0 p 0 10 20 30 40 p/(1 p) 21
Transformation Regner på log(odds) skalaen for at lave regression p = 0.01 ODDS = p 1 p = 0.0101 p = 0.05 ODDS = p 1 p = 0.0526 p = 0.10 ODDS = p 1 p = 0.1111 p = 0.50 ODDS = p 1 p = 1.0000 p log(odds) = log( 1 p ) = 4.60 p log(odds) = log( 1 p ) = 2.95 p log(odds) = log( 1 p ) = 2.20 p log(odds) = log( 1 p ) = 0 22
Data En linie for hvert barn. En søjle for hver variabel id fev1 age height sex Y = respsymp 1 1,56 9,59 124,80 0 0 2 1,18 7,49 111,00 1 0 3 1,87 9,86 135,70 0 0 4 1,49 8,59 119,10 0 0 5 1,62 8,97 120,90 1 0 : Y i = 1, hvis barn i har haft symptomer, Y i = 0 ellers. 23
Logistisk regression Modellen er givet ved dvs. kan regne tilbage log(odds i ) = β 0 + β 1 alder i P (Y log( i = 1) 1 P (Y i = 1) ) = β 0 + β 1 alder i P (Y i = 1) = exp(β 0 + β 1 alder i ) 1 + exp(β 0 + β alder i ) 24
Prædiktion for alder=7,8 er sandsynligheden π 7 = exp(β 0 + β 1 7) 1 + exp(β 0 + β 1 7) og π 8 = exp(β 0 + β 1 8) 1 + exp(β 0 + β 1 8). Effekten af alder så β = log(or) OR = (π 8/(1 π 8 )) (π 7 /(1 π 7 )) = = exp(β 1). 25
Opgave 3 Artikel om apnø. Søvn-apnø og andre variables effekt på hypertension, logistisk regression: hvordan køn påvirker (logaritmen til) odds Variable Estimate (95% CI) OR Intercept -1.949 (-2.686 to -2.211) Sex (male) 0.161 (-0.061 to 0.383) 1.17 Lav et 95% sikkerhedsinterval for OR. Beregn en p-værdi ud fra sikkerhedsintervallet. Lavie et al. Obstructive sleep apnoea syndrome as a risk factor for hypertension: population study, BMJ 2000;320:479-482. Vi bruger altid den naturlige logaritme ( ln ). 26
Alder og risiko for malaria Hvis der er data nok og der inddeles i aldersgrupper kunne vi f.eks. se dette ALDER ANTAL MALARIA 6 49 2 7 123 3 8 213 2 9 241 2 10 215 1 : kun muligt med mange data. Problem med afrunding. 27
Sandsynlighed, odds, log-odds ALDER ANTAL MALARIA SSH ODDS LOG(ODDS) 6 49 2 0.04082 0.04255-3.157 7 123 3 0.02439 0.02500-3.689 8 213 2 0.00939 0.00948-4.659 9 241 2 0.00830 0.00837-4.783 10 215 1 0.00465 0.00467-5.366 : 28
29
Logistisk regression - alder og risiko for malaria Stikprøve (n=303) fra en population i Sudan indeholder oplysning om forekomst af klinisk malaria og alder. Definer Y i = { 1, person i har malaria, 0, person i er rask, og beskriv P (Y i = 1) ved regressionsmodellen: log(odds i ) = β 0 + β 1 alder i β beskriver hvordan ssh ændrer sig med alder på logit-skalaen 30
Som før kan vi regne tilbage P (Y i = 1) = exp(β 0 + β 1 alder i ) 1 + exp(β 0 + β 1 alder i ), OR for en x + 1 årig mod en x årig er exp(β): β > 0: ssh øges β < 0: ssh falde β 0 beskriver ssh for malaria hos en person med alder 0: p = exp(β 0 + 0) 1 + exp(β 0 + 0), hvilket jo ikke giver særlig meget mening. 31
Estimaterne (beregnet på computer) bliver Parameter Estimate Std Err INTERCEPT 1.352 0.381 ALDER -0.737 0.149 (dvs. β 0 = 1.352 og β 1 = 0.737) Alder har beskyttende effekt, odds ratio er exp( 0.7367) = 0.47, dvs. når alder øges med 1, falder odds med 53%. 95% SI for β 1 = log(or) er [ 0.74 1.96 0.15), 0.74 1.96 0.15] = [ 1.034, 0.446]. 95% SI for OR er givet ved [exp( 1.034), exp( 0.446)] = [0.35, 0.64]. 32
Vi kan udregne konsekvenser af modellen baseret på vores estimater - prædiktere risikoen for at få malaria som 6 årig: P (Y i = 1) = exp(β 0 + β 1 6) 1 + exp(β 0 + β 1 6) exp(1.35 0.74 6) = 1 + exp(1.35 0.74 6) = 0.04. Kan teste nulhypotesen om at der ikke er sammenhæng mellem alder og malariarisiko: H 0 : β 1 = 0 Z = 0.74 0.15 = 4.93 (slå op i Tabel A1, p < 0.0001. 33
Opgave 4 Søvn-apnø og hypertension 0/1 variabel, logistisk regression: hvordan apnoea-hypopnoea index påvirker (logaritmen til) odds Variable Estimate (95% CI) OR Intercept -1.949 (-2.686 to -2.211) Apnoea-hypopnoea index (10 events) 0.316 (0.275 to 0.456) 1.37 Beregn prædikteret ssh for hypertension for værdi 1 af apnoeahypopnoen index. Hvordan ændrer det sig hvis værdien er 2? Vi bruger altid den naturlige logaritme ( ln ). 34
Malaria Vi ved nu at alder påvirker risikoen. Hvis vi skal teste om der er en effekt af køn har vi to muligheder 1. Er der effekt af køn? 2. Er der effekt af køn kontrolleret for effekten af alder? Sammenhæng mellem køn og risiko + - n ssh OR drenge 13 199 212 0.061 1.34 piger 9 185 194 0.046 Hvad hvis vi inddeler i aldersgrupper 35
Opdelt i aldersgrupper + - n ssh OR drenge 7 72 79 0.089 1.24 piger 4 51 55 0.073 drenge 3 55 58 0.052 1.25 piger 2 46 48 0.042 drenge 3 72 75 0.040 1.22 piger 3 88 91 0.033 drenge 13 199 212 piger 9 185 194 altså: effekten er lidt mindre indenfor aldersgrupper 36
Multipel logistisk regression Vi kan korrigere for effekt af andre variable Udvid logistisk regression log(odds i ) = β 0 + β 1 alder i ved at tilføje flere forklarende variable log(odds i ) = β 0 + β 1 alder i + β 2 køn i 37
For 2 2 tabel er logistisk regression bare det samme som før hoster ja nej total p odds 26 247 273 26/273=0.095 p/(1-p)=26/247=0.105 44 1002 1046 44/1046=0.042 p/(1-p)=44/1002=0.0044 Variable: Y i viser om barn i hoster. Eksponering X i er bronkitis. Datasæt med 1319 linier. H 0 : π 1 = π 2 H 0 : RR = 1 H 0 : OR = 1 38
Estimater for β 0 og β 1 (beregnet i SPSS) bliver Altså: β 0 =-3.126 og β 1 =0.874, dette passer med exp(-3.126)/(1+exp(-3.126))=0.042 exp(-3.126+0.874)/(1+exp(-3.126+0.874))=0.095 videre ses 0.257 = s.e.(β 1 ) = s.e.(log(or)) = 1 26 + 1 273 + 1 44 + 1 1046 39
Test af nulhypotesen H 0 : OR = 1 kan laves som z-test: Vi tester H 0 : β = log(or) = 0 Test z = β/s.e.(β) = 0.874/0.257 = 3.40. Slå op i Tabel A1. 40