9. Chi-i-anden test, case-control data, logistisk regression.

Transkript

1 Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU [email protected], Chi-i-anden test, case-control data, logistisk regression. 1

2 bronkitis data hoster om natten som 14 årig bronkitis som 5 årig ja nej total ja nej total Hvis π ja = π nej = π ville vi estimere p =

3 Opgave 0 data fra artikel om dødelighed efter udskrivelse. Group 0: patients discharged on day of prediction of risk Group 1: patients who stayed additional 24 hours Alive (%) Died (%) total Group (72) 230 (28) 811 Group (87) 19 (13) 145 Hvis der er samme risiko π 0 = π 1 = π hvad ville vi da estimere den til at være. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:

4 Obs. vs. forv. hoster om natten som 14 årig bronkitis som 5 årig ja nej total ja nej total Ville forvente at p = ud af de 273 hostede om natten som 14-årige. 4

5 Tilsvarende ville vi forvente at 1046 p = ud af de 1046 hostede om natten som 14-årige. Forventet antal i en givet celle beregnes som rækkesum søjlesum total 5

6 Opgave 1 data fra artikel om dødelighed efter udskrivelse. Group 0: patients discharged on day of prediction of risk Group 1: patients who stayed additional 24 hours Alive (%) Died (%) total Group (72) 230 (28) 811 Group (87) 19 (13) 145 Beregn den forventede tabel. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:

7 χ 2 test Sammenligner observerede antal med forventede antal under nulhypotesen. Test for H 0 : π ja = π nej observeret forventet 1 2 total 1 O 11 O 12 E 11 E 12 2 O 21 O 22 E 21 E 22 total χ 2 = (O 11 E 11 ) 2 E 11 + (O 12 E 12 ) 2 E 12 + (O 21 E 21 ) 2 E 21 + (O 22 E 22 ) 2 Store værdier: data passer dårligt med H 0 χ 2 -fordeling med 1 frihedsgrad. Kan beregne og slå p-værdi op (tabel A5). E 22 7

8 χ 2 test - bronkitis data χ 2 = ( ) observeret forventet bronkitis ja nej total ja nej total ( ) ( ) ( ) = 12.1 Kan slå p-værdi op i tabel A5 (χ 2 -fordeling med 1 frihedsgrad) p <

9 Opgave 2 dødelighed efter udskrivelse. Group 1: patients who stayed additional 24 hours Group 2: patients who stayed additional 48 hours Alive (%) Died (%) total Group (87) 19 (13) 145 Group 2 86 (83) 17 (17) 103 forventede antal under nulhypotesen: Alive Died total Group Group Beregn χ 2 testet. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:

10 χ 2 test i 2 2 tabeller status population ja nej total ssh 1 a b n 1 π 1 2 c d n 2 π 2 total s 1 s 2 N Nulhypotese - ingen association H 0 : π 1 = π 2 (ækvivalent med H 0 : OR = 1 og med H 0 : RR = 1): nemmere formel χ 2 = (ad bc)2 N n 1 n 2 s 1 s 2 χ 2 -fordelt med 1 frihedsgrad. 10

11 Opgave 2 revisited dødelighed efter udskrivelse. Group 1: patients who stayed additional 24 hours Group 2: patients who stayed additional 48 hours Alive (%) Died (%) total Group (87) 19 (13) 145 Group 2 86 (83) 17 (17) 103 Beregn χ 2 testet med den nemme formel og sammenlign med resultatet fra tidligere. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:

12 R C tabel (dvs. R rækker og C søjler) Forventet antal i celle i j beregnes som Teststørrelse række sum(i) søjle sum(j) E ij = Total χ 2 = alle celler (O ij E ij ) 2 E ij (ingen nem formel). Under nulhypotesen χ 2 -fordelt med frihedsgrader. (R 1) (C 1) (I en 2 2 tabel er R = C = 2, dvs. (2 1) (2 1) = 1 frihedsgrad.) 12

13 Odds anden måde at udtrykke sandsynlighed kan regne frem og tilbage O = p/(1 p) og p = O/(1 + O). Tre ækvivalente formuleringer H 0 : π 1 = π 2 H 0 : RR = π 1 π 2 = 1 H 0 : OR = π 1/(1 π 1 ) π 2 /(1 π 2 ) = 1 Odds giver nemmere beregninger, men er sværere at forstå. Nødvendigt at bruge odds til: (i) case-control, (ii) logistisk regression 13

14 For at regne på odds transformeres med logaritmen Test af nulhypotesen H 0 : OR = 1 kan laves som z-test: Vi tester H 0 : β = log(or) = 0 Test z = β/s.e.(β). Slå op i Tabel A1. Bemærk s.e.(β) = s.e.(log(or)) Vi bruger altid den naturlige logaritme ( ln ). 14

15 Case-control data Data indsamlet ved at man har nogen cases og derefter indsamler data på sammenlignelige kontroller (typisk 5 gange så mange). Man kan ikke beregne ikke beregne risikoestimater. Man kan beregne OR præcis som hvis data havde været indsamlet som et kohorte studium. Fordel: nemmere at få mange cases (og dermed større styrke) end i kohortestudie Ulemper: ingen ordning hen over tid (først eksponering siden sygdom) kan kun estimere OR. Mulig bias (f.eks. forsk. information for cases og kontroller). 15

16 Case-control data Hele populationen case control total exposed A B A+B unexposed C D C+D total A+C B+D A+B+C+D Sampler cases med hyppighed f 1, kontroller med hyppighed f 2. Typisk er f 1 > f 2. Den forventede værdi af samplet bliver case control total exposed f 1 A f 2 B f 1 A+f 2 B unexposed f 1 C f 2 D f 1 C+f 2 D total f 1 (A+C) f 2 (B+D) f 1 (A+C)+f 2 (B+D) 16

17 Den forventede værdi af odds-ratio i case-control studiet er f 1 f 2 AD f 1 f 2 BC = AD BC Bemærk risiko hos eksponerede er A/(A + B). I case-control studiet får vi f 1 A/(f 1 A + f 2 C) risiko hos ikke-eksp. C/(C + D). I case-control studiet får vi f 1 C/(f 1 C + f 2 D). 17

18 logistisk regression 2. sem: binomialfordeling (risiko) 1. sem: normalfordeling (middelværdi) π svarer til MEAN p = d/n svarer til x s.e.(p) svarer til s.e.( x) = SEM 2 2 tabel svarer til t-test logistisk regression svarer til lineær regression 18

19 Eksempel: lungefunktion hos peruvianske børn FEV1 normalfordeling, middelværdi, t-test, lineær regression. respsymp= { 1, symptomer; 0, ellers. vi vil sige noget om en risiko/sandsynlighed p = P (respsymp = 1), vi ved at 0 < p < 1, men observerer kun respsymp = 0 eller respsymp = 1. 19

20 20

21 Transformation 0 < p < 1 0 < p 1 p < p < log( 1 p ) < ssh odds log(odds) p/(1 p) log(p/(1 p)) p p/(1 p) 21

22 Transformation Regner på log(odds) skalaen for at lave regression p = 0.01 ODDS = p 1 p = p = 0.05 ODDS = p 1 p = p = 0.10 ODDS = p 1 p = p = 0.50 ODDS = p 1 p = p log(odds) = log( 1 p ) = 4.60 p log(odds) = log( 1 p ) = 2.95 p log(odds) = log( 1 p ) = 2.20 p log(odds) = log( 1 p ) = 0 22

23 Data En linie for hvert barn. En søjle for hver variabel id fev1 age height sex Y = respsymp 1 1,56 9,59 124, ,18 7,49 111, ,87 9,86 135, ,49 8,59 119, ,62 8,97 120, : Y i = 1, hvis barn i har haft symptomer, Y i = 0 ellers. 23

24 Logistisk regression Modellen er givet ved dvs. kan regne tilbage log(odds i ) = β 0 + β 1 alder i P (Y log( i = 1) 1 P (Y i = 1) ) = β 0 + β 1 alder i P (Y i = 1) = exp(β 0 + β 1 alder i ) 1 + exp(β 0 + β alder i ) 24

25 Prædiktion for alder=7,8 er sandsynligheden π 7 = exp(β 0 + β 1 7) 1 + exp(β 0 + β 1 7) og π 8 = exp(β 0 + β 1 8) 1 + exp(β 0 + β 1 8). Effekten af alder så β = log(or) OR = (π 8/(1 π 8 )) (π 7 /(1 π 7 )) = = exp(β 1). 25

26 Opgave 3 Artikel om apnø. Søvn-apnø og andre variables effekt på hypertension, logistisk regression: hvordan køn påvirker (logaritmen til) odds Variable Estimate (95% CI) OR Intercept ( to ) Sex (male) ( to 0.383) 1.17 Lav et 95% sikkerhedsinterval for OR. Beregn en p-værdi ud fra sikkerhedsintervallet. Lavie et al. Obstructive sleep apnoea syndrome as a risk factor for hypertension: population study, BMJ 2000;320: Vi bruger altid den naturlige logaritme ( ln ). 26

27 Alder og risiko for malaria Hvis der er data nok og der inddeles i aldersgrupper kunne vi f.eks. se dette ALDER ANTAL MALARIA : kun muligt med mange data. Problem med afrunding. 27

28 Sandsynlighed, odds, log-odds ALDER ANTAL MALARIA SSH ODDS LOG(ODDS) : 28

29 29

30 Logistisk regression - alder og risiko for malaria Stikprøve (n=303) fra en population i Sudan indeholder oplysning om forekomst af klinisk malaria og alder. Definer Y i = { 1, person i har malaria, 0, person i er rask, og beskriv P (Y i = 1) ved regressionsmodellen: log(odds i ) = β 0 + β 1 alder i β beskriver hvordan ssh ændrer sig med alder på logit-skalaen 30

31 Som før kan vi regne tilbage P (Y i = 1) = exp(β 0 + β 1 alder i ) 1 + exp(β 0 + β 1 alder i ), OR for en x + 1 årig mod en x årig er exp(β): β > 0: ssh øges β < 0: ssh falde β 0 beskriver ssh for malaria hos en person med alder 0: p = exp(β 0 + 0) 1 + exp(β 0 + 0), hvilket jo ikke giver særlig meget mening. 31

32 Estimaterne (beregnet på computer) bliver Parameter Estimate Std Err INTERCEPT ALDER (dvs. β 0 = og β 1 = 0.737) Alder har beskyttende effekt, odds ratio er exp( ) = 0.47, dvs. når alder øges med 1, falder odds med 53%. 95% SI for β 1 = log(or) er [ ), ] = [ 1.034, 0.446]. 95% SI for OR er givet ved [exp( 1.034), exp( 0.446)] = [0.35, 0.64]. 32

33 Vi kan udregne konsekvenser af modellen baseret på vores estimater - prædiktere risikoen for at få malaria som 6 årig: P (Y i = 1) = exp(β 0 + β 1 6) 1 + exp(β 0 + β 1 6) exp( ) = 1 + exp( ) = Kan teste nulhypotesen om at der ikke er sammenhæng mellem alder og malariarisiko: H 0 : β 1 = 0 Z = = 4.93 (slå op i Tabel A1, p <

34 Opgave 4 Søvn-apnø og hypertension 0/1 variabel, logistisk regression: hvordan apnoea-hypopnoea index påvirker (logaritmen til) odds Variable Estimate (95% CI) OR Intercept ( to ) Apnoea-hypopnoea index (10 events) (0.275 to 0.456) 1.37 Beregn prædikteret ssh for hypertension for værdi 1 af apnoeahypopnoen index. Hvordan ændrer det sig hvis værdien er 2? Vi bruger altid den naturlige logaritme ( ln ). 34

35 Malaria Vi ved nu at alder påvirker risikoen. Hvis vi skal teste om der er en effekt af køn har vi to muligheder 1. Er der effekt af køn? 2. Er der effekt af køn kontrolleret for effekten af alder? Sammenhæng mellem køn og risiko + - n ssh OR drenge piger Hvad hvis vi inddeler i aldersgrupper 35

36 Opdelt i aldersgrupper + - n ssh OR drenge piger drenge piger drenge piger drenge piger altså: effekten er lidt mindre indenfor aldersgrupper 36

37 Multipel logistisk regression Vi kan korrigere for effekt af andre variable Udvid logistisk regression log(odds i ) = β 0 + β 1 alder i ved at tilføje flere forklarende variable log(odds i ) = β 0 + β 1 alder i + β 2 køn i 37

38 For 2 2 tabel er logistisk regression bare det samme som før hoster ja nej total p odds /273=0.095 p/(1-p)=26/247= /1046=0.042 p/(1-p)=44/1002= Variable: Y i viser om barn i hoster. Eksponering X i er bronkitis. Datasæt med 1319 linier. H 0 : π 1 = π 2 H 0 : RR = 1 H 0 : OR = 1 38

39 Estimater for β 0 og β 1 (beregnet i SPSS) bliver Altså: β 0 = og β 1 =0.874, dette passer med exp(-3.126)/(1+exp(-3.126))=0.042 exp( )/(1+exp( ))=0.095 videre ses = s.e.(β 1 ) = s.e.(log(or)) =

40 Test af nulhypotesen H 0 : OR = 1 kan laves som z-test: Vi tester H 0 : β = log(or) = 0 Test z = β/s.e.(β) = 0.874/0.257 = Slå op i Tabel A1. 40