9. Chi-i-anden test, case-control data, logistisk regression.



Relaterede dokumenter
Logistisk regression

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Besvarelse af opgavesættet ved Reeksamen forår 2008

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Simpel og multipel logistisk regression

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Morten Frydenberg 26. april 2004

Morten Frydenberg 25. april 2006

3 typer. Case-kohorte. Nested case-kontrol. Case-non case (klassisk case-kontrol us.)

Præcision og effektivitet (efficiency)?

Postoperative komplikationer

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Opgavebesvarelse, Basalkursus, uge 3

Morten Frydenberg Biostatistik version dato:

Epidemiologiske associationsmål

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Basal Statistik Kategoriske Data

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

02402 Løsning til testquiz02402f (Test VI)

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Opgavebesvarelse, Basalkursus, uge 3

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2. Jon K. Bjerregaard

Morten Frydenberg Biostatistik version dato:

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Morten Frydenberg 14. marts 2006

Kvantitative Metoder 1 - Forår Dagens program

Dag 6: Interaktion. Overlevelsesanalyse

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Korrelation Pearson korrelationen

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Statistik II 4. Lektion. Logistisk regression

Analyse af binære responsvariable

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Konfidensinterval for µ (σ kendt)

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Epidemiologiske associationsmål

c) For, er, hvorefter. Forklar.

Statistik Lektion 17 Multipel Lineær Regression

Epidemiologi. Hvad er det? Øjvind Lidegaard og Ulrik Kesmodel

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Løsning til øvelsesopgaver dag 4 spg 5-9

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Ved undervisningen i epidemiologi/statistik den 8. og 10. november 2011 vil vi lægge hovedvægten på en fælles diskussion af følgende fire artikler:

Opgavebesvarelse, Basalkursus, uge 3

Logistisk Regression - fortsat

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

SKRIFTLIG EKSAMEN I BIOSTATISTIK OG EPIDEMIOLOGI Cand.Scient.San, 2. semester 20. februar 2015 (3 timer)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Lineær og logistisk regression

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Kommentarer til øvelser i basalkursus, 2. uge

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Note til styrkefunktionen

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Basal statistik. 30. januar 2007

MPH Introduktionsmodul: Epidemiologi og Biostatistik

Studiedesign. Rikke Guldberg Ulrik Schiøler Kesmodel Øjvind Lidegaard

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Studiedesigns: Case-kontrolundersøgelser

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

enige i, at der er et godt psykisk arbejdsmiljø. For begge enige i, at arbejdsmiljøet er godt. Hovedparten af sikkerhedsrepræsentanterne

Statistik i basketball

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Lægevidenskabelig Embedseksamen, 6. semester Forår 2009 Epidemiologi og Biostatistik Rettevejledning

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Maple 11 - Chi-i-anden test

Transkript:

Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/ 1

bronkitis data hoster om natten som 14 årig bronkitis som 5 årig ja nej total ja 26 247 273 nej 44 1002 1046 total 70 1249 1319 Hvis π ja = π nej = π ville vi estimere p = 70 1319. 2

Opgave 0 data fra artikel om dødelighed efter udskrivelse. Group 0: patients discharged on day of prediction of risk Group 1: patients who stayed additional 24 hours Alive (%) Died (%) total Group 0 581 (72) 230 (28) 811 Group 1 126 (87) 19 (13) 145 Hvis der er samme risiko π 0 = π 1 = π hvad ville vi da estimere den til at være. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:1274. 3

Obs. vs. forv. hoster om natten som 14 årig bronkitis som 5 årig ja nej total ja 26 247 273 nej 44 1002 1046 total 70 1249 1319 Ville forvente at 70 273 p = 273 1319 ud af de 273 hostede om natten som 14-årige. 4

Tilsvarende ville vi forvente at 1046 p = 1046 70 1319 ud af de 1046 hostede om natten som 14-årige. Forventet antal i en givet celle beregnes som rækkesum søjlesum total 5

Opgave 1 data fra artikel om dødelighed efter udskrivelse. Group 0: patients discharged on day of prediction of risk Group 1: patients who stayed additional 24 hours Alive (%) Died (%) total Group 0 581 (72) 230 (28) 811 Group 1 126 (87) 19 (13) 145 Beregn den forventede tabel. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:1274. 6

χ 2 test Sammenligner observerede antal med forventede antal under nulhypotesen. Test for H 0 : π ja = π nej observeret forventet 1 2 total 1 O 11 O 12 E 11 E 12 2 O 21 O 22 E 21 E 22 total χ 2 = (O 11 E 11 ) 2 E 11 + (O 12 E 12 ) 2 E 12 + (O 21 E 21 ) 2 E 21 + (O 22 E 22 ) 2 Store værdier: data passer dårligt med H 0 χ 2 -fordeling med 1 frihedsgrad. Kan beregne og slå p-værdi op (tabel A5). E 22 7

χ 2 test - bronkitis data χ 2 = (26 14.5)2 14.5 observeret forventet bronkitis ja nej total ja 26 247 273 14.5 258.5 nej 44 1002 1046 55.5 990.5 total 70 1249 1319 + (247 258.5)2 258.5 + (44 55.5)2 55.5 + (1002 990.5)2 990.5 = 12.1 Kan slå p-værdi op i tabel A5 (χ 2 -fordeling med 1 frihedsgrad) p < 0.001. 8

Opgave 2 dødelighed efter udskrivelse. Group 1: patients who stayed additional 24 hours Group 2: patients who stayed additional 48 hours Alive (%) Died (%) total Group 1 126 (87) 19 (13) 145 Group 2 86 (83) 17 (17) 103 forventede antal under nulhypotesen: Alive Died total Group 1 124 21 145 Group 2 88 103 Beregn χ 2 testet. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:1274. 9

χ 2 test i 2 2 tabeller status population ja nej total ssh 1 a b n 1 π 1 2 c d n 2 π 2 total s 1 s 2 N Nulhypotese - ingen association H 0 : π 1 = π 2 (ækvivalent med H 0 : OR = 1 og med H 0 : RR = 1): nemmere formel χ 2 = (ad bc)2 N n 1 n 2 s 1 s 2 χ 2 -fordelt med 1 frihedsgrad. 10

Opgave 2 revisited dødelighed efter udskrivelse. Group 1: patients who stayed additional 24 hours Group 2: patients who stayed additional 48 hours Alive (%) Died (%) total Group 1 126 (87) 19 (13) 145 Group 2 86 (83) 17 (17) 103 Beregn χ 2 testet med den nemme formel og sammenlign med resultatet fra tidligere. Daly et al. Reduction in mortality after inappropriate early discharge from intensive care unit: logistic regression triage model, BMJ 2001;322:1274. 11

R C tabel (dvs. R rækker og C søjler) Forventet antal i celle i j beregnes som Teststørrelse række sum(i) søjle sum(j) E ij = Total χ 2 = alle celler (O ij E ij ) 2 E ij (ingen nem formel). Under nulhypotesen χ 2 -fordelt med frihedsgrader. (R 1) (C 1) (I en 2 2 tabel er R = C = 2, dvs. (2 1) (2 1) = 1 frihedsgrad.) 12

Odds anden måde at udtrykke sandsynlighed kan regne frem og tilbage O = p/(1 p) og p = O/(1 + O). Tre ækvivalente formuleringer H 0 : π 1 = π 2 H 0 : RR = π 1 π 2 = 1 H 0 : OR = π 1/(1 π 1 ) π 2 /(1 π 2 ) = 1 Odds giver nemmere beregninger, men er sværere at forstå. Nødvendigt at bruge odds til: (i) case-control, (ii) logistisk regression 13

For at regne på odds transformeres med logaritmen Test af nulhypotesen H 0 : OR = 1 kan laves som z-test: Vi tester H 0 : β = log(or) = 0 Test z = β/s.e.(β). Slå op i Tabel A1. Bemærk s.e.(β) = s.e.(log(or)) Vi bruger altid den naturlige logaritme ( ln ). 14

Case-control data Data indsamlet ved at man har nogen cases og derefter indsamler data på sammenlignelige kontroller (typisk 5 gange så mange). Man kan ikke beregne ikke beregne risikoestimater. Man kan beregne OR præcis som hvis data havde været indsamlet som et kohorte studium. Fordel: nemmere at få mange cases (og dermed større styrke) end i kohortestudie Ulemper: ingen ordning hen over tid (først eksponering siden sygdom) kan kun estimere OR. Mulig bias (f.eks. forsk. information for cases og kontroller). 15

Case-control data Hele populationen case control total exposed A B A+B unexposed C D C+D total A+C B+D A+B+C+D Sampler cases med hyppighed f 1, kontroller med hyppighed f 2. Typisk er f 1 > f 2. Den forventede værdi af samplet bliver case control total exposed f 1 A f 2 B f 1 A+f 2 B unexposed f 1 C f 2 D f 1 C+f 2 D total f 1 (A+C) f 2 (B+D) f 1 (A+C)+f 2 (B+D) 16

Den forventede værdi af odds-ratio i case-control studiet er f 1 f 2 AD f 1 f 2 BC = AD BC Bemærk risiko hos eksponerede er A/(A + B). I case-control studiet får vi f 1 A/(f 1 A + f 2 C) risiko hos ikke-eksp. C/(C + D). I case-control studiet får vi f 1 C/(f 1 C + f 2 D). 17

logistisk regression 2. sem: binomialfordeling (risiko) 1. sem: normalfordeling (middelværdi) π svarer til MEAN p = d/n svarer til x s.e.(p) svarer til s.e.( x) = SEM 2 2 tabel svarer til t-test logistisk regression svarer til lineær regression 18

Eksempel: lungefunktion hos peruvianske børn FEV1 normalfordeling, middelværdi, t-test, lineær regression. respsymp= { 1, symptomer; 0, ellers. vi vil sige noget om en risiko/sandsynlighed p = P (respsymp = 1), vi ved at 0 < p < 1, men observerer kun respsymp = 0 eller respsymp = 1. 19

20

Transformation 0 < p < 1 0 < p 1 p < p < log( 1 p ) < ssh odds log(odds) p/(1 p) 0 10 20 30 40 log(p/(1 p)) 4 2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0 p 0 10 20 30 40 p/(1 p) 21

Transformation Regner på log(odds) skalaen for at lave regression p = 0.01 ODDS = p 1 p = 0.0101 p = 0.05 ODDS = p 1 p = 0.0526 p = 0.10 ODDS = p 1 p = 0.1111 p = 0.50 ODDS = p 1 p = 1.0000 p log(odds) = log( 1 p ) = 4.60 p log(odds) = log( 1 p ) = 2.95 p log(odds) = log( 1 p ) = 2.20 p log(odds) = log( 1 p ) = 0 22

Data En linie for hvert barn. En søjle for hver variabel id fev1 age height sex Y = respsymp 1 1,56 9,59 124,80 0 0 2 1,18 7,49 111,00 1 0 3 1,87 9,86 135,70 0 0 4 1,49 8,59 119,10 0 0 5 1,62 8,97 120,90 1 0 : Y i = 1, hvis barn i har haft symptomer, Y i = 0 ellers. 23

Logistisk regression Modellen er givet ved dvs. kan regne tilbage log(odds i ) = β 0 + β 1 alder i P (Y log( i = 1) 1 P (Y i = 1) ) = β 0 + β 1 alder i P (Y i = 1) = exp(β 0 + β 1 alder i ) 1 + exp(β 0 + β alder i ) 24

Prædiktion for alder=7,8 er sandsynligheden π 7 = exp(β 0 + β 1 7) 1 + exp(β 0 + β 1 7) og π 8 = exp(β 0 + β 1 8) 1 + exp(β 0 + β 1 8). Effekten af alder så β = log(or) OR = (π 8/(1 π 8 )) (π 7 /(1 π 7 )) = = exp(β 1). 25

Opgave 3 Artikel om apnø. Søvn-apnø og andre variables effekt på hypertension, logistisk regression: hvordan køn påvirker (logaritmen til) odds Variable Estimate (95% CI) OR Intercept -1.949 (-2.686 to -2.211) Sex (male) 0.161 (-0.061 to 0.383) 1.17 Lav et 95% sikkerhedsinterval for OR. Beregn en p-værdi ud fra sikkerhedsintervallet. Lavie et al. Obstructive sleep apnoea syndrome as a risk factor for hypertension: population study, BMJ 2000;320:479-482. Vi bruger altid den naturlige logaritme ( ln ). 26

Alder og risiko for malaria Hvis der er data nok og der inddeles i aldersgrupper kunne vi f.eks. se dette ALDER ANTAL MALARIA 6 49 2 7 123 3 8 213 2 9 241 2 10 215 1 : kun muligt med mange data. Problem med afrunding. 27

Sandsynlighed, odds, log-odds ALDER ANTAL MALARIA SSH ODDS LOG(ODDS) 6 49 2 0.04082 0.04255-3.157 7 123 3 0.02439 0.02500-3.689 8 213 2 0.00939 0.00948-4.659 9 241 2 0.00830 0.00837-4.783 10 215 1 0.00465 0.00467-5.366 : 28

29

Logistisk regression - alder og risiko for malaria Stikprøve (n=303) fra en population i Sudan indeholder oplysning om forekomst af klinisk malaria og alder. Definer Y i = { 1, person i har malaria, 0, person i er rask, og beskriv P (Y i = 1) ved regressionsmodellen: log(odds i ) = β 0 + β 1 alder i β beskriver hvordan ssh ændrer sig med alder på logit-skalaen 30

Som før kan vi regne tilbage P (Y i = 1) = exp(β 0 + β 1 alder i ) 1 + exp(β 0 + β 1 alder i ), OR for en x + 1 årig mod en x årig er exp(β): β > 0: ssh øges β < 0: ssh falde β 0 beskriver ssh for malaria hos en person med alder 0: p = exp(β 0 + 0) 1 + exp(β 0 + 0), hvilket jo ikke giver særlig meget mening. 31

Estimaterne (beregnet på computer) bliver Parameter Estimate Std Err INTERCEPT 1.352 0.381 ALDER -0.737 0.149 (dvs. β 0 = 1.352 og β 1 = 0.737) Alder har beskyttende effekt, odds ratio er exp( 0.7367) = 0.47, dvs. når alder øges med 1, falder odds med 53%. 95% SI for β 1 = log(or) er [ 0.74 1.96 0.15), 0.74 1.96 0.15] = [ 1.034, 0.446]. 95% SI for OR er givet ved [exp( 1.034), exp( 0.446)] = [0.35, 0.64]. 32

Vi kan udregne konsekvenser af modellen baseret på vores estimater - prædiktere risikoen for at få malaria som 6 årig: P (Y i = 1) = exp(β 0 + β 1 6) 1 + exp(β 0 + β 1 6) exp(1.35 0.74 6) = 1 + exp(1.35 0.74 6) = 0.04. Kan teste nulhypotesen om at der ikke er sammenhæng mellem alder og malariarisiko: H 0 : β 1 = 0 Z = 0.74 0.15 = 4.93 (slå op i Tabel A1, p < 0.0001. 33

Opgave 4 Søvn-apnø og hypertension 0/1 variabel, logistisk regression: hvordan apnoea-hypopnoea index påvirker (logaritmen til) odds Variable Estimate (95% CI) OR Intercept -1.949 (-2.686 to -2.211) Apnoea-hypopnoea index (10 events) 0.316 (0.275 to 0.456) 1.37 Beregn prædikteret ssh for hypertension for værdi 1 af apnoeahypopnoen index. Hvordan ændrer det sig hvis værdien er 2? Vi bruger altid den naturlige logaritme ( ln ). 34

Malaria Vi ved nu at alder påvirker risikoen. Hvis vi skal teste om der er en effekt af køn har vi to muligheder 1. Er der effekt af køn? 2. Er der effekt af køn kontrolleret for effekten af alder? Sammenhæng mellem køn og risiko + - n ssh OR drenge 13 199 212 0.061 1.34 piger 9 185 194 0.046 Hvad hvis vi inddeler i aldersgrupper 35

Opdelt i aldersgrupper + - n ssh OR drenge 7 72 79 0.089 1.24 piger 4 51 55 0.073 drenge 3 55 58 0.052 1.25 piger 2 46 48 0.042 drenge 3 72 75 0.040 1.22 piger 3 88 91 0.033 drenge 13 199 212 piger 9 185 194 altså: effekten er lidt mindre indenfor aldersgrupper 36

Multipel logistisk regression Vi kan korrigere for effekt af andre variable Udvid logistisk regression log(odds i ) = β 0 + β 1 alder i ved at tilføje flere forklarende variable log(odds i ) = β 0 + β 1 alder i + β 2 køn i 37

For 2 2 tabel er logistisk regression bare det samme som før hoster ja nej total p odds 26 247 273 26/273=0.095 p/(1-p)=26/247=0.105 44 1002 1046 44/1046=0.042 p/(1-p)=44/1002=0.0044 Variable: Y i viser om barn i hoster. Eksponering X i er bronkitis. Datasæt med 1319 linier. H 0 : π 1 = π 2 H 0 : RR = 1 H 0 : OR = 1 38

Estimater for β 0 og β 1 (beregnet i SPSS) bliver Altså: β 0 =-3.126 og β 1 =0.874, dette passer med exp(-3.126)/(1+exp(-3.126))=0.042 exp(-3.126+0.874)/(1+exp(-3.126+0.874))=0.095 videre ses 0.257 = s.e.(β 1 ) = s.e.(log(or)) = 1 26 + 1 273 + 1 44 + 1 1046 39

Test af nulhypotesen H 0 : OR = 1 kan laves som z-test: Vi tester H 0 : β = log(or) = 0 Test z = β/s.e.(β) = 0.874/0.257 = 3.40. Slå op i Tabel A1. 40