Morten Frydenberg 25. april 2006

Relaterede dokumenter
25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Morten Frydenberg 14. marts 2006

Morten Frydenberg 26. april 2004

Lineær og logistisk regression

Træningsaktiviteter dag 3

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Morten Frydenberg Biostatistik version dato:

Logistisk regression

Logistisk regression

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Morten Frydenberg Biostatistik version dato:

9. Chi-i-anden test, case-control data, logistisk regression.

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

MPH Introduktionsmodul: Epidemiologi og Biostatistik

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Statistik for MPH: 7

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Statistik II 4. Lektion. Logistisk regression

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

MPH specialmodul Epidemiologi og Biostatistik

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Løsning til øvelsesopgaver dag 4 spg 5-9

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Confounding og stratificeret analyse

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Besvarelse af opgavesættet ved Reeksamen forår 2008

Epidemiologiske associationsmål

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Statistik kommandoer i Stata opdateret 16/ Erik Parner

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Fejlkilder. Kim Overvad Afdeling for Epidemiologi Institut for Folkesundhed Aarhus Universitet Marts 2011

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Korrelation Pearson korrelationen

Præcision og effektivitet (efficiency)?

Hyppigheds- og associationsmål. Kim Overvad Afdeling for Epidemiologi Institut for Folkesundhed Aarhus Universitet Februar 2011

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Logistisk regression

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 7: 23. marts

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

MPH specialmodul Epidemiologi og Biostatistik

Hver anden vil benytte øget åbningstid i dagtilbud

Statistik for MPH: november Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

OBSERVERENDE UNDERSØGELSER. Kim Overvad Institut for Epidemiologi og Socialmedicin Aarhus Universitet Forår 2002

Logistisk Regression - fortsat

Dag 6: Interaktion. Overlevelsesanalyse

Epidemiologiske associationsmål

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Uge 13 referat hold 4

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

SKRIFTLIG EKSAMEN I BIOSTATISTIK OG EPIDEMIOLOGI Cand.Scient.San, 2. semester 20. februar 2015 (3 timer)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Region Hovedstaden. Forskningscenter for Forebyggelse og Sundhed. Salt og Sundhed. Ulla Toft Forskningscenter for Forebyggelse og Sundhed

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Effekt af elektronisk stabilitetskontrol på personbilers eneuheld

Analyse af binære responsvariable

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Effektmålsmodifikation

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Lægevidenskabelig Embedseksamen, 6. semester Forår 2009 Epidemiologi og Biostatistik Rettevejledning

3 typer. Case-kohorte. Nested case-kontrol. Case-non case (klassisk case-kontrol us.)

Hvorfor dør de mindst syge?

EKG og LVH. RaVL + SV3 > 23 mm for mænd og > 19 mm for kvinder. RV mm og/eller RV5-6 + SV mm

Ved undervisningen i epidemiologi/statistik den 8. og 10. november 2011 vil vi lægge hovedvægten på en fælles diskussion af følgende fire artikler:

Resultater vedrørende risikofaktorer for hjertekarsygdom og dødelighed i relation til social ulighed - 15 års opfølgning i Sundhedsprojekt Ebeltoft

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Postoperative komplikationer

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Eksempler på målefejl

Multipel Lineær Regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

23. februar Epidemiologi og biostatistik. Uge 5, mandag 27. februar 2006 Michael Væth, Institut for Biostatistik.

Løsning til opgave i logistisk regression

Epidemiologi og Biostatistik

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Kursus i Epidemiologi og Biostatistik. Epidemiologiske mål. Studiedesign. Svend Juul

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Logistisk regression

Transkript:

. gang: Introduktion til Logistisk Regression Morten Frydenberg 26 Afdeling for Biostatistik, Århus Universitet MPH. studieår specialmodul 4 Cand. San. uddannelsen. studieår Hvorfor logistisk regression Præsentation af Framingham databasen. Repetition af Odds Ratio beregning i 2x2 tabeller. Repetition af stratificeret (Mantel-Haenszel analyse. Logistic regression med en og to binære forklarende variable. Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-7 Systolic Blod Pressure Left Ventricular Hypertrophy Glucose Intolerance Age Serum Cholesterol Points 2 3 4 5 6 7 8 SBP 2 3 4 5 6 7 8 2 LVH No Yes GLU No Yes 6 No Yes 7 27 Note: No points added for Smoking 6 3 2 Age Chol 36 38 4 42 44 46 48 5 55 6 65 7 65 2 4 5 7 2 5 8 2 2 8 3 4 6 8 2 6 8 2 22 5 2 3 5 7 2 3 6 2 22 2 3 4 6 8 3 4 7 2 22 225 4 5 7 2 3 5 7 2 2 23 24 4 6 8 3 4 5 8 2 22 23 255 5 7 2 3 5 6 2 22 23 27 6 8 3 4 6 7 2 23 24 285 7 2 4 5 6 7 2 22 23 24 3 8 2 3 5 6 7 8 2 22 24 24 35 3 4 5 7 8 2 23 24 25 Interaktion/effekt modifikation!! 24 4 3 Calculation of Probability Enter Points (in red for 6 Systolici Blood Pressure + Left Ventricular Hypertrophy + 3 Glucose Intolerance + 24 Age/Serum Cholesterol = 33 Total Points TP Prob TP Prob TP Prob 5.2 7.4 2.8 6.3 8.6 3.3 7.3. 3. 8.4 2.22 32.2.4 2.25 33.4.4 22.2 34.6.6 23.34 35.8 2.7 24.4 36.2 3.8 25.46 37.23 4. 26.53 38.26 5. 27.6 3.2 6.2 28.7 4.32 4 FRAMINGHAM HEART STUDY Follow-up undersøgelse påbegyndt i 48. Planlagt som et 2 års studie. Forekomst af cardio-vaskulære sygdomme. Klinisk undersøgelse hvert andet år. 52 personer (inkl. 74 frivillige. Vi/I har 3 ud af de oprindelige 34 variable. OBS, SEX, CHD, AGE, SBP, SBP, DBP, CHOL, FRW, CIG, YRS_CHD, YRS_DTH, DEATH, CAUSE. SEX,2 for mand, 2 for kvinde CHD, : ingen CHD diag. ved de første us. : CHD diag. ved. us (prævalent case 2-: us.-nummer ved første CHD diag. Vi/I har : AGE 45-62 Alder i år ved første us. Oplysninger fra de første gen-undersøgelser (8 års follow-up for 46 personer. SBP -3 Systolisk blodtryk ved første us. Udeladt: Personer under 45 år ved. us.. Udeladt: Serum kolesterol værdi mangler ved. us.. 5 CIG -6 : Ikke ryger -6: Antal cigaretter pr. dag 6 MPH og Cand San. Logistisk regression

Hvad vil vi se på? Analysere den kumulerede incidens af hjertesygdom. Tidsperiode: Opfølgningsperioden efter us.! Risikopopulation: 363 personer uden CHD ved. us. 43 prævalente person udelades. Risikofaktorer/indikatorer: Systolisk blodtryk: over/under 6 mmhg. Rygning: ja/nej. Alder: 45-48, 4-52, 53-56 og over 56 år. Køn. 7 STATA Syntax: use fram, clear generate chdever=chd> if( chd!=. generate age4=(age>48+(age>52+(age>56 if( age!=. generate sys6=sbp>6 if( sbp!=. generate smoke=cig> if( cig!=. drop if chd== tabodds chdever sex, base(2 w or tabodds chdever sys6, base( w or tabodds chdever smoke if smoke!=., base( w or tabodds chdever age4, base( w or if(cig!=. sikrer at missing cig giver missing i smoke Check altid hvordan dit program reagerer på missing!!! 8 Odds ratio beregning: Syg Rask Total +Exp a b a+b a d OR = -Exp c d c+d b c Total a+c b+c a+b+c+d Syg Rask Mand 64 47 64 66 OR = = 2.3 Kvinde 4 66 47 4 Rask Syg Mand 47 64 47 4 Kvinde 66 4 OR = =.43 = 64 66 2.3 SEX yes ( no ( Total kum.incidens OR ln(or male ( 64 47 643.255 2.3.7 female (2 4 66 72.44 ref.. Total 268 5 363 SYS6 yes ( no ( Total kum.incidens OR ln(or >6 ( 25 36.32 2.48. =<6 ( 67 88 47.6 ref.. Total 268 5 363 SMOKE yes ( no ( Total kum.incidens OR ln(or yes ( 34 48 64.28.28.25 no ( 34 64 748.7 ref.. Total 268 4 362 AGE4 yes ( no ( Total kum.incidens OR ln(or 45-48 ( 5 38 35.42 ref.. 4-52 ( 6 28 35.7.24.2 53-56 (2 64 254 38.2.52.42 57-62 (3 2 235 327.28 2.36.86 Total 268 5 363 2.3 =.43 Et eksempel på beregning i STATA. cs chdever sys6, w or sys6 Exposed Unexposed Total -----------------+------------------------+---------- Cases 67 268 Noncases 25 88 5 -----------------+------------------------+---------- Total 36 47 363 Risk.3623.5533.6625 Point estimate [5% Conf. Interval ------------------------+---------------------- Risk difference.66.426.2622 Risk ratio 2.3847.622 2.47862 Attr. frac. ex..558.382723.565483 Attr. frac. pop.88746 Odds ratio 2.47542.85428 3.33476 (Woolf +----------------------------------------------- chi2( = 3.4 Pr>chi2 =. Tilbage til vores problem: Køn, blodtryk og hjertesygdom. Forhøjet risiko for mænd Forhøjet risiko hvis SBP>6 Begge odds ratioer er ukorrigerede! estimeret OR=2.3. estimeret OR=2.48. SYS6 >6 <=6 Total OR SEX male 2 53 643.53 female 24 56 72 Total 36 47 363 Mænd ikke så ofte har SBP>6. Dermed undervurderes betydningen af SBP>6! Kønnet er en mulig konfounder for SBP>6. 2 MPH og Cand San. Logistisk regression 2

STATA syntaks for stratificeret analyse cs chdever sys6, by(sex w or!"#$$"#"%!&!% ##"!'%'( %%!!# *&#%! % #*&#$$'( +,!&'&!##"&!"%%*%&'$ -.,! %#$!!#$""$% $!$&" / (-!(#*''&23-!*%' # /-.,#4 5 -!(##'! 23-!***** Odds ratio mellem SBP>6 og CHD i opfølgningsperioden: For mænd estimeret OR=2.56. For kvinder estimeret OR=3.36. Fælles (korrigeret for køn estimeret OR=2.3. Ukorrigeret estimeret OR=2.48. Det korrigerede noget større. Målet for i dag: At beregne det ukorrigerede estimat At beregne det korrigerede estimat ved hjælp af logistisk regression! 3 4 Analyse af en 2 2 tabel vha. logistik regression. Sammenligning af to grupper vha. odds ratio: SYS6 Total 25 36 67 88 47 Total 268 5 363 p : Risiko (kumuleret incidens p odds odds = eller p = p + odds Bemærk: p odds ( SYS6= odds ( OR = = odds ( SYS6= odds ( odds ( ln ( OR = ln = ln[ odds ( ln[ odds ( odds ( ln[ odds ( = ln[ odds ( + ln ( OR = ln[ odds ( + ln ( OR odds > ln ( odds ubegrænset 5 β β ln[ odds ( SYS6 + β SYS6 6 ln[ odds ( SYS6 + β SYS6 Lad os gøre prøve: β = ln [ odds ( β SYS6=: ln[ odds ( + β = ln [ OR = ln[ odds ( SYS6=: ln [ odds ( + β + β = ln [ odds ( + ln [ OR = ln [ odds ( + ln [ odds ( ln [ odds ( = ln [ odds ( 7 SYS6 Odds Ln(odds OR Ln(OR 25.47 -.756 2.48.6 67 88. -.662 STATA: eller eller logit chdever sys6 ˆ β =. 662 ˆ β =.6 ^: Estimat for logit chdever sys6,or logistic chdever sys6 Giver ln(odds ratio i output Giver odds ratio i output 8 MPH og Cand San. Logistisk regression 3

logit chdever sys6 -, 6,75235 #$* *$&#&'!%$#$****$#'"&$## & ' 8-#$$#!*"&&## $ ****#"!'%$#& $& βˆ βˆ OR = exp( ˆ β ( ( ˆ β ( = ln se se OR P-værdi for hypotesen: β = dvs. OR=. Intet nyt: Det ku vi godt i forvejen! Men med logistik regression kan vi mere!! Sikkerhedsinterval for β logit chdever sys6,or Sikkerhedsinterval for OR -,,,6,75235 #$*!&'&!#%$&&#$#$****#"&!"%%*%&'$ Analyse af en 2 2 2 tabel vha. logistisk regression. Køn og forhøjet blodtryk : SEX og SYS6 Mantel-Haenszel analyse kan give: OR for SYS6 korrigeret for SEX (har vi lavet OR for SEX korrigeret for SYS6 (har vi ikke lavet To analyser for at få de to korrigerede estimater. Én logistisk regression vil give to korrigerede estimater! 2 SEX SBP CHD CHD Odds ln(odds OR ln(or Mand >6 47 65.723 -.324 6.74.8 Mand 6 7 44.283 -.264 2.63.68 Kvinde >6 54 5.36 -.22 3.36.2 Kvinde 6 5 466.7-2.232.. Referenceværdi odds(,2, dvs. kvinde med lavt blodtryk odds(, odds(, odds(,2 odds(,2 Ny variabel: MALE = 2 SEX hvis mand og hvis kvinde Logistisk regression med SEX og SYS6 som forklarende variable: ln ( odds ( SYS6, SEX + β SYS6 + β2 ln ( odds ( SYS6, SEX + β SYS6 + β2 + β SYS6 + β ( 2 SEX Hvad er β, β og β? 2 2 2 + β + β ( 2 2 2 ln ( odds (, 2 + β + β ( 2 2 + β 2 + β + β ( 2 + β 2 2 ln ( odds (, + β + β ( 2 + β + β 2 2 2 22 2 ln ( odds (, 2 + β + β2 ln ( odds (, + β + β 2 β = 2 β = ln ( odds (, 2 2 = ln ( ORSYS6 for KVINDER β = ln ( odds (, = ln ( ORSYS6 for MÆND Effekten af forhøjet blodtryk antages er være uafhængig af køn!! Når den beskrives ved odds ratio! Ingen effektmodifikation! Præcis som den stratificerede analyse, Mantel-Haenszel! 23 2 ln ( odds (, 2 + β + β2 ln ( odds (, + β + β 2 = 2 = ln ( ORSEX for SBP 6 β < 2 = ln ( odds (, ln ( odds (, 2 = ln ( ORSEX for SBP 6 β > Effekten af køn antages er være uafhængig af forhøjet blodtryk!! Når den beskrives ved odds ratio! Ingen effektmodifikation! 2 Præcis som den stratificerede analyse, Mantel-Haenszel! 24 MPH og Cand San. Logistisk regression 4

ln ( odds ( SYS6, SEX + β SYS6 + β2 ln ( odds ( SBP 6, kvinde ln ( OR SYS6 ln ( OR SEX Tre ukendte størrelser, der skal findes!? Det klarer statistikprogrammet for os! char sex[omit 2 char sys6[omit xi: logit chdever i.sys6 i.sex xi: logit chdever i.sys6 i.sex, or Kvinder er reference gruppe Lavt blodtryk er reference gruppe xi og i erne betyder at disse variable er kategoriske. 25 4 -, #$* #$* SYS6 -,6,75235 8#$*8##*'! #%$" #'******''&*$ #%'$#$ 88#"'& $#&'%* $******" %%'% ##$*! 8-!#'*%#!' $! #$ $****!&!##!&# # # ln ( odd s ( SBP 6, kvinde ˆ β = ln ( OR ˆ β 2 = ln ( ORSEX 4 -, #$* #$* ORSYS6 -,,,6,75235 8#$*8#! %*"&&*&%""'******!#$"$ % $#*'$ 88#!% "' %& '' $******#"*!' % %# #"!! OR SEX Korrektion for køn vha. logistiske regression : OR SYS6 = 2.3 Den stratificerede (Mantel-Haenszel analysen gav 2.32 En lille og ubetydelig forskel. 26 MPH og Cand San. Logistisk regression 5