Morten Frydenberg 26. april 2004

Relaterede dokumenter
Morten Frydenberg 14. marts 2006

Lineær og logistisk regression

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Morten Frydenberg Biostatistik version dato:

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Morten Frydenberg Biostatistik version dato:

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Statistik II 4. Lektion. Logistisk regression

Logistisk regression

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Logistisk Regression - fortsat

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

9. Chi-i-anden test, case-control data, logistisk regression.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Dag 6: Interaktion. Overlevelsesanalyse

Korrelation Pearson korrelationen

MPH specialmodul Epidemiologi og Biostatistik

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel Lineær Regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Løsning til opgave i logistisk regression

Statistik kommandoer i Stata opdateret 22/ Erik Parner

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Opgavebesvarelse, logistisk regression

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Logistisk regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Module 4: Ensidig variansanalyse

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Statistik og skalavalidering. Opgave 1

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 8. Multipel Lineær Regression

2 Logaritme- og eksponentialfunktion 6

Postoperative komplikationer

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

1 Hb SS Hb Sβ Hb SC = , (s = )

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Introduktion til overlevelsesanalyse

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Statistik II 1. Lektion. Analyse af kontingenstabeller

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression

Epidemiologi og Biostatistik

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Module 12: Mere om variansanalyse

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

1 Multipel lineær regression

Statistiske Modeller 1: Kontingenstabeller i SAS

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Modul 11: Simpel lineær regression

1 Multipel lineær regression

Transkript:

Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen. studieår Test og sikkerhedsinterval for en parameter. Kategoriske forklarende variable med mere to kategorier. Logistisk regression med en kontinuert forklarende variabel. Hvad vil vi se på? Analysere den kumulerede incidens af hjertesygdom. Tidsperiode: Opfølgningsperioden efter us.! Risikopopulation: 363 personer uden CHD ved. us. Risikofaktorer/indikatorer: Systolisk blodtryk: over/under 60 mmhg. Rygning: ja/nej. Alder: I år og :,, over 56 år. Køn. ln ( odds ( SYS60, SEX = β0 + β SYS60 + β2 ln ( odds( SBP 60, kvinde ln ( SYS60 ln ( SEX SYS60 odds ( SY S60,SEX = odds (,2 ( ( SYS60 MALE SEX Model antagelse: Ingen effektmodifikation/interaktion mellem køn og blodtryk. 3 a SYS60( SEX( B S.E. Wald df Sig. Exp(B.075.54 48.95.000 2.93.875.46 36.047.000 2.399-2.70.28 287.658.000.4 a. Variable(s entered on step : SYS60, SEX. Hypotesen : SYS60 = forkastes! Hypotesen : SEX = forkastes! 60 SYS SEX odds ( SBP 60, kvinde 4 /METHOD=ENTER sys60 sex /CONTRAST (sys60=indicator( /CONTRAST (sex=indicator. Hvordan passer modellen til data? Hvad er de fittede kumulerede incidenser? På basis af : ln ( odds ( SYS60, SEX = β0 + β SYS60 + β2 ln ( odds ( SYS60, SEX = 2.703 +.0753 SYS60 + 0.8750 kan man beregne: odds = exp ( ln ( odds odds p = + odds Fra den logistisk regressionsanalyse Data SEX SYS60 ln(odds odds kum.inc. kum.inc. male >60-2.703+.0753+ 0.8750 0.803 0.445 0.420 male <=60-2.703+ 0.8750 0.25 0.77 0.220 female >60-2.703+.0753 0.335 0.25 0.265 female <=60-2.703 0.4 0.02 0.097 Rimelig god overensstemmelse! Modellen fitter godt! Antagelsen om ingen effektmodifikation synes ok! Næste gang vil vi se på et test for ingen effektmodifikation! 5 Sikkerhedsintervaller (CI (Wolf/Wald- methods Ingen estimater uden sikkerhedsintervaller! (Approksimativt 95% CI: Estimat ±.96 s.e. Syg Rask +Exp a b -Exp c d 95% CI for : Først 95% CI for ln(: a = d b c s. e. ( ln( = + + + a b c d ( ( ln ( ±.96 s. e. ln Dernæst tag eksponentialfunktionen til disse grænser. 6 MPH og Cand San Logistisk regression SPSS

a Beregning af sikkerhedsintervaller i hånden. 95% grænser 95% grænser Parameter β s.e. nedre øvre nedre øvre SYS60.0753 0.537 0.774.377 2.93 2.7 3.96 SEX 0.8750 0.457 0.589.6 2.40.80 3.9-2.703 0.280-2.42 -.99 0. 0.09 0.5 Fra output Estimat ±.96 s.e. Exp I SPSS : Tilføj /PRINT CI(95 i syntaksen Output: SYS60( SEX(.075.54 48.95.000 2.93 2.69 3.96.875.46 36.047.000 2.399.803 3.92-2.70.28 287.658.000.4 a. Variable(s entered on step : SYS60, SEX. Nyt Bemærk: Intet CI for ( ln(odds i referencegruppen 7 Alder og risiko for hjertesygdom: inddeler i :,, over 56 år. CHDEVER yes ( no (0 Total kum.incidens ln(odds ln( (0 5 308 359 0.42 ref -.80.00 0.00 ( 6 298 359 0.70 -.59.24 0.2 (2 64 254 38 0.20 -.38.52 0.42 57-62 (3 92 235 327 0.28-0.94 2.36 0.86 Total 268 095 363 Fire parametre skal bestemmes. Fire mulige valg af reference gruppe. Vi vælger som reference gruppe. De fire parameter er så: ln(odds i reference gruppen. Tre log( relativt til referencegruppen 8 Der er brug for tre dummy variable: AKAT= hvis = og 0 ellers AKAT2= hvis =2 og 0 ellers AKAT3= hvis =3 og 0 ellers Modellen : ln ( odds ( = β0 + β AKAT + β2 AKAT2 + β3 AKAT3 Giver følgende: ln ( odds ( = 0 = β0 + β 0 + β2 0 + β3 0 = β0 ln ( odds ( = = β0 + β + β2 0 + β3 0 = β0 + β ln ( odds ( = 2 = β0 + β 0 + β2 + β3 0 = β0 + β2 ln ( odds ( = 3 = β0 + β 0 + β2 0 + β3 = β0 + β3 9 ln ( odds ( = β0 + β AKAT + β2 AKAT2 + β3 AKAT3 ln ( odds ( = 0 = β0 + β 0 + β2 0 + β3 0 = β0 ln ( odds ( = = β0 + β + β2 0 + β3 0 = β0 + β ln ( odds ( = 2 = β0 + β 0 + β2 + β3 0 = β0 + β2 ln ( odds ( = 3 = β + β 0 + β 0 + β = β + β 0 2 3 0 3 β = ln ( odds ( = ln ( odds ( = 0 = ln ( mod 0 β 2 = ln ( odds ( = 2 ln ( odds ( = 0 = ln ( 2 mod 0 β 3 = ln ( odds ( = 3 ln ( odds ( = 0 = ln ( 3 mod 0 0 I praksis SPSS klarer det for os! /CONTRAST (age4=indicator( /PRINT CI(95. Output: =0 er reference Frequency ( (2 (3 38.000.000.000 327.000.000.000 = bliver kaldt ( =2 bliver kaldt (2 kun 0 er =3 bliver kaldt (3 a Estimaterne i SPSS: Test for hypotesen: alle alderskoefficienten er 0 dvs ingen association mellem alder og hjertesygdom. ( (2 (3 22.75 3.000.22.206.05.305.236.825.852.49.206 4.45.042.52.06 2.277.860.95 9.474.000 2.363.63 3.462 -.798.5 4.462.000.66 a. Variable(s entered on step :. Som ved direkte beregning. er relativt til =0 P- værdi for hypotese samme risiko blandt og årrige. 2 MPH og Cand San Logistisk regression SPSS 2

Plot af estimeret ln(odds Kan vi finde en simplere sammenhæng?? 3 En simplifikation: Alle trinene lige store Dvs. lineær sammenhæng med : 4 ln(odds -.00 -.25 -.50 -.75 = 0 2 3 ln ( odds ( = β0 + β β = ln ( odds ( = ln ( odds ( = 0 = ln ( mod 0 β = ln ( odds ( = 2 ln ( odds ( = = ln ( 2 mod β = ln ( odds ( = 3 ln ( odds ( = 2 = ln ( 3 mod 2 Dvs β = ln( forskel på I SPSS /PRINT CI(95. Obs ingen indicator linie! 5 6 Output fra SPSS Intet Categorical Variables Coding for ln ( odds ( =.853 + 0.286.286.062 2.264.000.33.79.503 -.853.24 223.28.000.57 ˆ β = ln ( forskel på ln odds ( = 0 ( forskel på ln(odds -.00 -.25 -.50 ln ( odds ( =.853 + 0.286 odds ( = 0.57.33 -.75 = 0 2 3 Det så da meget pænt ud! Kan denne forsimpling testet? 7 Forskel i -2log lik.=0.858 for 2 parametre mindre 8 Ja! V.h.a. et likelihood ratio test!! Output fra første model ( kategorisk; 4 parametre: Model Summary Output fra anden model ( kontinuert ; 2 parametre : Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 328.650.06.026-2 Log Cox & Snell Nagelkerke likelihood R Square R Square 329.508.06.025 Store værdier kritiske Ingen forskel på modellerne (dvs lige store spring Forskel i -2log lik er χ²-fordelt med 2 frihedsgrader Antal frihedsgrader 2 3 4 5 Kritisk værdi 5% 3.84 5.99 7.8 9.49.07 0.858 meget mindre end 5.99: p>5% (p=65% Forskel i -2 Log Likelihood 329.508-328.650=0.858 Forskel i antal parametre 4-2=2 MPH og Cand San Logistisk regression SPSS 3

En anden simplifikation af aldersafhængigheden: ln ( odds ( AGE = β0 + β AGE Bemærk: AGE og ikke!! Lineær afhængighed af (den ikke-grupperede alder. I SPSS β = ( ln Forskel på år β 0 = ln ( odds ( AGE = 0 Nonsens! Det ser vi på om lidt! /METHOD=ENTER age /PRINT CI(95. 9 a AGE.066.04 20.678.000.068.038.099-4.882.774 39.822.000.008 a. Variable(s entered on step : AGE. Forskel på 4 år p( β 4 exp( 0 4 = =.0658 =.30 ex ˆ Aldersgrupper i spænder over ca. 4 år Forskel på år Forskel i gruppe =.3309 20 a En mere fornuftig ; brug: AGEC50=AGE-50 AGEC50 ln ( odds ( AGE = β + β ( AGE 50 β = 0 ( ( odds ( ln Forskel på år β 0 = ln AGE = 50 Det giver mening!.066.04 20.678.000.068.038.099 -.594.083 364.572.000.203 a. Variable(s entered on step : AGEC50. Uændret ln ( odds ( AGE = 50 odds ( AGE = 50 ln ( odds ( AGE =.594 + 0.066 ( AGE 50 ( AGE 50 odds( AGE = 0.203.068 2 ln(odds -.00 -.25 -.50 -.75 ln ( odds ( AGE =.594 + 0.066 ( AGE 50 = 0 2 3 22 Valg af en anden reference gruppe Reference =0. /CONTRAST (age4=indicator( /PRINT CI(95. Frequency ( (2 (3 38.000.000.000 327.000.000.000 Hvad hvis vi hellere vil sammenligne med de årrige? Reference =. Mindste værdie er reference 23 /CONTRAST (age4=indicator(2 /PRINT CI(95. = er reference 2. værdi af dvs = er reference. Frequency ( (2 (3 38.000.000.000 327.000.000.000 =0 bliver kaldt ( =2 bliver kaldt (2 kun 0 er =3 bliver kaldt (3 24 MPH og Cand San Logistisk regression SPSS 4

a ( (2 (3 22.75 3.000 -.22.206.05.305.809.540.23.208.98.097.295.23.834.85.648.87 2.052.00.92.326 2.757 -.586.4 27.392.000.205 ( a. Variable(s entered on step :. ln od ds ( = 45 48 mod 49 52 53 56 mod 49 52 Test for: samme risiko for de som de årrige Sammenligning med før: 45 48 mod 49 52 53 56 mod 49 52 = 0.8093 = = 49 52 mod 45 48.2357 53 56 mod 45 48.5209 =.2308 = =.2357 49 52 mod 45 48 25 SYS60 korrigeret for køn og alder : 3 modeller ( (2 (3 SEX( SYS60( SEX( SYS60( AGEC50 SEX( SYS60( 6.679 3.00.9.22.8.368.20.799.834.304.23 2.032.54.355.892 2.057.758.20 4.220.000 2.34.439 3.64.875.47 35.406.000 2.399.798 3.200.09.56 42.637.000 2.770 2.040 3.76-2.485.88 73.82.000.083.247.064 4.90.000.280.29.45.879.47 35.853.000 2.408.806 3.2.005.55 4.86.000 2.733 2.05 3.706-2.539.65 235.963.000.079.058.05 4.95.000.060.029.09.880.47 35.948.000 2.4.808 3.25.02.55 42.483.000 2.75 2.029 3.729-2.320.37 285.999.000.098 26 MPH og Cand San Logistisk regression SPSS 5