Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)



Relaterede dokumenter
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II 4. Lektion. Logistisk regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Logistisk regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Forelæsning 11: Kapitel 11: Regressionsanalyse

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

To samhørende variable

Statistiske Modeller 1: Kontingenstabeller i SAS

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Logistisk regression

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Lineær og logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Skriftlig eksamen Science statistik- ST501

Logistisk Regression - fortsat

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Modul 6: Regression og kalibrering

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Normalfordelingen. Statistik og Sandsynlighedsregning 2

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Simpel og multipel logistisk regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Logistisk regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Multipel Lineær Regression

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Konfidensintervaller og Hypotesetest

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Morten Frydenberg 14. marts 2006

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Modul 11: Simpel lineær regression

Besvarelse af vitcap -opgaven

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Løsning til opgave i logistisk regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Lineær regression i SAS. Lineær regression i SAS p.1/20

Overlevelsesanalyse. Faculty of Health Sciences

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Opgavebesvarelse, logistisk regression

9. Chi-i-anden test, case-control data, logistisk regression.

Statistik Lektion 16 Multipel Lineær Regression

Forelæsning 9: Inferens for andele (kapitel 10)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Reeksamen i Statistik for Biokemikere 6. april 2009

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Module 3: Statistiske modeller

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Morten Frydenberg 26. april 2004

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Basal Statistik Kategoriske Data

Normalfordelingen. Statistik og Sandsynlighedsregning 2

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Transkript:

Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Odds og odds-ratios (igen) 20 møl udsættes for forskellige doser af et pesticid, og det registreres, hvor mange der dør. Har hidtil snakket om differencen mellem successandsynligheder for to binomialfordelinger. Det svarer altså til en ændring i procentpoint. Procentpoint kan dække over forholdsmæssige store og små ændringer. I alt 120 møl. Dosis 1 2 4 8 16 32 Døde 1 4 9 13 18 20 Et andet mål kunne være forholdet. Odds for en hændelse A er odds for A = P(A) 1 P(A). Slide 3 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Slide 4 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression

Odds-ratio Odds-ratio er forholdet mellem to odds, fx. odds fra to grupper: θ = p 1 1 p 1 p 2 1 p 2 = p 1 (1 p 2 ) p 2 (1 p 1 ) Her svarer en værdi på 1 til ingen forskel mellem de to odds. Et test for H 0 : θ = 1 svarer altså et test for at odds i de to grupper er ens! Den centrale grænseværdisætning giver, at log ˆθ opfører sig pænt, og at estimatet har en standard error på 1 SE(log ˆθ) = + 1 + 1 + 1, y 11 y 12 y 21 y 22 Kan altså bruge dette til at lave konfidensinterval for logθ. Hvorfor: fortolkning anderledes: forhold vs forskel. Parametrisering i mere komplicerede modeller. Den logistiske regressionsmodel Den logistiske regressionsmodel modellerer en binær responsvariabel som funktion af en eller flere kategoriske og/eller kontinuerte forklarende variable. Den logistiske regressionsmodel er givet ved Y i bin(1,p i ), i = 1,...,n, hvor Y i angiver om observation i var en succes (Y i = 1) eller en fiasko (Y i = 0). Vi kan lade successandsynligheden for hver enkelt observation, p i, afhænge af forskellige forklarende variable: kontinuerte og/eller kategoriske. Slide 5 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Slide 6 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Den logistiske regressionsmodel II logit Den logistiske regressionsmodel er givet ved Y i bin(1,p i ), i = 1,...,n, (1) hvor Y i angiver om observation i var en succes (Y i = 1) eller en fiasko (Y i = 0). Log odds for hændelsen Y = 1 kaldes også logit af p i og defineres som ( ) pi logit (p i ) = log. (2) 1 p i Vi kan modellere de individuelle successandsynligheder som logit (p i ) = α + β 1 x i1 + + β d x id, i = 1,...,n. (3) logit (p) 4 2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0 p p 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 logit (p) p i = exp(α + β 1x i1 + + β d x id ) 1 + exp(α + β 1 x i1 + + β d x id ). (4) Slide 7 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Slide 8 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression

Inferens i den logaritmiske regressionsmodel Har allerede grundideerne i det, som vi skal bruge Vi kan bruge tankegangen fra de tidligere uger til estimation (maximum likelihood), test af hypoteser (likelihood-ratio tests / Wald tests), konfidens- og prædiktionsintervaller og modelkontrol. Ideerne er helt de samme vi skal ikke komme ind på de konkrete metoder. > dose <- c(1, 2, 4, 8, 16, 32) > moths <- matrix(c(1, 4, 9, 13, 18, 20, + 19, 16, 11, 7, 2, 0), ncol=2) > logreg <- glm(moths ~dose, family=binomial) > summary(logreg) Call: glm(formula = moths ~ dose, family = binomial) Deviance Residuals: 1 2 3 4 5 6-1.5729-0.0954 1.1798 0.3631-0.7789 0.1426 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -1.92771 0.40195-4.796 1.62e-06 *** dose 0.29723 0.06254 4.752 2.01e-06 *** Slide 9 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Slide 10 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Inferens for logistisk regressionsmodeller Konfidensintervaller for parametre i logistiske regressionsmodeller udregnes som sædvanligt (brug normalfordelingsfraktiler): estimat ± fraktil SE(estimat). Test af hypoteser for en enkelt parameter kan foretages ved et Wald test estimat sande værdi Z obs = SE(estimat) og Z obs er approksimativt normeret normalfordelt, N(0,1). Sammensatte hypoteser kan altid testes ved hjælp af et likelihood ratio test LR = 2 (log(l full ) log(l 0 )), (5) > summary(logreg) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -1.92771 0.40195-4.796 1.62e-06 *** dose 0.29723 0.06254 4.752 2.01e-06 *** > logreg2 <- glm(moths ~ 1, family=binomial) > anova(logreg2, logreg, test="chisq") Analysis of Deviance Table Model 1: moths ~ 1 Model 2: moths ~ dose Resid. Df Resid. Dev Df Deviance P(> Chi ) 1 5 71.138 2 4 4.634 1 66.504 3.493e-16 *** Slide 11 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Slide 12 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression

Modelkontrol Som altid bør man checke sine modelantagelser Pearson residualer defineres som r i = y i ŷ i ŷi (1 ŷ i ), (6) så de svarer til de almindelige residualer delt med deres estimerede spredning af y i. Lav et standardiseret residualplot som sædvanligt. Kan se lidt spøjst ud. Grafisk modelkontrol > phi <- summary(model)$dispersion > hi <- hatvalues(model) > rstd <- residuals(model, + type="pearson")/sqrt(phi*(1-hi)) > plot(fitted(model), rstd, + xlab="predicted", ylab="std. Pearson") Slide 13 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Slide 14 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Modelkontrol: Pearsons chi-square test Alternativ til grafisk modelkontrol: sammenlign observerede og fittede andele. Gruppér kontinuerte variable for at ende med grupperede data. Pearsons chi-square goodness-of-fit test X 2 = J j=1 (obs j forv j ) 2 = forv j J j=1 (obs j n j ˆp j ) 2 Summér over alle mulige grupper J, for responsen og de forklarende variable n j antal observationer i gruppe j. ˆp j estimeret relativ frekvens for gruppe j. n j ˆp j, (7) Teststørrelsen følger en χ 2 -fordeling med J/2 r frihedsgrader (r parametre i modellen, og J/2 er det mulige antal grupper). Modelkontrol: Pearson test > obs <- 20 > expect <- obs * fitted(logreg) > expect2 <- obs * (1-fitted(logreg)) > sum((deaths-expect)**2/expect) + + sum((alive-expect2)**2/expect2) [1] 4.247966 > 1-pchisq(4.247966, df=6-2) [1] 0.3734862 Slide 15 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression Slide 16 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression

Dagens hovedpunkter Logistisk regression Inferens for logistisk regression Modelkontrol Slide 17 Statistisk Dataanalyse 1 (Uge 8-1) Logistisk regression