Logistisk regression

Relaterede dokumenter
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

1 Hb SS Hb Sβ Hb SC = , (s = )

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Lineær regression i SAS. Lineær regression i SAS p.1/20

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Eksamen i Statistik for biokemikere. Blok

Kausale modeller. Konstruktion og analyse

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Statistik II 4. Lektion. Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Module 3: Statistiske modeller

Opgavebesvarelse, brain weight

Er hesten halt? Diagnosticering og kvantificering af halthed vha. accelerationsdata

Logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Kvantitative metoder 2

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Lineær og logistisk regression

Morten Frydenberg 14. marts 2006

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Løsning til opgave i logistisk regression

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Opgavebesvarelse, brain weight

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Opgavebesvarelse, brain weight

1 Regressionsproblemet 2

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Program. Longitudinale data. Vægtudvikling af geder. Individuelle profiler og gennemsnitsprofiler

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Statistiske principper

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005

Opgavebesvarelse, brain weight

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Modul 11: Simpel lineær regression

Kapitel 12 Variansanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Forelæsning 11: Kapitel 11: Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Morten Frydenberg 26. april 2004

Statistiske Modeller 1: Kontingenstabeller i SAS

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Module 4: Ensidig variansanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Module 12: Mere om variansanalyse

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

9. Chi-i-anden test, case-control data, logistisk regression.

Skriftlig eksamen Science statistik- ST501

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Program. 1. Flersidet variansanalyse 1/11

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Kapitel 12 Variansanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

2 Logaritme- og eksponentialfunktion 6

Poul Thyregod, 14. marts Specialkursus vid.stat. foraar side 182

Noter til Specialkursus i videregående statistik

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Fagplan for statistik, efteråret 2015

Hypotesetests, fejltyper og p-værdier

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Transkript:

Logistisk regression Anvendt statistik Anders Tolver Jensen Institut for Grundvidenskab og Miljø Onsdag d. 25/2-2009 ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 1 / 12

(Multinomial) logistisk regression Lad Y 1,Y 2,...,Y n være uafh. stok. var. på {1,...,k}. Til hver obs. er knyttet en målt kovariat x 1,...,x n. Med p ij = P(Y i = j) er den logistiske regressionsmodel givet ved, at ( ) pij log = α j + β j x i, j = 2,...,k,i = 1,...,n. p i1 Størrelsen p ij /p i1 kaldes odds for responsgruppe j i forhold til referencegruppen 1. R-eksempel: alligatorers fødevalg ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 2 / 12

Eksempel: hvad spiser en alligator? id length food id length food id length food 1 1.24 I 2 1.30 I 3 1.30 I 4 1.32 F 5 1.32 F 6 1.40 F 7 1.42 I 8 1.42 F 9 1.45 I 10 1.45 O 11 1.47 I 12 1.47 F More data 40 2.36 F 41 2.36 F 42 2.39 F 43 2.41 F 44 2.44 F 45 2.46 F 46 2.56 O 47 2.67 F 48 2.72 I 49 2.79 F 50 2.84 F 51 3.25 O Response: 3 different categories (F/I/O) Explanatory var.: length (continuous/covariate) ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 3 / 12

Eksempel: hvad spiser en alligator? Formålet kunne være at besvare flg. spørgsmål: 1. Afhænger det foretrukne valg af føde af alligatorens længde? 2. Hvad er odds for at en alligator på 1 meter foretrækker snegle (I) frem for fisk (F)? 3. Hvad er fordelingen af det foretrukne fødevalg for populationen af 3 meter lange alligatorer? 4. Ved hvilken længde er snegle (I) og fisk (F) lige populært hos alligatorerne? ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 4 / 12

Resultater af logistisk regression Vi fitter den statistiske model η ij = log ( pij p i1 ) = α(j) + β(j) x i med j = 1 (Fisk), j = 2 (Snegle) og j = 3 (Andet). Snegle : ˆα(2) = 3.905 [0.815, 6.995] ˆβ(2) = 2.254 [ 3.955, 0.553] Andet : ˆα(3) = 1.564 [ 5.398, 2.270] ˆβ(3) = 0.066 [ 1.737, 1.870] Stærkt signifikant effekt af længde (p = 0.008). ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 5 / 12

Alligatoreksempel: spørgsmål 4 Lige mange snegle- og fiskeædere for ( ) pi2 0 = log = α(2) + β(2) x i ˆx = ˆα(2) ˆβ(2) = t(ˆα(2), ˆβ(2)) p i1 Estimat: ˆx = 1.732 m [1.443, 2.022] Var Var(ˆx) = Dt T Var ( ˆα(2) ˆβ(2) ( ˆα(2) ˆβ(2) ) = ( 2.485 1.338 1.338 0.753 ) Dt = 0.0218 m 2. ) ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 6 / 12

Alligatorens foretrukne fødevalg Alligator Food Choice Predicted probability 0.0 0.2 0.4 0.6 0.8 1.0 Fish Other Invertebrate 0 1 2 3 4 Length of alligator (m) ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 7 / 12

Logistisk regression: binær respons Det vigtigste specialtilfælde er situationen med binær respons (Y i {0,1}). Her modelleres middelværdiparameteren p i = P(Y i = 1) gennem den kanoniske parameter, f.eks. ved ( ) pi log = α(faktor1 i ) + β(faktor2 i ) 1 p i + γ(faktor1 faktor2 i ). Dette passer fint ind i rammerne for de generaliserede lineære modeller. R-eksempel: Dødelighed af møl ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 8 / 12

Logistisk regression: overspredning Hvis Y bin(n,p) vil Var(Y) = np(1 p). For visse logistiske regressionsmodeller er det muligt at estimere en dispersionsparameter, ˆφ, som laver en form for modelkontrol af denne relation. Overspredning (ˆφ > 1) ses desværre ofte i praksis, og løses f.eks. ved at multiplicere teststørrelser og konfidensintervaller med ˆφ. I R løses problemet ved at erstatte family=binomial med family=quasibinomial. ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 9 / 12

Logistisk regression: overspredning Level of test for effect of pesticide Level 0.00 0.05 0.10 0.15 Uncorreted test Corrected test 0.5 0.0 0.5 Correlation ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 10 / 12

Multinomial ordnet respons Lad Y 1,Y 2,...,Y n være uafh. stok. var. på {1,...,k}. Udgangspunktet for stat. analyse bør være ( ) pij log = f (forklarende variable, θ) p i1 Hvis det giver mening at ordne responskategorierne risikeres meningsløse konklusioner som: Øget dosis giver større ssh. for at få respons 1,3,5,7,9 og mindre ssh. for 2, 4, 6, 8, 10. Modellen skal helst give uniform effekt af forklarende variable på alle responsgrupper. ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 11 / 12

Proportional odds model Kumulerede ssh: γ ij = P(Y i j), j = 1,...,k 1. ( ) γij Prop. odds model: log = θ j α(faktor i ) 1 γ ij θ j : intercept/threshold parametre for responsgrupper α-parametre: virker uniformt på alle responsgrupper Man kan sige, at der ikke er vekselsvirkning mellem behandlingsfaktor og responsgrupppe, fordi parametrene indgår additivt. Opfordring: forsøg at reducere (multinomial) logistisk regressionsmodel til en proportional odds model. ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 12 / 12