Statistik II 4. Lektion. Logistisk regression



Relaterede dokumenter
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Multipel Lineær Regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Produkt og marked - matematiske og statistiske metoder

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik Lektion 4. Variansanalyse Modelkontrol

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Logistisk Regression - fortsat

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Forelæsning 11: Kapitel 11: Regressionsanalyse

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Lineær og logistisk regression

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Morten Frydenberg 14. marts 2006

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Skriftlig eksamen Science statistik- ST501

Logistisk regression

Morten Frydenberg 26. april 2004

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Center for Statistik. Multipel regression med laggede responser som forklarende variable

To samhørende variable

Forelæsning 9: Inferens for andele (kapitel 10)

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Note om Monte Carlo metoden

Kapitel 11 Lineær regression

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Løsning til eksaminen d. 14. december 2009

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Løsning eksamen d. 15. december 2008

Stastistik og Databehandling på en TI-83

Appendiks Økonometrisk teori... II

Statistik Lektion 16 Multipel Lineær Regression

Vejledende besvarelser til opgaver i kapitel 14

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Opgaver til kapitel 3

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Løsning til eksaminen d. 29. maj 2009

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Vejledende løsninger kapitel 8 opgaver

Modul 12: Regression og korrelation

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

MPH specialmodul Epidemiologi og Biostatistik

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

(studienummer) (underskrift) (bord nr)

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Module 4: Ensidig variansanalyse

Uge 13 referat hold 4

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

MAT A HHX FACITLISTE TIL KAPITEL 8. Øvelser. Øvelse 1 Graf tegnes med CAS. Øvelse 2. Bedste rette linie: Øvelse 3. Øvelse 4.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik i GeoGebra

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Transkript:

Statistik II 4. Lektion Logistisk regression

Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel: Afhængig: Er du en god læser? (Ja/Nej) Forklarende: Antal point i test (0..20) Point 0 1 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ja er 5 0 0 3 9 4 14 13 27 24 46 72 98 120 135 136 173 174 142 93 29 Nej er 2 2 1 2 2 5 2 10 11 9 11 11 14 16 14 21 10 6 4 4 2 Spørgsmål: Hvordan afhænger sandsynligheden for Ja af Point?

How not to do it Plot af andel ja er mod antal point. Hvorfor ikke bare gøre lidt som vi plejer? Model: Dåååårlig ide!!! P( Svar Ja) α + β Point

Why not to do it Plot af andel ja er mod antal point. Linjen er fundet ved mindste kvadraters metode Listen over problemer er lang.

Sandsynlighed og Odds Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives P ( Svar Ja) 0 P(Svar Ja) 1 Sandsynligheden for at Svar Nej Odds et for at Svar Ja er Odds( Svar P ( Svar Nej) 1 P( Svar Ja) Ja) P( Svar Ja) 1 P( Svar Ja) P( Svar Ja) P( Svar Nej) Fortolkning: Odds(Ja) 4 betyder 4 gange så mange ja er som nej er. 0 Odds(Svar Ja) <

Logit Logit for Svar Ja : Logit(Svar Ja) ln P(Svar Ja) 1 P(Svar Ja) ( Odds(Svar Ja) ) ln Bemærk: < Logit( Svar Ja) Når P(Ja) stiger, så stiger Logit(Ja) og omvendt. Logit kan tage alle værdier på den reelle akse. <

Hen til Logit og tilbage igen Antag Y er en binær variabel, dvs. Y0 eller Y1. Antag Logit(Y 1) α hvad er da Odds et og sandsynligheden? ( ) Vi har Logit( Y 1) ln Odds( Y 1) dvs.: α ( Logit( Y 1) ) exp( α e Odds ( Y 1) exp ) ( ) Vi har Odds( Y 1) P( Y 1) 1 P( Y 1) omskrives til P( Y 1) Odds( Y 1) 1+ Odds( Y 1) α e 1+ e α Bemærk: Når logit vokser, vokser ssh en.

Odds og odds-ratio De to betingede odds: Odds( Y 1 X p0 0) 1 p 0 og Odds( Y 1 X 1) p1 1 p 1 Odds-ratio: Oddsratio( Y 1) Odds( Y Odds( Y 1 X 1 X 1) 0) p p 1 0 (1 (1 p p 0 1 ) ) Hvis X og Y uafhængige har vi og Odds( Y 1 X 0) Odds( Y 1 X 1) Oddsratio( Y 1) 1

Logit og logit-forskelle De to betingede logits: Logit ( Y 1 X 0) Logit-forskel: Logit forskel( Y p0 ln 1 p 1) 0 p1 ln 1 p og Logit( Y 1 X 1 p0 ln 1 p 0 1) ln p1 ln 1 p p p 1 0 (1 p (1 p 0 1 1 ) ) Hvis X og Y uafhængige har vi og Logit( Y 1 X 0) Logit( Y 1 X 1) Logit forskel( Y 1) 0

Logistisk regression Antag at Y er en binær afhængig variabel og X er en kontinuert forklarende variabel. Da er en logistisk regressionsmodel givet ved Logit( Y 1 X x) α + β x Hvad betyder det sandsynligheden? Udregninger som før giver P( Y 1 X 1) e 1+ e α + βx α + βx

Logistiske funktion e 1+ x e x e 1+ e 1.5 0.5x 1.5 0.5x

Estimation Lad αˆ og βˆ betegne estimaterne af de sande, men ukendte parametre α og β. Parametrene α og β estimeres ved maximum-likelihood metoden: Vi vælger αˆ og βˆ som de værdier af α og β, der gør data mest sandsynlig (likely). Vi kalder αˆ og βˆ maximum-likelihood (ML) estimater.

SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y1 ). I dette tilfælde vil det sige Logit(Ja ). Estimerede model: Logit( Ja Score x) 0.402 + 0. 189x Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare ja, når antal point stiger.

Logit og Sandsynlighed Logit( Ja x) 0.402 + 0. 189x P( Ja exp x) 1+ exp ( 0.402 + 0.189x) ( 0.402 + 0.189x)

Estimaternes fordeling. Antag β er den sande værdi og βˆ er et ML estimat. Hvis vi har indsamlet data nok, så er stikprøveforselingen af βˆ ca. normalfordelt: ˆ β ~ N ( ˆ) ) 2 β, SE( β Normal-fordeling med middelværdi β og varians (SE( )) 2 βˆ Dvs. βˆ i gennemsnit estimerer korrekt (central). Standard fejlen SE( βˆ ) afhænger af mængden af data.

Konfidensinterval for β Vi har altså at det sande β er indeholdt i intervallet [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten β ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β Husk: Logit-forskel ln(odds-ratio), dvs. Odds-ratio exp(logit-forskel). Et 95% konfidens-interval for odds-ratio: [ e ˆ β 1.96SE( ˆ β ) ; e ˆ β + 1.96SE( ˆ β ) ]

SPSS Output β SE(β) Ζ 2 p-værdi α Estimerede model: Logit( Ja Score x) 0.402 + 0. 189x 95% konfidensintervallet for β er: [1.159 ; 1.260 ] e β 95% konf-int. for exp(β)

Signifikanstest Hypoteser H 0 : β 0 (uafhængighed) H 1 : β 0 (afhængighed) Teststørrelse: 2 Z ( ˆ β SE( ˆ) β ) 2 (Wald teststør.) Under H 0 gælder: Z 2 ~ χ 2 ( 1) Store værdier af Z 2 er ufordelagtige for H 0.

Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H 0 : β K H 1 : β K Lad [a,b] være et 95% konfidens-interval for β. Hvis K er udenfor intervallet [a,b], så kan vi afvise H 0 på signifikansniveau α 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H 0 på signifikansniveau α 0.05.

SPSS Output Z Estimerede model: 2 ( ) 2 ˆ 2 β SE( ˆ) ( 0.189 0.021) 79. 136 β Logit( Ja Score x) 0.402 + 0. 189x Fortolkning: Da p-værdien er mindre end 0.0005 kan vi afvise hypotesen om at β 0. Dvs. at antal point har en effekt på selvvurderingen.

Fortolkning: Odds Odds: Logit ( Ja Score x + 1) ln( Odds( Ja Score x)) Dvs. Odds( Ja Score x) exp( Logit( Ja Score x)) exp( α + βx) Dvs. en stigning på et point giver et Odds-ratio: Odds( Ja Score x + 1) Odds( Ja Score x) ( x+ ) α + β 1 α + βx Så hver gang score stiger med 1 ændres Odds et med en faktor e β. e e e β

SPSS Output Estimerede model: Logit( Ja Score x) 0.402 + 0. 189x Fortolkning: Odds et for at svare Ja ændres med en faktor exp(β) 1,208, hver gang scoren stiger med 1. Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja er for hvert Nej.

Modelkontrol: Hosmer-Lemeshows χ 2 -test Ide: Sammenlign observerede antal Ja er og forventede antal Ja er i den tilpassede model. O x observerede antal personer med score x, der svarer Ja. N x antal personer med score x. E x forventede antal personer med score x, der svarer Ja. E x N x P( Ja Score x) N x e 1+ e α + βx α + βx

Modelkontrol: Hosmer-Lemeshows χ 2 -test Teststørrelse: 2 χ ( E O ) x E x x x 2 Hvis vores værdier af a og b er korrekte gælder χ 2 ~ χ 2 Hvor df antal led i summen ( df ) antal parametre i modellen Hvis χ 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df 10-2 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: + i ix i X Y Logit β α ) 1 ( + + + + + + i i i i i i x x x x e e X Y P i i i i i i β α β α β α β α exp 1 exp 1 ) 1 (

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Sætningslæsning Hurtig 80 6.3% Langsom 80 28.1% Usikker 11 35.5% Total 171 11.2% Er du en god læser Nej Ja Total 1199 93.7% 205 71.9% 20 64.5% 1424 88.8% 1279 100.0% 285 100.0% 31 100.0% 1595 100.0% Odds for Ja givet hastighed 1199/80 14.99 205/80 2.56 20/11 1.81 Logit for Ja givet hastighed ln(14.99) 2.707 ln(2.56) 0.94 ln(1.81) 0.59

Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle 0.

Hypotesetest Model: Logit(Ja Hastighed) α + β Hastighed Uinteressant hypotse (hvorfor?) H 0 : β Langsom 0 H 1 : β Langsom 0 Interessant hypotese (hvorfor?) H 0 : β Langsom β Usikker 0 H 1 : β Langsom 0 og/eller β Usikker 0 Teststørrelse: Wald ~ χ 2 (df ) df antal parametre involveret i H 0.

SPSS *Klik* Fortæl SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output H 0 : β Lansom β Usikker 0 To parametre i H 0 : β Lansom og β Usikker. β Lansom β Usikker H 0 : β Usikker 0 Konklusion: Vi kan afvise H 0, dvs. der er en effekt af hastighed på selvvurdering.