Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Relaterede dokumenter
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II 4. Lektion. Logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Multipel Lineær Regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Logistisk Regression - fortsat

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Tema. Dagens tema: Indfør centrale statistiske begreber.

Logistisk regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Morten Frydenberg 14. marts 2006

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik Lektion 4. Variansanalyse Modelkontrol

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Lineær og logistisk regression

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Konfidensintervaller og Hypotesetest

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Module 4: Ensidig variansanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik og skalavalidering. Opgave 1

Anvendt Statistik Lektion 7. Simpel Lineær Regression

1 Multipel lineær regression

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Statistik Lektion 16 Multipel Lineær Regression

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Morten Frydenberg 26. april 2004

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistiske principper

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

1 Multipel lineær regression

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

02402 Løsning til testquiz02402f (Test VI)

Uge 13 referat hold 4

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Forelæsning 9: Inferens for andele (kapitel 10)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Estimation og konfidensintervaller

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Hypotesetests, fejltyper og p-værdier

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Susanne Ditlevsen Institut for Matematiske Fag susanne

Skriftlig eksamen Science statistik- ST501

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

9. Chi-i-anden test, case-control data, logistisk regression.

MPH specialmodul Epidemiologi og Biostatistik

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Kapitel 11 Lineær regression

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Analyse af binære responsvariable

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Synopsis til eksamen i Statistik

Vejledende løsninger kapitel 8 opgaver

Kvantitative metoder 2

Løsning til eksaminen d. 14. december 2009

Løsning eksamen d. 15. december 2008

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Produkt og marked - matematiske og statistiske metoder

Statistik Lektion 17 Multipel Lineær Regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Kapitel 12 Variansanalyse

Transkript:

Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P β α β α + + + 1 ) 1 ( X Y P X Y P X Y Logit β α + ) 1 ( 1 ) 1 ( ln ) 1 (

Logit-forskelle og Odds-ratio Logit-forskel Logit( Y 1 X 1) Logit( Y 1 X 0) α + β α β Odds-ratio α + β Odds( Y 1 X 1) e OR ( Y 1) α Odds( Y 1 X 0) e e β

Likelihood-funktionen Definer Likelihood funktionen L( α, β ; data). L(α, β ; data) siger, hvor troelig (likely) data under vores model for givne α og β.

Estimation Lad αˆ og βˆ betegne estimaterne af de sande, men ukendte parametre α og β. Parametrene α og β estimeres ved maimum-likelihood metoden: Vi vælger αˆ og βˆ så L ( αˆ, βˆ ; data) er størst mulig (ordnes af SPSS). Vi kalder αˆ og βˆ maimum-likelihood (ML) estimater.

Estimaternes fordeling. Antag β er den sande værdi og βˆ er et ML estimat. For hver data-indsamling får vi lidt forskellige estimater af β pga. af tilfældig variation i data. Hvis vi har indsamlet data nok, så gælder der ˆ β ~ N ( 2 β, SE( β ) ) Dvs. βˆ i gennemsnit estimerer korrekt (central). Standard fejlen SE(β) afhænger af mængden af data.

Konfidensinterval for β ˆ ( ˆ, ( ) 2 ) Da β ~ N β SE β gælder følgende: P ( β 1.96 SE( β ) < ˆ β < β + 1.96SE( β )) 0.95 P ( ˆ β 1.96SE( β ) < β < ˆ β + 1.96SE( β )) 0. 95

Konfidensinterval for β Vi har altså at det sande β er indeholdt i intervallet [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten β ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β Husk: Logit-forskel ln(odds-ratio), dvs. Odds-ratio ep(logit-forskel). Et 95% konfidens-interval for odds-ratio: [ e ˆ β 1.96SE( ˆ β ) ; e ˆ β + 1.96SE( ˆ β ) ]

Signifikanstest Hypoteser H 0 : β 0 H 1 : β 0 (uafhængighed) (afhængighed) ( ) 2 Teststørrelse: 2 Z ˆ β SE( β) (Wald teststør.) Under H 0 gælder: Z 2 ~ χ 2 () 1 Store værdier af Z 2 er ufordelagtige for H 0.

Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H 0 : β K H 1 : β K Lad [a,b] være et 95% konfidens-interval for β. Hvis K er udenfor intervallet [a,b], så kan vi afvise H 0 på signifikansniveau α 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H 0 på signifikansniveau α 0.05.

SPSS Output Model: Logit( Y 1 X ) α Model: Logit( Y 1 X ) α + β β SE(β) Ζ 2 p-værdi α e β 95% konf-int. for ep(β)

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Sætningslæsning Hurtig 80 6.3% Langsom 80 28.1% Usikker 11 35.5% Total 171 11.2% Er du en god læser Nej Ja Total 1199 93.7% 205 71.9% 20 64.5% 1424 88.8% 1279 100.0% 285 100.0% 31 100.0% 1595 100.0% Odds for Ja givet hastighed 1199/80 14.99 205/80 2.56 20/11 1.81 Logit for Ja givet hastighed ln(14.99) 2.707 ln(2.56) 0.94 ln(1.81) 0.59

Uafhængighed I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God Ja Hastighed Hurtig) Odds(God Ja Hastighed Langsom) Odds(God Ja Hastighed Usikker) Vi sammenligner par af Odds vha et Odds-ratio. Her er der k (k-1) 3 26 mulige Odds-ratios!

Sammenligning af mange Odds Vi vælger en reference-kategori, f. Læsehastighed Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle 0.

Logistisk Regressionsmodel Model: Logit(Ja Hastighed) α + β Hastighed Logit(Ja Hurtig) α + β Hurtig Logit(Ja Langsom) α + β Langsom Logit(Ja Usikker) α + β Usikker Overparametriseret! (hvorfor?) For reference-kategorien sæt β Hurtig 0.

Logit-forskelle Logit(Ja Langsom) - Logit(Ja Hurtig) (α + β Langsom ) - α β Langsom Logit(Ja Usikker) - Logit(Ja Hurtig) (α + β Usikker ) - α β Usikker Dvs. β Langsom og β Usikker er de to logit-forskelle af interesse.

Hypotesetest Uinteressant hypotse (hvorfor?) H 0 : β Langsom 0 H 1 : β Langsom 0 Interessant hypotese (hvorfor?) H 0 : β Langsom β Usikker 0 H 1 : β Langsom 0 og/eller β Usikker 0 Teststørrelse: Wald ~ χ 2 (df ) df antal parametre ivolveret i H 0.

SPSS Fortæl SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y1 ). I dette tilfælde vil det sige Logit(Ja ). H 0 : β Lansom β Usikker 0 To parametre i H 0 : β Lansom og β Usikker. β Lansom β Usikker H 0 : β Usikker 0

Alternativ: Dummy-variable For hver kategori introducer en binær variabel: Hurtig Langsom og Usikker. Hurtig 0 altid Langsom 1 hvis Hastighed Langsom Langsom 0 hvis Hastighed Langsom Usikker 1 hvis Hastighed Usikker Usikker 0 hvis Hastighed Usikker

Dummy-variable: Nu Som Tabel Hastighed Langsom Usikker Hurtig 0 0 Langsom 1 0 Usikker 0 1

Dummy-variable Model: Eksempel: Usikker Usikker Langsom Langsom Hurtig Hurtig Hastighed Ja Logit β β β α + + + ) ( Langsom Usikker Langsom Hurtig Langsom Ja Logit β α β β β α + + + + 0 1 0 ) (

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: + i i i X Y Logit β α ) 1 ( + + + + + + i i i i i i e e X Y P i i i i i i β α β α β α β α ep 1 ep 1 ) 1 (

Skala forklarende variabel Eksempel: Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0 20) Plot: Andel Ja er for hver score. 0.0 0.2 0.4 0.6 0.8 1.0 sandsynlighed 0 5 10 15 20

Logistisk Regressionsmodel Model: Logit(Ja Score) α + β Sandsynlighed: P( Ja Score ) e 1+ e α + β α + β Plot: Logit(Ja Score) logit 0 1 2 3 0 5 10 15 20

Logistiske funktion e 1+ e 0.0 0.2 0.4 0.6 0.8 1.0 10 5 0 5 10 e 1 + e 1.5 0.5 1.5 0.5 0.0 0.2 0.4 0.6 0.8 1.0 10 5 0 5 10

Fortolkning Logit-forskel: Logit( Ja Score + 1) ( α + β ( + 1) ) ( α + β) α + β + Logit( Ja β α β β Score ) Så hver gang score stiger med en stiger logit med β. Odds-ratio: Odds( Ja Score + 1) Odds( Ja Score ) e e ( + ) α + β 1 α + β e β Så hver gang score stiger med en ændres Odds et med en faktor e β.

Hypotesetest H 0 : β 0 H 1 : β 0 Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score. Teststørrelse: Wald ˆ β SE ( β ) Hvis vi afviser H 0 siger vi at β er signifikant.

SPSS Output Estimerede model: Logit( Ja Score ) 0.402 + 0. 189 Fortolkning: Odds et for at svare Ja ændres med en faktor ep(β) 1,208, hver gang scoren stiger med 1.

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, f: Logit(Ja Score) α + β 1 + β 2 2 Hvis β 2 ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows χ 2 -test Ide: Sammenlign observerede antal Ja er og forventede antal Ja er i den tilpassede model. O observerede antal personer med score, der svarer Ja. N antal personer med score. E forventede antal personer med score, der svarer Ja. E N P( Ja Score ) N e 1+ e α + β α + β

Modelkontrol: Hosmer-Lemeshows χ 2 -test Teststørrelse: 2 χ ( E O ) E 2 Hvis vores værdier af a og b er korrekte gælder χ 2 ~ χ 2 Hvor df antal led i summen ( df ) antal parametre i modellen Hvis χ 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df 10-2 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Logit( Ja Køn, Hastighed) α + β + β Køn Hastighed Reference-kategorier: Dreng og Hurtig Dvs: β Dreng 0 og β Hurtig 0 Logit(Ja Dreng,Hurtig) α+β Dreng +β Hurtig α+0+0 α Logit(Ja Pige,Langsom) α+β Pige +β Langsom

Logit-forskelle Logit(Ja Køn,Langsom) - Logit(Ja Dreng,Hurtig) (α+β Køn +β Langsom ) - (α+β Køn +β Hurtig ) β Langsom. Dvs. β Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit(Ja Pige,Hastighed) - Logit(Ja Dreng,Hastighed) (α+β Pige +β Hastighed ) - (α+β Dreng +β Hastighed ) β Pige. Dvs. β Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden at der er en interaktion? Indfør interaktionsled β Køn,Hastighed. Model: Logit(Ja Køn,Hastighed) α + β Køn + β Hastighed + β Køn,Hastighed

Interaktion / Vekselvirkning Parametere der refererer til en eller flere referencekategorier sættes lig nul: β Dreng,Hurtig 0 β Pige, Hurtig 0 β Dreng, Langsom 0 β Pige, Langsom 0 β Dreng, Usikker 0 β Pige, Usikker 0

Logit Tabel Tabel over Logit(Ja Køn, Hastighed) Køn Dreng Pige Læsehastighed Hurtig α α+β Pige Langsom α+β Langsom α+β Pige +β Langsom +β Pige,Langsom Usikker α+β Usikker α+β Pige +β Usikker +β Pige,Usikker Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.

Logit-forskelle logit(ja pige,hurtig) logit(ja dreng,hurtig) β Pige logit(ja pige,usikker) logit(ja dreng,usikker) β Pige + β Pige,Usikker. Dvs. β Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(ja Dreng,Usikker) logit(ja Dreng,Hurtig) β Usikker logit(ja Pige,Usikker) logit(ja Pige,Hurtig) β Usikker + β Pige,Usikker. Dvs. β Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.

Hypotse H 0 : β Pige,Langsom β Pige,Usikker 0 Dvs. der er ingen interaktion mellem Køn og Hastighed. H 1 : β Pige,Langsom 0 og/eller β Pige,Usikker 0 Dvs. der er interaktion mellem Køn og Hastighed.