Statistik II 4. Lektion Logistisk regression
Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel: Afhængig: Er du en god læser? (Ja/Nej) Forklarende: Antal point i test (0..20) Point 0 1 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ja er 5 0 0 3 9 4 14 13 27 24 46 72 98 120 135 136 173 174 142 93 29 Nej er 2 2 1 2 2 5 2 10 11 9 11 11 14 16 14 21 10 6 4 4 2 Spørgsmål: Hvordan afhænger sandsynligheden for Ja af Point?
How not to do it Plot af andel ja er mod antal point. Hvorfor ikke bare gøre lidt som vi plejer? Model: Dåååårlig ide!!! P( Svar Ja) α + β Point
Why not to do it Plot af andel ja er mod antal point. Linjen er fundet ved mindste kvadraters metode Listen over problemer er lang.
Sandsynlighed og Odds Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives P ( Svar Ja) 0 P(Svar Ja) 1 Sandsynligheden for at Svar Nej Odds et for at Svar Ja er Odds( Svar P ( Svar Nej) 1 P( Svar Ja) Ja) P( Svar Ja) 1 P( Svar Ja) P( Svar Ja) P( Svar Nej) Fortolkning: Odds(Ja) 4 betyder 4 gange så mange ja er som nej er. 0 Odds(Svar Ja) <
Logit Logit for Svar Ja : Logit(Svar Ja) ln P(Svar Ja) 1 P(Svar Ja) ( Odds(Svar Ja) ) ln Bemærk: < Logit( Svar Ja) Når P(Ja) stiger, så stiger Logit(Ja) og omvendt. Logit kan tage alle værdier på den reelle akse. <
Hen til Logit og tilbage igen Antag Y er en binær variabel, dvs. Y0 eller Y1. Antag Logit(Y 1) α hvad er da Odds et og sandsynligheden? ( ) Vi har Logit( Y 1) ln Odds( Y 1) dvs.: α ( Logit( Y 1) ) exp( α e Odds ( Y 1) exp ) ( ) Vi har Odds( Y 1) P( Y 1) 1 P( Y 1) omskrives til P( Y 1) Odds( Y 1) 1+ Odds( Y 1) α e 1+ e α Bemærk: Når logit vokser, vokser ssh en.
Odds og odds-ratio De to betingede odds: Odds( Y 1 X p0 0) 1 p 0 og Odds( Y 1 X 1) p1 1 p 1 Odds-ratio: Oddsratio( Y 1) Odds( Y Odds( Y 1 X 1 X 1) 0) p p 1 0 (1 (1 p p 0 1 ) ) Hvis X og Y uafhængige har vi og Odds( Y 1 X 0) Odds( Y 1 X 1) Oddsratio( Y 1) 1
Logit og logit-forskelle De to betingede logits: Logit ( Y 1 X 0) Logit-forskel: Logit forskel( Y p0 ln 1 p 1) 0 p1 ln 1 p og Logit( Y 1 X 1 p0 ln 1 p 0 1) ln p1 ln 1 p p p 1 0 (1 p (1 p 0 1 1 ) ) Hvis X og Y uafhængige har vi og Logit( Y 1 X 0) Logit( Y 1 X 1) Logit forskel( Y 1) 0
Logistisk regression Antag at Y er en binær afhængig variabel og X er en kontinuert forklarende variabel. Da er en logistisk regressionsmodel givet ved Logit( Y 1 X x) α + β x Hvad betyder det sandsynligheden? Udregninger som før giver P( Y 1 X 1) e 1+ e α + βx α + βx
Logistiske funktion e 1+ x e x e 1+ e 1.5 0.5x 1.5 0.5x
Estimation Lad αˆ og βˆ betegne estimaterne af de sande, men ukendte parametre α og β. Parametrene α og β estimeres ved maximum-likelihood metoden: Vi vælger αˆ og βˆ som de værdier af α og β, der gør data mest sandsynlig (likely). Vi kalder αˆ og βˆ maximum-likelihood (ML) estimater.
SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y1 ). I dette tilfælde vil det sige Logit(Ja ). Estimerede model: Logit( Ja Score x) 0.402 + 0. 189x Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare ja, når antal point stiger.
Logit og Sandsynlighed Logit( Ja x) 0.402 + 0. 189x P( Ja exp x) 1+ exp ( 0.402 + 0.189x) ( 0.402 + 0.189x)
Estimaternes fordeling. Antag β er den sande værdi og βˆ er et ML estimat. Hvis vi har indsamlet data nok, så er stikprøveforselingen af βˆ ca. normalfordelt: ˆ β ~ N ( ˆ) ) 2 β, SE( β Normal-fordeling med middelværdi β og varians (SE( )) 2 βˆ Dvs. βˆ i gennemsnit estimerer korrekt (central). Standard fejlen SE( βˆ ) afhænger af mængden af data.
Konfidensinterval for β Vi har altså at det sande β er indeholdt i intervallet [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten β ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.
Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β Husk: Logit-forskel ln(odds-ratio), dvs. Odds-ratio exp(logit-forskel). Et 95% konfidens-interval for odds-ratio: [ e ˆ β 1.96SE( ˆ β ) ; e ˆ β + 1.96SE( ˆ β ) ]
SPSS Output β SE(β) Ζ 2 p-værdi α Estimerede model: Logit( Ja Score x) 0.402 + 0. 189x 95% konfidensintervallet for β er: [1.159 ; 1.260 ] e β 95% konf-int. for exp(β)
Signifikanstest Hypoteser H 0 : β 0 (uafhængighed) H 1 : β 0 (afhængighed) Teststørrelse: 2 Z ( ˆ β SE( ˆ) β ) 2 (Wald teststør.) Under H 0 gælder: Z 2 ~ χ 2 ( 1) Store værdier af Z 2 er ufordelagtige for H 0.
Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H 0 : β K H 1 : β K Lad [a,b] være et 95% konfidens-interval for β. Hvis K er udenfor intervallet [a,b], så kan vi afvise H 0 på signifikansniveau α 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H 0 på signifikansniveau α 0.05.
SPSS Output Z Estimerede model: 2 ( ) 2 ˆ 2 β SE( ˆ) ( 0.189 0.021) 79. 136 β Logit( Ja Score x) 0.402 + 0. 189x Fortolkning: Da p-værdien er mindre end 0.0005 kan vi afvise hypotesen om at β 0. Dvs. at antal point har en effekt på selvvurderingen.
Fortolkning: Odds Odds: Logit ( Ja Score x + 1) ln( Odds( Ja Score x)) Dvs. Odds( Ja Score x) exp( Logit( Ja Score x)) exp( α + βx) Dvs. en stigning på et point giver et Odds-ratio: Odds( Ja Score x + 1) Odds( Ja Score x) ( x+ ) α + β 1 α + βx Så hver gang score stiger med 1 ændres Odds et med en faktor e β. e e e β
SPSS Output Estimerede model: Logit( Ja Score x) 0.402 + 0. 189x Fortolkning: Odds et for at svare Ja ændres med en faktor exp(β) 1,208, hver gang scoren stiger med 1. Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja er for hvert Nej.
Modelkontrol: Hosmer-Lemeshows χ 2 -test Ide: Sammenlign observerede antal Ja er og forventede antal Ja er i den tilpassede model. O x observerede antal personer med score x, der svarer Ja. N x antal personer med score x. E x forventede antal personer med score x, der svarer Ja. E x N x P( Ja Score x) N x e 1+ e α + βx α + βx
Modelkontrol: Hosmer-Lemeshows χ 2 -test Teststørrelse: 2 χ ( E O ) x E x x x 2 Hvis vores værdier af a og b er korrekte gælder χ 2 ~ χ 2 Hvor df antal led i summen ( df ) antal parametre i modellen Hvis χ 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.
SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df 10-2 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.
Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: + i ix i X Y Logit β α ) 1 ( + + + + + + i i i i i i x x x x e e X Y P i i i i i i β α β α β α β α exp 1 exp 1 ) 1 (
Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Sætningslæsning Hurtig 80 6.3% Langsom 80 28.1% Usikker 11 35.5% Total 171 11.2% Er du en god læser Nej Ja Total 1199 93.7% 205 71.9% 20 64.5% 1424 88.8% 1279 100.0% 285 100.0% 31 100.0% 1595 100.0% Odds for Ja givet hastighed 1199/80 14.99 205/80 2.56 20/11 1.81 Logit for Ja givet hastighed ln(14.99) 2.707 ln(2.56) 0.94 ln(1.81) 0.59
Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle 0.
Hypotesetest Model: Logit(Ja Hastighed) α + β Hastighed Uinteressant hypotse (hvorfor?) H 0 : β Langsom 0 H 1 : β Langsom 0 Interessant hypotese (hvorfor?) H 0 : β Langsom β Usikker 0 H 1 : β Langsom 0 og/eller β Usikker 0 Teststørrelse: Wald ~ χ 2 (df ) df antal parametre involveret i H 0.
SPSS *Klik* Fortæl SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.
SPSS Output H 0 : β Lansom β Usikker 0 To parametre i H 0 : β Lansom og β Usikker. β Lansom β Usikker H 0 : β Usikker 0 Konklusion: Vi kan afvise H 0, dvs. der er en effekt af hastighed på selvvurdering.