Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P β α β α + + + 1 ) 1 ( X Y P X Y P X Y Logit β α + ) 1 ( 1 ) 1 ( ln ) 1 (

Logit-forskelle og Odds-ratio Logit-forskel Logit( Y 1 X 1) Logit( Y 1 X 0) α + β α β Odds-ratio α + β Odds( Y 1 X 1) e OR ( Y 1) α Odds( Y 1 X 0) e e β

Likelihood-funktionen Definer Likelihood funktionen L( α, β ; data). L(α, β ; data) siger, hvor troelig (likely) data under vores model for givne α og β.

Estimation Lad αˆ og βˆ betegne estimaterne af de sande, men ukendte parametre α og β. Parametrene α og β estimeres ved maimum-likelihood metoden: Vi vælger αˆ og βˆ så L ( αˆ, βˆ ; data) er størst mulig (ordnes af SPSS). Vi kalder αˆ og βˆ maimum-likelihood (ML) estimater.

Estimaternes fordeling. Antag β er den sande værdi og βˆ er et ML estimat. For hver data-indsamling får vi lidt forskellige estimater af β pga. af tilfældig variation i data. Hvis vi har indsamlet data nok, så gælder der ˆ β ~ N ( 2 β, SE( β ) ) Dvs. βˆ i gennemsnit estimerer korrekt (central). Standard fejlen SE(β) afhænger af mængden af data.

Konfidensinterval for β ˆ ( ˆ, ( ) 2 ) Da β ~ N β SE β gælder følgende: P ( β 1.96 SE( β ) < ˆ β < β + 1.96SE( β )) 0.95 P ( ˆ β 1.96SE( β ) < β < ˆ β + 1.96SE( β )) 0. 95

Konfidensinterval for β Vi har altså at det sande β er indeholdt i intervallet [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten β ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β Husk: Logit-forskel ln(odds-ratio), dvs. Odds-ratio ep(logit-forskel). Et 95% konfidens-interval for odds-ratio: [ e ˆ β 1.96SE( ˆ β ) ; e ˆ β + 1.96SE( ˆ β ) ]

Signifikanstest Hypoteser H 0 : β 0 H 1 : β 0 (uafhængighed) (afhængighed) ( ) 2 Teststørrelse: 2 Z ˆ β SE( β) (Wald teststør.) Under H 0 gælder: Z 2 ~ χ 2 () 1 Store værdier af Z 2 er ufordelagtige for H 0.

Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H 0 : β K H 1 : β K Lad [a,b] være et 95% konfidens-interval for β. Hvis K er udenfor intervallet [a,b], så kan vi afvise H 0 på signifikansniveau α 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H 0 på signifikansniveau α 0.05.

SPSS Output Model: Logit( Y 1 X ) α Model: Logit( Y 1 X ) α + β β SE(β) Ζ 2 p-værdi α e β 95% konf-int. for ep(β)

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Sætningslæsning Hurtig 80 6.3% Langsom 80 28.1% Usikker 11 35.5% Total 171 11.2% Er du en god læser Nej Ja Total 1199 93.7% 205 71.9% 20 64.5% 1424 88.8% 1279 100.0% 285 100.0% 31 100.0% 1595 100.0% Odds for Ja givet hastighed 1199/80 14.99 205/80 2.56 20/11 1.81 Logit for Ja givet hastighed ln(14.99) 2.707 ln(2.56) 0.94 ln(1.81) 0.59

Uafhængighed I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God Ja Hastighed Hurtig) Odds(God Ja Hastighed Langsom) Odds(God Ja Hastighed Usikker) Vi sammenligner par af Odds vha et Odds-ratio. Her er der k (k-1) 3 26 mulige Odds-ratios!

Sammenligning af mange Odds Vi vælger en reference-kategori, f. Læsehastighed Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle 0.

Logistisk Regressionsmodel Model: Logit(Ja Hastighed) α + β Hastighed Logit(Ja Hurtig) α + β Hurtig Logit(Ja Langsom) α + β Langsom Logit(Ja Usikker) α + β Usikker Overparametriseret! (hvorfor?) For reference-kategorien sæt β Hurtig 0.

Logit-forskelle Logit(Ja Langsom) - Logit(Ja Hurtig) (α + β Langsom ) - α β Langsom Logit(Ja Usikker) - Logit(Ja Hurtig) (α + β Usikker ) - α β Usikker Dvs. β Langsom og β Usikker er de to logit-forskelle af interesse.

Hypotesetest Uinteressant hypotse (hvorfor?) H 0 : β Langsom 0 H 1 : β Langsom 0 Interessant hypotese (hvorfor?) H 0 : β Langsom β Usikker 0 H 1 : β Langsom 0 og/eller β Usikker 0 Teststørrelse: Wald ~ χ 2 (df ) df antal parametre ivolveret i H 0.

SPSS Fortæl SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y1 ). I dette tilfælde vil det sige Logit(Ja ). H 0 : β Lansom β Usikker 0 To parametre i H 0 : β Lansom og β Usikker. β Lansom β Usikker H 0 : β Usikker 0

Alternativ: Dummy-variable For hver kategori introducer en binær variabel: Hurtig Langsom og Usikker. Hurtig 0 altid Langsom 1 hvis Hastighed Langsom Langsom 0 hvis Hastighed Langsom Usikker 1 hvis Hastighed Usikker Usikker 0 hvis Hastighed Usikker

Dummy-variable: Nu Som Tabel Hastighed Langsom Usikker Hurtig 0 0 Langsom 1 0 Usikker 0 1

Dummy-variable Model: Eksempel: Usikker Usikker Langsom Langsom Hurtig Hurtig Hastighed Ja Logit β β β α + + + ) ( Langsom Usikker Langsom Hurtig Langsom Ja Logit β α β β β α + + + + 0 1 0 ) (

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: + i i i X Y Logit β α ) 1 ( + + + + + + i i i i i i e e X Y P i i i i i i β α β α β α β α ep 1 ep 1 ) 1 (

Skala forklarende variabel Eksempel: Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0 20) Plot: Andel Ja er for hver score. 0.0 0.2 0.4 0.6 0.8 1.0 sandsynlighed 0 5 10 15 20

Logistisk Regressionsmodel Model: Logit(Ja Score) α + β Sandsynlighed: P( Ja Score ) e 1+ e α + β α + β Plot: Logit(Ja Score) logit 0 1 2 3 0 5 10 15 20

Logistiske funktion e 1+ e 0.0 0.2 0.4 0.6 0.8 1.0 10 5 0 5 10 e 1 + e 1.5 0.5 1.5 0.5 0.0 0.2 0.4 0.6 0.8 1.0 10 5 0 5 10

Fortolkning Logit-forskel: Logit( Ja Score + 1) ( α + β ( + 1) ) ( α + β) α + β + Logit( Ja β α β β Score ) Så hver gang score stiger med en stiger logit med β. Odds-ratio: Odds( Ja Score + 1) Odds( Ja Score ) e e ( + ) α + β 1 α + β e β Så hver gang score stiger med en ændres Odds et med en faktor e β.

Hypotesetest H 0 : β 0 H 1 : β 0 Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score. Teststørrelse: Wald ˆ β SE ( β ) Hvis vi afviser H 0 siger vi at β er signifikant.

SPSS Output Estimerede model: Logit( Ja Score ) 0.402 + 0. 189 Fortolkning: Odds et for at svare Ja ændres med en faktor ep(β) 1,208, hver gang scoren stiger med 1.

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, f: Logit(Ja Score) α + β 1 + β 2 2 Hvis β 2 ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows χ 2 -test Ide: Sammenlign observerede antal Ja er og forventede antal Ja er i den tilpassede model. O observerede antal personer med score, der svarer Ja. N antal personer med score. E forventede antal personer med score, der svarer Ja. E N P( Ja Score ) N e 1+ e α + β α + β

Modelkontrol: Hosmer-Lemeshows χ 2 -test Teststørrelse: 2 χ ( E O ) E 2 Hvis vores værdier af a og b er korrekte gælder χ 2 ~ χ 2 Hvor df antal led i summen ( df ) antal parametre i modellen Hvis χ 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df 10-2 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Logit( Ja Køn, Hastighed) α + β + β Køn Hastighed Reference-kategorier: Dreng og Hurtig Dvs: β Dreng 0 og β Hurtig 0 Logit(Ja Dreng,Hurtig) α+β Dreng +β Hurtig α+0+0 α Logit(Ja Pige,Langsom) α+β Pige +β Langsom

Logit-forskelle Logit(Ja Køn,Langsom) - Logit(Ja Dreng,Hurtig) (α+β Køn +β Langsom ) - (α+β Køn +β Hurtig ) β Langsom. Dvs. β Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit(Ja Pige,Hastighed) - Logit(Ja Dreng,Hastighed) (α+β Pige +β Hastighed ) - (α+β Dreng +β Hastighed ) β Pige. Dvs. β Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden at der er en interaktion? Indfør interaktionsled β Køn,Hastighed. Model: Logit(Ja Køn,Hastighed) α + β Køn + β Hastighed + β Køn,Hastighed

Interaktion / Vekselvirkning Parametere der refererer til en eller flere referencekategorier sættes lig nul: β Dreng,Hurtig 0 β Pige, Hurtig 0 β Dreng, Langsom 0 β Pige, Langsom 0 β Dreng, Usikker 0 β Pige, Usikker 0

Logit Tabel Tabel over Logit(Ja Køn, Hastighed) Køn Dreng Pige Læsehastighed Hurtig α α+β Pige Langsom α+β Langsom α+β Pige +β Langsom +β Pige,Langsom Usikker α+β Usikker α+β Pige +β Usikker +β Pige,Usikker Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.

Logit-forskelle logit(ja pige,hurtig) logit(ja dreng,hurtig) β Pige logit(ja pige,usikker) logit(ja dreng,usikker) β Pige + β Pige,Usikker. Dvs. β Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(ja Dreng,Usikker) logit(ja Dreng,Hurtig) β Usikker logit(ja Pige,Usikker) logit(ja Pige,Hurtig) β Usikker + β Pige,Usikker. Dvs. β Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.

Hypotse H 0 : β Pige,Langsom β Pige,Usikker 0 Dvs. der er ingen interaktion mellem Køn og Hastighed. H 1 : β Pige,Langsom 0 og/eller β Pige,Usikker 0 Dvs. der er interaktion mellem Køn og Hastighed.