Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Statkstk II 3. Lekton Multpel Logstsk regresson Generelle Lneære Modeller

Defntoner: Repetton Sandsynlghed for at Ja tl at være en god læser gvet at man er en dreng skrves: P( God læser Ja Køn Dreng) Sandsynlghed for at Ja tl at være en god læser gvet at man er en pge skrves: P( God læser Ja Køn Pge) 1 P(God læser Ja Køn Dreng) Oddset for at være svare Ja tl at være god læser gvet man er en dreng er ( doven notaton) P(Ja Dreng) Odds(Ja Dreng) 1 P(Ja Dreng) Oddset for at være svare Ja tl at være god læser gvet man er en dreng er ( doven notaton) P(Ja Dreng) Logt(Ja Dreng) ln( Odds(Ja Dreng) ) ln 1 P(Ja Dreng)

Hvs ngen afhængghed Hvs selvvurderng kke afhænger af kønnet må der gælder følgende: P ( Ja Dreng) P(Ja Pge) P( Ja Dreng) P(Ja Pge) 1 Odds ( Ja Dreng) Odds(Ja Pge) Odds( Ja Pge) Odds(Ja Dreng) 1 ( Odds(Ja Pge) Odds(Ja Dreng) ) 0 ln logt (Ja Pge) logt(ja Dreng) 0 Odds-rato Logt-forskel

Kategorsk forklarende varabel Eksempel: Sammenhængen ml. læsehastghed og selvvurderng? Sætnngslæsnng Hurtg 80 6.3% Langsom 80 28.1% Uskker 11 35.5% Total 171 11.2% Er du en god læser Nej Ja Total 1199 93.7% 205 71.9% 20 64.5% 1424 88.8% 1279 100.0% 285 100.0% 31 100.0% 1595 100.0% Odds for Ja gvet hastghed 1199/80 14.99 205/80 2.56 20/11 1.81 Logt for Ja gvet hastghed ln(14.99) 2.707 ln(2.56) 0.94 ln(1.81) 0.59

Logstsk Regressonsmodel Model: Logt(Ja Hastghed) α + β Hastghed Logt(Ja Hurtg) α + β Hurtg Logt(Ja Langsom) α + β Langsom Logt(Ja Uskker) α + β Uskker For reference-kategoren sæt β Hurtg 0.

Logt-forskelle Logt(Ja Langsom) - Logt(Ja Hurtg) (α + β Langsom ) - α β Langsom Logt(Ja Uskker) - Logt(Ja Hurtg) (α + β Uskker ) - α β Uskker Dvs. β Langsom og β Uskker er de to logt-forskelle af nteresse. Hypotesetest H 0 : β Langsom β Uskker 0 H 1 : β Langsom 0 og/eller β Uskker 0

Alternatv: Dummy-varable For hver kategor ntroducer en bnær varabel: x Hurtg, x Langsom og x Uskker. x Hurtg 0 altd nul (reference-kategor) x Langsom 1 hvs Hastghed Langsom x Langsom 0 hvs Hastghed Langsom x Uskker 1 hvs Hastghed Uskker x Uskker 0 hvs Hastghed Uskker

Dummy-varable: Nu Som Tabel Hastghed x Langsom x Uskker Hurtg 0 0 Langsom 1 0 Uskker 0 1

Dummy-varable Model: Eksempel: Bemærk struktur: Uskker Uskker Langsom Langsom Hurtg Hurtg x x x Hastghed Ja Logt β β β α + + + ) ( Langsom Uskker Langsom Hurtg Langsom Ja Logt β α β β β α + + + + 0 1 0 ) ( + + + + k k k k x x x x x Ja Logt β α β β α β 1 1 1 ),, (

Logstsk Regresson: Generel Form Med en omkodnng tl bnære dummy-varable kan den logstske regresson skrves på den generelle form: Logt( Y 1 Og som sandsynlghed: X ) α + βx P( Y 1 X ) e 1+ e α + β x α + β x exp α + βx 1+ exp α + βx

Skala forklarende varabel Eksempel: Afhængg varabel: Er du en god læser (Ja/Nej) Forklarende varable: Antal rgtge test (0 20) Plot: Andel Ja er for hver score.

Logstsk Regressonsmodel Model: Logt(Ja Score x) α + βx Sandsynlghed: P( Ja Score x) e 1+ e α + βx α + βx Plot: Logt(Ja Scorex)

Logstske funkton e 1+ x e x e 1+ e 1.5 0.5x 1.5 0.5x

Fortolknng af β Logt-forskel: Logt( Ja Score ( α + β ( x + 1) ) ( α + βx) α + βx + β α βx β Så hver gang score stger med 1 stger logt med β. x + 1) Logt( Ja Score x) Odds-rato: Odds( Ja Score x + 1) Odds( Ja Score x) e e ( x+ ) α + β 1 α + βx e β Så hver gang score stger med 1 ændres Odds et med en faktor e β.

Hypotesetest H 0 : β 0 H 1 : β 0 Ingen logt-lneær sammenhæng mellem selvvurderng og test-score. Der er en logt-lneær sammenhæng mellem selvvurderng og test-score. Teststørrelse: Wald ˆ β SE( ˆ) β 2 0 Jo større Wald jo mndre tror v på H 0. Hvor langt ude Wald er måles af p-værden. Hvs v afvser H 0 sger v at β er sgnfkant.

SPSS Output Estmerede model: Fortolknng: Odds et for at svare Ja ændres med en faktor exp(β) 1,208, hver gang scoren stger med 1. Dvs. at Odds et for Ja stger når score stger. Sandsynlgheder Logt( Ja Score x) 0.402 + 0. 189x ( 0.402 + 0.189 7) ( 0.402 + 0.189 7) exp P( Ja Score 7) 1+ exp 0.72

Modelkontrol: Ikke logt-lneær Udvd model med kke-lneært led, fx: Logt(Ja Scorex) α + β 1 x + β 2 x 2 Hvs β 2 kke er sgnfkant, så er en logt-lneær model passende.

Modelkontrol: Hosmer-Lemeshows χ 2 -test Ide: Sammenlgn observerede antal Ja er og forventede antal Ja er den tlpassede model. O x observerede antal personer med score x, der svarer Ja. N x antal personer med score x. E x forventede antal personer med score x, der svarer Ja. E x N x P( Ja Score x) N x e 1+ e α + βx α + βx

Modelkontrol: Hosmer-Lemeshows χ 2 -test Teststørrelse: 2 χ ( E O ) x E x x x 2 Hvs vores værder af a og b er korrekte gælder χ 2 ~ χ 2 Hvor df antal led summen ( df ) antal parametre modellen Hvs χ 2 er for stor tror v kke på modellen. Hvs den tlsvarende p-værd er < 0.05 er modelkontrollen kkset.

SPSS Output Da p-værden 0.246 > 0.05 kan v kke afvse H 0. Dvs. v kan kke afvse at modellen er korrekt. Data nddelt 10 grupper. Modellen har to parametre. Dvs. df 10-2 8.

Multpel Logstsk Regresson Ide: Mere end en forklarende varabel. Model: Logt ( Ja Køn, Hastghed ) α + β Køn + β Hastghed Reference-kategorer: Dreng og Hurtg Dvs: β Dreng 0 og β Hurtg 0 Eksempler Logt(Ja Dreng,Hurtg) α +β Dreng +β Hurtg α + 0 + 0 α Logt(Ja Pge,Langsom) α +β Pge +β Langsom

Logt-forskelle Sammenlgnng af logt for to personer af samme køn, med forskellg læsehastghed: Logt(Ja Køn,Langsom) Logt(Ja Køn,Hurtg) (α+β Køn +β Langsom ) (α+β Køn +β Hurtg ) β Langsom Dvs. β Langsom beskrver logt-forskellen mellem hurtg og langsom læser uanset kønnet.

Logt-forskelle Sammenlgnng af logt for to personer af forskellg køn, men med samme læsehastghed: Logt(Ja Pge,Hastghed) Logt(Ja Dreng,Hastghed) (α+β Pge +β Hastghed ) (α+β Dreng +β Hastghed ) β Pge. Dvs. β Pge beskrver logt-forskellen mellem pger og drenge uanset læsehastgheden.

Interakton / Vekselvrknng Hvad nu hvs logt-forskellen mellem pger og drenge faktsk afhænger af hastgheden at der er en nterakton? Indfør nteraktonsled β Køn,Hastghed. Model: Logt(Ja Køn,Hastghed) α + β Køn + β Hastghed + β Køn,Hastghed

Interakton / Vekselvrknng Parametere der refererer tl en eller flere referencekategorer sættes lg nul: β Dreng,Hurtg 0 β Dreng, Langsom 0 β Dreng, Uskker 0 β Pge, Hurtg 0 β Pge, Langsom 0 β Pge, Uskker 0

Logt Tabel Tabel over Logt(Ja Køn, Hastghed) Køn Dreng Pge Læsehastghed Hurtg α α+β Pge Langsom α+β Langsom α+β Pge +β Langsom +β Pge,Langsom Uskker α+β Uskker α+β Pge +β Uskker +β Pge,Uskker Bemærk: Hver celle har et ndvduelt logt. V kalder denne model den mættede model.

Logt-forskelle logt(ja pge,hurtg) logt(ja dreng,hurtg) β Pge logt(ja pge,uskker) logt(ja dreng,uskker) β Pge + β Pge,Uskker. Dvs. β Pge,Uskker er forskellen logt-forskellen mellem hurtge og uskre læsere. logt(ja Dreng,Uskker) logt(ja Dreng,Hurtg) β Uskker logt(ja Pge,Uskker) logt(ja Pge,Hurtg) β Uskker + β Pge,Uskker. Dvs. β Pge,Uskker er forskellen logt-forskellen mellem hurtge og uskre læsere.

Hypotse H 0 : β Pge,Langsom β Pge,Uskker 0 Dvs. der er ngen nterakton mellem Køn og Hastghed. H 1 : β Pge,Langsom 0 og/eller β Pge,Uskker 0 Dvs. der er nterakton mellem Køn og Hastghed.

SPSS *Klk* SPSS: Analyze Regresson Bnary Logstc Vekselvrknngsled tlføjes ved at vælge flere led og så klkke på >a*b> Husk at angve kategorske varable under Categorcal

SPSS: Output Vores model er for Logt for Ja Hurtg og Dreng er reference-kategorerne Det nteressante nput står efter Block 1: Method Enter H-L Test: p-værd 1, da modellen er mættet. Hverken køn eller hastghed*køn er sgnfkante.

Generel Lneær Model Y afhængg skala varabel X 1,,X k forklarende varable, skala eller bnære Model: Mddelværden af Y gvet X + k E( Y X ) α + β x + + β x α β x 1 1 Mere præcst: te observaton ud af n er gvet ved Y + β1x1, + + βk xk, α + ε x j, er j te forklarende varabel for te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) IID k k 1

Smpel lneær regresson GLM med én skala forklarende varabel (k1) Modellen er y ε + β1x 2 d N(0, σ α + ε ) Y Y ε E[Y X] α + β 1 X { β 1 Modellen sger: E(Y X) α + β 1 X α 0 1 V(Y X) σ 2 Y X ~ N(α + β 1 X, σ 2 ) X X

Endnu en tegnng Y Y α + β x 1 Y x ~N(α + β 1 x,σ 2 )..d. normalfordelte fejlled x 1 x 2 x 3 x 4 x 5 X

Estmaton Model: y α + β 1 x + ε ε er..d. N(0,σ 2 ) α, β 1 og σ 2 er modellens parametre ukendte! Estmaton af α og β 1 svarer tl at vælge den lnje, der passer bedst tl de observerede punkter. Estmerede regressons lnje yˆ a + b1 x a er estmat for α og b 1 er estmat for β 1. Y hat er estmat for E(Y X) Spørgsmål: Hvordan estmerer v α og β 1?

Resdual led e yˆ ( y ) er den lodrette afstanden fra den estmerede lne tl datapunktet (x,y ). Y Det observerede datapunkt Y ˆ a + b1 X Y Yˆ e Y Yˆ X, Y ) ( Y ˆ den forvendtede værd Den estmerede regressonslnje for Y gvet X X X

Mndste kvadraters metode V vl fnde a og b 1 så summen af de kvadrerede fejl blver mndst mulg. Dvs, v vl mnmere SSE er Sum of Squared Errors. Skrevet ud: SSE n 1 e 2 n n ˆ ( y a b1 x 2 2 e ( y y 1 1 ) n 1 ) 2 Bemærk: Funkton af to varable (a og b 1 ).

Mnmerng SSE er en funkton af a og b 1. SSE a b 1 V vl fnde a og b 1 så SSE er mndst mulg.

Test af hældnng (β 1 ) Test for om hældnngen, β 1 er forskellg fra nul: H : β 1 0 vs H1 : β1 0 0 Teststørrelse: t b1 SE( b 1 ) Numersk store værder af t er ufordelagtge for H 0. SE(b 1 ) er standardfejlen for estmatet b 1. Hvs H 0 er sand følger t en såkaldt t-fordelng med n-k- 1 frhedsgrader, hvor n er antal observatoner.

Test af hældnng (β 1 ) Vælg et sgnfkansnveau, typsk α0.05. Udregn teststørrelsen 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 t-fordelng med n-2 frhedsgrader 0. 0 t 0 Orange område p-værd Bestem p-værden (SPSS). Beslutnng: Hvs p-værden < α afvses H 0. t

Fortolknng/Eksempler på H 0 Er der en lneær sammenhæng mellem X og Y? H 0 : β 1 0 ngen lneær sammenhæng H 1 : β 1 0 lneær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Konstant Y Usystematsk varaton Ikke-lneær sammenhæng Y Y Y X X X

SPSS Analyze General Lnear Models Unvarate Kategorske forklarende varable Skala forklarende varable

Eksempel Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estmerede model: yˆ 5,486 0. 290x Både skærng (α) og hældnng (β 1 ) er sgnfkante!