Statstk II Lekton 4 Generelle Lneære Modeller Smpel Lneær Regresson Multpel Lneær Regresson Flersdet Varansanalyse (ANOVA)
Logstsk regresson Y afhængg bnær varabel X 1,,X k forklarende varable, skala eller bnære Model: Sandsynlghed: + + + + k k k x x x X Y P X Y P X Y Logt 1 1 1 ) 1 ( 1 ) 1 ( ln ) 1 ( β α β β α L + + + k k x x e e X Y P 1 1 1 ) 1 ( β α β α
Generel Lneær Model Y afhængg skala varabel X 1,,X k forklarende varable, skala eller bnære Model: Mddelværden af Y gvet X + k E( Y X ) α + β x + L+ β x α β x 1 1 Mere præcst: te observaton ud af n er gvet ved Y + β1x1, + L+ βk xk, α + ε x j, er j te forklarende varabel for te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) IID k k 1
Smpel lneær regresson GLM med én skala forklarende varabel (k1) Modellen er y ε + β1x 2 d N(0, σ α + ε ) Y Y ε E[Y X] α + β 1 X { β 1 Modellen sger: E(Y X) α + β 1 X α 0 1 V(Y X) σ 2 Y X ~ N(α + β 1 X, σ 2 ) X X
Endnu en tegnng Y Y α + β1x Y x ~N(α + β 1 x,σ 2 )..d. normalfordelte fejlled x 1 x 2 x 3 x 4 x 5 X
Estmaton Model: y α + β 1 x + ε ε er..d. N(0,σ 2 ) α, β 1 og σ 2 er modellens parametre ukendte! Estmaton af β 0 og β 1 svarer tl at vælge den lnje, der passer bedst tl de observerede punkter. Estmerede regressons lnje yˆ a + b1 x a er estmat for α og b 1 er estmat for β 1. Y hat er estmat for E(Y X) Spørgsmål: Hvordan estmerer v α og β 1?
Resdual led e yˆ ( y ) er den lodrette afstanden fra den estmerede lne tl datapunktet (x,y ). Y Det observered e datapunkt Y ˆ a + b1 X Y Yˆ e Y Yˆ ( X, Y ) Y ˆ den forvendtede værd for Y Den estmerede regressonslnje gvet X X X
Mndste kvadraters metode V vl fnde a og b 1 så summen af de kvadrerede fejl blver mndst mulg. Dvs, v vl mnmere SSE er Sum of Squared Errors. Skrevet ud: SSE n 1 e 2 n n ˆ ( y a b x 1 1 2 2 e ( y y ) 1 1 n ) 2 Bemærk: Funkton af to varable (a og b 1 ).
Mnmerng SSE er en funkton af a og b 1. SSE a b 1 V vl fnde a og b 1 så SSE er mndst mulg.
Test af hældnng (β 1 ) Test for om hældnngen, β 1 er forskellg fra nul: H 0 : β 1 0 vs H1 : β1 0 Teststørrelse: t b1 SE( b 1 ) Numersk store værder af t er ufordelagtge for H 0. SE(b 1 ) er standardfejlen for estmatet b 1. Hvs H 0 er sand følger t en såkaldt t-fordelng med n-k- 1 frhedsgrader, hvor n er antal observatoner.
Test af hældnng (β 1 ) Vælg et sgnfkansnveau, typsk α0.05. Udregn teststørrelsen 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 t-fordelng med n-2 frhedsgrader 0. 0 t 0 Orange område p-værd Bestem p-værden (SPSS). Beslutnng: Hvs p-værden < α afvses H 0. t
Fortolknng/Eksempler på H 0 Er der en lneær sammenhæng mellem X og Y? H 0 : β 1 0 ngen lneær sammenhæng H 1 : β 1 0 lneær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Konstant Y Usystematsk varaton Ikke-lneær sammenhæng Y Y Y X X X
Eksempel Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estmerede model: yˆ 5,486 0. 290x Både skærng (α) og hældnng (β 1 ) er sgnfkante!
SPSS Analyze General Lnear Models Unvarate Kategorske forklarende varable Skala forklarende varable
Forklaret og uforklaret afvgelse Lad y være gennemsnttet af alle y er y s afvgelse fra kan opdeles to. Y Yˆ Y Y y. ( x, y) y ˆ a + bx Uforklaret afvgelse Totale afvgelse Forklaret afvgelse X X X
Total og forklaret varaton - llustraton Y Y Den totale varaton ses når v kgger langs x-aksen X Den uforklarede varaton ses når v kgger langs regressonslnjen X
Den totale varaton Lad y være gennemsnttet af alle y er Den totale varaton for data er SST ( y Varatonen data omkrng datas mddelværd SST Sum of Squares Total n y 1 ) 2
Opsltnng af den totale varaton Den totale varaton kan opslttes: 2 ( ) n 2 ( ) n y y y yˆ + ( yˆ ) 2 n 1 1 1 y SSE n ( y ˆ ) 2 y er den uforklarede varaton. SSR n 1 ( y ) 2 er den forklarede varaton. ˆ 1 y SSR Sum of Squares Regresson
Total og forklaret varaton Opspltnng af varatonen Total Uforklaret + Forklaret n 2 n 2 n 1 1 1 ( y y) ( y yˆ ) + ( yˆ y) 2 SST SSE + SSR
Determnatons koeffcenten R 2 Determnatons Koeffcenten: Andelen af den totale varaton, der er forklaret. R 2 Forklaret varaton SSR SST SSE 1 Total varaton SST SST SSE SST Pr defnton: 0 R 2 1. Jo tættere R 2 er på 1, jo mere af varatonen data er forklaret af modellen. R 2 >0.8 er godt! R 2 meget tæt på 1 er dog mstænkelgt.
Eksempler på R 2 Y Y Y R 2 0 SST SSE X R 2 0.50 X SST SSE SSR R 2 0.90 S S E SST SSR X
Er modellen besværet værd? H 0 : β 1 β 2 β k 0 H 1 : Mndst et β 0 Der er ngen (lneær) sammenhæng mellem Y og de forklarende varable Der er (lneær) sammenhæng mellem Y og mndst én af de forklarende varable Teststørrelse: F SSR k MSR ~ F SSE MSE n ( n k 1) Mean Squared Error ( 1, 2) Store værder af F er ufordelagtge for H 0. Mean Squared Regresson
F-test detaljer Husk at R 2 SSR 1 SST SSE SST 2 Det medfører at SSR SST R og ( 2 SSE SST 1 R ) Hvlket gver F SSR SSE k R ( ) ( 2 n k 1 1 R ) ( n k 1) 2 k Dvs. jo mere modellen kan forklare, større F, og jo mndre tror v på H 0 -hypotesen om ngen sammenhæng.
Eksempel: R 2 og F-test SSR SSE SST MSR p-værd F MSE R 2 SSR SST 35,019 75,014 0,467 F 35,019 0,741 47,282
F-fordelngen F-fordelng 0.7 0.6 0.5 0.4 f( F ) 0.3 0.2 Areal p-værd 0.1 0.0 0 1 2 3 F 4 5 F
Eksempel - fortsat Y : Forbrug af gas, skala (gas) X Temp : Udetemperatur, skala (temp) X Isolerng : {Før, Efter}, kategorsk (nsulate) Omkod X Isolerng tl bnær varabel X Før X Før 1 hvs X Isolerng Før X Før 0 hvs X Isolerng Efter Model: Y 0 Temp Temp Før Før β + β x + β x + ε
Fortolknng af model Når X Isolerng Før Y α + β x + β 1+ ε α + β Temp Før Når X Isolerng Efter α + β Temp + β Temp Før Temp + ε Y α + β x + β 0 + ε Temp Temp x Temp Temp To lnjer med forskellg skærngspunkter! β Før angver forskellen skærngspunkt. x + ε Før
To regressonslnjer med forskellge skærnger, men samme hældnng Y Lnje for X Før 1 α + β Før Lnje for X Før 0 α X 1
Eksempel og SPSS SPSS: Som før, dog er Insulate tlføjet Fxed factor Som ventet er F-testet stadg sgnfkant. Som ventet er R 2 vokset med nye varable kan modellen aldrg forklare mndre end før. Bemærk at R 2 er meget større!
Eksempel og SPSS Estmater Estmeret model: yˆ 4,986 0,337x Temp + 1, 565x Før Prædkteret gas-forbrug for et hus før det solerng når temperatur er 7 o (x Temp 7 og X Før 1): 4,986 0,337 7 + 1,565 1 4,192
Vekselvrknng / Interakton V kan ntroducere en vekselvrknng mellem kvaltatve og kvanttatve varable. Y, X Temp og X Før er som før. Introducer: X Temp,Før X Temp X Før Model Y Temp Temp Før Før Temp, Før Temp, Før α + β x + β x + β x + ε ε ~ N(0, σ 2 )
Fortolknng Når X Isolerng Før: E Y x α + ( ) Når X Isolerng Efter: ( x) E Y β ( α + β ) ( ) Før + β Temp + β Temp, Før x Temp x x 0 α + βtemp Temp + β Før 0 + βtemp, Før α + β Temp Temp x x Temp Temp + β Temp, Før Temp 1 Temp β Temp,Før beskrver forskellen hældnngen mellem de to regressonslnjer. Før 1+ β x
SPSS Hoved-effekt: Ensom varabel Interaktonsled: Produkt af to eller flere varable I SPSS: Under Model angv hoved-effekter og nteraktonsled. Indsæt altd hoved-effekter først!
Scatterplot Estmater Estmeret model: yˆ 4,724 + 0.278x Temp + 2,130x Før 0,115x Temp, Før
Varansanalyse (ANOVA) En Generel Lneær Model, der kun har kategorske forklarende varable, kaldes en varansanalyse. På engelsk: Analyss of Varance (ANOVA) Eksempel: Y: Månedlge forbrug Shoppng: Hver 2. uge, Ugentlgt, Oftere Køn: Mand, Kvnde
Dummy-varable To kategorske varable: Omkodnng tl dummy varable. Referencekategorer: Kvnde og Ofte (SPSS vælger altd sdste kategor som reference) Køn X Mand Mand 1 Kvnde 0 Stl X H2U X Uge Hver 2. uge 1 0 Ugentlg 0 1 Ofte 0 0
Model Den generelle lneære model er: E(Y x) α + β Kvnde X Kvnde + β H2U X H2U + β Uge X Uge Fortolknng E(Y KønMand,Stl) - E(Y KønKvnde, Stl) (α + β Mand 1 + β H2U X H2A + β Uge X Uge ) (α + β Mand 0 + β H2A X H2A + β Uge X Uge ) β Kvnde Dvs. β Mand angver forskellen gennemsnts-forbruget for mænd forhold tl kvnder (uagtet deres shoppngstl).
Mere fortolknng β H2U angver forskellen gennemsnts-forbrug for folk der handler hver 2. uge forhold tl folk der handler ofte. β Uge angver forskellen gennemsnts-forbrug for folk der handler ugentlgt forhold tl folk der handler ofte.
Hypotesetest Hypoteser H 0 : β H2A β Uge 0 H 1 : β H2A 0 og/eller β Uge 0 Teststørrelse: F SSStl q MSStl ~ F( q, n SSE MSE k ( n k 1) SS Stl : Sum of Squares for Stl 1) Store værder af F er ufordelagtge for H 0. q : Antal parametre forbundet med Stl (2) Intuton: Jo mere af den totale varaton Stl forklarer, jo større er SS Stl og dermed F.
SPSS Analyze General Lnear Model Unvarte amtspend som dependent style og gender som fxed factor Bemærk at style kke er sgnfkant! Bemærk: R 2 0.118, dvs. kun 11,8% af den totale varaton er forklaret af modellen!
Estmerede model Den estmerede model: E(Y x) 374,133 + 61,183 X Mand 27,703 X H2U 4,271 X Uge Prædkton: Gennemsntsforbruget for en mand, der shopper ugentlgt er: E(Y Køn Mand, Shoppng Ugentlgt ) 374,133 + 61,183 1 27,703 0 4,271 1 431,045
Vekselvrknng Introducer vekselvrknng: Køn*Stl Nye dummy varable: X Køn,Stl X køn *X Stl. Bemærk: Dummy-varable X Køn,Stl 0 hvs referencekategor er ndblandet. Mand Kvnde (ref.kat.) Hver 2. uge X Mand,H2U Ugentlg X Mand,Uge Ofte (ref.kat.)
Model Den generelle lneære model er: E(Y x) α + β Mand X Mand + β H2U X H2U + β Uge X Uge + β Mand,H2U X Mand,H2U + β Mand,Uge X Mand,Uge
SPSS Bemærk: Hoved-effekter før nteraktoner!
SPSS R 2 er nu 0,138. Bemærk: Interaktonen Køn*Stl er sgnfkant, mens hovedeffekten Stl kke er! Normalt : Fjerne led med højest p-værd, dvs. mndst sgnfkante led. Herarkske prncp: V fjerner kke en hovedeffekt, hvs den ndgår en nterakton.
Estmerede model Estmerede model er: ŷ 405,727 + 2,048 X Mand 61,751 X H2U 44,006 X Uge + 67,042 X Mand,H2U + 77,196 X Mand,Uge