Statikstik II 4. Lektion. Generelle Lineære Modeller

Statkstk II 4. Lekton Generelle Lneære Modeller

Generel Lneær Model Y afhængg skala varabel X 1,,X k forklarende varable, skala eller bnære Model: Mddelværden af Y gvet X + k = E( Y X ) = α + β x + + β x = α β x 1 1 Mere præcst: te observaton ud af n er gvet ved Y = + β1x1, + + βk xk, α + ε x j, er j te forklarende varabel for te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) IID k k 1

Smpel lneær regresson GLM med én skala forklarende varabel (k=1) Modellen er y ε = + β1x 2 d N(0, σ α + ε ) Y Y ε E[Y X] = α + β 1 X { β 1 Modellen sger: E(Y X) = α + β 1 X α 0 1 V(Y X) = σ 2 Y X ~ N(α + β 1 X, σ 2 ) X X

Endnu en tegnng Y Y = α + β x 1 Y x ~N(α + β 1 x,σ 2 )..d. normalfordelte fejlled x 1 x 2 x 3 x 4 x 5 X

Estmaton Model: y = α + β 1 x + ε ε er..d. N(0,σ 2 ) α, β 1 og σ 2 er modellens parametre ukendte! Estmaton af α og β 1 svarer tl at vælge den lnje, der passer bedst tl de observerede punkter. Estmerede regressons lnje yˆ = a + b1 x a er estmat for α og b 1 er estmat for β 1. Y hat er estmat for E(Y X) Spørgsmål: Hvordan estmerer v α og β 1?

Resdual led e = yˆ ( y ) er den lodrette afstanden fra den estmerede lne tl datapunktet (x,y ). Y Det observerede datapunkt Y ˆ = a + b1 X Y Yˆ e = Y Yˆ X, Y ) ( Y ˆ den forvendtede værd Den estmerede regressonslnje for Y gvet X X X

Mndste kvadraters metode V vl fnde a og b 1 så summen af de kvadrerede fejl blver mndst mulg. Dvs, v vl mnmere SSE er Sum of Squared Errors. Skrevet ud: SSE = n = 1 e 2 n n ˆ ( y a b1 x 2 2 e = ( y = = = y 1 1 ) = n 1 ) 2 Bemærk: Funkton af to varable (a og b 1 ).

Mnmerng SSE er en funkton af a og b 1. SSE a b 1 V vl fnde a og b 1 så SSE er mndst mulg.

Test af hældnng (β 1 ) Test for om hældnngen, β 1 er forskellg fra nul: H : β 1 = 0 vs H1 : β1 0 0 Teststørrelse: t = b1 SE( b 1 ) Numersk store værder af t er ufordelagtge for H 0. SE(b 1 ) er standardfejlen for estmatet b 1. Hvs H 0 er sand følger t en såkaldt t-fordelng med n-k- 1 frhedsgrader, hvor n er antal observatoner.

Test af hældnng (β 1 ) Vælg et sgnfkansnveau, typsk α=0.05. Udregn teststørrelsen 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 t-fordelng med n-2 frhedsgrader 0. 0 t 0 Orange område = p-værd Bestem p-værden (SPSS). Beslutnng: Hvs p-værden < α afvses H 0. t

Fortolknng/Eksempler på H 0 Er der en lneær sammenhæng mellem X og Y? H 0 : β 1 = 0 ngen lneær sammenhæng H 1 : β 1 0 lneær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Konstant Y Usystematsk varaton Ikke-lneær sammenhæng Y Y Y X X X

SPSS Analyze General Lnear Models Unvarate Kategorske forklarende varable Skala forklarende varable

Eksempel Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estmerede model: yˆ = 5,486 0. 290x Både skærng (α) og hældnng (β 1 ) er sgnfkante!

Forklaret og uforklaret afvgelse Lad y y s afvgelse fra Y Yˆ Y Y være gennemsnttet af alle y er y kan opdeles to. Uforklaret afvgelse Totale afvgelse Forklaret afvgelse. ( x, y) y ˆ = a + bx X X X

Total og forklaret varaton - llustraton Y Y Den totale varaton ses når v kgger langs x-aksen X Den uforklarede varaton ses når v kgger langs regressonslnjen X

Den totale varaton Lad y være gennemsnttet af alle y er Den totale varaton for data er SST = = ( y Varatonen data omkrng datas mddelværd SST = Sum of Squares Total n y 1 ) 2

Opsltnng af den totale varaton Den totale varaton kan opslttes: 2 ( ) n 2 ( ) n y y = y yˆ + ( yˆ ) 2 n = 1 = 1 = 1 y SSE n ( y ˆ ) 2 y = = er den uforklarede varaton. SSR n 1 ( y ) 2 = = er den forklarede varaton. ˆ 1 y SSR = Sum of Squares Regresson

Total og forklaret varaton Opspltnng af varatonen Total = Uforklaret + Forklaret n 2 n 2 n = 1 = 1 = 1 ( y y) = ( y yˆ ) + ( yˆ y) 2 SST = SSE + SSR

Determnatons koeffcenten R 2 Determnatons Koeffcenten: Andelen af den totale varaton, der er forklaret. R 2 Forklaret varaton SSR SST SSE = = = = 1 Total varaton SST SST SSE SST Pr defnton: 0 R 2 1. Jo tættere R 2 er på 1, jo mere af varatonen data er forklaret af modellen. R 2 >0.8 er godt! R 2 meget tæt på 1 er dog mstænkelgt.

Eksempler på R 2 Y Y Y R 2 = 0 SST SSE X R 2 = 0.50 X SST SSE SSR R 2 = 0.90 S S E SST SSR X

Er modellen besværet værd? H 0 : β 1 = β 2 = = β k = 0 H 1 : Mndst et β 0 Der er ngen (lneær) sammenhæng mellem Y og de forklarende varable Der er (lneær) sammenhæng mellem Y og mndst én af de forklarende varable Teststørrelse: F = SSR k MSR = ~ F SSE MSE n ( n k 1) Mean Squared Error ( 1, 2) Store værder af F er ufordelagtge for H 0. Mean Squared Regresson

Eksempel: R 2 og F-test SSR SSE SST MSR p-værd F=MSR/MSE MSE R 2 SSR = SST = 35,019 75,014 = 0,467 F = 35,019 0,741 = 47,282

F-fordelngen F-fordelng 0.7 0.6 0.5 0.4 f( F ) 0.3 0.2 Areal = p-værd 0.1 0.0 0 1 2 3 F 4 5 F

Eksempel - fortsat Y : Forbrug af gas, skala (gas) X Temp : Udetemperatur, skala (temp) X Isolerng : {Før, Efter}, kategorsk (nsulate) Omkod X Isolerng tl bnær varabel X Før X Før = 1 hvs X Isolerng = Før X Før = 0 hvs X Isolerng = Efter Model: Y = 0 Temp Temp Før Før β + β x + β x + ε

Fortolknng af model Når X Isolerng = Før Y = α + β x + β 1+ ε = α + β Temp Før Når X Isolerng = Efter Temp + β Temp x Før Temp + ε Y = α + β x + β 0 = α + β Temp Temp x Temp Temp + ε Før + ε To lnjer med forskellg skærngspunkter! β Før angver forskellen skærngspunkt.

To regressonslnjer med forskellge skærnger, men samme hældnng Y Lnje for X Før =1 α + β Før Lnje for X Før =0 α X 1

Eksempel og SPSS SPSS: Som før, dog er Insulate tlføjet Fxed factor Som ventet er F-testet stadg sgnfkant. Som ventet er R 2 vokset med nye varable kan modellen aldrg forklare mndre end før. Bemærk at R 2 er meget større!

Eksempel og SPSS Estmater Estmeret model: yˆ = 4,986 0,337x Temp + 1, 565x Før Prædkteret gas-forbrug for et hus før det solerng når temperatur er 7 o (x Temp = 7 og X Før =1): 4,986 0,337 7 + 1,565 1 = 4,192

Vekselvrknng / Interakton V kan ntroducere en vekselvrknng mellem kvaltatve og kvanttatve varable. Y, X Temp og X Før er som før. Introducer: X Temp,Før = X Temp X Før Model Y α + β x + β x + β x + ε = Temp Temp Før Før Temp, Før Temp, Før ε ~ N(0, σ 2 )

Fortolknng Når X Isolerng = Før: E Y x = α + Når X Isolerng = Efter: E ( ) ( Y x) = β ( α + β ) ( ) Før + β Temp + β Temp, Før x Temp α + βtempxtemp + β Før 0 + βtemp, Før = x 0 = α + β Temp Temp x x Temp Temp + β Temp, Før xtemp 1 Temp β Temp,Før beskrver forskellen hældnngen mellem de to regressonslnjer. Før 1+ β

SPSS Hoved-effekt: Ensom varabel Interaktonsled: Produkt af to eller flere varable I SPSS: Under Model angv hoved-effekter og nteraktonsled. Indsæt altd hoved-effekter først!

Scatterplot Estmater Estmeret model: yˆ = 4,724 + 0.278x Temp + 2,130x Før 0,115x Temp, Før

Varansanalyse (ANOVA) En Generel Lneær Model, der kun har kategorske forklarende varable, kaldes en varansanalyse. På engelsk: Analyss of Varance (ANOVA) Eksempel: Y: Månedlge forbrug Shoppngstl: Hver 2. uge, Ugentlgt, Oftere Køn: Mand, Kvnde

Dummy-varable To kategorske varable: Omkodnng tl dummy varable. Referencekategorer: Kvnde og Ofte (SPSS vælger altd sdste kategor som reference) Køn X Mand Mand 1 Kvnde 0 Stl X H2U X Uge Hver 2. uge 1 0 Ugentlg 0 1 Ofte 0 0

Model Den generelle lneære model er: E(Y x) = α + β Kvnde X Kvnde + β H2U X H2U + β Uge X Uge Fortolknng: Sammenlgnng and mand og kvnde med samme Stl : E(Y Køn=Mand, Stl) - E(Y Køn=Kvnde, Stl) = (α + β Mand 1 + β H2U X H2U + β Uge X Uge ) (α + β Mand 0 + β H2U X H2U + β Uge X Uge ) = β Kvnde Dvs. β Mand angver forskellen gennemsnts-forbruget for mænd forhold tl kvnder (uagtet deres shoppng-stl).

Mere fortolknng β H2U angver forskellen gennemsnts-forbrug for folk der handler hver 2. uge forhold tl folk der handler ofte. β Uge angver forskellen gennemsnts-forbrug for folk der handler ugentlgt forhold tl folk der handler ofte.

Hypotesetest Hypoteser H 0 : β H2U = β Uge = 0 Dvs. ngen effekt af shoppe-stl. H 1 : β H2U 0 og/eller β Uge 0 Teststørrelse: F = SSStl q MSStl = ~ F( q, n SSE MSE k ( n k 1) SS Stl : Sum of Squares for Stl q : Antal parametre forbundet med Stl (2) 1) SS stl er forskellen den forklarede varaton (SSR) med og uden Stl modellen. Intuton: Jo mere af den totale varaton Stl forklarer, jo større er SS Stl og dermed F. Store værder af F er dermed ufordelagtge for H 0.

SPSS Analyze General Lnear Model Unvarte amtspend som dependent style og gender som fxed factor SSR SS Stl SSE SST Bemærk at style kke er sgnfkant! Bemærk: R 2 = 0.118, dvs. kun 11,8% af den totale varaton er forklaret af modellen!

Estmerede model Den estmerede model: E(Y x) = 374,133 + 61,183 X Mand 27,703 X H2U 4,271 X Uge Prædkton: Gennemsntsforbruget for en mand, der shopper ugentlgt er: E(Y Køn = Mand, Shoppng = Ugentlgt ) = 374,133 + 61,183 1 27,703 0 4,271 1 = 431,045

Vekselvrknng Introducer vekselvrknng: Køn*Stl Nye dummy varable: X Køn,Stl = X køn * X Stl. Bemærk: Dummy-varable X Køn,Stl = 0 hvs referencekategor er ndblandet. Hver 2. uge Ugentlg Ofte (ref.kat.) Mand X Mand,H2U X Mand,Uge Kvnde (ref.kat.)

Model Den generelle lneære model er: E(Y x) = α + β Mand X Mand + β H2U X H2U + β Uge X Uge + β Mand,H2U X Mand,H2U + β Mand,Uge X Mand,Uge Bemærk: Alle X er er dummy varable.

SPSS Bemærk: Hoved-effekter før nteraktoner!

SPSS R 2 er nu 0,138. Bemærk: Interaktonen Køn*Stl er sgnfkant, mens hovedeffekten Stl kke er! Normalt : Fjerne led med højest p-værd, dvs. mndst sgnfkante led. Herarkske prncp: V fjerner kke en hoved-effekt, hvs den ndgår en nterakton.

Estmerede model Estmerede model er: ŷ = 405,727 + 2,048 X Mand 61,751 X H2U 44,006 X Uge + 67,042 X Mand,H2U + 77,196 X Mand,Uge