Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4 Variansanalyse Modelkontrol

Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede model: yˆ = 5,486 0. 290x R 2 = 0.467 Både skæring (α) og hældning (β 1 ) er signifikante! Fortolkning?

Eksempel nu med isolering! Y : Forbrug af gas, skala (gas) X Temp : Udetemperatur, skala (temp) X Isolering : {Før, Efter}, kategorisk (insulate) Omkod X Isolering til binær dummy variabel X Før X Før = 1 hvis X Isolering = Før X Før = 0 hvis X Isolering = Efter Model: Y = 0 Temp Temp Før Før β + β x + β x + ε

Fortolkning af model Når X Isolering = Før Y = α + β x + β 1+ ε = α + β Temp Før Når X Isolering = Efter Temp + β Temp x Før Temp + ε Y = α + β x + β 0 = α + β Temp Temp x Temp Temp + ε Før + ε To linjer med forskellig skæringspunkter! β Før angiver forskellen i skæringspunkt.

To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for X Før =1 α + β Før Linje for X Før =0 α X 1

Eksempel og SPSS SPSS: Som før, dog er Insulate tilføjet Fixed factor Som ventet er F-testet stadig signifikant. Som ventet er R 2 vokset med nye variable kan modellen aldrig forklare mindre end før. Bemærk at R 2 er meget større!

Eksempel og SPSS Estimater Estimeret model: yˆ = 4,986 0,337x Temp + 1, 565x Før Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7 o (x Temp = 7 og X Før =1): 4,986 0,337 7 + 1,565 1 = 4,192

Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, X Temp og X Før er som før. Introducer: X Temp,Før = X Temp X Før Model Y = Temp Temp Før Før Temp, Før Temp, Før α + β x + β x + β x + ε ε ~ N(0, σ 2 )

Fortolkning Når X Isolering = Før: E Y x = α + Når X Isolering = Efter: E ( ) ( Y x) = β ( α + β ) ( ) Før + β Temp + β Temp, Før x Temp α + βtempxtemp + β Før 0 + βtemp, Før = x 0 = α + β Temp Temp x x Temp Temp + β Temp, Før xtemp 1 Temp β Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer. Før 1+ β

SPSS Hoved-effekt: Ensom variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under Model angiv hoved-effekter og interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot Estimater Estimeret model: yˆ = 4,724 + 0.278x Temp + 2,130x Før 0,115x Temp, Før

Variansanalyse (ANOVA Analysis of ) Variance Setup: Kun kategoriske forklarende variable Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X 1 : Shoppestil (Shopping style - style) Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O) Spørgsmål: Påvirker style forbruget?

Grafisk overblik

Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: To binære dummy variable: X B og X W Style X B X W Biweekly 1 0 Weekly 0 1 Often 0 0 Bemærk: k kategorier omkodes til k-1 dummy variable Model: Y α + β x + β x + ε = B B W W

Hypotesen Model: Y = B B W W α + β x + β x + ε E[Y Style = B] = α + β B E[Y Style = W] = α + β W E[Y Style = O] = α Bemærk: β B og β W angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori. Hypotese: Middelværdien er den samme for alle styles: H 0 : β B = β W = 0 H 1 : β B 0 og/eller β W 0 Afgøres vha. et F-test.

SPSS α β B β W Fortolkning?

To-sidet Variansanalyse Ide: Tage højde for køn X 2 : Køn (Mand/Kvinde) (Gender - gender) Omkodes til dummy variabel: X M = 1 hvis X 2 = Mand Model: Y α + β x + β x + β x + ε = B B W W M M Tester to nul-hypoteser: H 0 : β B = β W = 0 (Ingen effekt af style) H 0 : β M = 0 (Ingen effekt af gender)

Interaktion? Er der en vekselvirkning mellem gender og style?

Model med Interaktion Model: Y α + β x + β x + β x + β x x + β x x + ε = B B W W M M BM B M WM W M Hypotese: Ingen interaktion H 0 : β BM = β WM = 0 Hypotese: Ingen hovedeffekt af style H 0 : β B = β W = 0 Hypotese: Ingen hovedeffekt af gender H 0 : β M = 0 Det hierarkiske princip: Det giver ikke mening at teste hovedeffekter, når de indgår i en interaktion.

SPSS Bemærk: Hoved-effekter før interaktioner!

SPSS Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening. Konklusion?

Estimerede model Estimerede model er: ŷ = 405,727 + 2,048 X M 61,751 X B 44,006 X W + 67,042 X BM + 77,196 X WM

Modelform Modellen for forbrug forklaret ved shoppe-stil og køn kan altså skrives som Y = B B W W M M BM B M WM W M α + β x + β x + β x + β x x + β x x + ε Her er x B, x W og x M dummy variable. At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som Forbrug = Stil + Køn + Stil*Køn I forbindelse med analyse eller fortolkning af modelparametre er det stadig nyttigt at skrive den matematiske formel op.

Modelkontrol - Motivation Vores konklusioner om variables vigtighed baseres på p- værdi. p-værdien er en halesandsynlighed i en fordeling, fx F- fordelingen. F-fordelingen baserer sig på antagelser om at fejlleddet ε er normalfordelt og har konstant varians (homoskedastisk). Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiske fejlled passer!

Residual I den sande model har vi Det kan vi skrive om til Residualet, e i, er derfor et estimat af fejlleddet: Da ε i erne er normalfordelte bør e i erne også være det (hvis modellen da ellers er korrekt). ε ε β β α + = + + + + = ] [ 1 1 X E Y x x Y k k ] [ X = Y E Y ε i i i y y e ˆ =

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! Antagelse: Middelværdi-strukturen i modellen er E( Y X ) = α + β x + + β Kan være svært at checke direkte, hvis vi har mange forklarende variable. Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af e i erne være ca. nul uanset værdien af. ŷ i erne eller x erne. Grafisk check: plot af af e i mod. 1 1 ŷ i k x k

Modelkontrol Antagelse: Fejlleddene ε 1,, ε n uafhænige? Der må ikke vær nogen systematisk sammenhæng mellem e i erne og ŷ i erne eller x erne. Grafisk check: Et plot at e i mod eller x. Antagelse: Fejlleddene ε 1,, ε n ~ N(0,σ 2 )? Hvis sandt regner vi med at e i erne er cirka normalfordelte. ŷ i Et plot at e i mod kan afsløre om variansen er konstant (homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om e i erne er normalfordelte ŷ i

Residualplot Residualer Residualer 0 x eller yˆ 0 x eller yˆ Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ŷ). Residualer Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer 0 Tid 0 x eller yˆ Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

Eksempel: Kriminalitet og Urbanisering Data for n = 67 distrikter i Florida. Model: y i = Crime rate x i = Urbanisering y i α + βx + ε = i Hvor ε i ~N(0,σ 2 )

Residualer i SPSS I Univariate vinduet vælges Save I Save vinduet vælges Unstandardized både under Reresiduals (e i erne) og ŷ i Predicted Values ( erne).

Efter endt regression skaber SPSS to nye søjler i Data Editor, der indeholder residualer ( RES_1 ) prædiktioner ( PRE_1 ). Derefter kan man fx lave scatter plots.

Scatter plot af residualer (e i erne) mod urbanisering (x i erne). residualer (e i erne) mod prædiktionerne ( erne). ŷ i Ser jo ganske usystematisk ud med jævn variation!

Histogram af residualer Histogrammet burde ligne en normalfordeling. Det gør det ikke helt men det er ikke katestrofalt.