Statistik Lektion 4. Variansanalyse Modelkontrol

Størrelse: px

Starte visningen fra side:

Download "Statistik Lektion 4. Variansanalyse Modelkontrol"

Anton Dalgaard
9 år siden
Visninger:

1 Statistik Lektion 4 Variansanalyse Modelkontrol

2 Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede model: yˆ = 5, x R 2 = Både skæring (α) og hældning (β 1 ) er signifikante! Fortolkning?

3 Eksempel nu med isolering! Y : Forbrug af gas, skala (gas) X Temp : Udetemperatur, skala (temp) X Isolering : {Før, Efter}, kategorisk (insulate) Omkod X Isolering til binær dummy variabel X Før X Før = 1 hvis X Isolering = Før X Før = 0 hvis X Isolering = Efter Model: Y = 0 Temp Temp Før Før β + β x + β x + ε

4 Fortolkning af model Når X Isolering = Før Y = α + β x + β 1+ ε = α + β Temp Før Når X Isolering = Efter Temp + β Temp x Før Temp + ε Y = α + β x + β 0 = α + β Temp Temp x Temp Temp + ε Før + ε To linjer med forskellig skæringspunkter! β Før angiver forskellen i skæringspunkt.

5 To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for X Før =1 α + β Før Linje for X Før =0 α X 1

6 Eksempel og SPSS SPSS: Som før, dog er Insulate tilføjet Fixed factor Som ventet er F-testet stadig signifikant. Som ventet er R 2 vokset med nye variable kan modellen aldrig forklare mindre end før. Bemærk at R 2 er meget større!

7 Eksempel og SPSS Estimater Estimeret model: yˆ = 4,986 0,337x Temp + 1, 565x Før Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7 o (x Temp = 7 og X Før =1): 4,986 0, ,565 1 = 4,192

8 Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, X Temp og X Før er som før. Introducer: X Temp,Før = X Temp X Før Model Y = Temp Temp Før Før Temp, Før Temp, Før α + β x + β x + β x + ε ε ~ N(0, σ 2 )

9 Fortolkning Når X Isolering = Før: E Y x = α + Når X Isolering = Efter: E ( ) ( Y x) = β ( α + β ) ( ) Før + β Temp + β Temp, Før x Temp α + βtempxtemp + β Før 0 + βtemp, Før = x 0 = α + β Temp Temp x x Temp Temp + β Temp, Før xtemp 1 Temp β Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer. Før 1+ β

10 SPSS Hoved-effekt: Ensom variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under Model angiv hoved-effekter og interaktionsled. Indsæt altid hoved-effekter først!

11 Scatterplot Estimater Estimeret model: yˆ = 4, x Temp + 2,130x Før 0,115x Temp, Før

12 Variansanalyse (ANOVA Analysis of ) Variance Setup: Kun kategoriske forklarende variable Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X 1 : Shoppestil (Shopping style - style) Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O) Spørgsmål: Påvirker style forbruget?

13 Grafisk overblik

14 Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: To binære dummy variable: X B og X W Style X B X W Biweekly 1 0 Weekly 0 1 Often 0 0 Bemærk: k kategorier omkodes til k-1 dummy variable Model: Y α + β x + β x + ε = B B W W

15 Hypotesen Model: Y = B B W W α + β x + β x + ε E[Y Style = B] = α + β B E[Y Style = W] = α + β W E[Y Style = O] = α Bemærk: β B og β W angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori. Hypotese: Middelværdien er den samme for alle styles: H 0 : β B = β W = 0 H 1 : β B 0 og/eller β W 0 Afgøres vha. et F-test.

16 SPSS α β B β W Fortolkning?

17 To-sidet Variansanalyse Ide: Tage højde for køn X 2 : Køn (Mand/Kvinde) (Gender - gender) Omkodes til dummy variabel: X M = 1 hvis X 2 = Mand Model: Y α + β x + β x + β x + ε = B B W W M M Tester to nul-hypoteser: H 0 : β B = β W = 0 (Ingen effekt af style) H 0 : β M = 0 (Ingen effekt af gender)

18 SPSS

19 Interaktion? Er der en vekselvirkning mellem gender og style?

20 Model med Interaktion Model: Y α + β x + β x + β x + β x x + β x x + ε = B B W W M M BM B M WM W M Hypotese: Ingen interaktion H 0 : β BM = β WM = 0 Hypotese: Ingen hovedeffekt af style H 0 : β B = β W = 0 Hypotese: Ingen hovedeffekt af gender H 0 : β M = 0 Det hierarkiske princip: Det giver ikke mening at teste hovedeffekter, når de indgår i en interaktion.

21 SPSS Bemærk: Hoved-effekter før interaktioner!

22 SPSS Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening. Konklusion?

23 Estimerede model Estimerede model er: ŷ = 405, ,048 X M 61,751 X B 44,006 X W + 67,042 X BM + 77,196 X WM

24 Modelform Modellen for forbrug forklaret ved shoppe-stil og køn kan altså skrives som Y = B B W W M M BM B M WM W M α + β x + β x + β x + β x x + β x x + ε Her er x B, x W og x M dummy variable. At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som Forbrug = Stil + Køn + Stil*Køn I forbindelse med analyse eller fortolkning af modelparametre er det stadig nyttigt at skrive den matematiske formel op.

25 Modelkontrol - Motivation Vores konklusioner om variables vigtighed baseres på p- værdi. p-værdien er en halesandsynlighed i en fordeling, fx F- fordelingen. F-fordelingen baserer sig på antagelser om at fejlleddet ε er normalfordelt og har konstant varians (homoskedastisk). Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiske fejlled passer!

26 Residual I den sande model har vi Det kan vi skrive om til Residualet, e i, er derfor et estimat af fejlleddet: Da ε i erne er normalfordelte bør e i erne også være det (hvis modellen da ellers er korrekt). ε ε β β α + = = ] [ 1 1 X E Y x x Y k k ] [ X = Y E Y ε i i i y y e ˆ =

27 Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! Antagelse: Middelværdi-strukturen i modellen er E( Y X ) = α + β x + + β Kan være svært at checke direkte, hvis vi har mange forklarende variable. Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af e i erne være ca. nul uanset værdien af. ŷ i erne eller x erne. Grafisk check: plot af af e i mod. 1 1 ŷ i k x k

28 Modelkontrol Antagelse: Fejlleddene ε 1,, ε n uafhænige? Der må ikke vær nogen systematisk sammenhæng mellem e i erne og ŷ i erne eller x erne. Grafisk check: Et plot at e i mod eller x. Antagelse: Fejlleddene ε 1,, ε n ~ N(0,σ 2 )? Hvis sandt regner vi med at e i erne er cirka normalfordelte. ŷ i Et plot at e i mod kan afsløre om variansen er konstant (homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om e i erne er normalfordelte ŷ i

29 Residualplot Residualer Residualer 0 x eller yˆ 0 x eller yˆ Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ŷ). Residualer Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer 0 Tid 0 x eller yˆ Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

30 Eksempel: Kriminalitet og Urbanisering Data for n = 67 distrikter i Florida. Model: y i = Crime rate x i = Urbanisering y i α + βx + ε = i Hvor ε i ~N(0,σ 2 )

31 Residualer i SPSS I Univariate vinduet vælges Save I Save vinduet vælges Unstandardized både under Reresiduals (e i erne) og ŷ i Predicted Values ( erne).

32 Efter endt regression skaber SPSS to nye søjler i Data Editor, der indeholder residualer ( RES_1 ) prædiktioner ( PRE_1 ). Derefter kan man fx lave scatter plots.

33 Scatter plot af residualer (e i erne) mod urbanisering (x i erne). residualer (e i erne) mod prædiktionerne ( erne). ŷ i Ser jo ganske usystematisk ud med jævn variation!

34 Histogram af residualer Histogrammet burde ligne en normalfordeling. Det gør det ikke helt men det er ikke katestrofalt.

Relaterede dokumenter

Multipel Lineær Regression

Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer