Statistik Lektion 17 Multipel Lineær Regression

Transkript

1 Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

2 Multipel lineær regression x,x,,x k uafhængige variable (forklarende variable). Model: Y ε i i = β + β x Dagens spørgsmål 0 i + β x i.i.d. N(0, σ ), i + β x =, K, n + L+ β x Hvad kan man gøre hvis sammenhængen mellem Y og X ikke er beskrevet ved en ret linie? I tilfælde af heteroskedasdiske data hvad kan man da gøre? Er residualerne data auto-korrelerede? i 3 3i k ki + ε i

3 Polynomiel regression Nogle gange er sammenhængen mellem Y og en enkelt forklarende variabel X utilstrækkeligt beskrevet ved en ret linie, men bedre ved et polynomie. I disse tilfælde bruger vi polynomiel regression, hvor modellen er på formen Y 3 m = β + β X + β X + β X + L+ β + ε 0 Modellen er stadig lineær!!! (Et m te grads polynomie) 3 m X ε ~ N(0, σ )

4 Polynomiel Regression: Illustration Y. grads polynomie 3. grads polynomie Y ˆ = b + b x y 0 ˆ = b + b x y 0 y ˆ = b + b x + b 0 x ˆ y = b0 + b x + b x + b 3 x 3 X Brug kun polynomiel regression, hvis der er et godt argument for det fx relevant baggrundsviden. Brug helst ikke over. grads polynomie (dvs X ) og aldrig mere end 6. grads polynomie (dvs X 6 ). X

5 Polynomiel Regression som Modelkontrol Vi har en forventning om lineær sammenhængen mellem Y og X. Et simpelt tjek er at tilføje det kvadratiske led X til modellen. Hvis X ledet ikke er signifikant har vi lidt mere grund til at tro på antagelsen om lineær sammenhæng.

6 Polynomiel regression: Eksempel Body Mass Index: BMI = v hvor v er vægten målt i kg og h er højden målt i meter. Omskrivning: v=bmi h. h Model: Y i 0 ε, K, ε iid ε i = β + β X i i i + β X ~ i N(0, σ + ε ) i hvor Y er vægten og X er højden. I SPSS skabes en ny variabel X vha. Transform Compute

7 Skabe X i SPSS På baggrund af variablen hojdeim skabes hoejdeim = hojdeim*hojdeim

8

9 Scatterplot og estimater Et. grads polynomie tilpasset data Model a (Constant) hojdeim hojdeim D d t V i bl t Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 47,068 53,380,755,006-76,80 6,599 -,3 -,860,004 76,73 7,739,839 4,300,000

10 Model Model Regression Residual Total Sum of Squares df Mean Square F Sig. 9066, 95308, ,,000 a 3084, , ,8 585 a. Predictors: (Constant), hojdeim, hojdeim b. Dependent Variable: vægt Model Summary Adjusted Std. Error of R R Square R Square the Estimate,68 a,38,38 0,97 a. Predictors: (Constant), hojdeim, hojdeim Modellen forklarer kun ca 38% af variationen ikke imponerende. ANOVA b men modellen er stadig besværet værd.

11 Polynomiel regression med mere end en variabel Det er muligt at anvende polynomier bestående af mere end en variabel. Fx to variable X og X herved kan regressions fladen fx få form som en paraboloide. Y = X β + β X + β X + β X + β X + β X + ε

12 Ikke-lineære modeller og transformation For nogle ikke-lineære modeller er det muligt at transformere modellen, så den bliver lineær. Vi skal se på Den multiplikative model Den eksponentielle model Den reciprokke model

13 Den Multiplikative Model Den multiplikative model Y = β X hvor ε er et fejlled. β β β3 0 X X 3 Logaritme-transformation: Vi tager (den naturlige) logaritme på begge sider af ligningen: logy = logβ0 + βlogx + βlogx + β3logx 3 + logε Vi har nu en lineær model! Hvis logε ~ N(0,σ ) så kan vi udføre multipel lineær regression som sædvanligt! Vi skal bare logaritmetransformere vores variable først. ε

14 Den Multiplikative Model Den multiplikative model kan skrives som ~ Y ~ ~ ~ = β + β X + β X + β X ~ ε ~ ~ hvor Y = logy, X osv. = logx Eksempel: Vi kan omskrive BMI formlen (igen): v = BMI h log v = log BMI + log h Model: Y = β + β X + ε hvor Y = log v og X = log h. Er mon β 0 log(3) og β? 0

15 Resultat β 0 = 3,069 Forventet β 0 = ln(3)=3,3 β =,56 Forventet β = Fortolkning: v = e 3,069 h,56 =.5 h,56 Bemærk: E(v h).5 h,56

16 Den Eksponentielle Model Den eksponentielle model Y = β e En logaritme transformation senere: Vi antager logε ~ N(0,σ ) 0 βx+ β X logy = log β0 + βx + β X + logε ε Vi logaritme-transformerer kun Y, men ikke X og X! Derefter kan vi foretage almindelig multipel lineær regression.

17 Den Eksponentielle Model - fortolkning Antag vi har estimeret logy =.+.X + L+ 3. X k Fortolkning af b k = 3.: Hvis x k stiger med (og alle andre x er holdes fast), så stiger Y med en faktor e 3..

18 Den Reciprokke Model Hvis så er Y Y = β + β X + L+ β + ε 0 k X k = X 0 k k β + β X + L+ β + ε Tag reciprokværdien af Y og lad X erne være. Kør derefter multipel lineære regression som sædvanligt.

19 Variansstabiliserende transformationer I tilfælde, hvor residualerne ser heteroskedastiske ud, kan man forsøge sig med følgende transformationer: Kvadratrods-transformation: Y god når variansen er proportional med middelværdien. Logaritme-transformation: logy god når variansen er proportional med middelværdien i. Reciprokke-transformation: Y god når variansen er proportional med middelværdien i 4. y x

20 Multikolinearitet To variable X og X er perfekt kolineære, hvis X = a + bx for to reelle tal a og b. Corr(X,X ) = (eller -) Eksempel: Perfekt kolinearitet (sjældent problem) X = Indkomst i kr. og X = Indkomst i $ Eksempel: Ret kolineære variable (reelt problem) X = Alder og X = Anciennitet

21 Konsekvenser af Multikolinearitet Variansen af regressions-koefficienterne (b j erne) eksploderer. Størrelsen på regressions-koefficienterne kan afvige meget fra hvad man ville forvente. Tilføje/fjerne variable resulterer i store ændringer i regressions-koefficienterne. Fjerne et data-punkt kan resultere i store forandringer i regressions-koefficienterne. I nogle tilfælde er F-testet signifikant mens ingen t- test er.

22 Variance Inflation Factor (VIF) Antag vores regressionsmodel allerede indeholder de forklarende variable X,,X k. Hvor meget ekstra kolinearitet introduceres, hvis medtager en ekstra forklarende variabel X h? Foretag en multipel lineær regression med X h som afhængig variable og X,,X k som forklarende. Lad R h være den tilsvarende determinations koefficient. Da er VIF givet ved VIF( X ) = h R Jo mere X h er kolinear med X,,X k, jo højere R h og jo højere VIF. h

23 VIF: Eksempel Model: Y = 0 3X β + β X + β X + β + ε hvor X er højde og X er alder. I SPSS: I Linear Regression vælger man Statistics og der Colinearity diagnostics. Coefficients a Model (Constant) hojdeim hojdeim alder Unstandardized Coefficients Standardized Coefficients Collinearity Statistics B Std. Error Beta t Sig. Tolerance VIF 95,90 5,885,837,066-3,79 59,79 -,97 -,,07,00 769,93 65,943 7,07,589 3,83,000,00 768,44,60,0,3 3,689,000,97,079 X og X ser ud til at være (indbyrdes) kolineare, mens X (som forventet) ikke ser ud til at være det.

24 VIF: Eksempel - fortsat X Scatter-plot af mod X

25 Multikolinearitet: Løsninger Fjern en kolineær variabel fra modellen.

26 Auto-korrelation Antag at X i svarer til i te måling af variabel X, fx temperaturen kl. på den i te, fx dag. Lag-h auto-korrelationen er defineret ved ρh = Corr ( X i, X i+ h) dvs. korrelationen mellem temperaturer målt med h dages mellemrum. Bemærk: Vi har antaget at fejlledene er uafhængige, dvs. ρ h = Corr(ε i, ε i+h ) = 0 for alle h. Dvs. vi forventer ρ h = Corr(e i, e i+h ) 0 for alle h.

27 Eksempler hvor residualerne udviser Stærk autokorrelation (øverst) y e x Data x Residualer Ringe autokorrelation (nederst) y e x x

28 Durbin-Watson Test Test for om lag- auto-korrelationen er nul H 0 : ρ = 0 H : ρ 0 Teststørrelsen er d n ( e e i= i i = n e i= i ) Bemærk at d ikke er et stikprøve-estimatet af lag- auto-korrelationen

29 Kritiske værdier for Durbin-Watson Efter at have udregnet d finder vi d L og d U i Tabel 7 i Appendix C. Derefter sammenligner vi d med punkterne i skemaet nedenfor. Er d i det grønne område forkaster vi H 0. Positiv Autokorrelation Test uden Konklusion Ingen Autokorrelation Test uden Konklusion Negativ Autokorrelation d 0 d L d U 4-d U 4-d L 4

30 Durbin-Watson: Eksempel For n=00 og h= giver tabelopslag d L =,65 og d U =,69. Positiv Autokorrelation Test uden Konklusion Ingen Autokorrelation Test uden Konklusion Negativ Autokorrelation d Model a Model a 0 d L d U 4-d U 4-d L 4 P di t (C t t) Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,35 a,05, ,965 Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,030 a,00 -, ,053 P di t (C t t),65,69,35,3 Her afviser vi H 0 dvs. ρ 0, altså auto-korrelation. Her kan vi ikke afvise H 0 dvs. igen auto-korrelation. e e Auto-correlation: Auto-correlation: x x