Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test
Multipel lineær regression x,x,,x k uafhængige variable (forklarende variable). Model: Y ε i i = β + β x Dagens spørgsmål 0 i + β x i.i.d. N(0, σ ), i + β x =, K, n + L+ β x Hvad kan man gøre hvis sammenhængen mellem Y og X ikke er beskrevet ved en ret linie? I tilfælde af heteroskedasdiske data hvad kan man da gøre? Er residualerne data auto-korreleret? i 3 3i k ki + ε i
Polynomiel regression Nogle gange er sammenhængen mellem Y og en enkelt forklarende variabel X utilstrækkeligt beskrevet ved en ret linie, men bedre ved et polynomie. I disse tilfælde bruger vi polynomiel regression, hvor modellen er på formen Y 3 m = β + β X + β X + β X + L+ β + ε 0 Modellen er stadig lineær!!! (Et m te grads polynomie) 3 m X ε ~ N(0, σ )
Polynomiel Regression: Illustration Y. grads polynomie 3. grads polynomie $y = b + $y = b bx 0 bx 0 + Y y$ = b + bx + b X 0 ( b < ) 0 $y = b + bx + b X + b X 0 3 3 X Brug kun polynomiel regression, hvis der er et godt argument for det fx relevant baggrundsviden. Brug helst ikke over. grads polynomie (dvs X ) og aldrig mere end 6. grads polynomie (dvs X 6 ). X
Polynomiel regression: Eksempel Body Mass Index: BMI=v/h, hvor v er vægten målt i kg og h er højden målt i meter. Omskrivning: v=bmi h. Model: Y = β 0 + βx + β X + ε ε ~ hvor Y er vægten og X er højden. I SPSS skabes en ny variabel X vha. Transform Compute N(0, σ )
Skabe X i SPSS På baggrund af variablen hojdeim hoejdeim=hojdeim*hojdeim
Scatterplot og estimater Et. grads polynomie tilpasset data Model a (Constant) hojdeim hojdeim D d t V i bl t Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 47,068 53,380,755,006-76,80 6,599 -,3 -,860,004 76,73 7,739,839 4,300,000
Model Model Regression Residual Total Sum of Squares df Mean Square F Sig. 9066, 95308,098 798,,000 a 3084,6 583 9,40 49907,8 585 a. Predictors: (Constant), hojdeim, hojdeim b. Dependent Variable: vægt Model Summary Adjusted Std. Error of R R Square R Square the Estimate,68 a,38,38 0,97 a. Predictors: (Constant), hojdeim, hojdeim Modellen forklarer kun ca 38% af variationen ikke imponerende. ANOVA b men modellen er stadig besværet værd.
Polynomiel regression med mere end en variabel Det er muligt at anvende polynomier bestående af mere end en variabel. Fx to variable X og X herved kan regressions fladen fx få form som en paraboloide. Y = 0 3 4 5 X β + β X + β X + β X + β X + β X + ε
Ikke-lineære modeller og transformation For nogle ikke-lineære modeller er det muligt at transformere modellen, så den bliver lineær. Vi skal se på den multiplikative model den eksponentielle model den reciprokke model
Den Multiplikative Model Den multiplikative model Y = β X hvor ε er et fejlled. β β β3 0 X X 3 Logaritme-transformation: Vi tager (den naturlige) logaritme på begge sider af ligningen: logy = logβ0 + βlogx + βlogx + β3logx 3 + logε Vi har nu en lineær model! Hvis logε ~ N(0,σ ) så kan vi udføre multipel lineær regression som sædvanligt! Vi skal bare logaritmetransformere vores variable først. ε
Den Multiplikative Model Den multiplikative model kan skrives som ~ Y ~ ~ ~ = β + β X + β X + β X ~ ε 0 3 3 + ~ ~ hvor Y = logy, X = logx osv. Eksempel: Vi kan omskrive BMI formlen (igen): v = BMI h Model: log v = log BMI + log h = β + β X + ε hvor Y=log v og X=log h. Er mon β 0 log(3) og β? Y 0
Resultat Model (Constant) lhojde a. Dependent Variable: lvagt Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 3,069,09 06,8,000,56,053,66 40,859,000 β 0 =3,069 Forventet β 0 =ln(3)=3,3 β =,56 Forventet β = Fortolkning: v = e 3,069 h,56 =.5 h,56
Den Eksponentielle Model Den eksponentielle model Y = β e En logaritme transformation senere: Vi antager logε ~ N(0,σ ) 0 βx+ β X logy = log β0 + βx + β X + logε Vi logaritme-transformerer kun Y, men ikke X og X! Derefter kan vi foretage almindelig multipel lineær regression. ε
Den Eksponentielle Model - fortolkning Antag vi har estimeret logy =.+.X + L+ 3. X k Fortolkning af b k =3.: Hvis x k stiger med (og alle andre x er holdes fast), så stiger Y med en faktor e 3..
Den Reciprokke Model Hvis så er Y Y = β + β X + L+ β + ε 0 k X k = 0 k X k β + β X + L+ β + ε Tag reciprokværdien af Y og lad X erne være. Kør derefter multipel lineære regression som sædvanligt.
Variansstabiliserende transformationer I tilfælde, hvor residualerne ser heteroskedastiske ud, kan man forsøge sig med følgende transformationer: Kvadratrods-transformation: Y god når variansen er proportional med middelværdien. Logaritme-transformation: logy god når variansen er proportional med middelværdien i. Reciprokke-transformation: Y god når variansen er proportional med middelværdien i 4. y x
Multikolinearitet To variable X og X er perfekt kolineare, hvis X = a + for to reelle tal a og b. bx Eksempel: X =Indkomst i kr. og X =Indkomst i $ Eksempel: Potentielt kolineare variable: X =Alder og X =Ancenitet
Konsekvenser af Multikolinearitet Variansen af regressions-koefficienterne eksploderer. Størrelsen på regressions koefficienterne kan afvige meget fra hvad man ville forvente. Tilføje/fjerne variable resulterer i store ændringer i regressions-koefficienterne. Fjerne et data-punkt kan resultere i store forandringer i regressions-koefficienterne. I nogle tilfælde er F-testet signifikant mens ingen t- test er.
Variance Inflation Factor (VIF) Antag vores regressionsmodel allerede indeholder variablene X,,X k. Hvor meget ekstra kolinearitet introduceres, hvis medtager en ekstra variabel X h? Foretag en multipel lineær regression med X h som afhængig variable og X,,X k som forklarende. Lad R h være den tilsvarende determinations koefficient. Da er VIF givet ved VIF( X ) = h R Jo mere X h er kolinear med X,,X k, jo højere R h og jo højere VIF. h
VIF: Eksempel Model: Y = 0 3X β + β X + β X + β + ε hvor X er højde og X er alder. I SPSS: I Linear Regression vælger man Statistics og der Colinearity diagnostics. Coefficients a Model (Constant) hojdeim hojdeim alder Unstandardized Coefficients Standardized Coefficients Collinearity Statistics B Std. Error Beta t Sig. Tolerance VIF 95,90 5,885,837,066-3,79 59,79 -,97 -,,07,00 769,93 65,943 7,07,589 3,83,000,00 768,44,60,0,3 3,689,000,97,079 X og X ser ud til at være (indbyrdes) kolineare, mens X (som forventet) ikke ser ud til at være det.
Multikolinearitet: Løsninger Fjern en kolinear variabel fra modellen.
Auto-korrelation Antag at X i svarer til i te måling af variabel X, fx temperaturen kl. på den i te, fx dag. Lag-k auto-korrelationen er defineret ved ρk = Corr ( X i, X i+ k ) dvs. korrelationen mellem temperaturer målt med k dages mellemrum. Husk: Vi har antaget at fejlledene er uafhængige, dvs. ρ k = 0 for alle k.
Auto-correlation: 0.6466 Eksempler på data, hvor residualerne udviser stærk auto-korrelation (øverst) og ringe auto-korrelation (nederst). y y -0 0 0-0 0 0 0 0 0 40 60 80 00 x e e -40-0 0 0 0 30-0 0 0 0 0 0 40 60 80 00 x Auto-correlation: -0.0393 0 0 40 60 80 00 0 0 40 60 80 00 x x
Durbin-Watson Test Test for om lag- auto-korrelationen er nul Teststørrelsen er Bemærk at d ikke er stikprøve-estimatet af lag- auto-korrelationen 0 : H 0 : H 0 = ρ ρ = = = n i i n i i i e e e d ) (
Kritiske værdier for Durbin-Watson Efter at have udregnet d finder vi d L og d U i Tabel 7 i Appendix C. Derefter sammenligner vi d med punkterne i skemaet nedenfor. Er d i det grønne område forkaster vi H 0. Positive Autocorrelation Test is Inconclusive No Autocorrelation Test is Inconclusive Negative Autocorrelation d 0 d L d U 4-d U 4-d L 4
Durbin-Watson: Eksempel For n=00 og k= giver tabelopslag d L =,65 og d U =,69. Positive Autocorrelation Test is Inconclusive No Autocorrelation Test is Inconclusive Negative Autocorrelation d Model a Model a 0 d L d U 4-d U 4-d L 4 P di t (C t t) Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,35 a,05,096 3.444,965 Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,030 a,00 -,009 0.4997,053 P di t (C t t),65,69,35,3 Her afviser vi H 0 dvs. ρ 0, altså auto-korrelation. Her accepterer vi H 0 dvs. igen auto-korrelation. e e -40-0 0 0 0 30-0 0 0 0 Auto-correlation: 0.6466 0 Auto-correlation: 0 40 60-0.0393 80 00 x 0 0 40 60 80 00 x