Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion
Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,, x ki er de k forklarende/uafhængige forklarende variale for y i. Model: Y i + x i + + k x ki + ε i ε,,ε n IID ε i ~ N(,σ + k E[Y i x ] + x + + k x k j j x j (lineær middelværdi-struktur
Estimation Estimation pr mindste kvadraters metode: ( y Også kaldet Ordinary Least Squares (OLS. er en lineær estimator af. MKM forudsætter at søjlerne i er lineært uafhængige. Hvis fejlledene er uafhængige, med middelværdi nul og samme varians, så er et entral estimat.
Eksempel (Eksempel 3.3 i JD Eksempel hvor n5 oservationer med to forklarende variale: Heraf følger Y 3 8 3 5 3 5 4 5 4 6 4 6 5 5 5 5 55 8 5 8 9 ( 6.7 4.5 8 4.5..5 8.5.5 y 76 9 ( y 6.7 4.5 8 4.5..5 8.5 76.5 9 4.5.5
Stokastiske Vektorer og middelværdi Stokastisk vektor: Middelværdi: Regneregel: n j z z z M M z Stokastisk variael n z n E z E z z E E M M z z A Az + + E E
Stokastiske Vektorer Varians-Covarians matrix Var ( z E ( z E( z ( z E( z Cov Cov Cov ( z, z Cov( z, z L Cov( z, zn ( z, z Cov( z, z M ( z, z L L Cov( z, z Bemærk at diagonalen indeholder varianserne. M n O M n n Regneregel: Var ( Az + AVar( z A
Middelværdi af Skriv om: ( ' ' y ( ' ' ( + ε ( ' ' + ( ' + ( ' ' ε ' ε Middelværdien af - er: ( ' ' ε E E ' 'ε Dvs. er en entral estimator. ( ' ' E( ε Bemærk: E(ε er nok, dvs. normalford. antagelse ikke nødvendig.
Variansen af Varians-kovarians matrien for er: Bemærk: Hvis søjlerne i ikke indyrdes vinkelrette, så kan de enkelte i er være indyrdes korrelerede. ( σ εε εε ε ε E E E E Var
Eksempel fortsat Variansen af estimator a 3.5.5 8.5. 4.5 8 4.5 6.7 (, (, (, ( (, (, (, ( ( ( σ σ Var Cov Cov Cov Var Cov Cov Cov Var Var
MKM-estimatet er BLUE BLUE Best Linear Uniased Estimator Vi har set ' y og E Hvilket gør til lineær og entral estimator men er det den edste lineære og entrale estimator? Definer: μ ' Hvis (,,,,,, så er μ j. j+ te element
MKM-estimatet er BLUE Vælge lineær estimator m af μ: m a'y a' ( + ε E m a' + a' a' + a'ε Estimatoren m er kun entral hvis a. Vælg a så Var(m mindst mulig. Løsning: a ( - m a'y ' ' ' 'y Dvs. m er den edste entrale og lineære estimator.
Estimation of σ Man kan vise E ( SSE E( e' e σ ( n k Dvs. s e' e SSE n k n k MSE er en entral estimator af σ. Desuden gælder SSE σ ( n k ~ χ
Fordelingen af Hvis ε,, ε n er uafhængige og ε i ~N(,σ, så gælder ~ N, σ ' ( Hvilket etyder at følger en n-dimensional multivariat normalfordeling.
Multivariate Normalfordeling Lad Σ være den (k+* (k+ varians-kovarians matrix. Hvis ( Σ ~ N, Gælder i (, Σ ~ N i i+, i+ i+ te element i Σ s diagonal Og Og Cov ( i, i Σi+, j+ ( A AΣΣ A + ~ N +,
Generel Hypotesetest i MLR H : R r vs H : R r R er en q k + r er en q matrix. dimensionel vektor. Fortolkning af H : En given lineær transformation, R, af har en estemt værdi, r.
Generel Hypotesetest i MLR (fortsat Et estimatet af R er R. Egenskaer for R: Middelværdi: E( R R Varians: Var ( R RVar σ R R ( R
Fordelingen af R Under antagelse af at ε,,ε n IID og e i ~N(,σ : Det kan vises at N N (, σ ( R, σ R R, σ R R ( ~ N R ~ R ~ [ ] R ( R r ~ χ ( q (* ( R r σ R
F-test Fra tidligere har vi: e e σ ~ χ ( n k Da fordelingen af e e og (* er uafhængig gælder [ ] R ( R r ( R r σ R e e ( n k q ~ F ( q, n k
Signifikanstest af enkelt parameter H : ι vs H : ι H hypotesen kan skrives som: Konsekvens: R i k [ ] L L r i+ te element i matrix R q R R i + ' te element i diagonalen af.
Signifikanstest af enkelt parameter Lad R R Da har vi: i s ~ F (, n k i SE( ( n k Desuden: hvor i ~ t SE( i s Vi afviser H hvis i SE( i ( n > t k α
Signifikanstest af alle regressionsparametre: Er MLR esværet værd? H : k vs H : Mindst et i H hypotesen kan skrives som: Det kan vises at i dette tilfælde er R r M M M L O M M L k k [ ] σ σ SSR r R R R r R
Er MLR esværet værd? Under H har vi da: SSR k MSR F ~ F k, n SSE n k MSE k Hvis F > F α (k,n-k-, så afviser vi H. Bemærk følgende omskrivning: F SS SS R k ( R ( n k ( R ( n k Dvs jo mere modellen forklare (stort R jo mindre sandsynligt er det at viafviser H. R k
ANOVA aellen Soure of variation Sums of squares df Mean Squares F-ratio P-værdi Regression SSR k MSRSSR/k MSR/MSE? Error SSE n-k- MSESSE/(n-k- otal SS n- Store værdier af F er ufordelagtige for H. Hvis F > F α (k,n-k- afviser vi H, dvs. MLR er esværet værd
Signifikanstest af en gruppe parametre R r 4 4 3 q H : 4 vs H : og/eller 4 Hypotesen kan omskrives til:
Signifikanstest af en gruppe parametre Lad SSE være sum of squared errors når og 4 er med i modellen. Lad SSE være sum of squared errors når og 4 ikke er med i modellen. Da gælder ( SSE SSE q SSE ( n k ( q, n F ~ F k Vi afviser H hvis F > F α (q,n-k-.
Multipel lineær regression (Eksempel - i ogen Eksempel: Y Export Eksport til Singapore i millioner $ M Money supply Lend Udlånsrente 3 Prie Prisindex 4 Exhange Vekselkurs ml. S pore $ og US $ Model: y i 4 + x + x + x + x + ε i i 3 3i 4 i i ε i.i.d N(, σ i
Model Model Summary Adjusted Std. Error of Durin- R R Square R Square the Estimate Watson,98 a,85,84,33577,583 R.85 etyder at modellen forklarer 8,5% af den totale variation i data. ANOVA Model Regression Residual otal Sum of Squares df Mean Square F Sig. 3,946 4 8,37 73,59, a 6,99 6,3 39,936 66 F-testet af hypotesen H : 3 4 har P- værdi mindre end,5, så vi afviser H, dvs. Y har en lineær sammenhæng med mindst et i, mao. kan modellen etale sig. Stemmer overens med R.
est for regressionsparametre Coeffiients a Model (Constant M Lend Prie Exhange Unstandardized Coeffiients Standardized Coeffiients 95% Confidene Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound -4,5,766 -,45,5-9,545,54,368,64,549 5,77,,4,496,5,49,,96,94 -,94,3,37,9,5 3,95,,8,55,68,75,4,8,8 -,8,68 Det ser ud som om Lend og Exhange ikke har nogen etydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model: y i x x i 3 3i + + + ε i ε i i.i.d N (, σ
est for at fjerne to prametre og 4 med og 4 fjernet F ( SSE SSE q SSE ( n k ( 6.995859 6.989784 6.989784 64.78 F (,64.5 3.44 p værdi. 975
Redueret model Parameter estimater og test: R og justeret R Bemærk R er uændret men justeret R er øget!
Grafisk modelkontrol Satterplots Residualplots Histogrammer Normalfordelingsplot Outliers og Indflydelsesrige oservationer
Modelkontrol: Residualplots e vs x i i e vs x i i3
Residualplot e vs ˆ i y i
Normalfordelingsplot Histogram og q-q plot for residualer
Outliers og Indflydelsesrige Oservationer Outliers Indflydelsesrig Oservation y Regressionslinie uden outlier.. y Punkt med stor værdi af x i.............. Regressionslinie med outlier.......... Regressionslinie når alle datapunkter er inkluderet Outlier x Ingen sammenhæng mellem x og y i denne klump x
Prædiktion Mål: Prædiktere y når kovariaterne er Punkt-prædiktion Egenskaer: E [ x x L x ] y ˆ + x + x + L+ x k k ( yˆ E Var k ( ( yˆ Var Var
Konfidensinterval for Fordelingn af med kendt varians Fordelingen af med ukendt varians (-α% konfidens interval for ŷ, ~ ˆ ˆ N x y E y Var σ ~ ˆ ˆ k n t s x y E y ˆ ± s k n t y α ŷ ŷ ŷ
Prædiktionsinterval Model: y + ε ε Ν(,σ Residual: Variansen af residualet Fordelingen af y (-α% prædiktions-interval + + y y e ε ε ˆ ( ( + + Var e Var σ σ ( ~ ˆ + k n t s y y ( ˆ + ± s k n t y α
Export Estimerede regressionplane for Eksempel - Estimerede regressionplane for Eksempel - M Prie Prædiktions-intervaller tilgængelige i SPSS for x-værdier i data. Se under Save menuen.
Multipel lineær regression og dikotom forklarende variale Y afhængig variael er skala forklarende variael og er dikotom forklarende variael, dvs. kan tage to værdier. Eksempel: Y er vægt, er højde og er køn. Fremgangsmåde: omkodes til inær variael: hvis Mand hvis Kvinde
Antag hvis mand og hvis kvinde. Model: y + x + x + ε ε ~ N(, σ For mænd har vi og x ε ε ~ N(, σ y + + For kvinder har vi og y + x + + ε ε ~ N(, σ Bemærk: o linier med forskellige skæringspunkter, hhv og +.
o regressions liner med forskellig skæring, men samme hældning Y Line for + Line for