Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Relaterede dokumenter
Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik Lektion 4. Variansanalyse Modelkontrol

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri Lektion 1 Simpel Lineær Regression 1/31

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Simpel Lineær Regression: Model

Modul 11: Simpel lineær regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Modul 6: Regression og kalibrering

Forelæsning 11: Kapitel 11: Regressionsanalyse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

1 Regressionsproblemet 2

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik Lektion 17 Multipel Lineær Regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Generelle lineære modeller

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Kvantitative metoder 2

Kapitel 11 Lineær regression

Simpel Lineær Regression

Løsning eksamen d. 15. december 2008

Lineær regression i SAS. Lineær regression i SAS p.1/20

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Module 3: Statistiske modeller

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Kvantitative metoder 2

Module 4: Ensidig variansanalyse

Kursus 02402/02323 Introducerende Statistik

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

To samhørende variable

Løsning til eksaminen d. 14. december 2009

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik II 4. Lektion. Logistisk regression

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Konfidensintervaller og Hypotesetest

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Module 9: Residualanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Normalfordelingen og Stikprøvefordelinger

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Module 12: Mere om variansanalyse

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Kvantitative Metoder 1 - Forår Dagens program

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Kvantitative Metoder 1 - Efterår Dagens program

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Perspektiver i Matematik-Økonomi: Linær regression

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Tema. Dagens tema: Indfør centrale statistiske begreber.

To-sidet variansanalyse

To-sidet varians analyse

Statistik Formelsamling. HA Almen, 1. semester

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Skriftlig eksamen Science statistik- ST501

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Transkript:

Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion

Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,, x ki er de k forklarende/uafhængige forklarende variale for y i. Model: Y i + x i + + k x ki + ε i ε,,ε n IID ε i ~ N(,σ + k E[Y i x ] + x + + k x k j j x j (lineær middelværdi-struktur

Estimation Estimation pr mindste kvadraters metode: ( y Også kaldet Ordinary Least Squares (OLS. er en lineær estimator af. MKM forudsætter at søjlerne i er lineært uafhængige. Hvis fejlledene er uafhængige, med middelværdi nul og samme varians, så er et entral estimat.

Eksempel (Eksempel 3.3 i JD Eksempel hvor n5 oservationer med to forklarende variale: Heraf følger Y 3 8 3 5 3 5 4 5 4 6 4 6 5 5 5 5 55 8 5 8 9 ( 6.7 4.5 8 4.5..5 8.5.5 y 76 9 ( y 6.7 4.5 8 4.5..5 8.5 76.5 9 4.5.5

Stokastiske Vektorer og middelværdi Stokastisk vektor: Middelværdi: Regneregel: n j z z z M M z Stokastisk variael n z n E z E z z E E M M z z A Az + + E E

Stokastiske Vektorer Varians-Covarians matrix Var ( z E ( z E( z ( z E( z Cov Cov Cov ( z, z Cov( z, z L Cov( z, zn ( z, z Cov( z, z M ( z, z L L Cov( z, z Bemærk at diagonalen indeholder varianserne. M n O M n n Regneregel: Var ( Az + AVar( z A

Middelværdi af Skriv om: ( ' ' y ( ' ' ( + ε ( ' ' + ( ' + ( ' ' ε ' ε Middelværdien af - er: ( ' ' ε E E ' 'ε Dvs. er en entral estimator. ( ' ' E( ε Bemærk: E(ε er nok, dvs. normalford. antagelse ikke nødvendig.

Variansen af Varians-kovarians matrien for er: Bemærk: Hvis søjlerne i ikke indyrdes vinkelrette, så kan de enkelte i er være indyrdes korrelerede. ( σ εε εε ε ε E E E E Var

Eksempel fortsat Variansen af estimator a 3.5.5 8.5. 4.5 8 4.5 6.7 (, (, (, ( (, (, (, ( ( ( σ σ Var Cov Cov Cov Var Cov Cov Cov Var Var

MKM-estimatet er BLUE BLUE Best Linear Uniased Estimator Vi har set ' y og E Hvilket gør til lineær og entral estimator men er det den edste lineære og entrale estimator? Definer: μ ' Hvis (,,,,,, så er μ j. j+ te element

MKM-estimatet er BLUE Vælge lineær estimator m af μ: m a'y a' ( + ε E m a' + a' a' + a'ε Estimatoren m er kun entral hvis a. Vælg a så Var(m mindst mulig. Løsning: a ( - m a'y ' ' ' 'y Dvs. m er den edste entrale og lineære estimator.

Estimation of σ Man kan vise E ( SSE E( e' e σ ( n k Dvs. s e' e SSE n k n k MSE er en entral estimator af σ. Desuden gælder SSE σ ( n k ~ χ

Fordelingen af Hvis ε,, ε n er uafhængige og ε i ~N(,σ, så gælder ~ N, σ ' ( Hvilket etyder at følger en n-dimensional multivariat normalfordeling.

Multivariate Normalfordeling Lad Σ være den (k+* (k+ varians-kovarians matrix. Hvis ( Σ ~ N, Gælder i (, Σ ~ N i i+, i+ i+ te element i Σ s diagonal Og Og Cov ( i, i Σi+, j+ ( A AΣΣ A + ~ N +,

Generel Hypotesetest i MLR H : R r vs H : R r R er en q k + r er en q matrix. dimensionel vektor. Fortolkning af H : En given lineær transformation, R, af har en estemt værdi, r.

Generel Hypotesetest i MLR (fortsat Et estimatet af R er R. Egenskaer for R: Middelværdi: E( R R Varians: Var ( R RVar σ R R ( R

Fordelingen af R Under antagelse af at ε,,ε n IID og e i ~N(,σ : Det kan vises at N N (, σ ( R, σ R R, σ R R ( ~ N R ~ R ~ [ ] R ( R r ~ χ ( q (* ( R r σ R

F-test Fra tidligere har vi: e e σ ~ χ ( n k Da fordelingen af e e og (* er uafhængig gælder [ ] R ( R r ( R r σ R e e ( n k q ~ F ( q, n k

Signifikanstest af enkelt parameter H : ι vs H : ι H hypotesen kan skrives som: Konsekvens: R i k [ ] L L r i+ te element i matrix R q R R i + ' te element i diagonalen af.

Signifikanstest af enkelt parameter Lad R R Da har vi: i s ~ F (, n k i SE( ( n k Desuden: hvor i ~ t SE( i s Vi afviser H hvis i SE( i ( n > t k α

Signifikanstest af alle regressionsparametre: Er MLR esværet værd? H : k vs H : Mindst et i H hypotesen kan skrives som: Det kan vises at i dette tilfælde er R r M M M L O M M L k k [ ] σ σ SSR r R R R r R

Er MLR esværet værd? Under H har vi da: SSR k MSR F ~ F k, n SSE n k MSE k Hvis F > F α (k,n-k-, så afviser vi H. Bemærk følgende omskrivning: F SS SS R k ( R ( n k ( R ( n k Dvs jo mere modellen forklare (stort R jo mindre sandsynligt er det at viafviser H. R k

ANOVA aellen Soure of variation Sums of squares df Mean Squares F-ratio P-værdi Regression SSR k MSRSSR/k MSR/MSE? Error SSE n-k- MSESSE/(n-k- otal SS n- Store værdier af F er ufordelagtige for H. Hvis F > F α (k,n-k- afviser vi H, dvs. MLR er esværet værd

Signifikanstest af en gruppe parametre R r 4 4 3 q H : 4 vs H : og/eller 4 Hypotesen kan omskrives til:

Signifikanstest af en gruppe parametre Lad SSE være sum of squared errors når og 4 er med i modellen. Lad SSE være sum of squared errors når og 4 ikke er med i modellen. Da gælder ( SSE SSE q SSE ( n k ( q, n F ~ F k Vi afviser H hvis F > F α (q,n-k-.

Multipel lineær regression (Eksempel - i ogen Eksempel: Y Export Eksport til Singapore i millioner $ M Money supply Lend Udlånsrente 3 Prie Prisindex 4 Exhange Vekselkurs ml. S pore $ og US $ Model: y i 4 + x + x + x + x + ε i i 3 3i 4 i i ε i.i.d N(, σ i

Model Model Summary Adjusted Std. Error of Durin- R R Square R Square the Estimate Watson,98 a,85,84,33577,583 R.85 etyder at modellen forklarer 8,5% af den totale variation i data. ANOVA Model Regression Residual otal Sum of Squares df Mean Square F Sig. 3,946 4 8,37 73,59, a 6,99 6,3 39,936 66 F-testet af hypotesen H : 3 4 har P- værdi mindre end,5, så vi afviser H, dvs. Y har en lineær sammenhæng med mindst et i, mao. kan modellen etale sig. Stemmer overens med R.

est for regressionsparametre Coeffiients a Model (Constant M Lend Prie Exhange Unstandardized Coeffiients Standardized Coeffiients 95% Confidene Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound -4,5,766 -,45,5-9,545,54,368,64,549 5,77,,4,496,5,49,,96,94 -,94,3,37,9,5 3,95,,8,55,68,75,4,8,8 -,8,68 Det ser ud som om Lend og Exhange ikke har nogen etydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model: y i x x i 3 3i + + + ε i ε i i.i.d N (, σ

est for at fjerne to prametre og 4 med og 4 fjernet F ( SSE SSE q SSE ( n k ( 6.995859 6.989784 6.989784 64.78 F (,64.5 3.44 p værdi. 975

Redueret model Parameter estimater og test: R og justeret R Bemærk R er uændret men justeret R er øget!

Grafisk modelkontrol Satterplots Residualplots Histogrammer Normalfordelingsplot Outliers og Indflydelsesrige oservationer

Modelkontrol: Residualplots e vs x i i e vs x i i3

Residualplot e vs ˆ i y i

Normalfordelingsplot Histogram og q-q plot for residualer

Outliers og Indflydelsesrige Oservationer Outliers Indflydelsesrig Oservation y Regressionslinie uden outlier.. y Punkt med stor værdi af x i.............. Regressionslinie med outlier.......... Regressionslinie når alle datapunkter er inkluderet Outlier x Ingen sammenhæng mellem x og y i denne klump x

Prædiktion Mål: Prædiktere y når kovariaterne er Punkt-prædiktion Egenskaer: E [ x x L x ] y ˆ + x + x + L+ x k k ( yˆ E Var k ( ( yˆ Var Var

Konfidensinterval for Fordelingn af med kendt varians Fordelingen af med ukendt varians (-α% konfidens interval for ŷ, ~ ˆ ˆ N x y E y Var σ ~ ˆ ˆ k n t s x y E y ˆ ± s k n t y α ŷ ŷ ŷ

Prædiktionsinterval Model: y + ε ε Ν(,σ Residual: Variansen af residualet Fordelingen af y (-α% prædiktions-interval + + y y e ε ε ˆ ( ( + + Var e Var σ σ ( ~ ˆ + k n t s y y ( ˆ + ± s k n t y α

Export Estimerede regressionplane for Eksempel - Estimerede regressionplane for Eksempel - M Prie Prædiktions-intervaller tilgængelige i SPSS for x-værdier i data. Se under Save menuen.

Multipel lineær regression og dikotom forklarende variale Y afhængig variael er skala forklarende variael og er dikotom forklarende variael, dvs. kan tage to værdier. Eksempel: Y er vægt, er højde og er køn. Fremgangsmåde: omkodes til inær variael: hvis Mand hvis Kvinde

Antag hvis mand og hvis kvinde. Model: y + x + x + ε ε ~ N(, σ For mænd har vi og x ε ε ~ N(, σ y + + For kvinder har vi og y + x + + ε ε ~ N(, σ Bemærk: o linier med forskellige skæringspunkter, hhv og +.

o regressions liner med forskellig skæring, men samme hældning Y Line for + Line for