Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Relaterede dokumenter
Simpel Lineær Regression: Model

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Simpel Lineær Regression

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kvantitative metoder 2

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

To samhørende variable

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Kvantitative metoder 2

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Modul 6: Regression og kalibrering

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Module 3: Statistiske modeller

Motivation. En tegning

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Statistik Lektion 16 Multipel Lineær Regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol

Modul 11: Simpel lineær regression

Kapitel 11 Lineær regression

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Multipel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Appendiks Økonometrisk teori... II

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Forelæsning 11: Kapitel 11: Regressionsanalyse

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Løsning eksamen d. 15. december 2008

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Lineære normale modeller (4) udkast

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Økonometri 1. Gentagne tværsnit (W ): Opsamling. Gentagne tværsnit og paneldata. Gentagne Tværsnit og Paneldata II.

Statistik Lektion 17 Multipel Lineær Regression

Bilag 12 Regressionsanalysens tabeller og forklaringer

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Løsning til eksaminen d. 14. december 2009

1 Multipel lineær regression

Normalfordelingen og Stikprøvefordelinger

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Perspektiver i Matematik-Økonomi: Linær regression

Module 4: Ensidig variansanalyse

Kvantitative metoder 2

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

1 Multipel lineær regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Module 9: Residualanalyse

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kursus 02402/02323 Introducerende Statistik

Module 12: Mere om variansanalyse

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Matrix Algebra med Excel Forelæsningsnoter til FR86. Jesper Lund

Module 1: Lineære modeller og lineær algebra

Transkript:

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere end en forklarende variabel, fx. to: y = β 0 +β 1 x 1 +β 2 x 2 +u, hvor fejlledet igen har middelværdi nul uanset værdien af x 1 og x 2, dvs. E[u x 1,x 2 ] = 0. Eksempel: Det kan tænkes at løn afhænger af både års uddannelse (udd) og års erfarring (erf): løn = β 0 +β 1 udd +β 2 erf +u. 2/27

Multipel Lineær Regression: En Tegning y (løn) (x i1,x i2,y i ) (erf) x 2 β 0 +β 1 x 1 +β 2 x 2 x i1 x 1 (udd) 3/27

Multipel Lineær Regression: Generelt Antag vi har k forklarende variable x 1,x 2,...,x k, og den enlige afhængige variabel y. Vi vil undersøge hvordan de k x j er kan forklare y ved en multipel lineær regressionsmodel: y = β 0 +β 1 x 2 +β 2 x 2 + +β k x k +u, hvor β 0 er skæringspunktet. β 1 er regressionsparameteren for x 1, β 2 er regressionsparameteren for x 2, osv. Som ved simpel lineær regression antager vi E[u x 1,x 2,...,x k ] = 0, dvs. effekten af andre forklarende variable ud over x 1,...,x k er nul i gennemsnit. 4/27

OLS ligningen I tilfældet med to forklarende variable, kan OLS ligningen skrives som ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2, hvor ˆβ 0 er estimatet af β 0 osv. Estimationen af β 0, β 1 og β 2 baseres på data bestående af n observationer af y, x 1 og x 2. For den i te observation (fx. i te person) observerer vi den afhængige variabel y i, samt de forklarende variable x i1 og x i2. Eksempel: For den i te person har observeret løn i, udd i og erf i : løn i = ˆβ 0 + ˆβ 1 udd i + ˆβ 2 erf i. 5/27

Residualer og OLS estimatore Residualet for den i te oberservation er û i = y i ŷ i = y i ˆβ 0 ˆβ 1 x i1 ˆβ 2 x i2 OLS estimaterne ˆβ 0, ˆβ 1, og ˆβ 2 er bestemt ved at minimere summen af de kvadrede residualer: n n ûi 2 = (y i ˆβ 0 ˆβ 1 x i1 ˆβ 2 x i2 ) 2. i=1 i=1 Denne metode kaldes Mindste Kvadraters Metode, deraf navnet Ordinary Least Squares (OLS). Eksempel: I løn-eksemplet bliver det til n (løn i ˆβ 0 ˆβ 1 udd i ˆβ 2 erf i ) 2. i=1 6/27

Generelle tilfælde I det generelle tilfælde med k forklarende variable har vi ŷ i = ˆβ 0 + ˆβ 1 x i1 + + ˆβ k x ik, hvor estimaterne ˆβ 0, ˆβ 1,..., ˆβ k er fundet ved at minimiere udtrykket n (y i ˆβ 0 ˆβ 1 x i1 ˆβ k x ik ) 2. i=1 7/27

Fortolkning Fortolkning af regressionsligningen ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 Hvis vi ændrer x 1 med x 1 og x 2 med x 2, så er ændringen i prædiktionen ŷ ŷ = ˆβ 1 x 1 + ˆβ 2 x 2. Hvis vi kun ændrer x 1 med x 1, men holder x 2 fast, så er ændringen ŷ = ˆβ 1 x 1. 8/27

Partiel effekt I tilfældet med k forklarende variable har vi ŷ = ˆβ 0 + ˆβ 1 x 1 + + ˆβ k x k Hvis vi ændrer x j med x j og holder alle andrer forklarende variable fast, så er ændringen i prædiktionen af ŷ ŷ = ˆβ j x j. Denne forskel kaldes den partielle effekt. 9/27

Goodness-of-Fit Som ved simpel lineære regression kan vi definere SST = n i=1 (y i ȳ) 2 (Total Sum of Squares) SSE = n i=1 (ŷ i ȳ) 2 (Explained Sum of Squares) SSR = n i=1 (y i ŷ i ) 2 = n i=1û2 i (Residual Sum of Squares) Som sidst kan vi splitte den totale variation af y i erne (SST) op i to dele SST = SSE +SSR, hvor SSE er den forklarede del af variationen og SSR er den uforklarede del af variationen i y i erne. 10/27

Goodness-of-Fit forts. Vi kan definere determinations-koefficienten R 2 som andelen af den totale variation (SST), der er forklaret (SSE): R 2 = SSE SST = 1 SSR SST. Bemærk: R 2 er også den kvadrede stikprøve-korrelation mellem y i og ŷ i. Jo mere korrelerede de observerede og prædikterede værdier er, jo højere er R 2. 11/27

Antagelser For at kunne vise, at vores OLS estimatorer er centrale/unbiased må vi gøre nogle antagelser (MLR.1 til MLR.4). Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 +β 1 x 1 +β 2 x 2 + +β k x k +u, hvor β 0,β 1,β 2,...,β k er ukendte parametere, og u er et uobserveret fejlled. Bemærk strukturen: En sum af β er, hver ganget med en konstant (1 for β 0 s vedkommende og x j for β j s vedkommede). Alternativ (for de kompakte) kan man skrive k y = β j x j, hvor x 0 = 1. j=0 12/27

Antagelse: Tilfældig stikprøve Antagelse MLR.2 (Tilfældig stikprøve) Vi har en tilfældig stikprøve, bestående af n observationer {(x i1,x i2,...,x ik,y i ) : i = 1,2,...,n}, der følger modellen i MLR.1. Bemærk: Her er den støreste fare, at der opstår en systematik i u erne, fx. hvis observationerne er indsamlet over tid. 13/27

Antagelse: Ingen perfekt kolinearitet Antagelse MLR.3 (Ingen perfekt kolinearitet) I stikprøven er ingen forklarende variable konstante, og der er ikke en perfekt lineær sammenhæng mellem de forklarende variable. Spørgsmål: Hvor er perfekt kolinearitet et problem? Antag k = 2 og at x 2 = ax 1, dvs. der er perfekt kolinearitet mellem x 1 og x 2. Vi kan finde et andet sæt estimater: ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 ax 1 = ˆβ 0 +(ˆβ 1 + ˆβ 2 a)x 1 +0 x 2 Faktisk er der uendelig mange lige gode estimater. 14/27

At opfylde MLR.3 er sædvanligvis ikke et problem; men MLR.3 er aldrig opfyldt, hvis n < k +1. 15/27

Antagelse: Betinget nul-middelværdi Antagelse MLR.4 (Betinget middelværdi er nul) Fejlledet u er forventet værdi på nul for alle værdier af de forklarende variable E[u x 1,...,x k ] = 0. En konsekvens af antagelserne MLR.1 til MLR.4 er at E[y x 1,x 2,...,x k ] = β 0 +β 1 x 1 + +β k x k. Dvs. regressions(hyper)planet beskriver, hvad den forventede værdi er. 16/27

Centrale estimatore Sætning 3.1 (OLS estimatorene er centrale) Under antagelse af MLR.1 til MLR.4 gælder for alle værdier af β j. E[ˆβ j ] = β j, j = 1,2,...,k, Bemærk: alle værdier af β j inkluderer β j = 0, dvs. den forklarende variabel x j har ingen forklarende betydning for y. Dvs. selv hvis vi inkluderer en ikke-relevant forklarende variabel, så påvirkerer det ikke centraliteteten. Det påvirker derimod variansen... 17/27

Effekten af at inkludere irrelevant variabel Antag vi har model y = β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 +u, og modellen opfylder MLR.1 til MLR.4. Antag x 3 ikke har nogen effekt når x 1 og x 2 er med, dvs. β 3 = 0. Vi har E[y x 1,x 2,x 3 ] = E[y x 1,x 2 ]. Uvidende om x 3 s irrelevans estimerer vi den store model og får ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + ˆβ 3 x 3. Pga. sætning 3.1 er estimater stadig centrale, dvs. centraliteten er upåvirket af x 3. Variansen er derimod påvirket... 18/27

Effekten af en ekstra variabel Antag vi har afhængig variabel y og to forklarende variable x 1 og x 2. En lineær regression af y mod x 1 giver ỹ = β 0 + β 1 x 1. En lineær regression af y mod x 1 og x 2 giver ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 (1) Spørgsmål: Hvornår er β 1 = ˆβ 1? Dvs. hvornår er den estimerede effekt af x 1 på y upåvirket af om x 2 er med eller ej? Først undersøger vi hvordan x 2 afhænger af x 1... 19/27

Effekten af en ekstra variabel (fortsat) Foretag en lineær regression af x 2 mod x 1, hvilket giver x 2 = δ 0 + δ 1 x 1. Hvis vi indsætter x 2 på x 2 s plads i (1) følger det, at β 1 = ˆβ 1 + ˆβ 2 δ 1. Vi opnår β 1 = ˆβ 1 (samme effekt af x 1 ) hvis enten 1. x 2 ingen partiel effekt har på ŷ, dvs. ˆβ 2 = 0. 2. x 1 and x 2 er ukorrelede i stikprøven, dvs. δ 1 = 0. Budskab: Selvom man har estimeret effekten af fx. x 1, så er det typisk ikke det endegyldige bud på den sande effekt. 20/27

Antagelse: Homoskedastiske fejlled Antagelse MLR.5 (Homoskedastiske fejlled) Fejlledet u har samme varians for alle værdier af de forklarende variable. Mao. Var[u x 1,x 2,...,x k ] = σ 2. Af antagelserne MLR.1 til MLR.4 følger at E[y x 1,x 2,...,x k ] = β 0 +β 1 x 1 + +β k x k og antagelse MLR.5 medfører desuden at Var[y x 1,...,x k ] = σ 2 21/27

Variansen af Estimatorene Sætning 3.2 (Variansen af OLS estimatorerne) Under antagelse MLR.1 til MLR.5, og betinget på stikeprøvens forklarende variable, har vi for j = 1,...,k, hvor Var[ˆβ j ] = σ 2 SST j (1 R 2 j ), SST j = n (x ij x j ) 2 i=1 er den totale variation af x j erne i stikprøven, og R 2 j er determinations-koefficenent opnået ved at foretaget en multipel lineære regression af x j mod de andre forklarende variable. 22/27

Variansen af Estimatorene Variasen af estimatoren ˆβ j er altså Var[ˆβ j ] = σ 2 SST j (1 R 2 j ). Vi vil gerne have at variansen er så lille som mulig, da det er ensbetydense med mere præcise estimater. Vi kan mindske variansen Var[ˆβ j ] på to måder: 1. Vi kan øge SST j. Det kan ske enten ved at i) have en større variation i x j erne eller ii) øge antallet af observationer n. 2. Vi kan reducere Rj 2, hvilket typisk svært. Fx. ved at fjerne forklarende variable, men det er i sig selv ikke uden problemer... 23/27

Variansen af Estimatorene Variasen af estimatoren ˆβ j er altså Var[ˆβ j ] = σ 2 SST j (1 R 2 j ). Vi vil gerne have at variansen er så lille som mulig, da det er ensbetydense med mere præcise estimater. Bemærk: Jo nærmere x j er på en perfekt lineær relation til de andre forklarende variable, jo nærmere er R 2 j på 1, hvilket forøger variansen af ˆβ j markant. Dvs., hvis vi tilføjer en ny variabel til model, som intet nyt tilføjer, så har vi stadig centralitet, men variansen af estimatorene vil typisk øges, dvs. mere upræcise estimater. 24/27

Estimation af σ 2 Fejlledsvariansen σ 2 er ukendt, men kan estimeres: Sætning 3.3 (Central estimator for fejlleds-variansen σ 2 ) Under Gauss-Markov antagelserne MLR.1 til MLR.5 er n ˆσ 2 = i=1û2 i n k 1 en central estimator af σ 2, dvs. E[ˆσ 2 ] = σ 2. Bemærk: Antal frihedsgrader, n k 1 er antallet af observationer (n) minus antal parametere i modellen (k + 1, dvs. β 0,β 1,...,β k ). 25/27

Lineære estimatore Vores estimatore ˆβ 0,..., ˆβ k er såkaldte lineære estimatore. Definition: Lineær estimator En estimator β j er lineær, hvis den er på formen β j = n w ij y i, i=1 hvor hver af w ij erne kan være en funktion af alle x ij erne. Eksempel: Ved simpel lineær regression har vi hvor n i=1 ˆβ 1 = (x i x)y i n n i=1 (x i x) 2 = w i1 y i, w i1 = i=1 (x i x) n i=1 (x i x) 2. 26/27

Gauss-Markov Sætningen Sætning 3.4 (Gauss-Markov Sætningen) Under antagelserne MLR.1 til MLR.5 er OLS estimatorene ˆβ 0, ˆβ 1,..., ˆβ k de bedste lineære, unbiased estimatore for β 0,β 1,...,β k. Med bedste mener vi her, at for alle lineære, unbiased estimatore β j gælder Var[ˆβ j ] Var[ β j ], dvs. OLS estimatorene har mindst mulig varians blandt alle lineære, unbiased estimatore. På engelsk BLUE (Best Linear Unbiased Estimator). 27/27