Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere end en forklarende variabel, fx. to: y = β 0 +β 1 x 1 +β 2 x 2 +u, hvor fejlledet igen har middelværdi nul uanset værdien af x 1 og x 2, dvs. E[u x 1,x 2 ] = 0. Eksempel: Det kan tænkes at løn afhænger af både års uddannelse (udd) og års erfarring (erf): løn = β 0 +β 1 udd +β 2 erf +u. 2/27

Multipel Lineær Regression: En Tegning y (løn) (x i1,x i2,y i ) (erf) x 2 β 0 +β 1 x 1 +β 2 x 2 x i1 x 1 (udd) 3/27

Multipel Lineær Regression: Generelt Antag vi har k forklarende variable x 1,x 2,...,x k, og den enlige afhængige variabel y. Vi vil undersøge hvordan de k x j er kan forklare y ved en multipel lineær regressionsmodel: y = β 0 +β 1 x 2 +β 2 x 2 + +β k x k +u, hvor β 0 er skæringspunktet. β 1 er regressionsparameteren for x 1, β 2 er regressionsparameteren for x 2, osv. Som ved simpel lineær regression antager vi E[u x 1,x 2,...,x k ] = 0, dvs. effekten af andre forklarende variable ud over x 1,...,x k er nul i gennemsnit. 4/27

OLS ligningen I tilfældet med to forklarende variable, kan OLS ligningen skrives som ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2, hvor ˆβ 0 er estimatet af β 0 osv. Estimationen af β 0, β 1 og β 2 baseres på data bestående af n observationer af y, x 1 og x 2. For den i te observation (fx. i te person) observerer vi den afhængige variabel y i, samt de forklarende variable x i1 og x i2. Eksempel: For den i te person har observeret løn i, udd i og erf i : løn i = ˆβ 0 + ˆβ 1 udd i + ˆβ 2 erf i. 5/27

Residualer og OLS estimatore Residualet for den i te oberservation er û i = y i ŷ i = y i ˆβ 0 ˆβ 1 x i1 ˆβ 2 x i2 OLS estimaterne ˆβ 0, ˆβ 1, og ˆβ 2 er bestemt ved at minimere summen af de kvadrede residualer: n n ûi 2 = (y i ˆβ 0 ˆβ 1 x i1 ˆβ 2 x i2 ) 2. i=1 i=1 Denne metode kaldes Mindste Kvadraters Metode, deraf navnet Ordinary Least Squares (OLS). Eksempel: I løn-eksemplet bliver det til n (løn i ˆβ 0 ˆβ 1 udd i ˆβ 2 erf i ) 2. i=1 6/27

Generelle tilfælde I det generelle tilfælde med k forklarende variable har vi ŷ i = ˆβ 0 + ˆβ 1 x i1 + + ˆβ k x ik, hvor estimaterne ˆβ 0, ˆβ 1,..., ˆβ k er fundet ved at minimiere udtrykket n (y i ˆβ 0 ˆβ 1 x i1 ˆβ k x ik ) 2. i=1 7/27

Fortolkning Fortolkning af regressionsligningen ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 Hvis vi ændrer x 1 med x 1 og x 2 med x 2, så er ændringen i prædiktionen ŷ ŷ = ˆβ 1 x 1 + ˆβ 2 x 2. Hvis vi kun ændrer x 1 med x 1, men holder x 2 fast, så er ændringen ŷ = ˆβ 1 x 1. 8/27

Partiel effekt I tilfældet med k forklarende variable har vi ŷ = ˆβ 0 + ˆβ 1 x 1 + + ˆβ k x k Hvis vi ændrer x j med x j og holder alle andrer forklarende variable fast, så er ændringen i prædiktionen af ŷ ŷ = ˆβ j x j. Denne forskel kaldes den partielle effekt. 9/27

Goodness-of-Fit Som ved simpel lineære regression kan vi definere SST = n i=1 (y i ȳ) 2 (Total Sum of Squares) SSE = n i=1 (ŷ i ȳ) 2 (Explained Sum of Squares) SSR = n i=1 (y i ŷ i ) 2 = n i=1û2 i (Residual Sum of Squares) Som sidst kan vi splitte den totale variation af y i erne (SST) op i to dele SST = SSE +SSR, hvor SSE er den forklarede del af variationen og SSR er den uforklarede del af variationen i y i erne. 10/27

Goodness-of-Fit forts. Vi kan definere determinations-koefficienten R 2 som andelen af den totale variation (SST), der er forklaret (SSE): R 2 = SSE SST = 1 SSR SST. Bemærk: R 2 er også den kvadrede stikprøve-korrelation mellem y i og ŷ i. Jo mere korrelerede de observerede og prædikterede værdier er, jo højere er R 2. 11/27

Antagelser For at kunne vise, at vores OLS estimatorer er centrale/unbiased må vi gøre nogle antagelser (MLR.1 til MLR.4). Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 +β 1 x 1 +β 2 x 2 + +β k x k +u, hvor β 0,β 1,β 2,...,β k er ukendte parametere, og u er et uobserveret fejlled. Bemærk strukturen: En sum af β er, hver ganget med en konstant (1 for β 0 s vedkommende og x j for β j s vedkommede). Alternativ (for de kompakte) kan man skrive k y = β j x j, hvor x 0 = 1. j=0 12/27

Antagelse: Tilfældig stikprøve Antagelse MLR.2 (Tilfældig stikprøve) Vi har en tilfældig stikprøve, bestående af n observationer {(x i1,x i2,...,x ik,y i ) : i = 1,2,...,n}, der følger modellen i MLR.1. Bemærk: Her er den støreste fare, at der opstår en systematik i u erne, fx. hvis observationerne er indsamlet over tid. 13/27

Antagelse: Ingen perfekt kolinearitet Antagelse MLR.3 (Ingen perfekt kolinearitet) I stikprøven er ingen forklarende variable konstante, og der er ikke en perfekt lineær sammenhæng mellem de forklarende variable. Spørgsmål: Hvor er perfekt kolinearitet et problem? Antag k = 2 og at x 2 = ax 1, dvs. der er perfekt kolinearitet mellem x 1 og x 2. Vi kan finde et andet sæt estimater: ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 ax 1 = ˆβ 0 +(ˆβ 1 + ˆβ 2 a)x 1 +0 x 2 Faktisk er der uendelig mange lige gode estimater. 14/27

At opfylde MLR.3 er sædvanligvis ikke et problem; men MLR.3 er aldrig opfyldt, hvis n < k +1. 15/27

Antagelse: Betinget nul-middelværdi Antagelse MLR.4 (Betinget middelværdi er nul) Fejlledet u er forventet værdi på nul for alle værdier af de forklarende variable E[u x 1,...,x k ] = 0. En konsekvens af antagelserne MLR.1 til MLR.4 er at E[y x 1,x 2,...,x k ] = β 0 +β 1 x 1 + +β k x k. Dvs. regressions(hyper)planet beskriver, hvad den forventede værdi er. 16/27

Centrale estimatore Sætning 3.1 (OLS estimatorene er centrale) Under antagelse af MLR.1 til MLR.4 gælder for alle værdier af β j. E[ˆβ j ] = β j, j = 1,2,...,k, Bemærk: alle værdier af β j inkluderer β j = 0, dvs. den forklarende variabel x j har ingen forklarende betydning for y. Dvs. selv hvis vi inkluderer en ikke-relevant forklarende variabel, så påvirkerer det ikke centraliteteten. Det påvirker derimod variansen... 17/27

Effekten af at inkludere irrelevant variabel Antag vi har model y = β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 +u, og modellen opfylder MLR.1 til MLR.4. Antag x 3 ikke har nogen effekt når x 1 og x 2 er med, dvs. β 3 = 0. Vi har E[y x 1,x 2,x 3 ] = E[y x 1,x 2 ]. Uvidende om x 3 s irrelevans estimerer vi den store model og får ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + ˆβ 3 x 3. Pga. sætning 3.1 er estimater stadig centrale, dvs. centraliteten er upåvirket af x 3. Variansen er derimod påvirket... 18/27

Effekten af en ekstra variabel Antag vi har afhængig variabel y og to forklarende variable x 1 og x 2. En lineær regression af y mod x 1 giver ỹ = β 0 + β 1 x 1. En lineær regression af y mod x 1 og x 2 giver ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 (1) Spørgsmål: Hvornår er β 1 = ˆβ 1? Dvs. hvornår er den estimerede effekt af x 1 på y upåvirket af om x 2 er med eller ej? Først undersøger vi hvordan x 2 afhænger af x 1... 19/27

Effekten af en ekstra variabel (fortsat) Foretag en lineær regression af x 2 mod x 1, hvilket giver x 2 = δ 0 + δ 1 x 1. Hvis vi indsætter x 2 på x 2 s plads i (1) følger det, at β 1 = ˆβ 1 + ˆβ 2 δ 1. Vi opnår β 1 = ˆβ 1 (samme effekt af x 1 ) hvis enten 1. x 2 ingen partiel effekt har på ŷ, dvs. ˆβ 2 = 0. 2. x 1 and x 2 er ukorrelede i stikprøven, dvs. δ 1 = 0. Budskab: Selvom man har estimeret effekten af fx. x 1, så er det typisk ikke det endegyldige bud på den sande effekt. 20/27

Antagelse: Homoskedastiske fejlled Antagelse MLR.5 (Homoskedastiske fejlled) Fejlledet u har samme varians for alle værdier af de forklarende variable. Mao. Var[u x 1,x 2,...,x k ] = σ 2. Af antagelserne MLR.1 til MLR.4 følger at E[y x 1,x 2,...,x k ] = β 0 +β 1 x 1 + +β k x k og antagelse MLR.5 medfører desuden at Var[y x 1,...,x k ] = σ 2 21/27

Variansen af Estimatorene Sætning 3.2 (Variansen af OLS estimatorerne) Under antagelse MLR.1 til MLR.5, og betinget på stikeprøvens forklarende variable, har vi for j = 1,...,k, hvor Var[ˆβ j ] = σ 2 SST j (1 R 2 j ), SST j = n (x ij x j ) 2 i=1 er den totale variation af x j erne i stikprøven, og R 2 j er determinations-koefficenent opnået ved at foretaget en multipel lineære regression af x j mod de andre forklarende variable. 22/27

Variansen af Estimatorene Variasen af estimatoren ˆβ j er altså Var[ˆβ j ] = σ 2 SST j (1 R 2 j ). Vi vil gerne have at variansen er så lille som mulig, da det er ensbetydense med mere præcise estimater. Vi kan mindske variansen Var[ˆβ j ] på to måder: 1. Vi kan øge SST j. Det kan ske enten ved at i) have en større variation i x j erne eller ii) øge antallet af observationer n. 2. Vi kan reducere Rj 2, hvilket typisk svært. Fx. ved at fjerne forklarende variable, men det er i sig selv ikke uden problemer... 23/27

Variansen af Estimatorene Variasen af estimatoren ˆβ j er altså Var[ˆβ j ] = σ 2 SST j (1 R 2 j ). Vi vil gerne have at variansen er så lille som mulig, da det er ensbetydense med mere præcise estimater. Bemærk: Jo nærmere x j er på en perfekt lineær relation til de andre forklarende variable, jo nærmere er R 2 j på 1, hvilket forøger variansen af ˆβ j markant. Dvs., hvis vi tilføjer en ny variabel til model, som intet nyt tilføjer, så har vi stadig centralitet, men variansen af estimatorene vil typisk øges, dvs. mere upræcise estimater. 24/27

Estimation af σ 2 Fejlledsvariansen σ 2 er ukendt, men kan estimeres: Sætning 3.3 (Central estimator for fejlleds-variansen σ 2 ) Under Gauss-Markov antagelserne MLR.1 til MLR.5 er n ˆσ 2 = i=1û2 i n k 1 en central estimator af σ 2, dvs. E[ˆσ 2 ] = σ 2. Bemærk: Antal frihedsgrader, n k 1 er antallet af observationer (n) minus antal parametere i modellen (k + 1, dvs. β 0,β 1,...,β k ). 25/27

Lineære estimatore Vores estimatore ˆβ 0,..., ˆβ k er såkaldte lineære estimatore. Definition: Lineær estimator En estimator β j er lineær, hvis den er på formen β j = n w ij y i, i=1 hvor hver af w ij erne kan være en funktion af alle x ij erne. Eksempel: Ved simpel lineær regression har vi hvor n i=1 ˆβ 1 = (x i x)y i n n i=1 (x i x) 2 = w i1 y i, w i1 = i=1 (x i x) n i=1 (x i x) 2. 26/27

Gauss-Markov Sætningen Sætning 3.4 (Gauss-Markov Sætningen) Under antagelserne MLR.1 til MLR.5 er OLS estimatorene ˆβ 0, ˆβ 1,..., ˆβ k de bedste lineære, unbiased estimatore for β 0,β 1,...,β k. Med bedste mener vi her, at for alle lineære, unbiased estimatore β j gælder Var[ˆβ j ] Var[ β j ], dvs. OLS estimatorene har mindst mulig varians blandt alle lineære, unbiased estimatore. På engelsk BLUE (Best Linear Unbiased Estimator). 27/27