Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x] = β 0 +β 1 x, dvs. at den gennemsnitlige sammenhæng mellem x og y er beskrevet ved en ret linje. 2/33

Simpel Lineær Regression: Estimation Vi kan estimere de ukendte regressions-parametre β 0 og β 1 ved OLS estimaterne ˆβ 0 = ȳ ˆβ 1 x og ˆβ 1 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 Disse estimater er centrale under antagelse SLR.1 til SLR.4, dvs. E[ˆβ 0 ] = β 0 og E[ˆβ 1 ] = β 1. Bemærk at stikprøve-korrelationen mellem x og y er n (x i x)(y i ȳ). i=1 Dvs. ingen korrelation mellem x og y er det samme som β 1 = 0. 3/33

Den estimerede regression-linje skirves ŷ = ˆβ 0 + ˆβ 1 x Den prædikterede værdi for i te observation y i er ŷ i = ˆβ 0 + ˆβ 1 x i. Residualet er forskellen mellem det observerede og prædikterede: û i = y i ŷ i = y i ˆβ 0 ˆβ 1 x i. 4/33

Ikke-liniær sammenhæng Nogle gange er en liniær sammenhæng ikke den mest passende. Antag at vi har hvor u er et fejlled. y = β 0 β x 1u, Ser vi bort fra u-ledet, så er y ekoponentielt voksende som en funktion af x. Tager vi nu den naturlige logaritme på begge sider af lighedstegnet får vi ln(y) = ln(β 0 )+ln(β 1 )x +ln(u) = β 0 + β 1 x +ũ Vi kan nu udføre simpel linære regression af ln(y) mod x, bl.a. under antagelse af at E[ũ x] = 0. 5/33

Fortolkning Vi har den estimerede ligning ln(y) = ˆβ 0 + ˆβ 1 x. Hvor meget ændrer y sig når x ændrer sig? ln(y efter ) ln(y før ) = ˆβ 1 (x efter x før ). Bemærk at ln(y) y 1 når y 1, så vi omskriver: ( ) yefter ln y efter 1 ˆβ 1 x y før y før y efter (1+ ˆβ 1 x)y før. Dvs. når x øges med x, så øges ŷ med cirka (ˆβ 1 x)100%. 6/33

Multipel Lineær Regression Der er intet, der forhindre os i at have mere end en forklarende variabel, fx. to: y = β 0 +β 1 x 1 +β 2 x 2 +u, hvor fejlledet igen har middelværdi nul uanset værdien af x 1 og x 2, dvs. E[u x 1,x 2 ] = 0. Eksempel: Det kan tænkes at løn ikke kun afhænger af års uddannelse (udd), men også års erfarring (erf): løn = β 0 +β 1 udd +β 2 erf +u. Vi kan også bruge forskellige tranformationer løn = β 0 +β 1 ln(udd)+β 2 erf +β 3 (erf) 2 +u. 7/33

Multipel Lineær Regression: En Tegning y x 2 x 1 8/33

Multipel Lineær Regression: Generelt Antag vi har k forklarende variable x 1,x 2,...,x k, og den enlige afhængige variabel y. Vi vil undersøge hvordan de k x j er kan forklare y ved en multipel lineær regressionsmodel: y = β 0 +β 1 x 2 +β 2 x 2 + +β k x k +u, hvor β 0 er skæringspunktet. β 1 er regressionsparameteren for x 1, β 2 er regressionsparameteren for x 2, osv. Som ved simpel lineær regression antager vi E[u x 1,x 2,...,x k ] = 0, dvs. effekten af andre forklarende variable ud over x 1,...,x k er nul i gennemsnit. 9/33

OLS ligningen I tilfældet med to forklarende variable, kan OLS ligningen skrives som ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2, hvor ˆβ 0 er estimatet af β 0 osv. Estimationen af β 0, β 1 og β 2 baseres på data bestående af n observationer af y, x 1 og x 2. For den i te observation (fx. i te person) observerer vi den afhængige variabel y i, samt de forklarende variable x i1 og x i2. I eksemplet observer vi for den i te person løn i, udd i og erf i : løn i = ˆβ 0 + ˆβ 1 udd i + ˆβ 2 erf i. 10/33

Resdualer og OLS estimatore Residualet for den i te oberservation er û i = y i ŷ i = y i ˆβ 0 ˆβ 1 x i1 ˆβ 2 x i2 OLS estimaterne ˆβ 0, ˆβ 1, og ˆβ 2 er bestemt ved at minimere summen af de kvadrede residualer: n ûi 2 = i=1 n (y i ˆβ 0 ˆβ 1 x i1 ˆβ 2 x i2 ) 2. i=1 Denne metode kaldes Mindste Kvadraters Metode, deraf navnet Ordinary Least Squares (OLS). I løn eksemplet bliver det til n (løn i ˆβ 0 ˆβ 1 udd i ˆβ 2 erf i ) 2. i= 11/33

Generelle tilfælde I det generelle tilfælde med k forklarende variable har vi ŷ i = ˆβ 0 + ˆβ 1 x i1 + + ˆβ k x ik, hvor estimaterne ˆβ 0, ˆβ 1,..., ˆβ k er fundet ved at minimiere udtrykket n (y i ˆβ 0 ˆβ 1 x i1 ˆβ k x ik ) 2. i=1 12/33

Fortolkning Fortolkning af regressionsligningen ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 Hvis vi ændrer x 1 med x 1 og x 2 med x 2, så er ændringen i prædiktionen ŷ ŷ = ˆβ 1 x 1 + ˆβ 2 x 2. Hvis vi kun ændrer x 1 med x 1, men holder x 2 fast, så er ændringen ŷ = ˆβ 1 x 1. 13/33

I tilfældet med k forklarende variable har vi ŷ = ˆβ 0 + ˆβ 1 x 1 + + ˆβ 2 x 2 Hvis vi ændrer x j med x j og holder alle andrer forklarende variable fast, så er ændringen i prædiktionen af ŷ ŷ = ˆβ j x j. 14/33

Sammenligning af SLR og MLR Antag vi har afhængig variabel y for to forklarende variable x 1 og x 2. Simpel lineær regression af y mod x 1 giver ỹ = β 0 + β 1 x 1 Multipel lineær regression af y mod x 1 og x 2 giver ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 Hvornår er β 1 = ˆβ 1, dvs. hvornår er den estimterede effekt af x 1 på y upåvirket af om x 2 er med eller ej? Foretag en lineær regression af x 1 mod x 1, hvilket giver x 2 = δ 0 + δ 1 x 1. 15/33

Sammenligning af SLR og MLR forts Vi har altså β 1 = ˆβ 1 + ˆβ 2 δ 1. Vi opnår β 1 = ˆβ 1 hvis enten 1. x 2 ingen (partiel) effekt har på ŷ, dvs. ˆβ2 = 0. 2. x 1 and x 2 er ukorrelede i stikprøven, dvs. δ 1 = 0. 16/33

Goodness-of-Fit Som ved simpel lineære regression kan vi definere SST = n i=1 (y i ȳ) 2 (Total Sum of Squares) SSE = n i=1 (ŷ i ȳ) 2 (Explained Sum of Squares) SSR = n i=1 (y i ŷ i ) 2 = n i=1û2 i (Residual Sum of Squares) Som sidst kan vi splitte den totale variation af y i erne (SST) op i to dele SST = SSE +SSR, hvor SSE er den forklarede del af variationen og SSR er den uforklarede del af variationen i y i erne. 17/33

Goodness-of-Fit forts. Vi kan definere determinationskoefficianten R 2 som andelen af den totale variation (SST), der er forklaret (SSE): R 2 = SSE SST = 1 SSR SST. Bemærk: R 2 er også den kvadrede stikprøve korrelation mellem y i og ŷ i. Jo mere korrelerede de prædikterede værdier og der observerede værdier er, jo højere er R 2. 18/33

Antagelser For at kunne vise, at vores OLS estimatorer er centrale/unbiased må vi gøre nogle antagelser (MLR.1 til MLR.4). Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 +β 1 x 1 +β 2 x 2 + +β k x k, hvor β 0,β 1,β 2,...,β k er ukendte parametere, og u er et uobserveret fejlled. Bemærk strukturen: En sum af β er, hver ganget med en konstant (1 for β 0 s vedkommende og x j for β j s vedkommede). Alternativ (for de dovne) kan man skrive k y = β j x j, hvor x 0 = 1. j=0 19/33

Antagelse: Tilfældig stikprøve Antagelse MLR.2 (Tilfældig stikprøve) Vi har en tilfældig stikprøve, bestående af n observationer {(x i1,x i2,...,x ik,y) : i = 1,2,...,n}, der følger modellen i MLR.1. Bemærk: Her er den støreste fare, at der opstår en systematik i u erne, fx. hvis observationerne er indsamlet over tid. 20/33

Antagelse: Ingen perfekt kolinearitet Antagelse MLR.3 (Ingen perfekt kolinearitet) I stikprøven er ingen forklarende variable konstante, og der er ikke en perfekt lineær sammenhæng mellem de forklarende variable. Illustration: Antag k = 2 og at x 1 = ax 2, dvs. der er en perfekt lineære sammenhæng mellem x 1 og x 2. Hvis vi har et sæt OLS estimater: ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2, så findes der også endnu et sæt estimater: ( ) ˆβ 1 (1 b)a ŷ = ˆβ 0 +(bˆβ 1 )x 1 + +1 ˆβ 2 x 2. ˆβ 2 Faktisk er der uendelig mange lige gode estimater. 21/33

At opfylde MLR.3 er sædvanligvis ikke et problem; men MLR.3 er aldrig opfyldt, hvis n < k +1. 22/33

Antagelse: Betinget nul-middelværdi Antagelse MLR.4 (Betinget middelværdi er nul) Fejlledet u er forventet værdi på nul for alle værdier af de forklarende variable E[u x 1,...,x k ] = 0. En konsekvens af antagelserne MLR.1 til MLR.4 er at E[y x 1,x 2,...,x k ] = β 0 +β 1 x 1 + +β k x k. 23/33

Centrale estimatore Sætning 3.1 (OLS estimatorene er centrale) Under antagelse af MLR.1 til MLR.4 for alle værdier af β j. E[ˆβ j ] = β j, j = 1,2,...,k, Bemærk: alle værdier af β j inkluderer β j = 0, dvs. den forklarende variabel x j har ingen forklarende betydning for y. Dvs. selv hvis vi inkluderer en ikke-relevant forklarende variabel, så påvirkerer det ikke centraliteteten. Det påvirker derimod variansen... 24/33

Effekten af at inkludere irrelevant variabel Antag vi har model y = β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 +u, og modellen opfylder MLR.1 til MLR.4. Antag x 3 ikke har nogen effekt når x 1 og x 2 er med, dvs. β 3 = 0. Vi har E[y x 1,x 2,x 3 ] = E[y x 1,x 2 ]. Uvidende om x 3 s irrelevans estimerer vi den store model og får ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + ˆβ 3 x 3. Pga. sætning 3.1 er estimater stadig centrale, dvs. centraliteten er upåvirket af x 3. Variansen er derimod... 25/33

Effekten af at fjerne relevant variabel Antag den korrekte model er y = β 0 +β 1 x 2 +β 2 x 2 +u. Hvis vi glemmer x 2 og foretager en regression af y mod x 1 får vi Vi ved fra tidligere at derfor får vi ỹ = β 0 + β 1 x 1. β 1 = ˆβ 1 + ˆβ 2 δ 1, E[ β 1 ] = E[ˆβ 1 + ˆβ 2 δ 1 ] = E[ˆβ 1 ]+E[ˆβ 2 ] δ 1 = β 1 +β 2 δ 1. Da x 2 er relevant er β 2 0, dvs. β 1 er unbiased, hvis δ 1 = 0, hvilket sker, hvis stikprøvekorrelationen mellem x 1 og x 2 er nul. 26/33

Antagelse: Homoskedastiske fejlled Antagelse MLR.5 (Homoskedastiske fejlled) Fejlledet u har samme varians for alle værdier af de forklarende variable. Mao. Var[u x 1,x 2,...,x k ] = σ 2. Af antagelserne MLR.1 til MLR.4 følger at E[y x 1,x 2,...,x k ] = β 0 +β 1 x 1 + +β k x k og antagelse MLR.5 medfører desuden at Var[y x 1,...,x k ] = σ 2 27/33

Variansen af Estimatorene Sætning 3.2 (Variansen af OLS estimatorerne) Under antagelse MLR.1 til MLR.5, og betinget på stikeprøvens forklarende variable, har vi for j = 1,...,k, hvor Var[ˆβ j ] = σ 2 SST j (1 R 2 j ), SST j = n (x ij x j ) 2 i=1 er den totale variation af x j erne i stikprøven, og R 2 j er determinations-koefficenent opnået ved at foretaget en multipel lineære regression af x j mod de andre forklarende variable. 28/33

Variansen af Estimatorene Variasen af estimatoren ˆβ j er altså Var[ˆβ j ] = σ 2 SST j (1 R 2 j ). Vi vil gerne have at variansen er så lille som mulig, da det er ensbetydense med mere præcise estimater. Vi kan mindske variansen Var[ˆβ j ] på to måder: 1. Vi kan øge SST j. Det kan ske enten ved at i) have en større variation i x j erne eller ii) øge antallet af observationer n. 2. Vi kan reducere Rj 2, hvilket typisk svært. Fx. ved at fjerne forklarende variable, men det er i sig selv ikke uden problemer... 29/33

Variansen af Estimatorene Variasen af estimatoren ˆβ j er altså Var[ˆβ j ] = σ 2 SST j (1 R 2 j ). Vi vil gerne have at variansen er så lille som mulig, da det er ensbetydense med mere præcise estimater. Bemærk: Jo nærmere x j er på en perfekt lineær relation til de andre forklarende variable, jo nærmere er R 2 j på 1, hvilket forøger variansen af ˆβ j markant. Dvs., hvis vi tilføjer en ny variabel til model, som intet nyt tilføjer, så har vi stadig centralitet, men variansen af estimatorene vil typisk øges, dvs. mere upræcise estimater. 30/33

Estimation af σ 2 Sætning 3.3 (Central estimator for fejlleds-varaisen σ 2 ) Under Gauss-Markov antagelserne MLR.1 til MLR.5 er n ˆσ 2 = i=1û2 i n k 1 en central estimator af σ 2, dvs. E[ˆσ 2 ] = σ 2. Bemærk: Antal frihedsgrader, n k 1 er antallet af observationer (n) minus antal parametere i modellem (k + 1, dvs. β 0,β 1,...,β k ). 31/33

Lineære estimatore Vores estimatore ˆβ 0,..., ˆβ k er såkaldte lineære estimatore. Definition: Lineær estimator En estimator β j er lineær, hvis den er på formen β j = n w ij y i, i=1 hvor hver af w ij erne kan være en funktion af alle x ij erne. Eksempel: Ved simpel lineær regression har vi hvor n i=1 ˆβ 1 = (x i x)y i n n i=1 (x i x) 2 = w i y i, w i = i=1 (x i x) n i=1 (x i x) 2. 32/33

Gauss-Markov Sætningen Sætning 3.4 (Gauss-Markov Sætningen) Under antagelserne MLR.1 til MLR.5 er OLS estimatorene ˆβ 0, ˆβ 1,..., ˆβ n de bedste lineære, unbiased estimatore for β 0,β 1,...,β n. Med bedste mener vi her, at for alle lineære, unbiased estimatore β j gælder Var[ˆβ j ] Var[ β j ], dvs. OLS estimatorene har mindst varians. På engelsk BLUE (Best Linear Unbiased Estimator). 33/33