Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Transkript

1 Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og b som to n 1 matricer. b 1 a b = [ ] b 2 a 1 a 2 a n a 1b 1 + a 2 b 2 + a n b n = b n n a i b i. i=1 1 / 28 2 / 28 Multipel Lineære Regression Den i te observation fra en multipel lineære regressions model skrives som y i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik + u i, hvor x ij er værdien af den j te forklarende variable hørende til den i te observation. For den i ter observation definer en 1 (k + 1) rækkevektor x i = [ 1 x i1 x i2 x ik ] Bemærk vi har x i0 = 1. Definer parameter (søjle)vektor β = [ β 0 β 1 β 2 β k ] Vi har nu y i = k x ij β j + u i = x i β + u i. j=0 Som matrix-ligning For hvert i = 1,..., n har vi y i = x i β + u i. y 1 x 1 β + u 1 x 1 u 1 y 2 x 2 β + u 2 x 2. β + u 2. y n x n β + u n x n u n Hvilket kan skrives som y = Xβ + u, hvor y og u er n 1 søjle-vektorer og X er en n (k + 1) matrix. Matricen X kaldes også design-matricen. 3 / 28 4 / 28

2 Design-matricen Design-matricen er en n (k + 1) matrice, bestående af værdiene for de k forklarende variable for de n observationer. x 1 1 x 11 x 12 x 1k x 2 X = 1 x 21 x 22 x 2k. = [ x (0) x (1) x (2) x (k)], x n 1 x n1 x n2 x nk hvor x 1j x (j) x 2j =. er en søjle-vektor af de n værdier for den j te forklarende variabel. x nj Estimationsstrategi Vores model: y = Xβ + u Lad ˆβ være et estimat af den sande, men ukendte parameter β Definer den prædikterede værdi som ŷ i = x i ˆβ og residual vektoren som û i = y i ŷ i = y i x i ˆβ. Summen af de kvadrerede residualer er n n RSS = ûi 2 = (y i x i ˆβ) 2 i=1 i=1 Vi vil finde ˆβ så RSS er mindst mulig! 5 / 28 6 / 28 Minimere RSS Vi har altså RSS = n i=1 (y i x i ˆβ) 2. For at minimere differentierer vi mht. ˆβ og sætter lig nul: RSS ˆβ Det kan vi skrive om til = 2 som igen kan skrives om til n x i(y i x i ˆβ) = 0 i=1 X (y X ˆβ) = 0 Repetition: Invertible matricer En kvadratisk matrix A er invertibel, hvis der findes en matrix A 1, så AA 1 = A 1 A = I, hvor I er identitets-matricen. Hvis alle søjler i X er lineært uafhængige (MLR.3), så er X X invertibel med symmetrisk invers matrix (X X) 1. Dvs. (X X)(X X) 1 = (X X) 1 (X X) = I. Matricerne X X og (X X) 1 er desuden symmetriske. Vi skal bare have isoleret ˆβ. X y = X X ˆβ. 7 / 28 8 / 28

3 Repetition: Lineær uafhængighed Tilbage på sporet Defintion: Linært uafhængighe vektorer Vektore x (0), x (1), x (2),..., x (k) er lineært uafhængige, hvis og kun hvis den eneste løsning til a 0 x (0) + a 1 x (1) + a 2 x (2) + + a k x (k) = 0, er at a 0 = a 1 = = a n = 0. Eksempel: Hvis x (1) og x (2) er prisen i hhv. euro og dollar, så har vi lineær afhængighed. I almindeligehed er dette ikke et problem. Men er to eller flere søjler tæt på at være lineært afhængige, så kan variansen af de tilsvarende estimatore være store. Vi finder OLS estimatet ˆβ ved at løse ligningen X y = X X ˆβ. Antag at X X er invertibel. Da har vi X X ˆβ = Xy (X X) 1 X X ˆβ = (X X) 1 Xy ˆβ = (X X) 1 Xy Da vi har fundet ˆβ ved at minimere RSS = n i=1 û2 i kaldes ˆβ en OLS (Ordinarly Least Squares) estimator. 9 / / 28 Middelværdi for stokastisk vektor Lad z 1,..., z n være stokastiske variable, hvor E[z i ] = µ i. Definer stokastisk (søjle)vektor z = [z 1 z 2 z n ]. Den forventede værdi af z er E[z 1 ] µ 1 E[z 2 ] E[z] = µ 2 µ E[z n ] µ n Lad A være en k n ikke-stokastisk matrix og b være en k 1 ikke-stokastisk vektor. Da gælder E[Az + b] = AE[z] + b. Varians for stokastiske vektorer Antag z er en n 1 stokastisk vektor med middelværdi E[z] = µ. Varians-kovarians-matricen Varians-kovarians-matricen for stokastisk vektor z er en n n matrix givet ved Σ = Var[z] = E[(z µ)(z µ) ]. Lad σ ij = Cov(z i, z j ) være kovariansen mellem z i og z j. Da gælder σ 2 1 σ 12 σ 1n σ 21 σ2 2 σ 2n Var[z] =., σ n1 σ n2 σn 2 hvor σ 2 i = σ ii = Cov(z i, z i ) = Var[z i ]. 11 / / 28

4 Regneregler for Varians Antagelser Lad A være en k n ikke-stokastisk matrix og b være en k 1 ikke stokastisk vektor. Da gælder Var[Az + b] = AVar[z]A. Antagelse E.1 (Lineær i parametrene) Modellen kan skrives som y = Xβ + u. Antagelse E.2 (Ingen perfekt kolinearitet) Design-matricen X har fuld rang. Antagelse E.3 (Betinget nul-middelværdi) De betingede middelværdier E[u i X] = 0 for i = 0,..., n. 13 / / 28 Sætning E.1: (OLS estimaterne er unbiased) Under antagelserne E.1 til E.3 er OLS estimatoren ˆβ unbiased. Bevis: Vi har ˆβ = (X X) 1 X y = (X X) 1 X (Xβ + u) = (X X) 1 (X X)β + (X X) 1 X u = β + (X X) 1 X u. Den betingede middelværdien af ˆβ givet X er da E[ ˆβ X] = β + (X X) 1 X E[u X] = β + (X X) 1 X 0 = β. Som i MLR.5 har vi brug for at antage at alle fejlled har samme varians: Antagelse E.4 (Homoskedastiske fejlled) (i) Var(u i X) = σ 2, i = 1,..., n, (ii) Cov(u i, u s X) = 0, for alle t s. På matrix form kan disse to antagelse skrives som σ σ 2 0 Var(u X) =. = σ2 I, 0 0 σ 2 hvor I er n n identitets matricen. 15 / / 28

5 Kovarians-matricen for OLS estimatoren Sætning E.2: (Kovarians-matricen for OLS estimatoren) Under antagelse E.1 til E.4 har vi Var[ ˆβ X] = σ 2 (X X) 1. Bevis: Var[ ˆβ X] = Var[(X X) 1 X (Xβ + u) X] = (X X) 1 X Var[u X]((X X) 1 X ) = (X X) 1 X Var[u X]X(X X) 1 = (X X) 1 X (σ 2 I)X(X X) 1 = σ 2 (X X) 1 X X(X X) 1 = σ 2 (X X) 1 Normalfordelte fejlled Sidst gennemgik vi antagelserne MLR.1 til MLR.5 der gav os estimatore for β i erne og σ 2 der var unbiased. Nu vi vil gerne teste hypoteser som H 0 : β 1 = 0 vs H 1 : β 1 0. Hypotesetest kræver en fordelingsantagelse: Antagelse MLR.6 (Normalfordelte fejlled) Fejlledene u i er indbyrdes uafhængige og uafhængige af de forklarende variable x 1, x 2,..., x n og er normalfordelte med middelværdi nul og fælles varians σ 2 : u i N (0, σ 2 ). Med mindre alle søjlerne X er vinkelrette på hinanden, så vil der være en korrelation mellem de enkelte ˆβ j er. 17 / / 28 Normalfordelte estimatore Sætning 4.1: (Normalfordelte estimatore) Under antaglese MLR.1 til MLR.6 og betinget af de forklarende variable har vi: ˆβ j N (β j, Var[ ˆβ j ]), hvor Var[ ˆβ j ] = σ 2 /(SST j (1 Rj 2 )). Hvis vi standardiserer får vi ˆβ j β j N (0, 1). Var[ ˆβ j ] Bemærk: Vi har benyttet den ukendte varians σ 2. Normaltfordelte estimatore: Matrix-vejen Antagelsen om at u i erne er uafhængige og u i N (0, σ 2 ) kan skrives som u N n (0, σ 2 I). N n er notation for en n dimensional normalfordeling. Vi har fra tidligere ˆβ = (X X) 1 X y = (X X) 1 X (Xβ + u) = β + (X X) 1 X u. Vi kender allerede middelværdi og varians for ˆβ, så da en lineær transformation af en normalfordelt stokastisk vektor også er normalfordelt har vi ˆβ N k+1 ( β, σ 2 (X X) 1). 19 / / 28

6 z Eksempel på to-dimensional normalfordeling To dimensional Normalfordeling t-fordelte standardiserede estimatore Hvis vi erstatter den ukendte varians σ 2 med vores estimator ˆσ 2 ender vi med en t-fordeling: x1 x Sætning 4.2: (t fordelte standardiserede estimatore) Under antagelse MLR.1 til MLR.6 gælder ˆβ j β j se( ˆβ j ) t n k 1, hvor de n k 1 er antallet af frihedsgrader. De k + 1 svarer til antallet af ukendte β j er i modellen. Ovenfor har vi brugt standardfejlen (standard error): se( ˆβ j ) = ˆσ 2 /(SST j (1 Rj 2)) Bemærk: se( ˆβ j ) er et konsistent estimat af Var( ˆβ j ). 21 / / 28 Hypotese-test Vi vil gerne teste hypotesen H 0 : β j = 0 H 1 : β j 0 Nul-hypotesen siger at x j ikke har noget betydning for y, når der er taget højde for alle de andre forklarende variable. Under antagelse af MLR.1 til MLR.6 og at H 0 er sand har vi p-værdier Definition: (p-værdi) En p-værdi er sandsynligheden for at observere en mindst lige så ekstrem teststørrelse næste gang, hvis alle modelantagelser (fx. MLR.1 til MLR.6) er opfyldt og H 0 er sand. Antag T t n k 1, da er p-værdien hørende til H 0 : β j = 0 vs H 1 : β j 0 givet ved t ˆβ j ˆβ j se[ ˆβ j ] t n k 1. P[ T > t ˆβ j ] t ˆβj 0 t ˆβj T Bemærk: t ˆβ j er et eksempel på en teststørrelse. Bemærk: jo længere t ˆβ j er fra nul, jo mindre tror vi på H 0. Beslutning: Hvis p-værdien er mindre end vores signifikans-niveau α, så afviser vi H 0 ellers er konklsusionen, at vi ikke kan afvise H 0. Typisk vælger vi signifikans-niveauet til α = / / 28

7 R-eksempel Datasættet lilleby indeholder oplysninger om bl.a. højde, alder og vægt for 50 tilfældigt udvalgte københavnere. Vi vil analysere modellen vaegt β 0 + β 1 hoejde + β 2 alder + u. Det gør vi i R med kommadoen model = lm(vaegt ~ hoejde + alder, data=lilleby) Resultater Som sidst opsummeres modellen og resultater med summary(model): Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** hoejde e-07 *** alder ** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 47 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 2 and 47 DF, p-value: 3.631e-07 Vi kan bl.a. se ˆβ 0 = og t ˆβ j = / = Hypotese test af H 0 : β 0 = 0 vs H 1 : β 0 0 har p-værdi på , dvs. vi afviser nul-hypotesen. Bemærk også at vi har 47 firhedsgrader (n k 1 = ). 25 / / 28 En-sidet test Konfidensintervaller Antag vi ønsker at teste følgende hypoteser H 0 : β j 0 H 1 : β j < 0 I dette tilfælde, jo mindre t ˆβ j er, jo mindre tror vi på H 0. Hvis T t n k 1, så er p-værdien givet ved P[T < t ˆβ j ] t ˆβj 0 T Bemærk: R returnerer altid P[ T > t ˆβ j ] (svarende til H 0 : β j = 0 vs H 1 : β j 0). Hvis man laver en lille tegning kan man nemt finde ovestående sandsynlighed. Definition: Konfidensinterval for β j Et (1 α)100% kofidensinterval for β j er givet ved ˆβ j ± t n k 1,α/2 se( ˆβ j ), hvor t n k 1,α/2 er (α/2)100% fraktilen i en t-fordeling med n k 1 frihedsgrader. I R: confint(model,level=0.95), hvor model er modellen. Bemærk: Antag vi vil teste hypotesen H 0 : β j = K H 1 : β j K Hvis afviser H 0 hypotesen, hvis K falder udenfor (1 α)100% kofidensintervallet, så svarer det til at teste på normal vis med et signifikans-niveau på α. 27 / / 28