MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere, og u er et uobserveret fejlled. Antagelse MLR.2 (Tilfældig stikprøve) Antagelse MLR.3 (Ingen perfekt kolinearitet) Antagelse MLR.4 (Betingel middelværdi er nul) Antagelse MLR.5 (Homoskedastiske fejlled)
Sætninger Vores OLS estimator er opnået ved at minimere RSS = n i=1 û2 i. Sætning 3.1 (OLS estimatorene er centrale) Under antagelse MLR.1 til MLR.4 E[ˆβ j ] = β j, j = 1, 2,...,k, for alle værdier af β j. Sætning 3.2 (Variansen af OLS estimatorerne) Under antagelse MLR.1 til MLR.5, og betinget på stikeprøvens forklarende variable, har vi Var[ˆβ j ] = σ 2 SST j (1 R 2 j ). Vi mangler at vise, at vi ikke kan gøre det bedre!
Lineære estimatore Vores estimatore ˆβ 0,..., ˆβ k er såkaldte lineære estimatore. Generelt er en estimator β j lineær, hvis den er på formen β j = n w ij y i, i=1 hvor hver af w ij erne kan være en funktion af alle x ij erne. Eksempel: Ved simpel lineær regression har vi n i=1 ˆβ 1 = (x i x)y i n n i=1 (x i x) 2 = w i y i, i=1 hvor w i = (x i x) n i=1 (x i x) 2.
Gauss-Markov Sætningen Under antagelserne MLR.1 til MLR.5 er OLS estimatorene de bedste centrale, lineære estimatore. Med bedste mener vi her, at for alle unbiased, centrale estimatore β j gælder Var[ˆβ j ] Var[ β j ], dvs. OLS estimatorene har mindst varians. På engelsk BLUE (Best Linear Unbiased Estimator).
Gauss-Markov Sætningen Sætning 3.4(Gauss-Markov Sætningen) Under antagelserne MLR.1 til MLR.5 er ˆβ 0, ˆβ 1,..., ˆβ n bedste lineære, centrale estimatore af β 0, β 1,...,β n.
Repetition af vektor-regning Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og b som to (n 1) matricer. b 1 a b = [ ] b 2 a 1 a 2 a n. = a 1b 1 +a 2 b 2 + a n b n = b n n a i b i. i=1
Multipel Lineære Regression Den t te observation fra en multipel lineære regressions model skrives som y t = β 0 + β 1 x t1 + β 2 x t2 + + β k x tk + u t, hvor x tj er værdien af den j te forklarende variable hørende til den t te observation. For den t ter observation definer en 1 (k + 1) rækkevektor x t = [ 1 x t1 x t2 x tk ] Bemærk vi har x t0 = 1. Definer parameter (søjle)vektor β = [ β 0 β 1 β 2 β k ] Vi har nu y t = k x tj β j + u t = x t β + u t. j=0
Som matrix-ligning For hver t = 1,...,n har vi y t = x t β + u t. y 1 x 1 β + u 1 x 1 u 1 y 2. = x 2 β + u 2. = x 2. β + u 2. y n x n β + u n x n u n Hvilket kan skrives som y = Xβ + u, hvor y og u er n 1 søjle-vektorer og X er en n (k + 1) matrix. Matricen X kaldes også design-matricen.
Design-matricen Design-matricen er en n (k + 1) matrice, bestående af værdiene for de k forklarende variable for de n observationer. x 1 1 x 11 x 12 x 1k x 2 X =. = 1 x 21 x 22 x 2k. = [ x (0) x (1) x (2) x (k)], x n 1 x n1 x n2 x nk hvor x 1j x 2j x nj x (j) =. er en søjle-vektor af de n værdier for den j te forklarende variabel.
Estimationsstrategi Vores model: y = Xβ + u Lad ˆβ være et estimat af den sande, men ukendte parameter β Definer den prædikterede værdi som ŷ t = x t ˆβ og residual vektoren som û t = y t ŷ t = y t x t ˆβ. Summen af de kvadrerede residualer er n n RSS = ût 2 2 = (y t x t ˆβ) t=1 t=1 Vi vil finde ˆβ so RSS er mindst mulig!
Minimere RSS Vi har altså RSS = n t=1 (y t x t ˆβ) 2. For a minimere differentierer vi mht. ˆβ og sætter lig nul: RSS ˆβ n = 2 x t(y t x t ˆβ) = 0 t=1 Det kan vi skrive om til X (y X ˆβ) = 0 som igen kan skrives om til X y = X X ˆβ. Vi skal bare have isoleret ˆβ.
Repetition: Invertible matricer En kvadratisk matrix A er invertibel, hvis der findes en matrix A 1, så AA 1 = A 1 A = I, hvor I er identitets-matricen. Hvis alle søjler i X er lineært uafhængige, så er X X invertibel med symmetrisk invers matrix (X X) 1. Dvs. (X X)(X X) 1 = (X X) 1 (X X) = I. Matricerne X X og (X X) 1 er desuden symmetriske.
Repetition: Lineær uafhængighed Vektore x (0), x (1), x (2),...,x (k) er lineært uafhængige, hvis og kun hvis den eneste løsning til a 0 x (0) + a 1 x (1) + a 2 x (2) + + a k x (k) = 0, er at a 0 = a 1 = = a n. Eksempel: Hvis x (1) og x (2) er prisen i hhv. euro og dollar, så har vi lineær uafhængighed. I almindeligehed er dette ikke et problem. Men er to eller flere søjler tæt på at være lineært afhængige, så han variansen af de tilsvarende estimatore være store.
Tilbage på sporet Vi skal løse ligningen X y = X X ˆβ. Antag at X X er invertibel. Da har vi X X ˆβ = Xy (X X) 1 X X ˆβ = (X X) 1 Xy ˆβ = (X X) 1 Xy Da vi har fundet ˆβ ved at minimere RSS = n t=1 û2 t kaldes ˆβ en OLS (Ordinarly Least Squares) estimator.
Middelværdi for stokastisk vektor Lad z 1,...,z n være stokastiske variable, hvor E[z i ] = µ i. Definer stokastisk vektor z = [z 1 z 2 z n ]. Den forventede værdi af z er E[z 1 ] µ 1 E[z 2 ] E[z] =. = µ 2. = µ E[z n ] µ n Lad A være en k n ikke-stokastisk matrix og b være en k 1 ikke stokastisk vektor. Da gælder E[Az + b] = AE[z] + b.
Varians for stokastiske vektorer Antag z er en n 1 stokastisk vektor med middelværdi E[z] = µ. Varians-kovarians-matricen for stokastisk vektor z er en n n matrix givet ved Σ = Var[z] = E[(z µ)(z µ) ] Lad σ ij = Cov(z i, z j ) være kovariasen mellem x i og x j. Da hvor σ 2 i = σ ii = Var[z i ]. σ 2 1 σ 12 σ 1n σ 21 σ2 2 σ 2n Var[z] =., σ n1 σ n2 σn 2
Regneregler for Varians Lad A være en k n ikke-stokastisk matrix og b være en k 1 ikke stokastisk vektor. Da gælder Var[Az + b] = AVar[z]A.
Antagelser Antagelse E.1 (Lineær i parametrene) Modellen kan skrives som y = Xβ + u. Antagelse E.2 (Ingen perfekt kolinearitet) Design-matricen X har fuld rang. Antagelse E.3 (Betinget nul-middelværdi) De betingede middelværdier E[u t X] = 0 for t = 0,...,n.
Sætning: (OLS estimaterne er unbiased) Under antagelse er E.1 til E.3 er OLS estimatoren ˆβ unbiased. Bevis: Vi har ˆβ = (X X) 1 X y = (X X) 1 X (Xβ + u) = (X X) 1 (X X)β + (X X) 1 X u = β + (X X) 1 X u. Den betingede middelværdien af ˆβ givet X er da E[ ˆβ X] = β + (X X) 1 X E[u X] = β + (X X) 1 X 0 = β.
Kovarians-matricen for OLS estimatoren Sætning: (Kovarians-matricen for OLS estimatoren) Under antagelse E.1 til E.4 har vi Bevis: Var[ ˆβ X] = σ 2 (X X) 1. Var[ ˆβ X] = Var[(X X) 1 X (Xβ + u) X] = (X X) 1 X Var[u X]((X X) 1 X ) = (X X) 1 X Var[u X]X(X X) 1 = (X X) 1 X (σ 2 I)X(X X) 1 = σ 2 (X X) 1 X X(X X) 1 = σ 2 (X X) 1 Med mindre alle søjlerne X er vinkelrette på hinanden, så vil der være en korrelation mellem de enkelte ˆβ j er.
Normal-fordelte fejlled Sidst gennemgik vi antagelse MLR.1 til MLR.5 der gav os estimatore for β i erne og σ 2 der var unbiased. Nu vi vil gerne teste hypoteser som fx. H 0 : β 1 = 0. Til det må vi gøre en fordelingsantagelse: Antagelse MLR.6 (Normalitet) Fejlledene u i er uafhængige af de forklarende variable x 1, x 2,...,x n og er normalfordelte med middelværdi nul og fælles varians σ 2 : u i N(0, σ 2 ).
Normal-fordelte estimatore Sætning 4.1: (Normalfordelte estimatore) Under antaglese MLR.1 til MLR.6 og betinget af de forklarende variable har vi: ˆβ j N(β j, Var[ˆβ j ]), hvor Var[ˆβ j ] = σ 2 /(SST j (1 Rj 2 )). Hvis vi standardiserer får vi ˆβ j β j N(0, 1). Var[ˆβ j ] Bemærk: Vi har benyttet den ukendte varians σ 2.
Normalt-fordelte estimatore: Matrix-vejen Antagelsen om at u t erne er uafhængige og u t N(0, σ 2 ) kan skrives som u N n (, σ 2 I). N n er notation for en n dimensional normalfordeling. Vi har fra tidligere ˆβ = β + (X X) 1 X u. Vi kender allrede middelværdi og varians for ˆβ, så da en lineær transformation af en normalfordelt stokastisk vektor også er normal fordelt har vi ˆβ N k+1 (β, σ 2 (X X) 1
t fordelte standardiserede estimatore Hvis vi erstatter den ukendte varians σ 2 med vores estimator ˆσ 2 ender vi med en t-fordeling: Sætning 4.2: (t fordelte standardiserede estimatore) Under antagelse MLR.1 til MLR.6 gælder ˆβ j β j t n k 1, Var[ˆβ j ] hvor de n k 1 er antallet af frihedsgrader. De k + 1 svarer til antallet af ukendte parametre i modellen. Ovenfor har vi brugt følgende varians: Var[ˆβ j ] = ˆσ 2 /(SST j (1 R 2 j )) Bemærk: Vi nu bruger estimatoren ˆσ 2.
Hypotese-test Vi vil gerne teste hypotesen H 0 : β j = 0 H 1 : β j 0 Nul-hypotesen siger at x j ikke har noget betydning for y, når der er taget højde for alle de andre forklarende variable. Under antagelse af MLR.1 til MLR.6 og at H 0 er sand har vi tˆβj ˆβ j se[ˆβ j ] t n k 1. Bemærk: tˆβ j er et eksempel på en teststørrelse. Bemærk: jo længere tˆβj er fra nul, jo mindre tror vi på H 0.
p-værdier Definition: (p-værdi) En p-værdi er sandsynligheden for at observere en mere ekstrem teststørrelse næste gang, hvis alle modelantagelser (fx. MLR.1 til MLR.6) er opfyldt og H 0 er sand. Antag T t n k 1, da er p-værdien hørende til H 0 : β j = 0 givet ved P[ T > tˆβj ]. Beslutning: Hvis p-værdien er under vores signifikans-niveau α, så afviser vi H 0 ellers er konklsusionen, at vi ikke kan afvise H 0. Typisk vælger vi signifikans-niveauet til α = 0.05.
R-commander Call: lm(formula = vaegt ~ hoejde, data = Dataset) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -81.85664 3.86750-21.16 < 2e-16 *** hoejde 0.88511 0.02236 39.59 < 2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Af den grønne linje fremgår det, at vores model er vaegt = β 0 + β 1 hoejde + u Af den røde linje kan vi aflæse at ˆβ j = 0.88511, se[ˆβ j ] = 0.02236 og tˆβj = 39.59. Endelig kan vi aflæse p-værdien svarende til H 0 : β 1 = 0 er mindre end 2 10 16. Vi kan med andre ord trygt afvise H 0.
En-sidet test Antag vi ønsker at teste følgende hypoteser H 0 : β j 0 H 1 : β j = 0 I dette tilfælde, jo mindre tˆβj er, jo mindre tror vi på H 0. Hvis T t n k 1, så er p-værdien givet ved P[T < tˆβj ] Bemærk: R returnerer altid P[ T > tˆβj ] (svarende til H 0 : β j = 0). Hvis man laver en lille tegning kan man nemt finde ovestående sandsynlighed.
Konfidensintervaller Et (1 α)100% kofidensinterval for β j er givet ved ˆβ j ± t n k a,α/2 se(β j ), hvor t n k a,α/2 er α/2100% fraktilen i en t-fordeling med n k 1 frihedsgrader. Bemærk: Antag vi vil teste hypotesen H 0 : β j = K H 1 : β j K Hvis afviser H 0 hypotesen, hvis K falder udenfor (1 α)100% kofidensintervallet, så svarer til at teste på normal vis med et signifikans-niveau på α.