MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Relaterede dokumenter
Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Simpel Lineær Regression: Model

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Simpel Lineær Regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Kvantitative metoder 2

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Module 3: Statistiske modeller

Module 1: Lineære modeller og lineær algebra

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Anvendt Statistik Lektion 8. Multipel Lineær Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Løsning eksamen d. 15. december 2008

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

To samhørende variable

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Konfidensintervaller og Hypotesetest

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Modul 6: Regression og kalibrering

Multipel Lineær Regression

1 Regressionsproblemet 2

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Kvantitative Metoder 1 - Forår Dagens program

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Kvantitative metoder 2

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 7. Simpel Lineær Regression

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Tema. Dagens tema: Indfør centrale statistiske begreber.

Løsning til eksaminen d. 14. december 2009

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Statistik Lektion 16 Multipel Lineær Regression

Lineære normale modeller (4) udkast

Statistik og Sandsynlighedsregning 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Module 9: Residualanalyse

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Den lineære normale model

Løsning til eksaminen d. 29. maj 2009

Kvantitative Metoder 1 - Efterår Dagens program

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Appendiks Økonometrisk teori... II

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Normalfordelingen og Stikprøvefordelinger

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Nanostatistik: Opgavebesvarelser

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Den lineære normale model

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kursus 02402/02323 Introducerende Statistik

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Note om Monte Carlo metoden

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Anvendt Lineær Algebra

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Module 4: Ensidig variansanalyse

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Sandsynlighed og Statistik

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Produkt og marked - matematiske og statistiske metoder

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Transkript:

MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere, og u er et uobserveret fejlled. Antagelse MLR.2 (Tilfældig stikprøve) Antagelse MLR.3 (Ingen perfekt kolinearitet) Antagelse MLR.4 (Betingel middelværdi er nul) Antagelse MLR.5 (Homoskedastiske fejlled)

Sætninger Vores OLS estimator er opnået ved at minimere RSS = n i=1 û2 i. Sætning 3.1 (OLS estimatorene er centrale) Under antagelse MLR.1 til MLR.4 E[ˆβ j ] = β j, j = 1, 2,...,k, for alle værdier af β j. Sætning 3.2 (Variansen af OLS estimatorerne) Under antagelse MLR.1 til MLR.5, og betinget på stikeprøvens forklarende variable, har vi Var[ˆβ j ] = σ 2 SST j (1 R 2 j ). Vi mangler at vise, at vi ikke kan gøre det bedre!

Lineære estimatore Vores estimatore ˆβ 0,..., ˆβ k er såkaldte lineære estimatore. Generelt er en estimator β j lineær, hvis den er på formen β j = n w ij y i, i=1 hvor hver af w ij erne kan være en funktion af alle x ij erne. Eksempel: Ved simpel lineær regression har vi n i=1 ˆβ 1 = (x i x)y i n n i=1 (x i x) 2 = w i y i, i=1 hvor w i = (x i x) n i=1 (x i x) 2.

Gauss-Markov Sætningen Under antagelserne MLR.1 til MLR.5 er OLS estimatorene de bedste centrale, lineære estimatore. Med bedste mener vi her, at for alle unbiased, centrale estimatore β j gælder Var[ˆβ j ] Var[ β j ], dvs. OLS estimatorene har mindst varians. På engelsk BLUE (Best Linear Unbiased Estimator).

Gauss-Markov Sætningen Sætning 3.4(Gauss-Markov Sætningen) Under antagelserne MLR.1 til MLR.5 er ˆβ 0, ˆβ 1,..., ˆβ n bedste lineære, centrale estimatore af β 0, β 1,...,β n.

Repetition af vektor-regning Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og b som to (n 1) matricer. b 1 a b = [ ] b 2 a 1 a 2 a n. = a 1b 1 +a 2 b 2 + a n b n = b n n a i b i. i=1

Multipel Lineære Regression Den t te observation fra en multipel lineære regressions model skrives som y t = β 0 + β 1 x t1 + β 2 x t2 + + β k x tk + u t, hvor x tj er værdien af den j te forklarende variable hørende til den t te observation. For den t ter observation definer en 1 (k + 1) rækkevektor x t = [ 1 x t1 x t2 x tk ] Bemærk vi har x t0 = 1. Definer parameter (søjle)vektor β = [ β 0 β 1 β 2 β k ] Vi har nu y t = k x tj β j + u t = x t β + u t. j=0

Som matrix-ligning For hver t = 1,...,n har vi y t = x t β + u t. y 1 x 1 β + u 1 x 1 u 1 y 2. = x 2 β + u 2. = x 2. β + u 2. y n x n β + u n x n u n Hvilket kan skrives som y = Xβ + u, hvor y og u er n 1 søjle-vektorer og X er en n (k + 1) matrix. Matricen X kaldes også design-matricen.

Design-matricen Design-matricen er en n (k + 1) matrice, bestående af værdiene for de k forklarende variable for de n observationer. x 1 1 x 11 x 12 x 1k x 2 X =. = 1 x 21 x 22 x 2k. = [ x (0) x (1) x (2) x (k)], x n 1 x n1 x n2 x nk hvor x 1j x 2j x nj x (j) =. er en søjle-vektor af de n værdier for den j te forklarende variabel.

Estimationsstrategi Vores model: y = Xβ + u Lad ˆβ være et estimat af den sande, men ukendte parameter β Definer den prædikterede værdi som ŷ t = x t ˆβ og residual vektoren som û t = y t ŷ t = y t x t ˆβ. Summen af de kvadrerede residualer er n n RSS = ût 2 2 = (y t x t ˆβ) t=1 t=1 Vi vil finde ˆβ so RSS er mindst mulig!

Minimere RSS Vi har altså RSS = n t=1 (y t x t ˆβ) 2. For a minimere differentierer vi mht. ˆβ og sætter lig nul: RSS ˆβ n = 2 x t(y t x t ˆβ) = 0 t=1 Det kan vi skrive om til X (y X ˆβ) = 0 som igen kan skrives om til X y = X X ˆβ. Vi skal bare have isoleret ˆβ.

Repetition: Invertible matricer En kvadratisk matrix A er invertibel, hvis der findes en matrix A 1, så AA 1 = A 1 A = I, hvor I er identitets-matricen. Hvis alle søjler i X er lineært uafhængige, så er X X invertibel med symmetrisk invers matrix (X X) 1. Dvs. (X X)(X X) 1 = (X X) 1 (X X) = I. Matricerne X X og (X X) 1 er desuden symmetriske.

Repetition: Lineær uafhængighed Vektore x (0), x (1), x (2),...,x (k) er lineært uafhængige, hvis og kun hvis den eneste løsning til a 0 x (0) + a 1 x (1) + a 2 x (2) + + a k x (k) = 0, er at a 0 = a 1 = = a n. Eksempel: Hvis x (1) og x (2) er prisen i hhv. euro og dollar, så har vi lineær uafhængighed. I almindeligehed er dette ikke et problem. Men er to eller flere søjler tæt på at være lineært afhængige, så han variansen af de tilsvarende estimatore være store.

Tilbage på sporet Vi skal løse ligningen X y = X X ˆβ. Antag at X X er invertibel. Da har vi X X ˆβ = Xy (X X) 1 X X ˆβ = (X X) 1 Xy ˆβ = (X X) 1 Xy Da vi har fundet ˆβ ved at minimere RSS = n t=1 û2 t kaldes ˆβ en OLS (Ordinarly Least Squares) estimator.

Middelværdi for stokastisk vektor Lad z 1,...,z n være stokastiske variable, hvor E[z i ] = µ i. Definer stokastisk vektor z = [z 1 z 2 z n ]. Den forventede værdi af z er E[z 1 ] µ 1 E[z 2 ] E[z] =. = µ 2. = µ E[z n ] µ n Lad A være en k n ikke-stokastisk matrix og b være en k 1 ikke stokastisk vektor. Da gælder E[Az + b] = AE[z] + b.

Varians for stokastiske vektorer Antag z er en n 1 stokastisk vektor med middelværdi E[z] = µ. Varians-kovarians-matricen for stokastisk vektor z er en n n matrix givet ved Σ = Var[z] = E[(z µ)(z µ) ] Lad σ ij = Cov(z i, z j ) være kovariasen mellem x i og x j. Da hvor σ 2 i = σ ii = Var[z i ]. σ 2 1 σ 12 σ 1n σ 21 σ2 2 σ 2n Var[z] =., σ n1 σ n2 σn 2

Regneregler for Varians Lad A være en k n ikke-stokastisk matrix og b være en k 1 ikke stokastisk vektor. Da gælder Var[Az + b] = AVar[z]A.

Antagelser Antagelse E.1 (Lineær i parametrene) Modellen kan skrives som y = Xβ + u. Antagelse E.2 (Ingen perfekt kolinearitet) Design-matricen X har fuld rang. Antagelse E.3 (Betinget nul-middelværdi) De betingede middelværdier E[u t X] = 0 for t = 0,...,n.

Sætning: (OLS estimaterne er unbiased) Under antagelse er E.1 til E.3 er OLS estimatoren ˆβ unbiased. Bevis: Vi har ˆβ = (X X) 1 X y = (X X) 1 X (Xβ + u) = (X X) 1 (X X)β + (X X) 1 X u = β + (X X) 1 X u. Den betingede middelværdien af ˆβ givet X er da E[ ˆβ X] = β + (X X) 1 X E[u X] = β + (X X) 1 X 0 = β.

Kovarians-matricen for OLS estimatoren Sætning: (Kovarians-matricen for OLS estimatoren) Under antagelse E.1 til E.4 har vi Bevis: Var[ ˆβ X] = σ 2 (X X) 1. Var[ ˆβ X] = Var[(X X) 1 X (Xβ + u) X] = (X X) 1 X Var[u X]((X X) 1 X ) = (X X) 1 X Var[u X]X(X X) 1 = (X X) 1 X (σ 2 I)X(X X) 1 = σ 2 (X X) 1 X X(X X) 1 = σ 2 (X X) 1 Med mindre alle søjlerne X er vinkelrette på hinanden, så vil der være en korrelation mellem de enkelte ˆβ j er.

Normal-fordelte fejlled Sidst gennemgik vi antagelse MLR.1 til MLR.5 der gav os estimatore for β i erne og σ 2 der var unbiased. Nu vi vil gerne teste hypoteser som fx. H 0 : β 1 = 0. Til det må vi gøre en fordelingsantagelse: Antagelse MLR.6 (Normalitet) Fejlledene u i er uafhængige af de forklarende variable x 1, x 2,...,x n og er normalfordelte med middelværdi nul og fælles varians σ 2 : u i N(0, σ 2 ).

Normal-fordelte estimatore Sætning 4.1: (Normalfordelte estimatore) Under antaglese MLR.1 til MLR.6 og betinget af de forklarende variable har vi: ˆβ j N(β j, Var[ˆβ j ]), hvor Var[ˆβ j ] = σ 2 /(SST j (1 Rj 2 )). Hvis vi standardiserer får vi ˆβ j β j N(0, 1). Var[ˆβ j ] Bemærk: Vi har benyttet den ukendte varians σ 2.

Normalt-fordelte estimatore: Matrix-vejen Antagelsen om at u t erne er uafhængige og u t N(0, σ 2 ) kan skrives som u N n (, σ 2 I). N n er notation for en n dimensional normalfordeling. Vi har fra tidligere ˆβ = β + (X X) 1 X u. Vi kender allrede middelværdi og varians for ˆβ, så da en lineær transformation af en normalfordelt stokastisk vektor også er normal fordelt har vi ˆβ N k+1 (β, σ 2 (X X) 1

t fordelte standardiserede estimatore Hvis vi erstatter den ukendte varians σ 2 med vores estimator ˆσ 2 ender vi med en t-fordeling: Sætning 4.2: (t fordelte standardiserede estimatore) Under antagelse MLR.1 til MLR.6 gælder ˆβ j β j t n k 1, Var[ˆβ j ] hvor de n k 1 er antallet af frihedsgrader. De k + 1 svarer til antallet af ukendte parametre i modellen. Ovenfor har vi brugt følgende varians: Var[ˆβ j ] = ˆσ 2 /(SST j (1 R 2 j )) Bemærk: Vi nu bruger estimatoren ˆσ 2.

Hypotese-test Vi vil gerne teste hypotesen H 0 : β j = 0 H 1 : β j 0 Nul-hypotesen siger at x j ikke har noget betydning for y, når der er taget højde for alle de andre forklarende variable. Under antagelse af MLR.1 til MLR.6 og at H 0 er sand har vi tˆβj ˆβ j se[ˆβ j ] t n k 1. Bemærk: tˆβ j er et eksempel på en teststørrelse. Bemærk: jo længere tˆβj er fra nul, jo mindre tror vi på H 0.

p-værdier Definition: (p-værdi) En p-værdi er sandsynligheden for at observere en mere ekstrem teststørrelse næste gang, hvis alle modelantagelser (fx. MLR.1 til MLR.6) er opfyldt og H 0 er sand. Antag T t n k 1, da er p-værdien hørende til H 0 : β j = 0 givet ved P[ T > tˆβj ]. Beslutning: Hvis p-værdien er under vores signifikans-niveau α, så afviser vi H 0 ellers er konklsusionen, at vi ikke kan afvise H 0. Typisk vælger vi signifikans-niveauet til α = 0.05.

R-commander Call: lm(formula = vaegt ~ hoejde, data = Dataset) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -81.85664 3.86750-21.16 < 2e-16 *** hoejde 0.88511 0.02236 39.59 < 2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Af den grønne linje fremgår det, at vores model er vaegt = β 0 + β 1 hoejde + u Af den røde linje kan vi aflæse at ˆβ j = 0.88511, se[ˆβ j ] = 0.02236 og tˆβj = 39.59. Endelig kan vi aflæse p-værdien svarende til H 0 : β 1 = 0 er mindre end 2 10 16. Vi kan med andre ord trygt afvise H 0.

En-sidet test Antag vi ønsker at teste følgende hypoteser H 0 : β j 0 H 1 : β j = 0 I dette tilfælde, jo mindre tˆβj er, jo mindre tror vi på H 0. Hvis T t n k 1, så er p-værdien givet ved P[T < tˆβj ] Bemærk: R returnerer altid P[ T > tˆβj ] (svarende til H 0 : β j = 0). Hvis man laver en lille tegning kan man nemt finde ovestående sandsynlighed.

Konfidensintervaller Et (1 α)100% kofidensinterval for β j er givet ved ˆβ j ± t n k a,α/2 se(β j ), hvor t n k a,α/2 er α/2100% fraktilen i en t-fordeling med n k 1 frihedsgrader. Bemærk: Antag vi vil teste hypotesen H 0 : β j = K H 1 : β j K Hvis afviser H 0 hypotesen, hvis K falder udenfor (1 α)100% kofidensintervallet, så svarer til at teste på normal vis med et signifikans-niveau på α.