Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater



Relaterede dokumenter
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Simpel Lineær Regression

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Appendiks Økonometrisk teori... II

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Simpel Lineær Regression: Model

Konfidensintervaller og Hypotesetest

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Module 3: Statistiske modeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 8. Multipel Lineær Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

(studienummer) (underskrift) (bord nr)

To-sidet varians analyse

Motivation. En tegning

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Kvantitative metoder 2

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Kvantitative metoder 2

Statistik Lektion 16 Multipel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Multipel Lineær Regression

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Vejledende besvarelser til opgaver i kapitel 14

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Kvantitative Metoder 1 - Forår 2007

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Forelæsning 11: Envejs variansanalyse, ANOVA

To samhørende variable

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Modul 11: Simpel lineær regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Løsning eksamen d. 15. december 2008

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kvantitative metoder 2

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Klasseøvelser dag 2 Opgave 1

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Skriftlig eksamen Science statistik- ST501

Statistik Lektion 4. Variansanalyse Modelkontrol

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Statistik II 4. Lektion. Logistisk regression

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Kapitel 12 Variansanalyse

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Kursus 02402/02323 Introducerende Statistik

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

1 Regressionsproblemet 2

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Transkript:

Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35

Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H 0 : β j = 0 H 1 : β j 0 Teststørrelsen er t = ˆβ j se[ ˆβ j ] p-værdien: Hvis T t n k 1 så er p-værdien P[ T > t ]. Beslutning: Hvis p-værdien er mindre end α (signifikans-niveauet), så afviser vi H 0 ellers er konklusionen, at vi ikke kan afvise H 0. 2 / 35

En god model En god statistisk model skal kunne forklare relevante aspekter af data uden at være unødigt kompliceret. Har vi to eller flere modeller, der forklarer data lige godt, så vælger vi den simpleste. Kan vi ikke afvise nul-hypotesen H 0 β j = 0, så kan vi sætte β j = 0, dvs. fjerne den forklarende variabel x j fra modelle. Dog skal man sikre sig at det giver mening at fjerne x j fra en økonomisk synspunkt. 3 / 35

Eksempel: Forbruget af naturgas i USA Model: consumption = β 0 + β 1 income + β 2 price + β 3 lprice + u consumption income price lprice eprice oprice forbruget af naturgas per capita indkomst prisen for naturgas prisen for LPG (flaskegas) prisen for elektricitet prisen for fyringsolie Kilde: NaturalGas data i AER pakken 4 / 35

Hypotese for mere end én aprameter Model consumption = β 0 + β 1 income + β 2 price + β 3 lprice + u Eksempler på hypoteser Er modellen besværet værd? H 0 : β 1 = β 2 = β 3 = 0 Ingen af de forklarende variable forklarer noget... Er en delmodel nok? H 0 : β 2 = β 3 = 0 Prisen på naturgas og LPG er ikke nødvendige. Lineære hypoteser H 0 : β 2 = β 3 Prisen på naturgas og LPG har samme effekt på forbruget. 5 / 35

Er modellen besværet værd? Antag vores model er den sædvanlige: y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u R tester automatisk nul-hypotesen: H 0 : β 1 = β 2 = = β k = 0 Dvs. en nul-hypotese om at alle forklarende variable kan undværes. Med andre ord tester man om modellen er besværet værd. Alternativ-hypotesen er H 1 : β j 0 for mindst ét j Dvs. mindst en af de forklarende variabel har en signifikant lineær sammenhæng med den afhængige variabel. 6 / 35

Eksempel Model: consumption = β 0 + β 1 income + β 2 price + β 3 lprice + u Summary fra R Estimate Std. Error t value Pr(> t ) (Intercept) -727489.5880 56390.0353-12.90 0.0000 income 109.3150 5.8516 18.68 0.0000 price -19554.5888 22397.2898-0.87 0.3842 lprice -54954.1816 22995.0376-2.39 0.0182 Residual standard error: 97650 on 134 degrees of freedom Multiple R-squared: 0.7259, Adjusted R-squared: 0.7198 F-statistic: 118.3 on 3 and 134 DF, p-value: < 2.2e-16 Her er F -teststørrelsen lig 118.3, og under H 0 følger den en F -fordeling med 3 og 134 frihedsgrader. p-værdien er mindre end 2.2 10 16. Vi kan altså afvise H 0 modellen er besværet værd. 7 / 35

Sammenligne model og delmodel Vi ønkser at sammenligne to modeller: En urestringeret model: En restringeret model: y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u y = β 0 + β 1 x 1 + β 2 x 2 + + β k q x k q + u Den restringerede model er en delmodel af den urestringerede model, da den er opnået ved at fjerne q forklarende variable fra den urestringerede model. Hypotese af interesse: H 0 : β k q+1 = = β k = 0 H 1 : Mindst én af β k q+1,..., β k er forskellig fra nul. 8 / 35

Hypotesetest Hypotese af interesse: H 0 : β k q+1 = = β k = 0 H 1 : Mindst én af β k q+1,..., β k er forskellig fra nul. Hvis vi ikke kan afvise H 0, så kan vi lige så godt nøjes med den simplere delmodel. Hvorfor døje med en unødvendigt kompliceret model. Dårlig ide: Vi udfører et t-test for hver af x k q+1,..., x k. Hvis alle test har p-værdi over α, så kan vi ikke afvise H 0... NIKS!! Den går ikke! 9 / 35

Sums of squares Husk at vi generelt har SST = SSR + SSE Den totale variation (SST ) splitter op i en uforklaret del (SSR) og en forklaret del (SSE). For den urestinerede model har vi SST = SSR ur + SSE ur For den restinerede model har vi SST = SSR r + SSE r Bemærk: Der må gælde SSR r SSR ur, hvorfor? 10 / 35

F -testet Vi har altså SSR r SSR ur og H 0 : β k q+1 = = β k = 0 Hvis H 0 er sand så gælder F = (SSR r SSR ur )/q SSR ur /(n k 1) F q,n k 1 Intuition: Hvis de ekstra q variable ikke bidrager med noget, så må SSR r SSR ur. Dvs. kun store værdier af F er kritiske for H 0. 11 / 35

F -testet og R 2 Da har vi R 2 = SSE SST = 1 SSR SST SSR = SST (1 R 2 ). Indsætter vi i formel for F -teststørrelsen får vi F = (SSR r SSR ur )/q SSR ur /(n k 1) = (R 2 ur R 2 r )/q (1 R 2 ur )/(n k 1) F q,n k 1 12 / 35

F -testet For at kunne konkluderer på F -testet skal vi bruge en p-værdi. Antag F F q,n k 1, dvs. F følger en F -fordeling med q og n k 1 frihedsgrader. Da er p-værdien givet ved P[F > F ] Eksempel: F 3,100 og F = 2: p-værdi er 0.1188. 13 / 35

Eksempel Urestringeret model: consumption = β 0 + β 1 income + β 2 price + β 3 lprice + u Hypotese: Når vi har kontrolleret for income har price og lprice ingen betydning. Dvs. H 0 : β 2 = β 3 = 0 Restringeret model: consumption = β 0 + β 1 income + u 14 / 35

For den urestingerede model har vi: model.ur = lm(consumption ~ income + price + lprice,data=naturalgas) hvor summary(model.ur) bl.a. giver Multiple R-squared: 0.7259, Adjusted R-squared: 0.7198 For den restingerede model har vi: model.ur = lm(consumption ~ income,data=naturalgas) hvor summary(model.r) bl.a. giver Multiple R-squared: 0.312, Adjusted R-squared: 0.3069 Dvs F = (0.7259 0.3120)/2 (1 0.7259)/134 = 101.1722 p-værdien finder vi vha. pf kommandoen > pf(101.1722, 2, 134, lower.tail=false) [1] 1.665252e-27 Da p-værdien mindre end 0.05 afviser vi H 0. 15 / 35

Genvej med R Vi kan sammenligne de to modeller vha. en F -test direkte i R vha. kommandoen anova: > anova(model.r,model.ur) Analysis of Variance Table Model 1: consumption ~ income Model 2: consumption ~ income + price + lprice Res.Df RSS Df Sum of Sq F Pr(>F) 1 136 3.2078e+12 2 134 1.2778e+12 2 1.9300e+12 101.19 < 2.2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Beslutning: Da p-værdien er meget mindre end 0.05 afviser vi H 0 dvs. vi bør ikke fjerne de to priser fra modellen. 16 / 35

Opsummering af model Model: consumption = β 0 + β 1 income + β 2 price + β 3 lprice + u Summary fra R (uddrag) Estimate Std. Error t value Pr(> t ) (Intercept) -7.275e+05 5.639e+04-12.901 <2e-16 *** income 1.093e+02 5.852e+00 18.681 <2e-16 *** price -1.955e+04 2.240e+04-0.873 0.3842 lprice -5.495e+04 2.300e+04-2.390 0.0182 * Multiple R-squared: 0.7259,Adjusted R-squared: 0.7198 Fortolkning? Vi vil gerne teste om effekten af prisen på naturgas og flaskegas på forbruget af naturgas er den samme: Hypoteser: H 0 : β 2 = β 3 vs H 1 : β 2 β 3 17 / 35

Lineær hypotese et eksempel Antag vi har model Vi ønsker at teste hypotesen H 0 : β 1 = β 2 H 1 : β 1 β 2 Teststørrelsen er y = β 0 + β 1 x 2 + β 2 x 2 + β 3 x 3 + u. t = ˆβ 1 ˆβ 2 se[ ˆβ 1 ˆβ 2 ] p-værdien: Hvis T t n k 1 så er p-værdien P[ T > t ]. Beslutning: Hvis p-værdien er mindre end α så afviser vi H 0. Spørgsmål: Hvad er se[ ˆβ 1 ˆβ 2 ]...? 18 / 35

Variansen af ˆβ 1 ˆβ 2 Sædvanlige regneregel for varians Var[ ˆβ 1 ˆβ 2 ] = Var[ ˆβ 1 ] + Var[ ˆβ 2 ] 2Cov[ ˆβ 1, ˆβ 2 ] Standardfejlen får vi ved at tage kvadratroden: se[ ˆβ 1 ˆβ 2 ] = Var[ ˆβ 1 ] + Var[ ˆβ 2 ] 2Cov[ ˆβ 1, ˆβ 2 ] Problemet er at få fingre i Cov[ ˆβ 1, ˆβ 2 ]...? R løsning: Antag at jeres model i R hedder min.model. I can nu få den estimerede varians kovarians matrix for ˆβ vha. kommadoen vcov(min.model). Der er en endnu smartere løsning... 19 / 35

Lineær hypotese: Matrix vejen Vi ønsker at teste den hypotesen H 0 : β 2 = β 3 Bemærk at vi kan omskrive nul-hypotesen β 2 = β 3 β 2 β 3 = 0 0 β 0 + 0 β 1 + 1 β 2 + 1 β 3 = 0 Rβ = r, hvor R = [0 0 1 1] og r = 0. Vi kan teste hypotesen vha. linearhypothesis(model,r,r). 20 / 35

Resultat af Linear hypothesis Vores hypotese: H 0 : β 2 = β 3 Fra R-commander får vi Linear hypothesis test Hypothesis: price - lprice = 0 Model 1: Model 2: consumption ~ income + price + lprice restricted model Res.Df RSS Df Sum of Sq F Pr(>F) 1 134 1.2778e+12 2 135 1.2837e+12-1 -5.8771e+09 0.6163 0.4338 Da p-værdier er 0.4338 0.05 kan vi ikke afvise H 0. 21 / 35

Lineær hypotese: Generelt En lineær hypotese er en hypotese, der kan formuleres som H 0 : Rβ = r, hvor R er m (k + 1) matrix og r er en m dimensional søjlevektor. Opgave: Find R og r der svarer til den lineære hypotese H 0 : β 1 = 1, β 2 = 0 and β 3 = 0 R trick: Man kan faktisk formulere hypoteserne i ord, fx linearhypothesis(model,c("price = lprice")) Se hjælpefilen vha.?linearhypothesis 22 / 35

Sammenhængen mellem t- og F -fordelingen Hvis T t k, dvs. T følger en t-fordeling med k frihedsgrader, så gælder at T 2 F 1,k, dvs. at T 2 følger en F fordeling med 1 og k frihedsgrader. Konsekvens: Hvis vi tester H 0 : β j = 0 så er det altså lige meget om vi bruger en t-test eller en F -test. 23 / 35

Sammenligning af to modeller vha. R 2 Hvis vi vil sammenligne to modeller, hvor den ene model ikke er en delmodel af den anden kan vi ikke bruge et F -test. Ide: Vi kunne sammenligne R 2 for de to modeller og vælge den med højest R 2 den model der forklarer mest. R 2 = SSE SST = 1 SSR SST = 1 SSR/n SST /n Problem: Jo flere forklarende variable jo højere R 2. Dvs. vi vil have tendens til at vælge den mere komplicerede model dvs. vi risikerer at vælge en udnødigt kompliceret model. 24 / 35

Justeret R 2 Alimindelig R 2 R 2 = 1 SSR/n SST /n Ide: Vi justerer R 2, så den tager højde for antallet af parametre: R 2 = 1 SSR/(n k 1) SST /(n 1) = 1 ˆσ 2 SST /(n 1) Hvis vi udvider en model ved at tilføje flere forklarende variable (større k), men der ikke sker en øgning i SSR (dvs. den forklarer ikke mere), så falder R 2. Bemærk: Hvis stikprøvestørrelsen n er stor i forhold til antallet af parametre k, så har vi R 2 R 2. 25 / 35

Eksempel: R2 falder! Betragt følgende modeller: consumption = β 0 + β 1 income + β 2 eprice + u Multiple R-squared: 0.5592, Adjusted R-squared: 0.5527 Og den udvidede model: consumption = β 0 + β 1 income + β 2 eprice + β 3 oprice + u Multiple R-squared: 0.5592, Adjusted R-squared: 0.5493 Bemærk: R 2 er stort set uændret, men R 2 falder! 26 / 35

Asymptotiske egenskaber Antagelse MLR.1 til MLR.5 medfører at OLS estimatorerne er unbiased. Antagelse MLR.6 (normalfordelte fejlled) giver desuden at t- og F -teststørrelserne er t- og F -fordelte. Hvis MLR.6 ikke er opfyldt, men stikprøven er tilstrækkelig stor opnår vi at t og F -teststørrelserne er tilnærmelsesvis t- og F -fordelte. 27 / 35

Konsistens Definition: Konsistent estimator Lad β være en estimator for β baseret på en stikprøve Y 1, Y 2,..., Y n af størrelse n. Da er β en konsistent estimator for β, hvis for alle ɛ > 0 der gælder ( ) P β β > ɛ 0 når n. Intuition: Jo større stikprøve, jo mere sandsynligt er det at vores estimat er tæt på den sande værdi. Notation: Grænseovergangen kan også skrives som plim( β) = β. 28 / 35

Sætning 5.1 Konsistente OLS estimatore Under antagelse ML.1 til MLR.5 er OLS estimatoren ˆβ j en konstitent estimator for β j, for alle j = 0, 1,..., k. For simpel lineær regression y i = β 0 + β 1 x i1 + u i gælder ˆβ 1 = n i=1 (x i1 x 1 )y i n i=1 (x i1 x 1 ) 2 = β 1 + 1 n n i=1 (x i1 x 1 )u i n i=1 (x i1 x 1 ) 2 1 n Man kan vise at plim ( 1 n n i=1 (x i1 x 1 )u i ) = Cov(x1, u) 29 / 35

Asymptotisk Normalfordelt Lad Φ(x) = P(Z z), hvor Z N (0, 1), dvs. Φ er fordelingsfunktionen for en standard normalfordelt stokastisk variabel. Asymptotisk normalfordelt Antag Z 1, Z 2, Z 3,... er en følge af stokastiske variable. Da siges Z n are være asymptotisk normalfordelt, hvis Notation: Z n a N (0, 1) P(Z n z) Φ(z) for n. Eksempel: Ifølge Central grænseværdi sætning (CLT) har vi X / n a N (0, 1) (under visse antagelser). 30 / 35

Asymptotisk normalfordelte estimatore Sætning 5.2: Asymptotisk normalfordelte OLS estimatore Under antagelse MLR.1 til MLR.5 gælder (i) ˆβ j er asymptotisk normalfordelt: n( ˆβj β j ) a N (0, σ 2 /aj 2 ), hvor σ 2 /aj 2 > 0 er den asymptotiske varians af n( ˆβ j β j ), hvor aj 2 = plim(n 1 n i=1 ˆr ij 2), hvor ˆr ij er residualerne man opnår ved en regression af x j mod de andre forklarende variable. (ii) σ 2 er en konsistent estimator af σ 2. (iii) For alle j gælder ( ˆβ j β j )/se( ˆβ j ) a N (0, 1) 31 / 35

Bemærkninger Bemærk: Med Sætning 5.2 har vi (aysmptotisk) undgået antagelse MLR.6 (normalfordelte fejlled), men vi har ikke undgået MLR.5 (homoskedastiske fejlled). 32 / 35

Angående estimator-variansen Var[ ˆβ j ]: Vi har fra tidligere at Var[ ˆβ j ] = ˆσ 2 SST j (1 R 2 j ). Asymptotisk (dvs. efterhånden som stikprøven vokser), så konvergerer ˆσ 2 mod σ 2 og R 2 konvergerer mod en konstant mellem 0 og 1. Samtidigt konvergerer SST j /n mod Var[x j ], dvs. SST j nσ 2. Alt dette giver at Var[ ˆβ j ] = se( ˆβ j ) c j n, hvor c j er en ukendt, men fast konstant. 33 / 35

Lagrange multiplier test Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H 0 : β k q+1 = = β k = 0 En Langrange muliplier test indeholder følgende trin: 1. Først estimerer vi den restringerede model: y = β 0 + β 1 x 1 + + β k q x k q + ũ. Intuition: Hvis H 0 er falsk, så vil variationen i ũ være (delvist) forklaret af de udeladte variable x k q+1,..., x k. 34 / 35

Langrange multiplier test fortsat 2. Først estimerer vi den restringerede model: Udfør en regression af ũ mod alle variable x 1,..., x k. Den resulterende determinationskoefficient betegnes R 2 u. Intuition: Hvis H 0 er sand, så vil R 2 u 0. Man kan vise at nru 2 a χ 2 q. 3. Afvis H 0 hvis nru 2 > χ 2 q,α. Alternativt kan man finde en p-værdi. 35 / 35