Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H 0 : β j = 0 H 1 : β j 0 Teststørrelsen er t = ˆβ j se[ ˆβ j ] p-værdien: Hvis MLR.1 til MLR.6 er opfyldt og H 0 er sand, så er p-værdien P[ T > t ], hvor T t n k 1. Beslutning: Hvis p-værdien er mindre end α (signifikans-niveauet), så afviser vi H 0 ellers er konklusionen, at vi ikke kan afvise H 0. 1 / 35 2 / 35 En god model Eksempel: Forbruget af naturgas i USA En god statistisk model skal kunne forklare relevante aspekter af data uden at være unødigt kompliceret. Har vi to eller flere modeller, der forklarer data lige godt, så vælger vi den simpleste. Kan vi ikke afvise nul-hypotesen H 0 : β j = 0 (vs H 1 : β j 0), så kan vi sætte β j = 0, dvs. fjerne den forklarende variabel x j fra modelle. Dog skal man sikre sig at det giver mening at fjerne x j fra et fagligtsynspunkt. Model: consumption forbruget af naturgas income per capita indkomst price prisen for naturgas lprice prisen for LPG (flaskegas) eprice prisen for elektricitet oprice prisen for fyringsolie Kilde: NaturalGas data i AER pakken 3 / 35 4 / 35

Hypotese for mere end én aprameter Model Eksempler på hypoteser Er modellen besværet værd? H 0 : β 1 = β 2 = β 3 = 0 Ingen af de forklarende variable forklarer noget... Er en delmodel nok? H 0 : β 2 = β 3 = 0 Prisen på naturgas og LPG er ikke nødvendige. Lineære hypoteser H 0 : β 2 = β 3 Prisen på naturgas og LPG har samme effekt på forbruget. 5 / 35 Er modellen besværet værd? Antag vores model er den sædvanlige: y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u R tester automatisk nul-hypotesen: H 0 : β 1 = β 2 = = β k = 0 Dvs. en nul-hypotese om at alle forklarende variable kan undværes. Med andre ord tester man om modellen er besværet værd. Alternativ-hypotesen er H 1 : β j 0 for mindst ét j Dvs. mindst en af de forklarende variabel har en signifikant lineær sammenhæng med den afhængige variabel. 6 / 35 Eksempel Model: Summary fra R Estimate Std. Error t value Pr(> t ) (Intercept) -727489.5880 56390.0353-12.90 0.0000 income 109.3150 5.8516 18.68 0.0000 price -19554.5888 22397.2898-0.87 0.3842 lprice -54954.1816 22995.0376-2.39 0.0182 Residual standard error: 97650 on 134 degrees of freedom Multiple R-squared: 0.7259, Adjusted R-squared: 0.7198 F-statistic: 118.3 on 3 and 134 DF, p-value: < 2.2e-16 Her er F -teststørrelsen lig 118.3, og under H 0 følger den en F -fordeling med 3 og 134 frihedsgrader. p-værdien er mindre end 2.2 10 16. Vi kan altså afvise H 0 modellen er besværet værd. Sammenligne model og delmodel Vi ønsker at sammenligne to modeller: En urestringeret model: En restringeret model: y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u y = β 0 + β 1 x 1 + β 2 x 2 + + β k q x k q + u Den restringerede model er en delmodel af den urestringerede model, da den er opnået ved at fjerne q forklarende variable fra den urestringerede model. Hypotese af interesse: H 0 : β k q+1 = = β k = 0 H 1 : Mindst én af β k q+1,..., β k er forskellig fra nul. 7 / 35 8 / 35

Hypotesetest Sums of squares Husk at vi generelt har Hypotese af interesse: H 0 : β k q+1 = = β k = 0 H 1 : Mindst én af β k q+1,..., β k er forskellig fra nul. Hvis vi ikke kan afvise H 0, så kan vi lige så godt nøjes med den simplere restringerede delmodel. Hvorfor døje med en unødvendigt kompliceret model? Dårlig ide: Vi udfører et t-test for hver af x k q+1,..., x k. Hvis alle test har p-værdi over α, så kan vi ikke afvise H 0... NIKS!! Den går ikke!!! SST = SSR + SSE Den totale variation (SST ) splitter op i en uforklaret del (SSR) og en forklaret del (SSE). For den urestringerede model har vi SST = SSR ur + SSE ur. For den restringerede model har vi SST = SSR r + SSE r. Bemærk: Der må gælde SSR r SSR ur, hvorfor? 9 / 35 10 / 35 F -testet F -testet og R 2 Vi har altså SSR r SSR ur og H 0 : β k q+1 = = β k = 0 Hvis H 0 er sand så gælder Da har vi R 2 = SSE SST = 1 SSR SST SSR = SST (1 R 2 ). F = (SSR r SSR ur )/q SSR ur /(n k 1) F q,n k 1. Intuition: Hvis de ekstra q variable ikke bidrager med noget, så må SSR r SSR ur. Dvs. kun store værdier af F er kritiske for H 0. Indsætter vi i formel for F -teststørrelsen får vi F = (SSR r SSR ur )/q SSR ur /(n k 1) = (R 2 ur R 2 r )/q (1 R 2 ur )/(n k 1) F q,n k 1. 11 / 35 12 / 35

F -testet For at kunne konkluderer på F -testet skal vi bruge en p-værdi. Antag F F q,n k 1, dvs. F følger en F -fordeling med q og n k 1 frihedsgrader. Da er p-værdien givet ved P[F > F ]. Eksempel: F 3,100 og F = 2: p-værdi er 0.1188. 0.6 Eksempel Urestringeret model: Hypotese: Når vi har kontrolleret for income har price og lprice ingen betydning. Dvs. H 0 : β 2 = β 3 = 0 Restringeret model: consumption = β 0 + β 1 income + u 0.4 0.2 0.0 0 2 4 6 8 13 / 35 14 / 35 For den urestingerede model har vi: model.ur = lm(consumption ~ income + price + lprice,data=naturalgas) hvor summary(model.ur) bl.a. giver Multiple R-squared: 0.7259, Adjusted R-squared: 0.7198 For den restingerede model har vi: model.r = lm(consumption ~ income,data=naturalgas) hvor summary(model.r) bl.a. giver Multiple R-squared: 0.312, Adjusted R-squared: 0.3069 Dvs F = (0.7259 0.3120)/2 (1 0.7259)/134 = 101.1722 p-værdien finder vi vha. pf kommandoen > pf(101.1722, 2, 134, lower.tail=false) [1] 1.665252e-27 Da p-værdien er (meget) mindre end 0.05 afviser vi H 0. Genvej med R Vi kan sammenligne de to modeller vha. en F -test direkte i R vha. kommandoen anova: > anova(model.r,model.ur) Analysis of Variance Table Model 1: consumption ~ income Model 2: consumption ~ income + price + lprice Res.Df RSS Df Sum of Sq F Pr(>F) 1 136 3.2078e+12 2 134 1.2778e+12 2 1.9300e+12 101.19 < 2.2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Beslutning: Da p-værdien er meget mindre end 0.05 afviser vi H 0 dvs. vi bør ikke fjerne de to priser fra modellen. 15 / 35 16 / 35

Opsummering af model Model: Summary fra R (uddrag) Estimate Std. Error t value Pr(> t ) (Intercept) -7.275e+05 5.639e+04-12.901 <2e-16 *** income 1.093e+02 5.852e+00 18.681 <2e-16 *** price -1.955e+04 2.240e+04-0.873 0.3842 lprice -5.495e+04 2.300e+04-2.390 0.0182 * Multiple R-squared: 0.7259,Adjusted R-squared: 0.7198 Fortolkning? Vi vil gerne teste om prisen på naturgas og prisen på flaskegas har samme effekt på forbruget af naturgas: Hypoteser: H 0 : β 2 = β 3 vs H 1 : β 2 β 3 Lineær hypotese et eksempel Antag vi har model Vi ønsker at teste hypotesen H 0 : β 1 = β 2 H 1 : β 1 β 2 Teststørrelsen er y = β 0 + β 1 x 2 + β 2 x 2 + β 3 x 3 + u. t = ˆβ 1 ˆβ 2 se[ ˆβ 1 ˆβ 2 ] p-værdien: Hvis MLR.1 til MLR.6 er opfyldt og H 0 er sand, så er p-værdien givet ved P[ T > t ], hvor T t n k 1. Beslutning: Hvis p-værdien er mindre end α så afviser vi H 0. Spørgsmål: Hvad er se[ ˆβ 1 ˆβ 2 ]...? 17 / 35 18 / 35 Variansen af ˆβ 1 ˆβ 2 Sædvanlige regneregel for varians Var[ ˆβ 1 ˆβ 2 ] = Var[ ˆβ 1 ] + Var[ ˆβ 2 ] 2Cov[ ˆβ 1, ˆβ 2 ] Standardfejlen får vi ved at tage kvadratroden: se[ ˆβ 1 ˆβ 2 ] = Var[ ˆβ 1 ] + Var[ ˆβ 2 ] 2Cov[ ˆβ 1, ˆβ 2 ] Problemet er at få fingre i Cov[ ˆβ 1, ˆβ 2 ]...? R løsning: Antag at jeres model i R hedder min.model. I can nu få den estimerede varians kovarians matrix for ˆβ vha. kommadoen vcov(min.model). Der er en endnu smartere løsning... Lineær hypotese: Matrix vejen Vi ønsker at teste den hypotesen H 0 : β 2 = β 3 Bemærk at vi kan omskrive nul-hypotesen hvor β 2 = β 3 β 2 β 3 = 0 0 β 0 + 0 β 1 + 1 β 2 + 1 β 3 = 0 Rβ = r, R = [0 0 1 1] og r = 0. Vi kan teste hypotesen vha. linearhypothesis(model,r,r). 19 / 35 20 / 35

Resultat af linearhypothesis model = lm(consumption income + price + lprice,data=naturalgas) > R = c(0,0,1,-1) > r = 0 > linearhypothesis(model,r,r) Linear hypothesis test Hypothesis: price - lprice = 0 Model 1: Model 2: consumption ~ income + price + lprice restricted model Res.Df RSS Df Sum of Sq F Pr(>F) 1 134 1.2778e+12 2 135 1.2837e+12-1 -5.8771e+09 0.6163 0.4338 Da p-værdier er 0.4338 0.05 kan vi ikke afvise H 0, dvs. vi kan godt tillade os at antage β 2 = β 3. Lineær hypotese: Generelt En lineær hypotese er en hypotese, der kan formuleres som H 0 : Rβ = r, hvor R er m (k + 1) matrix og r er en m dimensional søjlevektor. Opgave: Find R og r der svarer til den lineære hypotese (antag k = 3) H 0 : β 1 = 1, β 2 = 0 and β 2 + β 3 = 4 R trick: Man kan faktisk formulere hypoteserne i ord, fx linearhypothesis(model,c("price = lprice")) Få mere hjælpe i R vha. kommandoen?linearhypothesis 21 / 35 22 / 35 Løsning i R > R = matrix(c(0,1,0,0, 0,0,1,0, 0,0,0,1),3,4,byrow=T) > R [,1] [,2] [,3] [,4] [1,] 0 1 0 0 [2,] 0 0 1 0 [3,] 0 0 0 1 > r = c(1,0,4) > linearhypothesis(model,r,r) Linear hypothesis test Hypothesis: income = 1 price = 0 price + lprice = 4 Model 1: restricted model Model 2: consumption ~ income + price + lprice Res.Df RSS Df Sum of Sq F Pr(>F) 1 137 4.6091e+12 2 134 1.2778e+12 3 3.3313e+12 116.45 < 2.2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Sammenhængen mellem t- og F -fordelingen Hvis T t k, dvs. T følger en t-fordeling med k frihedsgrader, så gælder at T 2 F 1,k, dvs. at T 2 følger en F fordeling med 1 og k frihedsgrader. Konsekvens: For et to-sidet test som fx. H 0 : β j = 0 vs H 1 : β j 0 så er det altså lige meget om vi bruger en t-test eller en F -test. En en-sidet test kan der imod ikke udføres vha. et F -test. 23 / 35 24 / 35

Sammenligning af to modeller vha. R 2 Hvis vi vil sammenligne to modeller, hvor den ene model ikke er en delmodel af den anden kan vi ikke bruge et F -test. Dårlig ide: Vi kunne sammenligne R 2 for de to modeller og vælge den med højest R 2 den model der forklarer mest. R 2 = SSE SST = 1 SSR SST = 1 SSR/n SST /n Problem: Jo flere forklarende variable jo højere R 2. Dvs. vi vil have tendens til at vælge den mere komplicerede model dvs. vi risikerer at vælge en udnødigt kompliceret model. Justeret R 2 Almindelig R 2 R 2 = 1 SSR/n SST /n Ide: Vi justerer R 2, så den tager højde for antallet af parametre: R 2 = 1 SSR/(n k 1) SST /(n 1) = 1 ˆσ 2 SST /(n 1) Hvis vi udvider en model ved at tilføje flere forklarende variable (større k), men der ikke sker en forøgelse i SSR (dvs. den forklarer ikke mere), så falder R 2. R 2 er udtryk for et trade-off mellem forklaringsgrad og kompleksitet. Bemærk: Hvis stikprøvestørrelsen n er stor i forhold til antallet af parametre k, så har vi R 2 R 2. 25 / 35 26 / 35 Eksempel: R2 falder! Asymptotiske egenskaber Betragt følgende modeller: consumption = β 0 + β 1 income + β 2 eprice + u Multiple R-squared: 0.5592, Adjusted R-squared: 0.5527 Og den udvidede model: consumption = β 0 + β 1 income + β 2 eprice + β 3 oprice + u Multiple R-squared: 0.5592, Adjusted R-squared: 0.5493 Bemærk: R 2 er stort set uændret, men R 2 falder! Antagelse MLR.1 til MLR.4 medfører at OLS estimatorerne ˆβ 0,..., ˆβ k er unbiased. Antagelse MLR.5 (heteroskedastiske fejlled) giver desuden at ˆσ er unbiased. Antagelse MLR.6 (normalfordelte fejlled) giver at t- og F -teststørrelserne er t- og F -fordelte. Hvis MLR.6 ikke er opfyldt, men stikprøven er tilstrækkelig stor opnår vi at t- og F -teststørrelserne er tilnærmelsesvis t- og F -fordelte. 27 / 35 28 / 35

Konsistens Definition: Konsistent estimator Lad β være en estimator for β baseret på en stikprøve Y 1, Y 2,..., Y n af størrelse n. Da er β en konsistent estimator for β, hvis for alle ǫ > 0 der gælder ( ) P β β > ǫ 0 når n. Illustration af konsistens Jo større stikprøve jo mere sandsynligt er det, at ˆβ 1 vil ligge tæt på β 1. 2.0 1.5 Intuition: Jo større stikprøve, jo mere sandsynligt er det at vores estimat er tæt på den sande værdi. 1.0 0.5 Notation: Grænseovergangen kan også skrives som plim( β) = β. 0.0 β 1 29 / 35 30 / 35 Sætning 5.1 Konsistente OLS estimatore Under antagelse ML.1 til MLR.5 er OLS estimatoren ˆβ j en konstitent estimator for β j, for alle j = 0, 1,..., k. For simpel lineær regression y i = β 0 + β 1 x i1 + u i gælder ˆβ 1 = i=1 (x i1 x 1 )y i i=1 (x i1 x 1 ) 2 Asymptotisk Normalfordelt Lad Φ(x) = P(Z z), hvor Z N (0, 1), dvs. Φ er fordelingsfunktionen for en standard normalfordelt stokastisk variabel. Asymptotisk normalfordelt Antag Z 1, Z 2, Z 3,... er en følge af stokastiske variable. Da siges Z n are være asymptotisk normalfordelt, hvis = β 1 + 1 n i=1 (x i1 x 1 )u i i=1 (x i1 x 1 ) 2 1 n Notation: Z n a N (0, 1) P(Z n z) Φ(z) for n. Man kan vise at plim ( 1 n i=1 (x i1 x 1 )u i ) = Cov(x1, u) Eksempel: Ifølge Central grænseværdi sætning (CLT) har vi X / n a N (0, 1) (under visse antagelser). 31 / 35 32 / 35

Asymptotisk normalfordelte estimatore Sætning 5.2: Asymptotisk normalfordelte OLS estimatore Under antagelse MLR.1 til MLR.5 gælder (i) ˆβ j er asymptotisk normalfordelt: n( ˆβ j β j ) a N (0, σ 2 /a 2 j ), hvor σ 2 /aj 2 > 0 er den asymptotiske varians af n( ˆβ j β j ), hvor aj 2 = plim(n 1 i=1 ˆr ij 2), hvor ˆr ij er residualerne man opnår ved en regression af x j mod de andre forklarende variable. Bemærkninger Bemærk: 1. Med Sætning 5.2 har vi (aysmptotisk) undgået antagelse MLR.6 (normalfordelte fejlled). 2. Med Sætning 5.2 har vi ikke undgået MLR.5 (homoskedastiske fejlled). (ii) ˆσ 2 er en konsistent estimator af σ 2. (iii) For alle j gælder ( ˆβ j β j )/se( ˆβ j ) a N (0, 1) 33 / 35 34 / 35 Angående estimator-variansen Var[ ˆβ j ]: Vi har fra tidligere at Var[ ˆβ ˆσ 2 j ] = SST j (1 Rj 2). Asymptotisk (dvs. efterhånden som stikprøven vokser), så konvergerer ˆσ 2 mod σ 2 og R 2 konvergerer mod en konstant mellem 0 og 1. Samtidigt konvergerer SST j /n mod Var[x j ], dvs. SST j nσ 2. Alt dette giver at Var[ ˆβj ] = se( ˆβ j ) c j n, hvor c j er en ukendt, men fast konstant. 35 / 35