Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. 1 / 32

Motivation Eksempel: Savings = β 0 + β 1 Income + u Vi ved allerede, hvordan vi estimerer regresseionlinjen: ˆβ 0 + ˆβ 1 Income 20000 30000 40000 50000 60000 70000 80000 5000 10000 15000 20000 25000 income savings Spørgsmål 1: Hvor usikkert er linjen bestemt? Spørgsmål 1: Hvad kan vi sige om fremtidige observationer? 2 / 32

Repetition Vores sædvanlige MLR model er y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor vi bl.a. antager E[u x] = 0 (MLR.4). Det betyder bl.a. E[y x] = β 0 + β 1 x 1 + β 2 x 2 + + β k x k, dvs. y = E[y x] + u. 3 / 32

Estimerede model Fra OLS får vi den prædikterede/fittede værdi ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + + ˆβ k x k, dvs. ŷ er et unbiased estimat af E[y x], da E[ŷ x] = E[ ˆβ 0 ] + E[ ˆβ 1 ]x 1 + E[ ˆβ 2 ]x 2 + + Ê[β k ]x k = β 0 + β 1 x 1 + β 2 x 2 + + β k x k = E[y x]. Dvs. ŷ er et etimat for den forventede værdi af den afhæmgige variabel y for givne værdier af de forklarende variable x 1, x 2..., x k 4 / 32

Prædiktion for en ny person Antag vi har en ny person, hvor vi har observeret følgende værdier for de forklarende variable: x 1 = c 1, x 2 = c 2,..., x k = c k. Definer θ 0 = β 0 + β 1 c 1 + β 2 c 2 + + β k c k = E[y x 1 = c 1, x 2 = c 2,..., x k = c k ] Fortolkning: θ 0 er den forventede værdi af den afhængige variabel, y, for den nye person. Et estimat af θ 0 er givet ved ˆθ 0 = ˆβ 0 + ˆβ 1 c 1 + ˆβ 2 c 2 + + ˆβ k c k. 5 / 32

Konfidensinterval for θ 0 Et 95% konfidensinterval for θ 0 er ca. givet ved ˆθ 0 ± 2se(ˆθ 0 ). Vi har per notation se(ˆθ 0 ) = Var(ˆθ 0 ), hvor Var(ˆθ 0 ) = Var( ˆβ 0 + ˆβ 1 c 1 + ˆβ 2 c 2 + + ˆβ k c k ). Det er besværligt at udregne Var(ˆθ 0 ) da det involverer alle kovarianser mellem alle ˆβ j erne. I stedet bruger vi et lille trick... 6 / 32

Trick Vi har altså defineret θ 0 = β 0 + β 1 c 1 + β 2 c 2 + + β k c k og vores model er y = β 0 + β 1 x 1 + β 2 x 2 + β k x k + u. Trækker vi det ene udtryk fra det andet får vi y θ 0 = β 1 (x 1 c 1 ) + β 2 (x 2 c 2 ) + + β k (x k c k ) + u. Flytter vi θ 0 på den anden side af lighedstegner får vi y = θ 0 + β 1 (x 1 c 1 ) + β 2 (x 2 c 2 ) + + β k (x k c k ) + u. Bemærk at θ 0 nu er skæringspunktet! 7 / 32

Vi har altså y = θ 0 + β 1 (x 1 c 1 ) + β 2 (x 2 c 2 ) + + β k (x k c k ) + u. Dette er en ny MLR model, som stadig opfylder MLR.1 til MLR.4 og hvor parameteren af interesse, θ 0, optræder som skæringspunkt! Vi kan nu udføre regression af y mod de nye forklarende variable (x 1 c 1 ), (x 2 c 2 ),..., (x k c k ). Vi kan som sædvanligt få standard error for alle parameterestimater, inkl. for skæringspunktet, dvs. se(ˆθ 0 ). Bemærk: Størrelsen af se(ˆθ 0 ) afhænger af c 1, c 2,..., c k. Dvs. usikkerheden på regressionslinjen afhænger af værdien af de forklarende variable. 8 / 32

Konfidensinterval for θ 0 : Plot Rød linje: Estimerede regressionslinje ˆθ 0 = ˆβ 0 + ˆβ 1 income Sorte linjer: Konfidens interval for θ 0 for forskellige værdier af Income: ˆθ 0 ± 2se(ˆθ 0 ) Bemærk hvordan konfidensintervallet vokser, når vi kommer ud i siderne. 20000 30000 40000 50000 60000 70000 80000 5000 10000 15000 20000 25000 income savings 9 / 32

Prædiktion in R I R er det selvfølgelig nemmere. Først udfører vi regressionen som sædvanligt model = lm(savings ~ income) Hvis man vil prædiktere værdien for to nye person, med hhv. income = 40000 og income = 52000 skal man først definere nyt data: new.data = data.frame(income = c(40000,52000)) Derefter er det blot at bruge predict kommandoen: > predict(model,new.data,interval="confidence") fit lwr upr 1 12919.98 10819.44 15020.52 2 15933.17 14680.27 17186.06 Hver række angiver hhv. ˆθ 0 samt nedre og øvre konfidensgrænser. 10 / 32

Prædiktionsinterval Spørgsmål: Hvor vil en fremtidig observation ligge? Antag vi har en ny person med forklarende variable x 1 = x 0 1, x 2 = x 0 2,..., x k = x 0 k. Vi vil konstruere et interval hvor vi er rimlig sikker på at den nye afhæningige variabel y 0 vil ligge. Fra vores MLR har vi y 0 = β 0 + β 1 x 0 1 + β 2 x 0 2 + + β k x 0 k + u0, dvs. et estimat af den forventede værdi af y 0 er ŷ 0 = ˆβ 0 + ˆβ 1 x 0 1 + ˆβ 2 x 0 2 + + ˆβ k x 0 k Vi har allerede et konfidensinterval for y 0. 11 / 32

Prædiktionsinterval Forskellen mellem ŷ 0 og y 0 kalder vi ê 0 : ê 0 = y 0 ŷ 0 = (β 0 + β 1 x 0 1 + β 2 x 0 2 + + β k x 0 k ) + u0 ŷ 0. Det følger umiddelbart at E[ê 0 ] = 0 og at Var[ê 0 ] = Var[y 0 ŷ 0 ] = Var[y 0 ] + Var[ŷ 0 ] = σ 2 + Var[ŷ 0 ]. Bemærk at Var[ŷ 0 ] 1/n mens σ 2 er konstant. Dvs. efterhåden som vi får mere og mere data så vil Var[e 0 ] nærme sig σ 2. Vi har nu umiddelbart se(ê 0 ) = Var[ê 0 ] = se[ŷ 0 ] 2 + ˆσ 2 12 / 32

Vi har altså at E[ŷ 0 ] = E[y 0 ], dvs. ŷ 0 er en umibiased estimater af middelværdien. Desuden har vi at ê 0 = y 0 ŷ 0, hvor se(ê 0 ) = se[ŷ 0 ] 2 + ˆσ 2. Derfor har vi at y 0 ŷ 0 se(ê 0 ) t n k 1. Heraf følger at et 95% prædiktionsinterval for y 0 er derfor givet ved ŷ 0 ± t 0.025,n k 1 se(ê 0 ). 13 / 32

Prædiktionsinterval: Plot rød linje: Estimerede regressionslinje ŷ = ˆβ 0 + ˆβ 1 income blå linjer: Prædiktionsinterval for y 0. 20000 30000 40000 50000 60000 70000 80000 5000 10000 15000 20000 25000 income savings 14 / 32

Prædiktion in R I R er det selvfølgelig nemmere. Først udfører vi regressionen som sædvanligt model = lm(savings ~ income) Hvis man vil prædiktere værdien for to nye person, med income = 40000 og income = 52000 skal man først definere nyt data: new.data = data.frame(income = c(40000,52000)) Derefter er det blot at bruge predict kommandoen: > predict(model,new.data,interval="prediction") fit lwr upr 1 12919.98 2638.149 23201.81 2 15933.17 5790.509 26075.82 Hver række angiver hhv. ŷ 0 samt nedre og øvre prædiktionsgrænser. 15 / 32

Prædiktion og log(y) Antag den afhængige variabel i vores MLR model er log(y). Den prædikterede værdi for log(y) er da log(y) = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + + ˆβ k x k. Den prædikterede værdi for y er ikke exp ( log(y) ). Bemærk: Hvis u N (0, σ 2 ), så gælder, at E[exp(u)] = exp(σ 2 /2). Vi har derfor E[y x] = E[exp(log(y)) x] = exp(σ 2 /2) exp(β 0 + β 1 x 1 + β 2 x 2 + β k x k ) Derfor er den prædikterede værdi for y givet ved ŷ = exp(ˆσ 2 /2) exp( log(y)). 16 / 32

Prædiktion og log(y) Antag fortsat at log(y) er den afhængige variabel. Hvis u ikke er normalfordelt, så har vi generelt E[y x] = α 0 exp(β 0 + β 1 x 1 + β 2 x 2 + + β k x k ), hvor α 0 = E[exp(u)]. Den prædikterede værdi for y er da hvor ˆα 0 er et estimat af α 0. Fx. ŷ = ˆα 0 exp( log(y)), ˆα 0 = 1 n n exp(û i ). i=1 17 / 32

Prædiktion og heteroskedastiske fejlled Antag Var[u x] = σ 2 h(x) Vi vil finde θ 0 som før. Vi finder se(θ 0 ) ved at bruge WLS på modellen (som før) y = θ 0 + β 1 (x 1 c 1 ) + β 2 (x 2 c 2 ) + + β k (x k c k ) + u. Da se(û 0 ) = ˆσ h(x) er et 95% prædiktionsinterval for y 0 givet ved ŷ 0 ± t 0.025 se(ê 0 ), hvor se(ê 0 ) = se(ŷ 0 ) + ˆσ 2 h(x 0 ). 18 / 32

Fejl-specifikation af model Spørgsmål: Kan vi teste om en model er fejlspecificeret? Antag at den korrekte model er log(wage) = β 0 + β 1 educ + β 2 expr + β 3 expr 2 + u. Hvis vi glemmer expr 2 får vi log(wage) = β 0 + β 1 educ + β 2 expr + u, vi ved fra tidligere, at estimaterne af β 1 og β 2 typisk er biased. Hvordan opdager vi at vi har brugt den forkerte funktion af de forklarende variable? Bemærk: Det antages at alle relevante forklarende variable er med i modellen. Vi tester kun funktionel form ikke om forklarende variable mangler. 19 / 32

RESET test RESET = REgression Specification Error Test Motivation: Antag den korrekte model er y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u. Hvis MLR.4 (E[u x 1,..., x n ] = 0) er opfyldt, så vil alle ikke lineære funktoner af x 1,..., x k vi tilføjer modellen være ikke-signifikante. Simpel ide: Tilføj forskellige ikke-linære funktioner af x 1,..., x k til modellen og se om de er signifikante. Fx. y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k Problem: Vi mister mange frihedsgrader. + δ 1 x 2 1 + + δ k x 2 k + δ k+1 x 1 x 2 + + δ k(k+1)/2 x k 1 x k + u 20 / 32

RESET test Lad ŷ være den prædikterede værdi opnået ved OLS. Betragt ny model : y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + δ 1 ŷ 2 + δ 2 ŷ 3 + error. Herefter udføres et F -test af hypotesen H 0 : δ 1 = 0, δ 2 = 0. For teststørrelsen gælder F a F 2,n k 3. 21 / 32

RESET test i R I R udfører man RESET testet sådan her: library(lmtest) model = lm(log(wage) ~ AGE + EDUCATION + EXPERIENCE, data=wage) resettest(model) Resultatet er RESET test data: model RESET = 0.4595, df1 = 2, df2 = 517, p-value = 0.6319 Konklusion: 22 / 32

Hvilken model skal vi vælge...? Vi har to model-kandidater: y = β 0 + β 1 x 1 + β 2 x 2 + u og y = β 0 + β 1 log(x 1 ) + β 2 log(x 2 ) + u Hvilken er den korrekte? Betragt kombineret model y = γ 0 + γ 1 x 1 + γ 2 x 2 + γ 3 log(x 1 ) + γ 4 log(x 2 ) + u Test, fx., hypotesen H 0 : γ 1 = 0, γ 2 = 0. Hvis vi ikke kan afvise hypotesen, så vælger vi modelkandidat nr. 2. 23 / 32

Proxy variable: Motivation Motivation: Antag vi er interesseret i følgende model: y = β 0 + β 1 educ + β 2 exper + β 3 abil + u. Problem: abil, dvs. evner, er ikke noget vi kan observere. Desuden, hvis abil er korreleret med educ, så er estimatet af β 1 biased, hvis abil undlades. Vi indfører en proxy ( stedfortræder ) variabel. Fx. kan IQ være en proxy for abil. 24 / 32

Proxy variabel: Generelt Antag vi har en model y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + u, hvor x ikke er tilgængelig. Antag at x 3 er en proxy for x3, som er forbundet som x3 = δ 0 + δ 3 x 3 + ν 3, hvor ν 3 er et fejlled. Ide: Indsæt x 3 i modellen: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 (δ 0 + δ 3 x 3 + ν 3 ) + u = (β 0 + β 3 δ 0 ) + β 1 x 1 + β 2 x 2 + β 3 δ 3 x 3 + (β 3 ν 3 + u) = α 0 + β 1 x 1 + β 2 x 2 + α 3 x 3 + e Næste ide: Regression af y mod x 1, x 2 og x 3. 25 / 32

Proxy variabel: Krav Vi altså model: y = (β 0 + β 3 δ 0 ) + β 1 x 1 + β 2 x 2 + β 3 δ 3 x 3 + (β 3 ν 3 + u) For at OLS estimaterne af β 1 og β 2 er unbiase kræves 1. u er ukorreleret med x 1, x 2, x 3 og x 3. Dvs. hvis vi kender x 1, x 2 og x 3 så er x 3 irrelavant. 2. Fejlleddet ν 3 er ukorreleret med x 1, x 2 og x 3, dvs. E[x 3 x 1, x 2, x 3 ] = E[x 3 x 3 ] = δ 0 + δ 3 x 3 26 / 32

En dårlig proxy Antag at den uobserverede variabel x3 forklarende variable: også afhænger af de andre Indsat i modellen får vi x 3 = δ 0 + δ 1 x 2 + δ 2 x 2 + δ 3 x 3 + ν 3 y = (β 0 +β 2 δ 3 )+(β 1 +β 3 δ 1 )x 1 +(β 2 +β 2 δ 2 )x 2 +β 3 δ 3 x 3 +u +β 3 ν3. Det er nu oplagt at et regression af y mode x 1, x 2 og x 3 giver estimater af β 1 og β 2 der er biased. 27 / 32

Forsinkede (lagged) proxy variable Det er tænkeligt at raten af lovovertrædelser (crime rate = crime) afhænger af arbejdsløshedsraten (unemp) og udgifterne til krimminalitetsbekæmpelse (expend). Sandsynligvis har mange andre forhold også stor betydning vi ved ikke hvilke eller kan ikke observere dem. Mange af disse uobservede forhold forhold påvirkede nok også crime året før. Derfor er crime 1, krimminalitetesraten året før, en god proxy. Vores model er derfor crime = β 0 + β 1 unem + β 2 expend + β 3 crime 1 + u. 28 / 32

Missing data En tilbagevendende hovedpine i anvendt statistik er at data mangler for nogle individer. Nogle gange giver det store problemer, andre gange er det bare lidt irriterende. Manglende data på den gode måde: Hvis folk helt tilfældigt og usystematisk glemmer at angive, fx. deres vægt, så opstår der ingen problemer. Vi udelader blot personen, hvor oplysninger mangler. Eneste hage er at vi, naturligvis, har mindre data. Omtales som Missing at random. I det følgende (konstruerede) eksempel. Skal vi estimere hvordan opsparing (savings) afhænger af indkomst (income), når data mangler systematisk. 29 / 32

Ingen manglende data Alle observation er tilgængelige. 2e+04 4e+04 6e+04 8e+04 1e+05 0 10000 20000 30000 income savings Rød linje: Estimerede reregssionslinje for al data. 30 / 32

Systematisk manglende forklarende variabel Observationer, hvor income er under 50000 mangler. 2e+04 4e+04 6e+04 8e+04 1e+05 0 10000 20000 30000 income savings Rød linje: Estimerede reregssionslinje for al data. Blå linje: Regressionslinje for det tilbageværende data. Der er kun en let påvirkning af de manglende data. 31 / 32

Systematisk manglede afhængig variabel Observationer, hvor savings er mindre end 15000 mangler. 2e+04 4e+04 6e+04 8e+04 1e+05 0 10000 20000 30000 income savings Rød linje: Estimerede reregssionslinje for al data. Blå linje: Regressionslinje for det tilbageværende data. Der er en tydelig biased. 32 / 32