Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Relaterede dokumenter
Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Simpel Lineær Regression: Model

Kvantitative metoder 2

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik Lektion 4. Variansanalyse Modelkontrol

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Simpel Lineær Regression

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Kvantitative metoder 2

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Kvantitative metoder 2

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Statistik Lektion 16 Multipel Lineær Regression

Lineær regression i SAS. Lineær regression i SAS p.1/20

Forelæsning 11: Kapitel 11: Regressionsanalyse

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Løsning eksamen d. 15. december 2008

1 Regressionsproblemet 2

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Modul 6: Regression og kalibrering

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Multipel Lineær Regression

Appendiks Økonometrisk teori... II

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik II 4. Lektion. Logistisk regression

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Modul 12: Regression og korrelation

Kvantitative metoder 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Eksamen i Statistik for biokemikere. Blok

Note om Monte Carlo metoden

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Tema. Dagens tema: Indfør centrale statistiske begreber.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

To samhørende variable

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Kapitel 11 Lineær regression

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Module 3: Statistiske modeller

Løsninger til kapitel 14

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Kursus 02402/02323 Introducerende Statistik

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Perspektiver i Matematik-Økonomi: Linær regression

Kvantitative metoder 2

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Opgavebesvarelse, brain weight

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri 1 Efterår 2006 Ugeseddel 11

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Transkript:

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. 1 / 32

Motivation Eksempel: Savings = β 0 + β 1 Income + u Vi ved allerede, hvordan vi estimerer regresseionlinjen: ˆβ 0 + ˆβ 1 Income 20000 30000 40000 50000 60000 70000 80000 5000 10000 15000 20000 25000 income savings Spørgsmål 1: Hvor usikkert er linjen bestemt? Spørgsmål 1: Hvad kan vi sige om fremtidige observationer? 2 / 32

Repetition Vores sædvanlige MLR model er y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor vi bl.a. antager E[u x] = 0 (MLR.4). Det betyder bl.a. E[y x] = β 0 + β 1 x 1 + β 2 x 2 + + β k x k, dvs. y = E[y x] + u. 3 / 32

Estimerede model Fra OLS får vi den prædikterede/fittede værdi ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + + ˆβ k x k, dvs. ŷ er et unbiased estimat af E[y x], da E[ŷ x] = E[ ˆβ 0 ] + E[ ˆβ 1 ]x 1 + E[ ˆβ 2 ]x 2 + + Ê[β k ]x k = β 0 + β 1 x 1 + β 2 x 2 + + β k x k = E[y x]. Dvs. ŷ er et etimat for den forventede værdi af den afhæmgige variabel y for givne værdier af de forklarende variable x 1, x 2..., x k 4 / 32

Prædiktion for en ny person Antag vi har en ny person, hvor vi har observeret følgende værdier for de forklarende variable: x 1 = c 1, x 2 = c 2,..., x k = c k. Definer θ 0 = β 0 + β 1 c 1 + β 2 c 2 + + β k c k = E[y x 1 = c 1, x 2 = c 2,..., x k = c k ] Fortolkning: θ 0 er den forventede værdi af den afhængige variabel, y, for den nye person. Et estimat af θ 0 er givet ved ˆθ 0 = ˆβ 0 + ˆβ 1 c 1 + ˆβ 2 c 2 + + ˆβ k c k. 5 / 32

Konfidensinterval for θ 0 Et 95% konfidensinterval for θ 0 er ca. givet ved ˆθ 0 ± 2se(ˆθ 0 ). Vi har per notation se(ˆθ 0 ) = Var(ˆθ 0 ), hvor Var(ˆθ 0 ) = Var( ˆβ 0 + ˆβ 1 c 1 + ˆβ 2 c 2 + + ˆβ k c k ). Det er besværligt at udregne Var(ˆθ 0 ) da det involverer alle kovarianser mellem alle ˆβ j erne. I stedet bruger vi et lille trick... 6 / 32

Trick Vi har altså defineret θ 0 = β 0 + β 1 c 1 + β 2 c 2 + + β k c k og vores model er y = β 0 + β 1 x 1 + β 2 x 2 + β k x k + u. Trækker vi det ene udtryk fra det andet får vi y θ 0 = β 1 (x 1 c 1 ) + β 2 (x 2 c 2 ) + + β k (x k c k ) + u. Flytter vi θ 0 på den anden side af lighedstegner får vi y = θ 0 + β 1 (x 1 c 1 ) + β 2 (x 2 c 2 ) + + β k (x k c k ) + u. Bemærk at θ 0 nu er skæringspunktet! 7 / 32

Vi har altså y = θ 0 + β 1 (x 1 c 1 ) + β 2 (x 2 c 2 ) + + β k (x k c k ) + u. Dette er en ny MLR model, som stadig opfylder MLR.1 til MLR.4 og hvor parameteren af interesse, θ 0, optræder som skæringspunkt! Vi kan nu udføre regression af y mod de nye forklarende variable (x 1 c 1 ), (x 2 c 2 ),..., (x k c k ). Vi kan som sædvanligt få standard error for alle parameterestimater, inkl. for skæringspunktet, dvs. se(ˆθ 0 ). Bemærk: Størrelsen af se(ˆθ 0 ) afhænger af c 1, c 2,..., c k. Dvs. usikkerheden på regressionslinjen afhænger af værdien af de forklarende variable. 8 / 32

Konfidensinterval for θ 0 : Plot Rød linje: Estimerede regressionslinje ˆθ 0 = ˆβ 0 + ˆβ 1 income Sorte linjer: Konfidens interval for θ 0 for forskellige værdier af Income: ˆθ 0 ± 2se(ˆθ 0 ) Bemærk hvordan konfidensintervallet vokser, når vi kommer ud i siderne. 20000 30000 40000 50000 60000 70000 80000 5000 10000 15000 20000 25000 income savings 9 / 32

Prædiktion in R I R er det selvfølgelig nemmere. Først udfører vi regressionen som sædvanligt model = lm(savings ~ income) Hvis man vil prædiktere værdien for to nye person, med hhv. income = 40000 og income = 52000 skal man først definere nyt data: new.data = data.frame(income = c(40000,52000)) Derefter er det blot at bruge predict kommandoen: > predict(model,new.data,interval="confidence") fit lwr upr 1 12919.98 10819.44 15020.52 2 15933.17 14680.27 17186.06 Hver række angiver hhv. ˆθ 0 samt nedre og øvre konfidensgrænser. 10 / 32

Prædiktionsinterval Spørgsmål: Hvor vil en fremtidig observation ligge? Antag vi har en ny person med forklarende variable x 1 = x 0 1, x 2 = x 0 2,..., x k = x 0 k. Vi vil konstruere et interval hvor vi er rimlig sikker på at den nye afhæningige variabel y 0 vil ligge. Fra vores MLR har vi y 0 = β 0 + β 1 x 0 1 + β 2 x 0 2 + + β k x 0 k + u0, dvs. et estimat af den forventede værdi af y 0 er ŷ 0 = ˆβ 0 + ˆβ 1 x 0 1 + ˆβ 2 x 0 2 + + ˆβ k x 0 k Vi har allerede et konfidensinterval for y 0. 11 / 32

Prædiktionsinterval Forskellen mellem ŷ 0 og y 0 kalder vi ê 0 : ê 0 = y 0 ŷ 0 = (β 0 + β 1 x 0 1 + β 2 x 0 2 + + β k x 0 k ) + u0 ŷ 0. Det følger umiddelbart at E[ê 0 ] = 0 og at Var[ê 0 ] = Var[y 0 ŷ 0 ] = Var[y 0 ] + Var[ŷ 0 ] = σ 2 + Var[ŷ 0 ]. Bemærk at Var[ŷ 0 ] 1/n mens σ 2 er konstant. Dvs. efterhåden som vi får mere og mere data så vil Var[e 0 ] nærme sig σ 2. Vi har nu umiddelbart se(ê 0 ) = Var[ê 0 ] = se[ŷ 0 ] 2 + ˆσ 2 12 / 32

Vi har altså at E[ŷ 0 ] = E[y 0 ], dvs. ŷ 0 er en umibiased estimater af middelværdien. Desuden har vi at ê 0 = y 0 ŷ 0, hvor se(ê 0 ) = se[ŷ 0 ] 2 + ˆσ 2. Derfor har vi at y 0 ŷ 0 se(ê 0 ) t n k 1. Heraf følger at et 95% prædiktionsinterval for y 0 er derfor givet ved ŷ 0 ± t 0.025,n k 1 se(ê 0 ). 13 / 32

Prædiktionsinterval: Plot rød linje: Estimerede regressionslinje ŷ = ˆβ 0 + ˆβ 1 income blå linjer: Prædiktionsinterval for y 0. 20000 30000 40000 50000 60000 70000 80000 5000 10000 15000 20000 25000 income savings 14 / 32

Prædiktion in R I R er det selvfølgelig nemmere. Først udfører vi regressionen som sædvanligt model = lm(savings ~ income) Hvis man vil prædiktere værdien for to nye person, med income = 40000 og income = 52000 skal man først definere nyt data: new.data = data.frame(income = c(40000,52000)) Derefter er det blot at bruge predict kommandoen: > predict(model,new.data,interval="prediction") fit lwr upr 1 12919.98 2638.149 23201.81 2 15933.17 5790.509 26075.82 Hver række angiver hhv. ŷ 0 samt nedre og øvre prædiktionsgrænser. 15 / 32

Prædiktion og log(y) Antag den afhængige variabel i vores MLR model er log(y). Den prædikterede værdi for log(y) er da log(y) = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + + ˆβ k x k. Den prædikterede værdi for y er ikke exp ( log(y) ). Bemærk: Hvis u N (0, σ 2 ), så gælder, at E[exp(u)] = exp(σ 2 /2). Vi har derfor E[y x] = E[exp(log(y)) x] = exp(σ 2 /2) exp(β 0 + β 1 x 1 + β 2 x 2 + β k x k ) Derfor er den prædikterede værdi for y givet ved ŷ = exp(ˆσ 2 /2) exp( log(y)). 16 / 32

Prædiktion og log(y) Antag fortsat at log(y) er den afhængige variabel. Hvis u ikke er normalfordelt, så har vi generelt E[y x] = α 0 exp(β 0 + β 1 x 1 + β 2 x 2 + + β k x k ), hvor α 0 = E[exp(u)]. Den prædikterede værdi for y er da hvor ˆα 0 er et estimat af α 0. Fx. ŷ = ˆα 0 exp( log(y)), ˆα 0 = 1 n n exp(û i ). i=1 17 / 32

Prædiktion og heteroskedastiske fejlled Antag Var[u x] = σ 2 h(x) Vi vil finde θ 0 som før. Vi finder se(θ 0 ) ved at bruge WLS på modellen (som før) y = θ 0 + β 1 (x 1 c 1 ) + β 2 (x 2 c 2 ) + + β k (x k c k ) + u. Da se(û 0 ) = ˆσ h(x) er et 95% prædiktionsinterval for y 0 givet ved ŷ 0 ± t 0.025 se(ê 0 ), hvor se(ê 0 ) = se(ŷ 0 ) + ˆσ 2 h(x 0 ). 18 / 32

Fejl-specifikation af model Spørgsmål: Kan vi teste om en model er fejlspecificeret? Antag at den korrekte model er log(wage) = β 0 + β 1 educ + β 2 expr + β 3 expr 2 + u. Hvis vi glemmer expr 2 får vi log(wage) = β 0 + β 1 educ + β 2 expr + u, vi ved fra tidligere, at estimaterne af β 1 og β 2 typisk er biased. Hvordan opdager vi at vi har brugt den forkerte funktion af de forklarende variable? Bemærk: Det antages at alle relevante forklarende variable er med i modellen. Vi tester kun funktionel form ikke om forklarende variable mangler. 19 / 32

RESET test RESET = REgression Specification Error Test Motivation: Antag den korrekte model er y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u. Hvis MLR.4 (E[u x 1,..., x n ] = 0) er opfyldt, så vil alle ikke lineære funktoner af x 1,..., x k vi tilføjer modellen være ikke-signifikante. Simpel ide: Tilføj forskellige ikke-linære funktioner af x 1,..., x k til modellen og se om de er signifikante. Fx. y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k Problem: Vi mister mange frihedsgrader. + δ 1 x 2 1 + + δ k x 2 k + δ k+1 x 1 x 2 + + δ k(k+1)/2 x k 1 x k + u 20 / 32

RESET test Lad ŷ være den prædikterede værdi opnået ved OLS. Betragt ny model : y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + δ 1 ŷ 2 + δ 2 ŷ 3 + error. Herefter udføres et F -test af hypotesen H 0 : δ 1 = 0, δ 2 = 0. For teststørrelsen gælder F a F 2,n k 3. 21 / 32

RESET test i R I R udfører man RESET testet sådan her: library(lmtest) model = lm(log(wage) ~ AGE + EDUCATION + EXPERIENCE, data=wage) resettest(model) Resultatet er RESET test data: model RESET = 0.4595, df1 = 2, df2 = 517, p-value = 0.6319 Konklusion: 22 / 32

Hvilken model skal vi vælge...? Vi har to model-kandidater: y = β 0 + β 1 x 1 + β 2 x 2 + u og y = β 0 + β 1 log(x 1 ) + β 2 log(x 2 ) + u Hvilken er den korrekte? Betragt kombineret model y = γ 0 + γ 1 x 1 + γ 2 x 2 + γ 3 log(x 1 ) + γ 4 log(x 2 ) + u Test, fx., hypotesen H 0 : γ 1 = 0, γ 2 = 0. Hvis vi ikke kan afvise hypotesen, så vælger vi modelkandidat nr. 2. 23 / 32

Proxy variable: Motivation Motivation: Antag vi er interesseret i følgende model: y = β 0 + β 1 educ + β 2 exper + β 3 abil + u. Problem: abil, dvs. evner, er ikke noget vi kan observere. Desuden, hvis abil er korreleret med educ, så er estimatet af β 1 biased, hvis abil undlades. Vi indfører en proxy ( stedfortræder ) variabel. Fx. kan IQ være en proxy for abil. 24 / 32

Proxy variabel: Generelt Antag vi har en model y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + u, hvor x ikke er tilgængelig. Antag at x 3 er en proxy for x3, som er forbundet som x3 = δ 0 + δ 3 x 3 + ν 3, hvor ν 3 er et fejlled. Ide: Indsæt x 3 i modellen: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 (δ 0 + δ 3 x 3 + ν 3 ) + u = (β 0 + β 3 δ 0 ) + β 1 x 1 + β 2 x 2 + β 3 δ 3 x 3 + (β 3 ν 3 + u) = α 0 + β 1 x 1 + β 2 x 2 + α 3 x 3 + e Næste ide: Regression af y mod x 1, x 2 og x 3. 25 / 32

Proxy variabel: Krav Vi altså model: y = (β 0 + β 3 δ 0 ) + β 1 x 1 + β 2 x 2 + β 3 δ 3 x 3 + (β 3 ν 3 + u) For at OLS estimaterne af β 1 og β 2 er unbiase kræves 1. u er ukorreleret med x 1, x 2, x 3 og x 3. Dvs. hvis vi kender x 1, x 2 og x 3 så er x 3 irrelavant. 2. Fejlleddet ν 3 er ukorreleret med x 1, x 2 og x 3, dvs. E[x 3 x 1, x 2, x 3 ] = E[x 3 x 3 ] = δ 0 + δ 3 x 3 26 / 32

En dårlig proxy Antag at den uobserverede variabel x3 forklarende variable: også afhænger af de andre Indsat i modellen får vi x 3 = δ 0 + δ 1 x 2 + δ 2 x 2 + δ 3 x 3 + ν 3 y = (β 0 +β 2 δ 3 )+(β 1 +β 3 δ 1 )x 1 +(β 2 +β 2 δ 2 )x 2 +β 3 δ 3 x 3 +u +β 3 ν3. Det er nu oplagt at et regression af y mode x 1, x 2 og x 3 giver estimater af β 1 og β 2 der er biased. 27 / 32

Forsinkede (lagged) proxy variable Det er tænkeligt at raten af lovovertrædelser (crime rate = crime) afhænger af arbejdsløshedsraten (unemp) og udgifterne til krimminalitetsbekæmpelse (expend). Sandsynligvis har mange andre forhold også stor betydning vi ved ikke hvilke eller kan ikke observere dem. Mange af disse uobservede forhold forhold påvirkede nok også crime året før. Derfor er crime 1, krimminalitetesraten året før, en god proxy. Vores model er derfor crime = β 0 + β 1 unem + β 2 expend + β 3 crime 1 + u. 28 / 32

Missing data En tilbagevendende hovedpine i anvendt statistik er at data mangler for nogle individer. Nogle gange giver det store problemer, andre gange er det bare lidt irriterende. Manglende data på den gode måde: Hvis folk helt tilfældigt og usystematisk glemmer at angive, fx. deres vægt, så opstår der ingen problemer. Vi udelader blot personen, hvor oplysninger mangler. Eneste hage er at vi, naturligvis, har mindre data. Omtales som Missing at random. I det følgende (konstruerede) eksempel. Skal vi estimere hvordan opsparing (savings) afhænger af indkomst (income), når data mangler systematisk. 29 / 32

Ingen manglende data Alle observation er tilgængelige. 2e+04 4e+04 6e+04 8e+04 1e+05 0 10000 20000 30000 income savings Rød linje: Estimerede reregssionslinje for al data. 30 / 32

Systematisk manglende forklarende variabel Observationer, hvor income er under 50000 mangler. 2e+04 4e+04 6e+04 8e+04 1e+05 0 10000 20000 30000 income savings Rød linje: Estimerede reregssionslinje for al data. Blå linje: Regressionslinje for det tilbageværende data. Der er kun en let påvirkning af de manglende data. 31 / 32

Systematisk manglede afhængig variabel Observationer, hvor savings er mindre end 15000 mangler. 2e+04 4e+04 6e+04 8e+04 1e+05 0 10000 20000 30000 income savings Rød linje: Estimerede reregssionslinje for al data. Blå linje: Regressionslinje for det tilbageværende data. Der er en tydelig biased. 32 / 32