W.2 Simpel lineær regression: Egenskaber ved OLS: Forudsagte værdier og residualer: Et residual:

Relaterede dokumenter
Kvantitative metoder 2

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Kvantitative metoder 2

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Kvantitative metoder 2

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri 1. Gentagne tværsnit (W ): Opsamling. Gentagne tværsnit og paneldata. Gentagne Tværsnit og Paneldata II.

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Appendiks Økonometrisk teori... II

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Simpel Lineær Regression: Model

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Rettevejledning til Økonomisk Kandidateksamen 2007II. Kvantitative Metoder 2: Tag-hjem eksamen

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Simpel Lineær Regression

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Rettevejledning til Økonomisk Kandidateksamen 2008II. Kvantitative Metoder 2: Tag-hjem eksamen

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Rettevejledning til Økonomisk Kandidateksamen 2004I, Økonometri 1

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Vejledende besvarelser til opgaver i kapitel 14

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Module 3: Statistiske modeller

Kvantitative Metoder 1 - Efterår Dagens program

Konfidensintervaller og Hypotesetest

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Module 4: Ensidig variansanalyse

Multipel Lineær Regression

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Appendiks A Anvendte test statistikker

Statistik II 4. Lektion. Logistisk regression

Bilag 12 Regressionsanalysens tabeller og forklaringer

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Økonomisk Kandidateksamen 2004II Økonometri 1. Læsefærdigheder hos skoleelever i Danmark

Forelæsning 11: Kapitel 11: Regressionsanalyse

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Statistik Lektion 17 Multipel Lineær Regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Normalfordelingen og Stikprøvefordelinger

Kvantitative Metoder 1 - Forår Dagens program

Kapitel 7 Forskelle mellem centraltendenser

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Tema. Dagens tema: Indfør centrale statistiske begreber.

1 Multipel lineær regression

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Transkript:

W.2 Simpel lineær regression: Forudsagte værdier og residualer: Et residual: For residualerne (baseret på en OLS estimation med konstantled) gælder følgende sammenhænge mekanisk: Egenskaber ved OLS: Den samlede variation i kan skrives som SST (Total sum of squares): Explained sum of squares (SSE): SSR (Residual sum of squares): Goodness of fit: 1

Egenskaber ved R 2: - ligger mellem 0 og 1 - falder aldrig hvis man tilføjer en ekstra variabel. - kan ikke bruges til at sammenligne modeller med forskellige afhængige variable Standardfejl for OLS estimatorerne Standardfejl: Den estimerede varians på fejlleddet,, kan substitueres i udtrykkene for variansen på OLS estimaterne. Kvadratroden heraf kaldes standardfejlen. Den estimerede standardafvigelse på OLS estimatet for hældningen fås som: Standardfejlen er et mål for variabiliteten af estimatoren set over forskellige realisationer af data. Estimatet kan skrives som: Lidt regneregler til når man regner med sumtegn: 2

W.3 Multipel lineær regression: Den multiple regressionsmodel på matrixform For et datasæt med n observationer: y1 1 x x 1 1 1 k u 1 0 y 1 x x u 2 2 1 2 k 2 1 y, X, u y 1 x x u og er n x 1 (vektor) er n x (k+1) matrix Parameteren er (k+1) x 1 matrix (vektor) n n1 n k n k Regressionsmodellen skrevet som matrix: y1 1 x x x 1 1 1 2 1 k 0 u 1 y 1 x x x u 2 2 1 2 2 2 k 1 2 y 1 x x x u N n1 n 2 n k k n Regressionsmodellen kan også skrives kompakt som: OLS estimatoren kan udregnes ved brug af moment metoden som i den simple regressionsmodel Hvis X X er invertibel (X har fuld rang) kan OLS estimatoren udregnes: Ækvivalent til at udlede OLS estimatoren ved at minimere residualkvadratsummen: OLS Residualer: For OLS residualer fra den multiple regressionsmodel (med et konstantled) gælder følgende: - Gennemsnittet af residualerne er lig 0: - Kovariansen mellem residualer og de forklarende variable er lig 0: - Punktet er altid på OLS regressionslinien 3

Regressionsmodel uden konstantled estimeret med OLS: I denne model gælder: - OLS residualerne har ikke gennemsnit lig 0 - er re-defineret og kan blive negativ - Hvis populationsmodellen indeholder et konstantled, vil OLS estimaterne af være biased (ikke middelrette). - I praksis: Medtager altid et konstantled. Bias i ved udeladelse af (Omitted Variable Bias (OVB)): At udelade én variabel gør alle estimater biased. + - - + 1. Når er biased, og er unbiased og 2. Når er både og unbiased og Variansen af OLS estimatoren: Til at fortolke variansen kan det være lettere at benytte følgende opskrivning af variansen hvor De tre komponenter i variansen Variansen af fejlleddet: - Jo større varians på fejlleddet jo større varians på alle estimatorerne Variationen i - Jo større variation i jo mindre varians på estimatoren for Variation - Jo tættere er på 0 jo mindre er variansen på estimatoren for - Mindst varians opnås ved hvilket svarer til at er ukorreleret med de øvrige forklarende variable - Jo tættere er på 1 jo større er variansen på estimatoren for β j - Hvis antagelsen MLR.3 er opfyldt er altid forskellig fra 1 4

Multikollinearitet Multikollinearitet optræder, når er tæt på Følgerne af multikollinearitet: - Variansen på estimatoren β j vil være stor (se figur 3.1) Hvornår optræder multikollinearitet: - Når nogle af de forklarende variable er højt korrelerede - Når der er få observationer Variansen i misspecificerede modeller Antag følgende model opfylder Gauss-Markov antagelserne: Vi har to estimatorer af β 1: - OLS estimatoren fra MLR: - OLS estimatoren fra SLR: Den betingede varians af er altid mindre end (eller lig med) variansen af Hvis og er ukorrelerede er variansen den samme og begge estimatorer middelrette Hvis er begge estimatorer middelrette og har mindst varians. Altså foretrækkes Hvis er middelret mens er generelt biased. Variansen af er mindst. Her foretrækkes. Estimatet på variansen af fejlleddet Ud fra OLS estimaterne kan residualerne beregnes: Estimatet beregnes til: 5

MLR.1-6: MLR.1 (lineær i parametrene): - Den afhængige variabel y kan beskrives ved følgende model: MATRIXNOTATION: MLR.2 (tilfældig stikprøve): - Vi har en tilfældig stikprøve (y i,x i1, x i2,.., x ik ) i=1,..,n fra populationen (se definition i Appendix C.1) MATRIXNOTATION: MLR.3 (ingen perfekt multikollinaritet) - I stikprøven (og i populationen) kan ingen af de forklarende variable skrives som en lineær funktion af de øvrige. - De forklarende variable må godt være korreleret f.eks.: - Både x og x 2 kan være forklarende variable - Uddannelseslængde, køn og erfaring kan indgå i lønligning MATRIXNOTATION: -matricen har ranken MLR.4 (betinget middelværdi af fejlled): - Grunde til at MLR.4 måske ikke er opfyldt: - Forkert funktionel form (mere i kap. 9) - Udeladte variable (som er korreleret med en forklarende variabel) - Målefejl i de forklarende variable (mere i kap. 9) - Omvendt kausalitet (effekten går fra y til x) (kap. 15) MATRIXNOTATION: MLR.5 Homoskedasticity: MATRIXNOTATION: Under antagelse af MLR.1-4 er OLS estimaterne middelrette (unbiased) og konsistente (W. 5.1, s.169). Overholdes MLR.4 ikke er estimaterne også inkonsistente. Under antagelse af MLR.1-5 er OLS estimaterne BLUE MLR.6: u er uafhængig af og normalfordelt med middelværdi 0 og varians. MLR.1-6 kaldes samlet Classical Linear Model (CLM). MLR.6 er dog ikke relevant ved store n. 6

W.4 Inferens Under CLM antagelserne (MLR.1-6) gælder følgende:, hvor Estimatet ( ) er normalfordelt med gennemsnit og varians. kan standardiseres: indeholder den ukendte parameter og er derfor ikke umiddelbart operationel. Erstattes af kan man vise at der gælder følgende resultat: Teorem 4.2: Under CLM antagelserne gælder at Hypotesetest: Restriktion på en enkelt koefficient: t-test for : t-test for : To-sidet test benyttes som standard, hvis ikke andet er angivet. Klassisk teststrategi: - Vælg signifikansniveau: Sandsynlighed for at afvise nulhypotesen, givet at den er sand. Typisk vælges 5 %. - Vælg alternativhypotese: Bestemmer den kritiske region, givet signifikansniveauet. - Beregn teststatistik. Afvis nulhypotesen hvis testet er i den kritiske region. Afvis ellers ikke. - Alternativ: Beregn p-værdi: Marginale signifikansniveau som ville betyde at nulhypotesen netop ville blive afvist: P-værdi: 7

Konfidensintervaller: Hypotesetest: Flere lineære restriktioner: Et fælles test af flere lineære restriktioner: F-testet: - Tæller altid større end eller lig nul: Restrikteret model kan ikke tilpasse data bedre end urestrikteret model. - Antal frihedsgrader i tæller: Antal restriktioner, q - Antal frihedsgrader i nævner: n- antal regressorer i urestrikteret model. - Helt generelt format for F-testet. F-testet kan også skrives med : F = t 2 : For en restriktion og to-sidet alternativ: Ækvivalent med t-test: Men F-test af fælles hypotese på flere koefficienter kan godt give andet resultat end individuelle t-test. Samlet signifikans af regressionen: : hvilket giver den restrikterede model: Relationen mellem R 2 og F-testet for denne specielle hypotese: Lagrange Multiplikator testet: Generelt format: - Estimation af modellen under H 0 - Residualer fra restrikteret model, - Hjælperegression ( auxiliary regression ) af - På hvad: afhænger af den specifikke hypotese. Kræver ikke estimation af den generelle (dvs.urestrikterede model): Oftest den i praksis sværeste. LM testet kan anvendes når Gauss-Markov antagelserne (MLR.1-MLR.5) er opfyldt. 8

LM-test (Lagrange multiplier statistic) LM-teststørrelsen vil almindeligvis (og uanset om der antages normalfordelte fejlled eller ej) være asymptotisk fordelt som, hvor er antallet af restriktioner. Inferens i den multiple regressionsmodel: Opsamling: Resultater om OLS med endeligt antal observationer: Normalitetsantagelse eksakte t- og F-test. Asymptotiske resultater for OLS: - Konsistens under MLR.1-4. - Asymptotisk normalfordelt under MLR.1-5: - t- og F-test begrundes approximativt i endeligt datasæt uden at antage normalfordelte fejlled. - Andre typer af test: Lagrange multiplikator testet - Asymptotisk efficiens af OLS under MLR.1-5. 9

W.5 Asymptotisk Konsistens: Konsistens af OLS i store datasæt under MLR.1-4: Minimumskrav opfyldt. Inferens: Vi behøver mere end det. Antager nu: - MLR.5: Homoskedasticitet: - Men ikke MLR.6: Normalitet af u i Konsistens af en estimator defineres som: er estimator for baseret på er konsistent for hvis for ethvert gælder at, for Estimatoren konvergerer i sandsynlighed mod den sande værdi: Egenskab for estimatoren når antallet af observationer øges mod uendeligt. Minimalkrav til en fornuftig estimator. Middelret estimator er ikke nødvendigvis konsistent: Præcisionen bliver ikke nødvendigvis bedre når Men: Hvis variansen af en middelret estimator går mod nul i sandsynlighed når, så gælder at Under MLR.1-4 er OLS-estimatoren konsistent for. Hvis fejlleddet er korreleret med en eller flere regressorer vil OLS være inkonsistent: eller, Inkonsistensen (den asymptotiske bias ) i den simple lineære regressionsmodel er givet ved OLS standardfejlen: Asymptotisk: Efficiens: Efficiens drejer sig om at sammenligne variansen af forskellige middelrette estimatorer (definition (se appendix C.2)). 10

Oversigt over OLS estimatorens egenskaber: Antagelser Eksakt Asymptotisk MLR1-MLR4 Middelret (Teorem 3.1) Konsistent (Teorem 5.1) MLR1-MLR5 BLUE (Teorem 3.4) Asymptotisk Normalfordelt (Teorem 5.2) Asymptotisk efficient (Teorem 5.3) MLR1-MLR6 Normalfordelt (Teorem 4.1) 11

W.6 Flere emner Skalering: Skaleringen af variablerne er ofte arbitrær: Ex. Afstand målt meter vs. kilometer (1000 m) vs. amerikanske miles (1609 m) vs. svenske mil (10000 m). RHS-variabler: I princippet: Frit valg af skala for de enkelte Koef.estimat og std. fejl reskaleres. Alt andet uændret (inkl. t-værdierne). Ex: : afkast af en måneds ekstra uddannelse : afkast af et års ekstra erfaring Ønsker begge dele i pro anno termer: Definerer uddannelse i år: Definer Hvis indsæt i model: og indsæt: multipliceres med en konstant bliver s koefficient divideret med denne konstant,. LHS-variabler: Definer, Koef.estimat og std. fejl reskaleres ligesom SSR, SST, SSE og og t-værdierne uændrede. Funktionel form: MLR forudsætter, at modellen er lineær i parametrene, men ikke i variablerne. Funktionel form: Fortolkningsmæssige konsekvenser! Tre vigtige tilfælde: - Log-transformation - Kvadratiske led - Interaktionsled 12

Log-transformation: Fordele ved log. - Variansen på en størrelse kan afhænge af niveauet: Relativ varians er mere stabil ex. løn. - Strengt positive variable: ex. Løn. - Mindre betydning af ekstreme observationer (log nedvægter store værdier mere end små værdier) NB. Log kan ikke bruges, når en variabel tager værdien 0 Model Afhængig Forklarende Elasticitet y mht. x Level-level y X Log-level log(y) X Level-log y log(x) Log-log log(y) Log(x) Kvadratiske led: Aftagende eller stigende marginaludbytte/-effekt Maksimum eller minmum af : Interaktionsled: Marginal effekt af at ændre værdien af en forklarende variabel,, afhænger af værdien af fx : Fx: Afkastet af uddannelse kan variere med erfaring. 13

W.7 Dummy variable Fortolkning af parameteren til dummyvariablen: - Koefficienten til dummyvariablen måler den forventede forskel mellem de to kategorier, alt andet lige - Inkludering af en dummyvariabel kan grafisk fortolkes som et skift i konstantleddet -..men koefficienterne til de øvrige forklarende variabler er restrikteret til at være ens for de to grupper Vil man have den eksakte procentuelle forskel skal følgende formel anvendes Begge dummy-variable kan ikke inkluderes samtidigt (hvis der også er et konstantled i modellen) -> Perfekt multikollinearitet ( dummyvariabelfælden ). Hvis den kvalitative egenskab har m kategorier (m>2) skal man lave m-1 dummy variable. Den kategori hvortil der ikke hører en dummy variabel kaldes reference kategorien. Hvis man inkluderer m dummy variabler og et konstantled vil der være perfekt multikollinearitet Parametrene til dummy variablerne angiver forskellen mellem den pågældende kategori og referencekategorien. Interaktionsled mellem dummyvariabler og kvantitative variabler kan fortolkes som forskellig marginal effekt af den kvantitative variabel Chow-test: Test for om der er forskel mellem to grupper. Modellen kan formuleres ved brug af dummy (d2=0 for gruppe 1, d2=1 for gruppe 2): kan formuleres som: For antal grupper : For antal grupper :, hvor er antallet af grupper. Testet er F-fordelt og forudsætter MLR.5 og derfor samme varians i hver gruppe Robust udgave af testet kræver at vi opstiller den samlede model med fuldt sæt af interaktionsled. 14

Lineær sandsynlighedsmodel (Linear probability model (LPM)): For en kvalitativ egenskab med to kategorier laver man en dummyvariabel y med to mulige udfald: y=0 eller y=1 Regressionsmodellen er uændret: Modellen kaldes den lineære sandsynlighedsmodel (linear probability model, LPM) Hvis antagelsen MLR.4 er opfyldt: er den betingede middelværdi af y: For binære variabler gælder generelt at: Altså har vi en model for responssandsynligheden Fortolkningen af parametrene i LPM: - y er en diskret variabel - Parameteren kan ikke fortolkes som den marginale ændring i givet en enheds ændring i Parameteren angiver ændringen i sandsynligheden for som følge af, at den forklarende variabel ændres med en enhed: LPM kan estimeres med OLS: Hvor skal fortolkes som den predikterede sandsynlighed for. Ulemper ved LPM: - Prediktionerne er ikke 0 eller 1, som er de tilladte værdier af den afhængige variabel - Predikterede sandsynligheder kan være negative eller overstige 1 - Normalt ligger den predikterede sandsynlighed mellem 0 og 1, når man ser på værdier af de forklarende variable der ligger omkring gennemsnittet. - Gauss-Markov antagelserne: - MLR.1-4 kan godt være opfyldt for LPM - LPM opfylder ikke antagelsen MLR.5 (Homoskedasticitet) For en given værdi af x har u to mulige udfald (binær variabel): hvis hvis Variansen er derfor givet ved: Som generelt vil afhænge af : Undtagelsen er tilfældet er heteroskedastisk. Egenskaber ved OLS estimatoren i LPM - OLS estimaterne er middelrette (givet MLR.1-4) 15

- Standardfejlene af estimaterne er ikke middelrette - F og t test ikke pålidelige Problemet med heteroskedasticitet kan løses ved at korrigere standardfejlene og beregne robuste standardfejl: Sjældent noget alvorligt problem. 16

W.8 Heteroskedasticitet MLR.5 er antagelsen om homoskedasticitet: Alternativ: Modellen lider af heteroskedasticitet af ukendt form: Vi tillader altså, at fejlleddet til hver enhed (individ, firma, land) har sin egen varians (meget generel form) Homoskedasticitet kan ses som det specialtilfælde, hvor for alle. Antagelserne MLR.1- MLR.4 sikrer at OLS middelret og konsistent, men vedrører ikke variansen på fejlleddet. Under MLR.1-5 er OLS efficient og dens varians er givet ved de simple udtryk fra kapitel 2. OLS estimatorens egenskaber ved heteroskedasticitet: + OLS stadig middelret og konsistent (givet MLR.1-4) Variansen af OLS estimaterne estimeres ikke middelret eller konsistent af de sædvanlige OLS-udtryk Konfidensintervallet er ikke rigtigt konstrueret t og F-test er ikke nødvendigvis t og F-fordelt, LM test er ikke nødvendigvis -fordelt (og derfor er disse test ikke pålidelige) OLS er ikke længere den bedste lineære middelrette estimator (BLUE): Der findes andre lineære middelrette estimatorer med mindre varians OLS er ikke længere asymptotisk efficient OLS-baserede test under heteroskedasticitet: - Heteroskedasticitet i fejlleddet betyder, at test der er baseret på OLS estimation kun er gyldige, hvis man korrigerer standardfejlene for heteroskedasticitet ved at bruge robuste standardfejl. Test i modeller med heteroskedasticitet: Enkelt restriktion: Heteroskedasticitets-robust t-test af hypotesen: t-teststørrelse: : hvor er heterosk. robust standardfejl på t-teststørrelsen er asymptotisk standard normalfordelt. 17

Flere restriktioner (Wald test): Hypotese: : hvor er en (k+1)x1 vektor af parametre, er en q x(k+1) matrix og er en q x1 vektor Heterosk. robust F-test kan beregnes ud fra robust kovariansmatrix Heterosk. robust Wald test: Wald-teststørrelsen Wald testet er altså -fordelt. NB er: - Antagelserne MLR.1- MLR.4, som sikrer at OLS middelret og konsistent, vedrører ikke variansen på fejlleddet. - Heteroskedasticitet betyder systematik i variansen på fejlleddet, ikke i middelværdien (givet at MLR.4 holder). Inferens uden MLR.5: Whites standardfejl som er robuste overfor heteroskedasticitet. Robust Wald-test. Weighted Least Squares (WLS): Estimatoren som korrigerer for heteroskedasticitet kaldes for Weigted Least squares (WLS). Navnet hentyder til at estimaterne opnås ved at minimere de vægtede kvadrerede residualer. Heteroskedasticitet af en kendt form (op til en multiplikativ faktor) antages at være en kendt funktion af de forklarende variable. for alle mulige værdier af x erne (varianser er altid positive). er en ukendt parameter. Ved at bruge informationen om formen for heterosk. kan modellen transformeres til en ny model, som ikke indeholder heteroskedasticitet: OLS på den vægtede regression er efficient: Weighted Least Squares (WLS) Generelt: Antag følgende multiple regressionsmodel (som opfylder antagelserne MLR.1- MLR.4) Givet at h er en kendt funktion kan dens værdi beregnes for hver enkelt observation: Hvis man transformerer modellen så fejlleddet bliver vil den betingede middelværdi stadig være nul (MLR.4 holder) og den betingede varians vil være konstant (MLR.5 opfyldt). OLS estimatoren i den transformerede model vil være BLUE F- og t-test er gyldige for den transformerede model er sjældent meningsfuld (ny venstresidesvariabel!) 18

Lineær sandsynlighedsmodel (Linear probability model (LPM)): I den lineære sandsynlighedsmodel er der heteroskedasticitet: Det følger så hvordan h skal konstrueres nemlig som FGLS: Ukendt form af heteroskedasticitet (som skal estimeres): - I mange tilfælde er den eksakte form for heterosk. ukendt (dvs. h er ukendt), men h kan modelleres og efterfølgende estimeres - Ved at benytte I stedet for kan man igen transformere den oprindelige model. - I den transformerede model benyttes så OLS. - Denne procedure kaldes Feasible ( ladsiggørlig ) GLS (FGLS) - Den optimale vægt til hver observation kan estimeres ud fra data: FGLS. Hypotesetest med FGLS estimater: - FGLS er konsistent og asymptotisk mere efficient end OLS - F- og t-test er asymptotisk hhv. F- og t-fordelte. - Når man laver F-test med FGLS (og med WLS) er det vigtigt at den restrikterede og den urestrikterede model er estimeret med de samme vægte WLS/FGLS og OLS: - Sammenligning af WLS/FGLS og OLS - OLS og WLS estimater kan være (meget) forskellige - Hvis OLS og WLS er statistisk signifikant forskellige, bør man være varsom med at fortolke resultaterne. Dette kan være tegn på misspecifikation af modellen (specielt at antagelse MLR.4 ikke er opfyldt). 19

W.9 Data Specifikation Hvad nu, hvis man benytter en forkert funktionel form? - Generelt vil OLS estimaterne ikke være middelrette eller konsistente - Forkert funktionel form kan opfattes som udeladte variable W. 9.2 Proxy variable Proxyvariabler erstatter udeladte variabler. Proxyens effekt på y har sjældent selvstændig interesse. Man må argumentere for proxyvariablens gyldighed i hvert enkelt tilfælde. Det ønskes at estimere, hvor, hvor er et fejlled, der beskriver den del af som ikke beskriver. og højst sandsynligt, da vi jo som regel forventer en positiv korrelation mellem og. Følgende antagelser skal gøre sig gældende: 1: og skal være korrelerede. 2: skal være U-korreleret med og og også. 3: skal være U-korreleret med og. Forsøg på at forklare antagelserne i ord: 1) Proxyen/proxyerne skal forklare en del af variationen i den (uobserverede) variabel, som de(n) er proxy(er) for. 2) Variationen, der ikke forklares i, altså, må ikke være korreleret med de andre variable i. W. 9.4 Målefejl Begrebsmæssig forskel til proxy-variable - Målefejl: Uobserveret variabel har en præcis kvantitativ betydning: indkomst vs. rapporteret indkomst. - Proxy: Uobserveret variabel har ikke en klar kvantitativ mening: Evner vs. IQ-test score To hovedtilfælde: - Målefejl i afhængig variabel - Målefejl i en eller flere forklarende variabler Målefejl i den afhængige variabel: Antag følgende model Modellen opfylder MLR.1-MLR.4 Desværre observerer man ikke. I stedet observeres : hvor kan opfattes som en målefejl 20

For at kunne estimere modellen skal erstattes med : Under antagelserne - Middelværdien af målefejlene er 0 - Målefejlene er uafhængige af de forklarende variable vil den nye model med y opfylde MLR.1-MLR.4, og derfor er OLS middelret og konsistent. Variansen i det nye fejlled: - Normalt antager man, at variansen af målefejlen er konstant. Så er antagelsen MLR.5 også opfyldt for den nye model. - Variansen er større med målefejl -> større varians af parameterestimaterne. Målefejl i de forklarende variabler: Antag følgende model: er uobserverbar. I stedet observeres som er givet ved: Antagelse om fejlleddet:, Antagelserne om målefejlen: I dette tilfælde kan opfattes som en proxy for. OLS er der stadig middelret og konsistent. Dette (At målefejlen er ukorreleret med det observerede x) er ofte en urealistisk antagelse. Klassiske målefejl (CEV): Målefejlen er ukorreleret med den sande værdi af variablen. Antagelser: Disse antagelser er ofte mere naturlige. OLS er ikke længere middelret eller konsistent under CEV. Under CEV er der ligeledes attenuation bias: vil altid være tættere på end. Estimatet for vil være asymptotisk biased mod. Det kan ligeledes vises at 21

Data problemer Indtil videre har vi antaget, at MLR.2 altid er opfyldt Vi har antaget, at data stammer fra en tilfældig stikprøve Der er mange grunde til, at denne antagelse ikke er opfyldt i praksis: - Manglende observationer: Tilfældigt eller ej? - Ikke-tilfældig dataudvælgelse: Exogent eller endogent. Manglende observationer: - Manglende observationer vil reducere antallet af brugbare observationer i analysen - Det afgørende for, om manglende observationer giver alvorlige problemer, er hvorfor observationerne mangler - Hvis observationerne mangler tilfældigt, er det et mindre problem -> mindre præcise estimater Ikke-tilfældig dataudvælgelse: Der er forskellige måder hvorpå stikprøven kan være ikke-tilfældig (dvs. antagelse MLR.2 ikke er opfyldt): - Eksogen dataudvælgelse - Endogen dataudvælgelse - Stratificeret dataudvælgelse Dataudvælgelse der er baseret på information, der er relateret til den afhængige variabel, giver ofte anledning til bias. Eksogen dataudvælgelse: - Dataudvælgelse baseret på værdien af en af de forklarende variabler - Denne type af dataudvælgelse vil (under forudsætninger af nok variation i de forklarende variabler) stadig give middelrette og konsistente OLS etimater - Generelt: Dataudvælgelse baseret på variabler, som er uafhængige af fejlleddet giver stadig, at OLS estimaterne er middelrette og konsistente Endogen dataudvælgelse: - Dataudvælgelse baseret på den afhængige variabel (eller variabler, der er korrelerede dermed). - OLS estimator er ikke middelret og ikke konsistent. Stratificeret dataudvælgelse: - Populationen er delt i grupper (disjunkte grupper som udgør hele populationen) - Nogle grupper er udvalgt mere hyppigt end andre, sammenlignet med deres andel af populationen - OLS er middelret og konsistent, hvis gruppeopdelingen er baseret på eksogene variabler 22

W.15 IV Instrument variablen skal opfylde to betingelser: 1. Instrumentvariablen skal være ukorreleret med de uobserverbare faktorer, hvilket i sidste ende altid afhænger af en teoretisk baseret antagelse. 2. Instrumentvariablen skal være korreleret med den endogene forklarende variabel. Testbar antagelse på grundlag af data på og : Signifikant regressionskoefficient i regression af på. Givet identificeres parameteren som IV estimatoren er konsistent og asymptotisk normalfordelt. IV estimatoren: Har gode asymptotiske egenskaber, dvs. vi ved at den virker i store datasæt. Men: - IV generelt ikke middelret - IV vil ofte have en relativt stor varians. Eksakt identifikation: Vi har netop instrumenter til rådighed, samme antal som der er endogene regressorer: Z [ X X... X Z Z... Z ] exogene variabler: 1 2 k l 1 2 l k l exogene l instrum enter ( instrumenter for sig selv ). Z rummer alle exogene variabler i modellen: - variabler, der er inkluderet i den strukturelle ligning - variabler, der er ekskluderet fra strukturel ligning IV-estimatet i det eksakt identificeret tilfælde: Den simple IV formel kan beregnes for det eksakt identificerede tilfælde (antal endogene regressorer = antal instrumenter) IV estimation kan gennemføres som OLS i to trin: 2SLS. Overidentifikation: Flere instrumenter end nødvendigt. Det er er fordel. Vi kan få mere præcise estimater, forudsat at instrumenterne er gyldige! IV-estimatet i det overidentificerede tilfælde(flere instrumenter end endogene regressorer) (2SLS): Test af overidentificerende restriktioner: Teststatistik:, hvor l er antallet af endogene variable og g er antallet af instrumenter. Eksakt identifikation: (ingenting at teste!). 23

W.13 Gentagne tværsnit & Paneldata Gentagne tværsnit Tillade at koefficienterne til nogle af variablerne ændres over tid: Et specialtilfælde af strukturelle skift. Brug dummy variabler: Tidsdummier (fx årsdummier) To perioder: Dummyvariabel (sædvanligvis for periode 2) indeholder information om tidspunkt for observationen:, hvis individ i er i periode-2 samplet., hvis individ i ikke er i periode-2 samplet. Ofte: Tillad at konstantleddet ændres Tillade at også andre koefficienter ændres mellem perioder: Interaktionsled mellem variabler og tidsdummyer. Eks.: Ækvivalent regressionstilgang (tavlegennemgang): : Fælles ændring over tid (uanset placering) : Præ-indgreb -forskellen i huspriser : Forskel i huspriser på grund af forbrændingsanlægget Illustration af Diff-in-diff estimatoren: Før Efter Efter før Kontrol Behandling Behandling kontrol Pooling af data for forskellige tidsperioder: Større eller mindre grad af fleksibilitet ved brug af interaktionsled mellem forklarende variabler og tidsdummyer. Politikanalyse med gentagne tværsnit: Diff-in-diff metoden gør det muligt under visse forudsætninger at evaluere effekten af et politikindgreb. Ækvivalent regressionsmodel giver mulighed for at korrigere for andre kontrolvariabler. To-periode panel data (Kaldes også longitudinale data): Følger de samme individer over to perioder Unobserved effects model : Fejlleddet opdeles i en tids-invariant og en idiosynkratisk effekt Udeladt variabel bias (heterogenitetsbias) Første-differens estimation Politikanalyse med to-periode paneldata 24

Sammensat fejlled : Uobserveret fixed effect (uobserveret heterogenitet): - Tids-invariant - Specifik for hvert individ Idiosynkratisk fejl : - Varierer tilfældigt både over individer og tid: Det sædvanlige fejlled Antagelser på modellen for T = 2: Tilfældig stikprøve (ingen korrelation mellem individ i og j). Sammensat fejlled : Betinget middelværdi, givet regressorerne og individ-specifik effekt: Implicerer at det idiosynkratiske fejlled er ukorreleret - med de observerede regressorer - og med den uobserverede individ-specifikke effekt NB: Vi gør ingen antagelser om : Fixed effects tilgang. Korreleret uobserveret heterogenitet Uobserveret individ-specifik effekt kan meget vel være korreleret med de observerede variabler: Pooling af observationer og estimation med OLS vil være en inkonsistent estimator når. Hvis data kun består af et enkelt tværsnit af og kan problemet ikke løses uden yderligere antagelser. Gentagne observationer af samme individer giver mulige løsninger. Fixed effect paneldata løsning: Estimér en model hvor: - Parameteren af interesse,, er identificeret og - fixed effekten,, ikke indgår. En metode der opfylder disse betingelser er første-differens (FD) estimation. Første-differens estimation Model: Periode 1: Periode 2: Første differenser: Den uobserverede, men tids-invariate fixed effect bliver diff-renset væk. For og imod brug af første -differens estimation For: Leddet indgår i som en del af fejlleddet. Hvis er korreleret med den forklarende variabel,, vil (idet og og er indbyrdes ukorrelerede). OLS på det sammensatte tværsnit vil i så fald ikke være konsistent. En første-differens OLS estimation baseret på model (1) vil derimod automatisk korrigere for enhver tidsinvariant faktor (observeret eller uobserveret), jf. opskrivningen. Her kræves ingen antagelse om for konsistens. 25

Imod: er ikke identificeret i første-differens modellen. Hvis der ikke er variation i over tid (for mindst et amt), kan OLS estimatoren ikke beregnes på første-differenserne. Hvis for alle er der faktisk ingen amtspecifik effekt og (givet at SLR.1-5 holder for niveaumodellen) OLS på det sammensatte tværsnit vil være efficient. Hvis der er klassiske målefejl i bliver begge estimatorer inkonsistente. Målefejlsbiasen forstærkes af første-differens transformationen, så den asymptotiske bias er størst for første-differens OLS estimatoren. Opsamlende Paneldata gør det muligt at korrigere for uobserverede individ-specifikke effekter, som er konstante over tid: Fixed effects Fixed effects metoder, fx førstedifferens estimation, kan give konsistente parameterestimater uden antagelser omkring korrelationen mellem den uobserverede individ-specifikke effekt og de observerede forklarende variabler i modellen. Fixed effects metoder identificerer kun koefficienter til variabler, som faktisk varierer over tid (for nogle af individerne). 26

Overview over econometric methods in QM2 (does not cover everything in the syllabus) Econometric method Characteristics of Model Hypothesis test Specification test OLS Lin.reg.model (chap. 2,3,4,5) t-test F-test LM-test RESET test OLS Robust std. err. Heteroskedasticity (chap. 8) Robust t, Wald, LM test Breusch-Pagan White Graphical test WLS t test F test FGLS t test F test IV (2SLS) Endogeneity (chap. 15) t test F test Test of exogeneity Test of overident. Restrictions Paneldata methods More observations for the same individ. (chap. 13) t test F test After transformation: Do OLS/FGLS 27