Kvantitative metoder 2

Relaterede dokumenter
Økonometri 1. Gentagne tværsnit (W ): Opsamling. Gentagne tværsnit og paneldata. Gentagne Tværsnit og Paneldata II.

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Kvantitative metoder 2

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

W.2 Simpel lineær regression: Egenskaber ved OLS: Forudsagte værdier og residualer: Et residual:

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Kvantitative metoder 2

Simpel Lineær Regression: Model

Rettevejledning til Økonomisk Kandidateksamen 2007II. Kvantitative Metoder 2: Tag-hjem eksamen

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Estimation af Uddannelsesafkast

Den samlede model til estimation af lønpræmien er da givet ved:

Rettevejledning til Økonomisk Kandidateksamen 2008II. Kvantitative Metoder 2: Tag-hjem eksamen

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonomisk Kandidateksamen 2004II Økonometri 1. Læsefærdigheder hos skoleelever i Danmark

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Simpel Lineær Regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

5. Dynamiske Modeller

Rettevejledning til Økonomisk Kandidateksamen 2004I, Økonometri 1

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik Lektion 4. Variansanalyse Modelkontrol

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

De variable, som er inkluderet i de forskellige modeller, er følgende:

1 Hb SS Hb Sβ Hb SC = , (s = )

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Kapitalisering af grundskylden i enfamiliehuse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Effekten af indvandring på indfødte danskeres løn og beskæftigelse

Module 4: Ensidig variansanalyse

Økonometri 1. Økonometri 1 Forår Introduktionsforelæsning 1. februar Begrebet økonometri. Dagens program:

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Appendiks Økonometrisk teori... II

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Økonometri 1. Økonometri 1 Efterår Introduktionsforelæsning 3. september Begrebet økonometri. Dagens program:

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Module 12: Mere om variansanalyse

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Uddannelses afkast i Danmark

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

To samhørende variable

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Transkript:

Gentagne tværsnit og paneldata Kvantitative metoder 2 Gentagne tværsnit og panel data II 9. maj 2007 I dag: To-periode panel data: Følger de samme individer over to perioder (13.3-4) Unobserved effects model : Fejlleddet opdeles i en tids-invariant og en idiosynkratisk effekt Udeladt variabel bias (heterogenitetsbias) Første-differens estimation Politikanalyse med to-periode paneldata KM2: F24 1 KM2: F24 2 1

Datastruktur Panel data: Samme n individer i periode 1 og periode 2. Periode 1: ( yi1, xi 11, xi 12,..., xi1 k), i = 1,2,..., n Periode 2: ( yi2, xi21, xi22,..., xi2k), i = 1, 2,..., n Totalt: 2n observationer af n individer Periode 2 kan være flere år (måneder, uger, ) efter periode 1 Kaldes også longitudinale data. Simpelt tilfælde: En regressor. Ønsker at estimere effekten af x på y, alt andet lige. KM2: F24 3 Model: Unobserved effects model y = β + δ d2 + β x + a + u it 0 0 t 1 it i it Tidsdummy: d2 t samme værdi for alle individer ( makroeffekt ) Sammensat fejlled: vit = ai + uit a i Uobserveret fixed effect (uobserveret heterogenitet): Tids-invariant Specifik for hvert individ Idiosynkratisk fejl: u it Varierer tilfældigt både over individer og tid: Det sædvanlige fejlled KM2: F24 4 2

Antagelser på modellen for T=2: Korreleret uobserveret heterogenitet Tilfældig stikprøve (ingen korrelation mellem individ i og j). Sammensat fejlled: v = a + u it i it Betinget middelværdi, givet regressorerne og individ-specifik effekt: Eu ( x, x, d2, d2, a) = 0, i= 1,2,..., n, t= 1, 2 it i1 i2 1 2 i Implicerer at det idiosynkratiske fejlled er ukorreleret med de observerede regressorer og med den uobserverede individ-specifikke effekt NB: Vi gør ingen antagelser om corr( ai, xit) : Fixed effects tilgang. u it Uobserveret individ-specifik effekt kan meget vel være korreleret med de observerede variabler: corr( ai, xit) 0 Pooling af observationer og estimation med OLS: Vil være en inkonsistent estimator når corr( ai, xit) 0. Hvis data kun består af et enkelt tværsnit af x it og y it kan problemet ikke løses uden yderligere antagelser. Gentagne observationer af samme individer giver mulige løsninger. Fixed effect paneldata løsning: Estimér en model hvor: Parameteren af interesse, β 1, er identificeret og fixed effekten, a i, ikke indgår. En metode der opfylder disse betingelser er første-differens (FD) estimation. a i KM2: F24 5 KM2: F24 6 3

Første-differens estimation Model: y = β + δ d2 + β x + a + u it 0 0 t 1 it i it Periode 2: y = ( β + δ ) + β x + a + u Periode 1: i2 0 0 1 i2 i i2 y = β + β x + a + u i1 0 1 i1 i i1 Første-differenser: y y = δ + β ( x x ) + u u i2 i1 0 1 i2 i1 i2 i1 Δyi 2 = δ 0 + β 1 Δ xi 2 +Δui 2 (*) Den uobserverede men tids-invariante "fixed effect" bliver "differenset" væk. Vi har et tværsnit af førstedifferenser, som tillader os at estimere β konsistent. Givet antagelserne om u gælder: E( Δ u x, x ) = 0. it i2 i1 i2 1 Første-differens estimation Mere generelt tilfælde: Flere observerede regressorer. Nogle kan være tids-invariante. Eksempel: Lønligning for "prime-age" mandlige arbejdere yit = β0 + δ0d2t + β1xit1+ β2xit 2 + β3xit3+ ai + uit yit log af lønnen for arbejder i, periode t xit1 lokal arbejdsløshedsrate i arbejder i' s område, periode t xit 2 erfaring (antal måneder i arbejde) for arbejder i, periode t xi3 antal års uddannelse for arbejder i (tids-invariant) a "evner" for arbejder i (tids-invariant, uobserveret) i Første-differens model: Δ yi = δ + β Δ xi + β Δ xi +Δui 2 0 1 21 2 22 2 KM2: F24 7 KM2: F24 8 4

Første-differens estimation Eksempel: Lønligning for "prime-age" mandlige arbejdere Første-differens model: Bemærk: Δ y = δ + βδ x + β Δ x +Δu i2 0 1 i12 2 i22 i2 * Antal års uddannelse indgår som tids-invariant variabel og bliver differenset ud sammen med a : Kan ikke estimere β ("afkast af uddannelse"). i * Variablen Δx vil være lig med 12 for de fleste arbejdere, mindre end 12 i22 3 hvis personen har været arbejdsløs. Hvis der kun er lille variation over arbejdere så bliver β upræcist estimeret (store standardfejl). 2 * Hvis første-differens estimaterne af β og β er meget forskellige fra "pooled" OLS 1 2 tværsnitsestimater, indikerer det en betydelig heterogenitetsbias. KM2: F24 9 Politikanalyse med paneldata ( programevaluering ) Paneldata kan være endnu mere nyttige for politikanalyse end gentagne tværsnit. Programevaluering: Ønsker at måle effekten af, at et individ deltager i et program Aktiv arbejdsmarkedspolitik program Subsidier for at få virksomheder til at blive mere innovative, mere produktive, begynde at eksportere,. Effektvariabler: Løn (efter programmet), R&D udgifter, produktivitet, eksport intensitet, Problem: Individer/virksomheder vælger sig ofte ind i programmet Eller de bliver udskrevet til programmet på grundlag af nogle karakteristika, som kan være relaterede til den variabel, der måler programmets effekt. KM2: F24 10 5

Politikanalyse med paneldata Politikanalyse med paneldata Antag at et antal af de observerede individer gennemgår programmet i periode 2, resten gør ikke. Effekten måles fra periode 1 til periode 2. Definerer en treatment dummy: Deltagere ( prog it = 1 ) Ikke-deltager ( prog it = 0 ) Model: yit = β0 + δ0d 2t + β1progit + vit Panel data tillader en fejlledsstruktur: vit = ai + uit Kontrollerer for tids-invariante karakteristika af deltagere og ikke-deltagere, inklusiv variabler som må formodes at påvirke beslutningen om at deltage i programmet. Første-differens model: Δ y = δ + β prog +Δu i2 0 1 i2 i2 Deltagelse finder kun sted i periode 2 ( før-efter ) så Δ progi2 = progi2 og OLS estimatet bliver ˆ β1 =Δypart Δynon part Diff-in-diff: Differensen over tid er nu indenfor samme individ. Panelstruktur: Ingen antagelser er nødvendige på a i Må stadig antage at Δu it og progit er ukorrelerede for at sikre konsistens. KM2: F24 11 KM2: F24 12 6

Politikanalyse med paneldata: Eksempel (W s. 468-69) Politikanalyse med panel data: Eksempel Eksempel: Effekt af subsidier til virksomheders efteruddannelsesprogram Formål: At øge produktiviteten for arbejderne i virksomheden. Effektmål: Scrap rate (andel af produkter med fejl): Mange fejl = lavt gennemsnitligt produktivitetsniveau i virks. i Få fejl = høj produktivitet. Model: scrap = β + δ d88 + β grant + a + u it 0 0 t 1 it i it Hvordan opnår vi et konsistent estimat af effekten,, af subsidieprogrammet? β 1 KM2: F24 13 Problem: Deltagelse i subsidieprogrammet kan være relateret til uobserverede virksomhedseffekter (ledelsesevner, mængden af kapital i virksomheden, ). Uobserverede effekter er potentielt relaterede til produktivitet. OLS på pooled sæt af observationer: 2 log( scrap) it = 0.597 0.189d88t + 0.057 grantit n = 108, R = 0.0034 (0.205) (0.328) (0.431) Diff-in-diff metode: 2 Δ log( scrap) it = 0.057 0.317 Δ grantit n = 54, R = 0.067 (0.097) (0.164) KM2: F24 14 7

Politikanalyse med panel data: Eksempel NB er Er der tegn på heterogenitetsbias her? I hvilken retning er der mest sandsynligt bias? Kan vi sige noget om, hvad der får virksomheder til at vælge at deltage i programmet? Paneldata gør det muligt at korrigere for uobserverede individ-specifikke effekter, som er konstante over tid: Fixed effects Fixed effects metoder, fx førstedifferens estimation, kan give konsistente parameterestimater uden antagelser omkring korrelationen mellem den uobserverede individ-specifikke effekt og de observerede forklarende variabler i modellen. Fixed effects metoder identificerer kun koefficienter til variabler, som faktisk varierer over tid (for nogle af individerne). KM2: F24 15 KM2: F24 16 8

Næste gang Mandag: Sidste emne i kurset: Instrumentvariabel estimation KM2: F24 17 9