Gentagne tværsnit og paneldata Kvantitative metoder 2 Gentagne tværsnit og panel data II 9. maj 2007 I dag: To-periode panel data: Følger de samme individer over to perioder (13.3-4) Unobserved effects model : Fejlleddet opdeles i en tids-invariant og en idiosynkratisk effekt Udeladt variabel bias (heterogenitetsbias) Første-differens estimation Politikanalyse med to-periode paneldata KM2: F24 1 KM2: F24 2 1
Datastruktur Panel data: Samme n individer i periode 1 og periode 2. Periode 1: ( yi1, xi 11, xi 12,..., xi1 k), i = 1,2,..., n Periode 2: ( yi2, xi21, xi22,..., xi2k), i = 1, 2,..., n Totalt: 2n observationer af n individer Periode 2 kan være flere år (måneder, uger, ) efter periode 1 Kaldes også longitudinale data. Simpelt tilfælde: En regressor. Ønsker at estimere effekten af x på y, alt andet lige. KM2: F24 3 Model: Unobserved effects model y = β + δ d2 + β x + a + u it 0 0 t 1 it i it Tidsdummy: d2 t samme værdi for alle individer ( makroeffekt ) Sammensat fejlled: vit = ai + uit a i Uobserveret fixed effect (uobserveret heterogenitet): Tids-invariant Specifik for hvert individ Idiosynkratisk fejl: u it Varierer tilfældigt både over individer og tid: Det sædvanlige fejlled KM2: F24 4 2
Antagelser på modellen for T=2: Korreleret uobserveret heterogenitet Tilfældig stikprøve (ingen korrelation mellem individ i og j). Sammensat fejlled: v = a + u it i it Betinget middelværdi, givet regressorerne og individ-specifik effekt: Eu ( x, x, d2, d2, a) = 0, i= 1,2,..., n, t= 1, 2 it i1 i2 1 2 i Implicerer at det idiosynkratiske fejlled er ukorreleret med de observerede regressorer og med den uobserverede individ-specifikke effekt NB: Vi gør ingen antagelser om corr( ai, xit) : Fixed effects tilgang. u it Uobserveret individ-specifik effekt kan meget vel være korreleret med de observerede variabler: corr( ai, xit) 0 Pooling af observationer og estimation med OLS: Vil være en inkonsistent estimator når corr( ai, xit) 0. Hvis data kun består af et enkelt tværsnit af x it og y it kan problemet ikke løses uden yderligere antagelser. Gentagne observationer af samme individer giver mulige løsninger. Fixed effect paneldata løsning: Estimér en model hvor: Parameteren af interesse, β 1, er identificeret og fixed effekten, a i, ikke indgår. En metode der opfylder disse betingelser er første-differens (FD) estimation. a i KM2: F24 5 KM2: F24 6 3
Første-differens estimation Model: y = β + δ d2 + β x + a + u it 0 0 t 1 it i it Periode 2: y = ( β + δ ) + β x + a + u Periode 1: i2 0 0 1 i2 i i2 y = β + β x + a + u i1 0 1 i1 i i1 Første-differenser: y y = δ + β ( x x ) + u u i2 i1 0 1 i2 i1 i2 i1 Δyi 2 = δ 0 + β 1 Δ xi 2 +Δui 2 (*) Den uobserverede men tids-invariante "fixed effect" bliver "differenset" væk. Vi har et tværsnit af førstedifferenser, som tillader os at estimere β konsistent. Givet antagelserne om u gælder: E( Δ u x, x ) = 0. it i2 i1 i2 1 Første-differens estimation Mere generelt tilfælde: Flere observerede regressorer. Nogle kan være tids-invariante. Eksempel: Lønligning for "prime-age" mandlige arbejdere yit = β0 + δ0d2t + β1xit1+ β2xit 2 + β3xit3+ ai + uit yit log af lønnen for arbejder i, periode t xit1 lokal arbejdsløshedsrate i arbejder i' s område, periode t xit 2 erfaring (antal måneder i arbejde) for arbejder i, periode t xi3 antal års uddannelse for arbejder i (tids-invariant) a "evner" for arbejder i (tids-invariant, uobserveret) i Første-differens model: Δ yi = δ + β Δ xi + β Δ xi +Δui 2 0 1 21 2 22 2 KM2: F24 7 KM2: F24 8 4
Første-differens estimation Eksempel: Lønligning for "prime-age" mandlige arbejdere Første-differens model: Bemærk: Δ y = δ + βδ x + β Δ x +Δu i2 0 1 i12 2 i22 i2 * Antal års uddannelse indgår som tids-invariant variabel og bliver differenset ud sammen med a : Kan ikke estimere β ("afkast af uddannelse"). i * Variablen Δx vil være lig med 12 for de fleste arbejdere, mindre end 12 i22 3 hvis personen har været arbejdsløs. Hvis der kun er lille variation over arbejdere så bliver β upræcist estimeret (store standardfejl). 2 * Hvis første-differens estimaterne af β og β er meget forskellige fra "pooled" OLS 1 2 tværsnitsestimater, indikerer det en betydelig heterogenitetsbias. KM2: F24 9 Politikanalyse med paneldata ( programevaluering ) Paneldata kan være endnu mere nyttige for politikanalyse end gentagne tværsnit. Programevaluering: Ønsker at måle effekten af, at et individ deltager i et program Aktiv arbejdsmarkedspolitik program Subsidier for at få virksomheder til at blive mere innovative, mere produktive, begynde at eksportere,. Effektvariabler: Løn (efter programmet), R&D udgifter, produktivitet, eksport intensitet, Problem: Individer/virksomheder vælger sig ofte ind i programmet Eller de bliver udskrevet til programmet på grundlag af nogle karakteristika, som kan være relaterede til den variabel, der måler programmets effekt. KM2: F24 10 5
Politikanalyse med paneldata Politikanalyse med paneldata Antag at et antal af de observerede individer gennemgår programmet i periode 2, resten gør ikke. Effekten måles fra periode 1 til periode 2. Definerer en treatment dummy: Deltagere ( prog it = 1 ) Ikke-deltager ( prog it = 0 ) Model: yit = β0 + δ0d 2t + β1progit + vit Panel data tillader en fejlledsstruktur: vit = ai + uit Kontrollerer for tids-invariante karakteristika af deltagere og ikke-deltagere, inklusiv variabler som må formodes at påvirke beslutningen om at deltage i programmet. Første-differens model: Δ y = δ + β prog +Δu i2 0 1 i2 i2 Deltagelse finder kun sted i periode 2 ( før-efter ) så Δ progi2 = progi2 og OLS estimatet bliver ˆ β1 =Δypart Δynon part Diff-in-diff: Differensen over tid er nu indenfor samme individ. Panelstruktur: Ingen antagelser er nødvendige på a i Må stadig antage at Δu it og progit er ukorrelerede for at sikre konsistens. KM2: F24 11 KM2: F24 12 6
Politikanalyse med paneldata: Eksempel (W s. 468-69) Politikanalyse med panel data: Eksempel Eksempel: Effekt af subsidier til virksomheders efteruddannelsesprogram Formål: At øge produktiviteten for arbejderne i virksomheden. Effektmål: Scrap rate (andel af produkter med fejl): Mange fejl = lavt gennemsnitligt produktivitetsniveau i virks. i Få fejl = høj produktivitet. Model: scrap = β + δ d88 + β grant + a + u it 0 0 t 1 it i it Hvordan opnår vi et konsistent estimat af effekten,, af subsidieprogrammet? β 1 KM2: F24 13 Problem: Deltagelse i subsidieprogrammet kan være relateret til uobserverede virksomhedseffekter (ledelsesevner, mængden af kapital i virksomheden, ). Uobserverede effekter er potentielt relaterede til produktivitet. OLS på pooled sæt af observationer: 2 log( scrap) it = 0.597 0.189d88t + 0.057 grantit n = 108, R = 0.0034 (0.205) (0.328) (0.431) Diff-in-diff metode: 2 Δ log( scrap) it = 0.057 0.317 Δ grantit n = 54, R = 0.067 (0.097) (0.164) KM2: F24 14 7
Politikanalyse med panel data: Eksempel NB er Er der tegn på heterogenitetsbias her? I hvilken retning er der mest sandsynligt bias? Kan vi sige noget om, hvad der får virksomheder til at vælge at deltage i programmet? Paneldata gør det muligt at korrigere for uobserverede individ-specifikke effekter, som er konstante over tid: Fixed effects Fixed effects metoder, fx førstedifferens estimation, kan give konsistente parameterestimater uden antagelser omkring korrelationen mellem den uobserverede individ-specifikke effekt og de observerede forklarende variabler i modellen. Fixed effects metoder identificerer kun koefficienter til variabler, som faktisk varierer over tid (for nogle af individerne). KM2: F24 15 KM2: F24 16 8
Næste gang Mandag: Sidste emne i kurset: Instrumentvariabel estimation KM2: F24 17 9