1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de anvendes i større og større udstrækning Det kan imidlertid være nyttigt først at diskutere, hvilke fordele empiriske analyser på mikroniveau kan have overfor analyser på makroniveau Der er generelt en fordel ved at bruge mikro-data fremfor makro-data, som relaterer sig til problemer med aggregering 1 Generelt kræver det meget strenge forudsætninger om mikroadfærd for at kunne udlede unbiased estimater for elasticiteter etc på makroniveau Det kommer sig af, at makroadfærd i sagens natur er summen af mikroadfærd, og at marginale ændringer på mikroniveau kun summer op til marginale ændringer på makroniveau, hvis den aktuelle variabel indgår lineært i relationen Et paneldatasæt (også kaldet et longitudinalt datasæt) er et datasæt, der indeholder oplysninger for et givent sæt af»individer«indsamlet til flere forskellige tidspunkter Individer skal naturligvis ikke forstås så bogstaveligt, at det kun er personer, der kan danne basis for et panel - individer forstås her bredt som alt fra husholdninger, virksomheder, til byer, kommuner, lande etc Ofte benævnes individer også»kohorter«eller»den statistiske enhed«et paneldatasæt har flere fordele frem for et tværsnitsdatasæt eller et datasæt bestående udelukkende af tidsserier Den mest åbenlyse fordel ved paneldata er naturligvis, at antallet af observationer ofte er større i forhold til fx et tværsnit Ved et større antal observationer til rådighed kan en models parametre estimeres med større sikkerhed og tests udføres med større præcision Yderligere tillader paneldata at estimere modeller med en mere fejlstruktur end man ellers kan anvende Hvis vi et øjeblik tænker på OLS estimatoren, så kræver vi (for at OLS skal producere en unbiased estimator for parametrene), at fejlledet er ukorreleret med de forklarende variable Som vi vender tilbage til senere, kan denne meget restriktive forudsætning ofte slækkes, når vi har paneldata På den måde kan vi sikre robuste estimater med meget mere realistiske forudsætninger, end det ellers er muligt Lidt i samme boldgade kan paneldata være med til at løse nogle af problemerne med multikollinearitet i mikrodata Et tilbagevendende og uløseligt problem i empirisk arbejde med mikrodata er, at der ofte er korrelation mellem de forklarende variable Dette giver anledning til multikolineraritet i de estimerede parametre, hvilket resulterer i store standardafvigelser på estimaterne Ved netop at have adgang til paneldata øges variationen mellem observationerne, da observationerne her varierer over to dimensioner (indivi- 1 For en grundig diskussion af aggregering kan henvises til Deaton og Muelbauer (1980), chp 6 1

der og tid) og ikke som i tværsnit og tidsserier kun over een (individer hhv tid) I sagens natur tillader paneldata os også at estimere modeller, der ikke lader sig identificere med enten rene tværsnitsdata eller tidsserier Ofte fortolkes parametre estimeret med tværsnitsdata som at være langsigts relationer, mens rene tidsserier afspejler kortsigts relationer Ved at kombinere disse to i paneldata, kan man specificere en række modeller, som både fanger egenskaber på både langt og kort sigt Og det er iøvrigt umuligt at estimere dynamiske relationer med rene tværsnitsdata 12 Notation Lad os fastlægge notation I undervisningsnoterne vil vi forudsætte, at der er observationer til rådighed for N individer over T perioder 2 Perioderne forudsættes at være lige lange Alle variabler, der indgår i modellen, fx y, har derfor værdier, der varierer fra individ til individ og fra periode til periode Denne dobbelte variation viser vi ved et dobbelt indeks: i for individet, og t for perioden Den typiske observation er derfor: y it : i 1,,N ; t 1,,T Ofte vil vi også bruge at samle observationerne for det enkelte individ i en rækkevektor Denne vektor får derfor kun et indeks, nemlig i: y i (T,1) (y i1,,y it ) ) : i 1,,N I andre tilfælde er det praktisk at samle en vektor af observationer for J forskelle variabler for et enkelt individ til et tidspunkt En sådan (søjlevektor) vil have to indeks, både i for individet og t for tidspunktet: x it (1,J) (x i1t,,x ijt ) : i 1,,N ; t 1,,T Endelig vil vi også operere med en individspecifik matrix af observationer for J variabler 2 At hvert individ observeres det samme antal perioder kaldes også et balanceret paneldatasæt Hvis antallet af perioder er forskelligt fra individ til individ, kaldes datasættet for ubalanceret 2

over T perioder Denne matrix har indekset i Observationerne ordnes med hver tidsperiode i stigende orden i rækkerne: x i11,,x ij1 x i (T,J) : i 1,,N x i1t,,x ijt Til slut vil vi også anvende vektorer og matricer, der repræsenterer hele populationen: y 11 x 111,,x 1J1 y 1 y 1T x 1 x 11T,,x 1JT y, x (NT,1) y N y N1 (NT,J) x N x N11,,x NJ1 y NT x N1T,,x NJT 13 Begreber I gennem alle kapitlerne vil vi anvende nogle centrale begreber, som I burde kende fra introducerende økonometri, men det er formentlig en god ide at repetere dem endnu en gang Unbiasedness At en estimator for en parameter er unbiased er et meget stærkt resultat Det betyder nemlig, at uanset hvor mange observationer, vi har til rådighed, giver estimatet i gennemsnit den sande værdi Det er ofte sådan, at variansen på estimatet mindskes med antallet af observationer, men middelværdien er stadig korrekt Man taler også om, at unbiasedness er et begreb, som knytter sig til endelige stikprøver Lad $ være parametrene,som vi er interesserede i Hvis: 3

E( ˆ$) $, hvor ˆ$ er estimatoren af $, så er ˆ$ en unbiased estimator af $ Karakteristisk for denne egenskab er, at den knytter sig til endelige stikprøvestørrelser Dvs, at uanset hvor mange observationer, man har i sit datasæt, så vil forventningen til estimatet altid være de sande parametre Konsistens I modesætning til unbiasedness, knytter konsistens sig til asymptotiske egenskaber ved estimatorer, dvs for et voksende (mod uendelig) antal af observationer Konsistens er et svagere resultat end unbiasedness, da det kræver mere af data og estimatoren Fx bliver vi nødt til at overveje med hvilken hastighed en estimator er konsistent Formuleret matematisk, er ˆ$ en konsistent estimator af $ hvis: lim n64 ˆ$ $, hvor n er antallet af observationer Bemærk, at alle unbiased estimatorer er konsistente, men ikke omvendt Efficiens En estimator er efficient, hvis den blandt alle konsistente estimatorer der den, der har den mindste varians Eksogenitet Vi vil benytte to eksogenitetsbegreber i noterne Lad x t og, it være hhv en forklarende variabel og et fejlled Vi siger nu, at x t er stærkt eksogen, hvis: cov(x t,, s ) 0, s,t1,,t Dvs at der ingen korrelation er mellem den forklarende variabel og fejlledet til alle tidspunkter - både laggede (fortidige), current (samtidige) og leadede (fremtidige) værdier Stærk eksogenitet er ofte et meget stærkt krav til data Derfor opererer vi også med svag eksogenitet: cov(x t,, s ) 0, s>t; t1,,t&1 Svag eksogenitet betyder, at kun laggede værdier af x ikke er korreleret med samtidige og 4

fremtidige fejlled Øvelser 1 Lad to personer være karakteriseret ved følgende socio-økonomiske variabler: år individ 1 individ 2 timeløn erfaring køn timeløn erfaring køn 1996 97 kr 11,7 år kvinde 101 kr 13,3 år mand 1997 100 kr 12,3 år kvinde 120 kr 14,3 år mand 1998 110 kr 12,9 år kvinde 155 kr 15,3 år mand Lad y it defineret som timelønnen til person i til tidspunkt t Opstil y i for de to personer og y for den samlede population Dan x it for hver person til hvert tidspunkt ved et konstantled (et 1-tal), erfaring, en dummy for køn samt en tidsdummy Dan herefter x i matrixen for hver enkelt person og endelig x matrixen for hele populationen 2 Opgave 1 fortsat Definer: ȳ i T &1 T t1 y it Hvad plejer vi at kalde personer 3 Opgave 1 og 2 fortsat Definer:? Beregn transformationen af alle variable i opgave 1 for alle ȳ i ỹ it y it & ȳ i Hvad er ỹ it udtrykt verbalt? Gennemfør denne tranformation på de variabler, der indgår i din y i og x i fra opgave 1 Hvad sker der med konstantledet og dummien for køn i x i matrixen? 5