Økonometri 1 Forår 2006 Ugeseddel 11 Program for øvelserne: Gruppearbejde og plenumdiskussion Introduktion til SAS øvelser SAS øvelser Øvelsesopgave 5: Paneldata estimation af indkomstligninger på danske registerdata I dette opgavesæt undersøger vi sammenhængen mellem indkomst og alder. Datagrundlaget for øvelsen er et repræsentativt udtræk fra Danmarks Statistiks registerbaserede IDA-database (Den integrerede database for arbejdsmarkedsforskning). IDA dækker hele befolkningen med mulighed for at følge de enkelte personer over tid og rummer en række årlige oplysninger om lønmodtagere og virksomheder. Her vil vi fokusere på oplysninger om personens indkomst og en række demografi -variabler, blandt andet personens alder. Formålet med analysen er at estimere den forventede sammenhæng mellem alder og indkomst over et livsforløb for en kvinde med givne demografiske karakteristika (småbørn, længde af uddannelse og samleverstatus). Sådanne forløb for indkomsten over levetiden ligger til grund for mange makroteorier. Ofte antages, at indkomsten for et individ forløber som en konkav funktion af alderen, der er voksende indtil et vist punkt, age *, hvorefter den aftager. Målet med dette opgavesæt er at efterprøve, om sammenhængen kan genfindes i danske registerdata. Data Fra IDA-stikprøven udvælges et datasæt bestående af 286 kvinder i alderen fra 30 til 59 år. Kvinderne observeres fra 1980 til og med 1994, i alt 15 år. 1 Der er altså tale om et balanceret paneldatasæt med i alt 4290 observationer. Hver observation identificeres med variablen personid, som er et anonymt løbenummer for den enkelte kvinde, og variablen year, som angiver året for observationen. Vi observerer følgende variabler: income age agesq edu kvindens bruttoindkomst (i faste priser) kvindens alder (regnet i år) alderen kvadreret antal års skolegang 1 Antag at oplysningerne vedrører 1. november i året, bortset fra indkomsten som dækker hele året. Danmarks Statistiks IDA tal dækker perioden fra 1980 til 2002.
single child06 Lig med 1, hvis kvinden ikke er samlevende, lig med 0 ellers Lig med 1, hvis kvinden har et barn i alderen 0 6 år, lig med 0 ellers. Data ligger som en SAS-datafil INCOMED.SAS7BDAT på øvelseshjemmesiden. Model Vi vil undersøge data på grundlag af en simpel paneldata model: incomeit = β0 + β1ageit + β2agesqit + β3eduit + β4singleit + β5child06 it + ai + uit, i = 1,2,...,286, t = 1,2,...,15. (1) Modellen antages at opfylde betingelserne FE.1-6, se Wooldridge side 507-508, hvor a i er en uobserveret individ-specifik effekt, mens fejlleddet u it varierer både over i og t. Bemærk at perioderne er kodet som 1,2,,15, hvor t=1 svarer til 1980, t=2 til 1981, osv. Gruppearbejde og plenumdiskussion: I grupper af 3-4 personer diskuteres flg. spørgsmål. Som sædvanlig vælges talsmænd der rapporterer tilbage i plenum. Diskuter følgende spørgsmål: a. Hvilken sammenhæng er der mellem på den ene side variablen age og på den anden side den fødselsårgang ( kohorte ), som en kvinde tilhører? [Husk at der for hver kvinde er observationer for hvert år fra 1980 til 1994. Det kan være en god ide at tegne et diagram med tiden på 1. aksen og alderen på 2. aksen.] b. Antag for et øjeblik, at vi ignorerer panelstrukturen og estimerer modellen i (1) som en OLS regression på det poolede datasæt med det sammensatte fejlled, v it = a i + u it. Hvilke problemer giver det for tolkningen af sammenhængen mellem alder og indkomst, hvis der er korrelation mellem kvinders fødselsårgang og længden af deres uddannelse, edu? Hvis der er korrelation mellem kvindens fødselsårgang og en eller flere variabler, der ikke er medtaget i (1)? Kan du give eksempler på sådanne variabler? SAS-øvelser: Én gruppe vil blive bedt om at lave en kort opsamling (½-1 side) af Spørgsmål 8. Opsamlingen sendes til jeres holdlærer og til Christian.Daniel.le.Maire@econ.ku.dk.
1. Indlæs datasættet fra INCOMED i SAS. Dan dernæst et datasæt som kaldes INCOMEDS ved t sortere data, først efter variablen personid og dernæst for hvert individ efter variablen year. Du kan bruge følgende procedure (erstat mylib nedenfor med det libname, hvor datasættet faktisk ligger): proc sort data=mylib.incomed out=incomeds; by personid year; run; Lav en Viewtable på det sorterede datasæt INCOMEDS. Hvilke variabler varierer over individer, men ikke over tid? Er der andre ting at bemærke om datasættet? [Husk at lukke Viewtable bagefter.] 2. Estimér modellen i (1) som en OLS regression på det poolede datasæt bestående af alle kvinder og alle perioder. Hvilken sammenhæng mellem alder og indkomst kan der udledes fra disse estimater? Skitsér sammenhængen i et diagram med alderen på 1. aksen og indkomst på 2. aksen. I hvilken alder finder man den højeste forventede indkomst? (Vil svaret afhænge af værdien af demografi-variablerne?) Hvilke problemer kan det give at tolke figuren som en forventet sammenhæng mellem alder og indkomst for en given kvinde, alt andet lige? 3. Vi ønsker nu at korrigere for at der kan være udeladt tidsinvariante variabler fra modellen. I første omgang vil vi korrigere alle variablerne for deres individ-specifikke gennemsnit. Det kan fx gøres ved hjælp af Proc Means: proc means data=incomeds noprint ; by personid ; output out=inc_mean mean(income age edu child06 single agesq)=/autoname; Der bliver dannet et datasæt INC_MEAN bestående af gennemsnittene. BY sørger for at gennemsnittene beregnes for hver enkelt værdi af personid. NOPRINT sørger for, at der ikke bliver udskrevet en tabel for hvert individ. Optionen AUTONAME tilføjer _mean til variabelnavnet som betegnelse for gennemsnittet. Næste trin er at splejse de beregnede individ-gennemsnit tilbage på det oprindelige datasæt og at beregne afvigelser fra individ-specifikke gennemsnit. [Hint: Du kan bruge MERGE kommandoen fra Ugeseddel 8 med personid som BY-variabel. Tjek ved hjælp af Viewtable, at det splejsede datasæt ser ud som ønsket. Husk at lukke vinduet.] 4. Udfør Within estimation på grundlag af modellen (1) og de transformerede variabler fra spørgsmål 3. [Hint: Brug Proc Reg og sørg for at udelade konstantleddet med en NOINT option.] Hvilken sammenhæng mellem alder og indkomst må man forvente ifølge Within-estimaterne? Tager Within-estimatoren højde for de problemer omkring den poolede OLS estimator, som du påpegede i spørgsmål 2?
5. Udfør første-differens (FD) estimation på grundlag af modellen (1). Først skal der dannes førstedifferenser af alle variablerne. Her er et DATA trin som danner første-differenser af indkomsten, Dincome: data income_merge ; set income_merge ; personid_1 = lag(personid) ; income_1 = lag(income) ; IF personid = personid_1 THEN Dincome = income - income_1 ; Hvilken rolle spiller IF-THEN i DATA trinnet? Tjek ved hjælp af Viewtable, at det transformerede datasæt bliver som ønsket. Hvor mange brugbare observationer er der nu? [Husk at lukke vinduet.] Udfør FD-estimationen ved at køre en Proc Reg på første-differenserne. Tage FD-estimatoren højde for de problemer omkring den poolede OLS estimator, som du påpegede i spørgsmål 2? 6. SAS har forskellige indbyggede procedurer til paneldata estimation. Vi vil her introducere proceduren Proc Tscsreg ( time-series cross-section regression ). Proceduren kaldes med følgende kommandoer: proc tscsreg data = incomeds ; id personid year ; model income = age agesq edu child06 single / fixone noint ; ID sætningen fortæller SAS, hvilke variabler der registrerer individets løbenummer (personid) og perioden for observationen (year). Optionen FIXONE betyder at der anvendes Withinestimation (som ofte blot kaldes for fixed effects estimation). Kør Proc Tscsreg med denne option og sammenlign med dine resultater under spørgsmål 4. Bemærk at standardfejlene (og dermed t-værdierne) er forskellige. Det skyldes, at vores direkte beregning under spørgsmål 4 ikke tog højde for den korrektion af frihedsgrader, som er nævnt i Wooldridge på side 487. Proc Tscsreg laver den rigtige korrektion. Hvilke problemer kan der være i at estimere koefficienten β 3 til edu med denne estimator? 7. Alternativt kan man i Proc Tscsreg vælge optionen RANONE, som giver random effects (RE) estimaterne, se Wooldridge, afsnit 14.2. Sammenlign dine estimater med Within-estimaterne. Tager random effects -estimatoren højde for de problemer omkring den poolede OLS estimator, som du påpegede i spørgsmål 2? 8. Sammenfat dine resultater i form af en kommenteret tabel, Tabellen skal rapportere de estimater af model (1), du har opnået med pooled OLS, Within, FD og RE estimation. Kommenter kort på tabellen. Kommenter også på, hvorledes de forskellige estimatorer forholder sig til hinanden og hvilke(t) sæt af estimater, du vil lægge til grund for din vurdering af den forventede sammenhæng mellem alder og indkomst for en given kvinde, alt andet lige?
Hjemmearbejde Lav resten af SAS-øvelserne, hvis dette ikke er nået til øvelserne.