Kvanttatve metoder 2 Forår 2007 Ugeseddel 9 Program for øvelserne: Introdukton af problemstllng og datasæt Gruppearbejde SAS øvelser Paneldata for tlbagetræknngsalder Ugesedlen analyserer et datasæt med oplysnnger om den planlagte alder for tlbagetræknng fra arbejdsmarkedet og en række demografske, helbredsmæssge og økonomske forhold. 1 I debatten om, hvordan velfærdssamfundet skres, er tlbagetræknngsalderen ofte blevet nævnt. Velfærdskommssonen skrev den 7. december 2005 st resume: hvs v fortsat skal have råd tl de velfærdsydelser, v ønsker [ ] stller det krav om, at tlbagetræknngsalderen skal være højere og følge levetden. Hensgten med denne opgave er emprsk at undersøge, hvordan helbred, uddannelse samt økonomske forhold påvrker den planlagte alder for tlbagetræknngen fra arbejdsmarkedet. Dokumentaton af data: 2 Data er et bearbejdet udtræk fra ældredatabasen, som er en ntervewundersøgelse vedrørende ældres forhold. Det antages at de personer som ndgår ældredatabasen er fremkommet ved en tlfældg stkprøve af ældre Danmark. Datasættet ndeholder en række nformatoner om 634 personer, som observeres årene 1997 og 2002. Der er således alt 1268 observatoner datasættet. Alle personerne er født 1945 og alle var beskæftgelse 1997 og de efterfølgende 5 år frem tl og med 2002. Data lgger på øvelseshjemmesden som TBPANEL.SAS7BDAT. 1 Ugesedlen er baseret på et uddrag af eksamensopgaven 2006I Økonometr 1. Datasættet er udvalgt fra eksamensopgaven med eksamensnummer 118. 2 Data er venlgst stllet tl rådghed af Mona Larsen, SFI (http://www.sf.dk/sw2036.asp).
Varabellste: Tlbagetræknngsalder: tbalder Personens planlagte alder for tlbagetræknng fra arbejdsmarkedet (Spørgsmålet ntervewundersøgelsen lyder Hvornår regner De med at holde op [med at arbejde]? ). Demografske forhold: kvnde Dummy for kvnde enlg Dummy for enlg dudd1 Dummy for ufaglært (referencekategoren er vderegående uddannelse) dudd2 Dummy for faglært (referencekategoren er vderegående uddannelse) Arbejdsmarkeds- og helbredsforhold: erfar Antal års arbejdsmarkedserfarng helbred Dummy for dårlgt (selvvurderet) helbred Forventede ndkomstforhold: penson Den (skønnede) årlge offentlge pensonsudbetalng og lgn. (førtdspenson, efterløn eller folkepenson) ved tlbagetræknng 1000 kr. kpenbelob Den (skønnede) årlge udbetalng fra kaptalpenson ved tlbagetræknng 1000 kr. Øvrge varable: lbnr Løbenummer for ndvd d2002 Dummy for 2002 Model: Opgaven tager udgangspunkt en paneldata model for den planlagte tlbagetræknngsalder: tbalder = β + β enlg + β helbred + β dudd1 + β dudd2 + β erfar + β penson t 0 1 t 2 t 3 t 4 t 5 t 6 + β kpenbelob + β d2002 + β kvnde + β penson kvnde + v 7 t 8 t 9 t 10 t t (1.1) hvor repræsenterer ndvderne = 1,2,...,634, og t er peroderne t = 1, 2, sådan at t=1 svarer tl 1997 og t=2 tl 2002. Fejlleddet v t er summen af to komponenter: Varablen a repræsenterer uobserveret heterogentet, dvs. en uobserveret faktor som er specfk for hvert ndvd og konstant over td; leddet u t varerer både over ndvder og peroder, dvs. uobserverede faktorer, der ændrer sg over td og påvrker den forventede tlbagetræknngsalder for ndvd.
Gruppearbejde: 1. Dskutér om parametrene model (1.1) kan estmeres konsstent ved at anvende OLS på observatonerne for alle ndvder og begge peroder. Hvlke antagelser skal gvet fald være opfyldt for de uobserverede fejlledskomponenter, a og u t? [Hnt: Prøv at gve nogle bud på, hvlke konkrete (men uobserverede) faktorer der kan være ndeholdt a og ut og vurdér på den baggrund, om MLR.1-4 kan være opfyldt for (1.1).] 2. Kan det antages at betngelserne for konsstent estmaton ud fra førstedfferenser af varablerne, FD.1-4 (Wooldrdge sde 483), er opfyldt? Hvlke antagelser skal så fald være opfyldt for de uobserverede fejlledskomponenter, a og u t? SAS-øvelser: Én gruppe bedes skrve en kort opsamlng (½-1 sde) af spørgsmål 5. og sende den tl rasmus.jorgensen@econ.ku.dk senest mandag kl. 12.00. 1. Sorterng af paneldata Du får brug for at kunne sortere et SAS datasæt efter ndvd og perode. Som eksempel sorteres datasættet TBPANEL over et nyt datasæt, TBPANELS, der er sorteret efter varablen lbnr og - ndenfor hver værd af lbnr - efter varablen d2002. Du kan bruge følgende procedure tl at sortere data: proc sort data=mylb.tbpanel out=tbpanels; by lbnr d2002; run; Husk at erstatte mylb med det lbname, hvor dt datasæt lgger. Tjek det sorterede datasæt va Vewtable. Hvlke varable varerer over td for den enkelte person ( denne aldersgruppe)? 2. Databeskrvelse Beskrv de varable, som ndgår model (1.1) med udgangspunkt dt datasæt. Gør dette ved at opstlle tabeller med relevante karakterstka for varablerne: En tabel for hvert af de to år for de varable, der varerer over td samt en tabel for de tdsnvarante varable. Kommenter kort på tabellerne og dskutér udvklngen de tre varable tbalder, helbred og erfar fra 1997 tl 2002. [Hnt: Proc Means kan benyttes med en BY kommandolne, fx BY d2002. Det kræver at datasættet først er sorteret efter den samme BY-varabel.]
3. Pooled OLS estmaton på data for begge peroder Estmér model (1.1) ved hjælp af en OLS regresson på det poolede datasæt af alle personer og begge peroder. Undersøg følgende påstande vedr. tlbagetræknngsmønstret for mænd og kvnder: a) Betydnngen af størrelsen af penson er den samme for mænds og kvnders planlagte tlbagetræknng. Formuler hypotesen og udfør det relevante test. b) Størrelsen af offentlge pensonsudbetalng har ngen betydnng for kvnders planlagte tlbagetræknng. Formuler hypotesen og udfør det relevante test. Brug et test der er baseret på et robust estmat af kovaransmatrcen for OLS estmatoren, hvs du skønner at det er nødvendgt. Overvej om den poolede regresson gver konsstente estmater af koeffcenterne model (1.1). Vl det være bedre kun at foretage OLS regressonen på det ene af de to tværsnt (det vl sge enten 1997-data eller 2002-data)? 4. Første Dfferens (FD) estmaton Udfør Første Dfferens (FD) estmaton for model (1.1). Først beregnes forskellen (=dfferensen) mellem observatonen af hver varabel 1997 og 2002. Denne forskel beregnes for alle personer. Herefter udføres OLS på førstedfferenserne. For at danne førstedfferenser fx af varablen for tlbagetræknngsalder, Dtbalder, kan man bruge følgende programstump: data dffdata ; set tbpanels ; Dtbalder = tbalder - lag(tbalder) ; f lbnr = lag(lbnr) ; run ; Hvorfor er det vgtgt, at nputdata tl beregnngen er sorteret? Hvlken rolle spller IF sætnngen DATA trnnet? Tjek ved hjælp af Vewtable, at det transformerede datasæt blver som ønsket. Hvor mange brugbare observatoner er der DIFFDATA? Udfør OLS estmatonen på førstedfferenserne. Overvej hvlke varabler der kan ndgå denne regresson: Hvlke parametre model (1.1) kan estmeres en FD estmaton? Hvorfor er det kke mulgt at estmere β 5 og β 8? Hvordan tolker du konstantleddet? Er det mulgt at estmere β 10? Hvorfor? Overvej om de to påstande, a) og b) fra spørgsmål 3, kan undersøges på grundlag af FD estmaterne. Udfør undersøgelsen, hvs det er mulgt.
Tager FD-estmatoren højde for potentelle problemer med den poolede OLS estmator, som du anvendte spørgsmål 3? 5. Sammenfat resultaterne Sammenfat dne resultater form af en kommenteret tabel. Tabellen skal rapportere de estmater af koeffcenter model (1.1), du har opnået med pooled OLS og med FD estmaton. Kommentér på tabellen, herunder hvorledes de forskellge modeller forholder sg tl hnanden, og hvlke(t) sæt af estmater du vl lægge tl grund for dn vurderng af bestemmelsen af, hvad der er afgørende for den planlagte tlbagetræknngsalder Danmark. Hvad kan man ud fra dne analyser sge om, hvlke faktorer der er bestemmende for tlbagetræknngsalderen for 1945 årgangen Danmark? Hjemmearbejde Lav resten af SAS-øvelserne, hvs det kke er nået tl øvelserne. Teor opgave: Førstedfferens estmaton en model med målefejl (beregnet tdsforbrug: 30 mn). Betragt følgende model: y = + x + u = n t = () t β0 β1 t t, 1,2,...,, 1,2 hvor x er den sande men uobserverbare værd af den forklarende varabel. V antager at () opfylder antagelserne SLR1-4. I stedet for x observeres x = x + e, hvor e er en klasssk målefejl. Antag at følgende gælder: t t t Ee ( ) = 0, var( e) = σ, var( x)= σ, Ex ( ) = 0, t= 1, 2 2 2 t t 0 t x t cov( et, xs ) = 0, t = 1, 2 og s = 1, 2. For en pooled estmaton af y på de observerede x værder og en konstant gælder standardresultatet om attenuaton bas: 2 2 ˆ σx ˆ σ0 plm β1 = β1 hvlket betyder at plm β 2 2 1 β1 = β1 2 2 σ x + σ0 σx + σ0 som er den asymptotske bas. Betragt stedet en førstedfferens regresson, der er defneret ud fra de parvst sammenhørende observatoner for hvert ndvd de to peroder:
y y = β ( x x ) + w w () 2 1 1 2 1 2 1 hvor wt er et fejlled. Antag desuden at målefejlene er ukorrelerede, cov( e 1, e 2) = 0, mens de sande værder af den forklarende varabel er postvt korrelerede over td, cov( x, x ) = σ > 0. a) Vs, at OLS estmatoren for β 1 for denne regresson, ( 2 1)( 2 1) ˆ FD x x y y β 1 = 2 ( x 2 x 1) er nkonsstent og udregn den asymptotske bas. 1 2 12 [Hnt: Fnd et udtryk for w t fra () og brug det når du ndsætter formlen for ˆ β FD. Husk at cov( x1, x 2) 0 når du beregner var( x 2 x 1).] b) Sammenlgn den asymptotske bas fra førstedfferens regresson a) med resultatet for den poolede OLS regresson.