Økonometri 1 Forår 2006 Ugeseddel 11

Relaterede dokumenter
Økonometri 1 Efterår 2006 Ugeseddel 11

Kvantitative metoder 2

Økonometri 1. Gentagne tværsnit (W ): Opsamling. Gentagne tværsnit og paneldata. Gentagne Tværsnit og Paneldata II.

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Kvantitative metoder 2

Rettevejledning til Økonomisk Kandidateksamen 2007II. Økonometri 1

Den samlede model til estimation af lønpræmien er da givet ved:

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Økonometri, ugeseddel 8 Hold 1 1/4-2003

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Kvantitative metoder 2

Lineær og logistisk regression

Rettevejledning til Økonomisk Kandidateksamen 2007II. Kvantitative Metoder 2: Tag-hjem eksamen

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Simpel Lineær Regression

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Kvantitative Metoder 1 - Forår Dagens program

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Undervisningsnoter til øvelse i Panel Modeller. %, it. E(x kjs

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Beskæftigelsesudvalget BEU Alm.del endeligt svar på spørgsmål 38 Offentligt

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Note om Monte Carlo eksperimenter

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Løsning til eksaminen d. 14. december 2009

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Bilag S.1: Beskrivelse af beregningen af koefficienten på indvandrerbaggrund

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Rettevejledning til Økonomisk Kandidateksamen 2005I, Økonometri 1

Kvantitative metoder 2

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Kunderne betaler højere bankskat

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Rettevejledning til Økonomisk Kandidateksamen 2008II. Kvantitative Metoder 2: Tag-hjem eksamen

Basal Statistik - SPSS

Basal Statistik - SPSS

Introduktion til GLIMMIX

Økonometri 1. Målsætning for Økonometri 1. Dagens program: Afslutningsforelæsning 16. December 2005

Klar sammenhæng mellem børns og forældres livsindkomst

Dansk Erhvervs gymnasieanalyse Sådan gør vi

Økonomisk Kandidateksamen 2006II Økonometri 1. Afkastet af uddannelse for britiske tvillingepar

Statistik i GeoGebra

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Kvantitative metoder 2

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kvantitative Metoder 1 - Forår 2007

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

To samhørende variable

En Introduktion til SAS. Kapitel 5.

Kvantitative metoder 2

Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet.

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Træningsaktiviteter dag 3

Normalfordelingen og Stikprøvefordelinger

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Økonometri 1 Efterår 2006 Ugeseddel 9

Forelæsning 11: Kapitel 11: Regressionsanalyse

Modul 12: Regression og korrelation

Dansk Erhvervs gymnasieeffekt - sådan gør vi

MPH specialmodul Epidemiologi og Biostatistik

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Kvantitative metoder 2

Kvantitative metoder 2

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Simpel Lineær Regression: Model

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (

Appendiks A Anvendte test statistikker

, i ' 1,...,N ; t ' 1,...,T, - i.i.d.(0,f 2, ), ) ' 0, E(, it. x kjs. œ i,t,s,j,k.

Note om Monte Carlo eksperimenter

Uddannelses afkast i Danmark

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

1 Regressionsproblemet 2

Kvantitative metoder 2

Effekten af indvandring på indfødte danskeres løn og beskæftigelse

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Tema: Kommunal variation i tilkendelse af førtidspension i 2008

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Baggrundsnotat: Undervisningstimer på universitetet

Køber gifte kvinder flere aktier?

Transkript:

Økonometri 1 Forår 2006 Ugeseddel 11 Program for øvelserne: Gruppearbejde og plenumdiskussion Introduktion til SAS øvelser SAS øvelser Øvelsesopgave 5: Paneldata estimation af indkomstligninger på danske registerdata I dette opgavesæt undersøger vi sammenhængen mellem indkomst og alder. Datagrundlaget for øvelsen er et repræsentativt udtræk fra Danmarks Statistiks registerbaserede IDA-database (Den integrerede database for arbejdsmarkedsforskning). IDA dækker hele befolkningen med mulighed for at følge de enkelte personer over tid og rummer en række årlige oplysninger om lønmodtagere og virksomheder. Her vil vi fokusere på oplysninger om personens indkomst og en række demografi -variabler, blandt andet personens alder. Formålet med analysen er at estimere den forventede sammenhæng mellem alder og indkomst over et livsforløb for en kvinde med givne demografiske karakteristika (småbørn, længde af uddannelse og samleverstatus). Sådanne forløb for indkomsten over levetiden ligger til grund for mange makroteorier. Ofte antages, at indkomsten for et individ forløber som en konkav funktion af alderen, der er voksende indtil et vist punkt, age *, hvorefter den aftager. Målet med dette opgavesæt er at efterprøve, om sammenhængen kan genfindes i danske registerdata. Data Fra IDA-stikprøven udvælges et datasæt bestående af 286 kvinder i alderen fra 30 til 59 år. Kvinderne observeres fra 1980 til og med 1994, i alt 15 år. 1 Der er altså tale om et balanceret paneldatasæt med i alt 4290 observationer. Hver observation identificeres med variablen personid, som er et anonymt løbenummer for den enkelte kvinde, og variablen year, som angiver året for observationen. Vi observerer følgende variabler: income age agesq edu kvindens bruttoindkomst (i faste priser) kvindens alder (regnet i år) alderen kvadreret antal års skolegang 1 Antag at oplysningerne vedrører 1. november i året, bortset fra indkomsten som dækker hele året. Danmarks Statistiks IDA tal dækker perioden fra 1980 til 2002.

single child06 Lig med 1, hvis kvinden ikke er samlevende, lig med 0 ellers Lig med 1, hvis kvinden har et barn i alderen 0 6 år, lig med 0 ellers. Data ligger som en SAS-datafil INCOMED.SAS7BDAT på øvelseshjemmesiden. Model Vi vil undersøge data på grundlag af en simpel paneldata model: incomeit = β0 + β1ageit + β2agesqit + β3eduit + β4singleit + β5child06 it + ai + uit, i = 1,2,...,286, t = 1,2,...,15. (1) Modellen antages at opfylde betingelserne FE.1-6, se Wooldridge side 507-508, hvor a i er en uobserveret individ-specifik effekt, mens fejlleddet u it varierer både over i og t. Bemærk at perioderne er kodet som 1,2,,15, hvor t=1 svarer til 1980, t=2 til 1981, osv. Gruppearbejde og plenumdiskussion: I grupper af 3-4 personer diskuteres flg. spørgsmål. Som sædvanlig vælges talsmænd der rapporterer tilbage i plenum. Diskuter følgende spørgsmål: a. Hvilken sammenhæng er der mellem på den ene side variablen age og på den anden side den fødselsårgang ( kohorte ), som en kvinde tilhører? [Husk at der for hver kvinde er observationer for hvert år fra 1980 til 1994. Det kan være en god ide at tegne et diagram med tiden på 1. aksen og alderen på 2. aksen.] b. Antag for et øjeblik, at vi ignorerer panelstrukturen og estimerer modellen i (1) som en OLS regression på det poolede datasæt med det sammensatte fejlled, v it = a i + u it. Hvilke problemer giver det for tolkningen af sammenhængen mellem alder og indkomst, hvis der er korrelation mellem kvinders fødselsårgang og længden af deres uddannelse, edu? Hvis der er korrelation mellem kvindens fødselsårgang og en eller flere variabler, der ikke er medtaget i (1)? Kan du give eksempler på sådanne variabler? SAS-øvelser: Én gruppe vil blive bedt om at lave en kort opsamling (½-1 side) af Spørgsmål 8. Opsamlingen sendes til jeres holdlærer og til Christian.Daniel.le.Maire@econ.ku.dk.

1. Indlæs datasættet fra INCOMED i SAS. Dan dernæst et datasæt som kaldes INCOMEDS ved t sortere data, først efter variablen personid og dernæst for hvert individ efter variablen year. Du kan bruge følgende procedure (erstat mylib nedenfor med det libname, hvor datasættet faktisk ligger): proc sort data=mylib.incomed out=incomeds; by personid year; run; Lav en Viewtable på det sorterede datasæt INCOMEDS. Hvilke variabler varierer over individer, men ikke over tid? Er der andre ting at bemærke om datasættet? [Husk at lukke Viewtable bagefter.] 2. Estimér modellen i (1) som en OLS regression på det poolede datasæt bestående af alle kvinder og alle perioder. Hvilken sammenhæng mellem alder og indkomst kan der udledes fra disse estimater? Skitsér sammenhængen i et diagram med alderen på 1. aksen og indkomst på 2. aksen. I hvilken alder finder man den højeste forventede indkomst? (Vil svaret afhænge af værdien af demografi-variablerne?) Hvilke problemer kan det give at tolke figuren som en forventet sammenhæng mellem alder og indkomst for en given kvinde, alt andet lige? 3. Vi ønsker nu at korrigere for at der kan være udeladt tidsinvariante variabler fra modellen. I første omgang vil vi korrigere alle variablerne for deres individ-specifikke gennemsnit. Det kan fx gøres ved hjælp af Proc Means: proc means data=incomeds noprint ; by personid ; output out=inc_mean mean(income age edu child06 single agesq)=/autoname; Der bliver dannet et datasæt INC_MEAN bestående af gennemsnittene. BY sørger for at gennemsnittene beregnes for hver enkelt værdi af personid. NOPRINT sørger for, at der ikke bliver udskrevet en tabel for hvert individ. Optionen AUTONAME tilføjer _mean til variabelnavnet som betegnelse for gennemsnittet. Næste trin er at splejse de beregnede individ-gennemsnit tilbage på det oprindelige datasæt og at beregne afvigelser fra individ-specifikke gennemsnit. [Hint: Du kan bruge MERGE kommandoen fra Ugeseddel 8 med personid som BY-variabel. Tjek ved hjælp af Viewtable, at det splejsede datasæt ser ud som ønsket. Husk at lukke vinduet.] 4. Udfør Within estimation på grundlag af modellen (1) og de transformerede variabler fra spørgsmål 3. [Hint: Brug Proc Reg og sørg for at udelade konstantleddet med en NOINT option.] Hvilken sammenhæng mellem alder og indkomst må man forvente ifølge Within-estimaterne? Tager Within-estimatoren højde for de problemer omkring den poolede OLS estimator, som du påpegede i spørgsmål 2?

5. Udfør første-differens (FD) estimation på grundlag af modellen (1). Først skal der dannes førstedifferenser af alle variablerne. Her er et DATA trin som danner første-differenser af indkomsten, Dincome: data income_merge ; set income_merge ; personid_1 = lag(personid) ; income_1 = lag(income) ; IF personid = personid_1 THEN Dincome = income - income_1 ; Hvilken rolle spiller IF-THEN i DATA trinnet? Tjek ved hjælp af Viewtable, at det transformerede datasæt bliver som ønsket. Hvor mange brugbare observationer er der nu? [Husk at lukke vinduet.] Udfør FD-estimationen ved at køre en Proc Reg på første-differenserne. Tage FD-estimatoren højde for de problemer omkring den poolede OLS estimator, som du påpegede i spørgsmål 2? 6. SAS har forskellige indbyggede procedurer til paneldata estimation. Vi vil her introducere proceduren Proc Tscsreg ( time-series cross-section regression ). Proceduren kaldes med følgende kommandoer: proc tscsreg data = incomeds ; id personid year ; model income = age agesq edu child06 single / fixone noint ; ID sætningen fortæller SAS, hvilke variabler der registrerer individets løbenummer (personid) og perioden for observationen (year). Optionen FIXONE betyder at der anvendes Withinestimation (som ofte blot kaldes for fixed effects estimation). Kør Proc Tscsreg med denne option og sammenlign med dine resultater under spørgsmål 4. Bemærk at standardfejlene (og dermed t-værdierne) er forskellige. Det skyldes, at vores direkte beregning under spørgsmål 4 ikke tog højde for den korrektion af frihedsgrader, som er nævnt i Wooldridge på side 487. Proc Tscsreg laver den rigtige korrektion. Hvilke problemer kan der være i at estimere koefficienten β 3 til edu med denne estimator? 7. Alternativt kan man i Proc Tscsreg vælge optionen RANONE, som giver random effects (RE) estimaterne, se Wooldridge, afsnit 14.2. Sammenlign dine estimater med Within-estimaterne. Tager random effects -estimatoren højde for de problemer omkring den poolede OLS estimator, som du påpegede i spørgsmål 2? 8. Sammenfat dine resultater i form af en kommenteret tabel, Tabellen skal rapportere de estimater af model (1), du har opnået med pooled OLS, Within, FD og RE estimation. Kommenter kort på tabellen. Kommenter også på, hvorledes de forskellige estimatorer forholder sig til hinanden og hvilke(t) sæt af estimater, du vil lægge til grund for din vurdering af den forventede sammenhæng mellem alder og indkomst for en given kvinde, alt andet lige?

Hjemmearbejde Lav resten af SAS-øvelserne, hvis dette ikke er nået til øvelserne.