1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Relaterede dokumenter
Undervisningsnoter til øvelse i Panel Modeller. %, it. E(x kjs

5. Dynamiske Modeller

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

, i ' 1,...,N ; t ' 1,...,T, - i.i.d.(0,f 2, ), ) ' 0, E(, it. x kjs. œ i,t,s,j,k.

Kvantitative metoder 2

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kvantitative Metoder 1 - Forår 2007

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Kvantitative metoder 2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Gentagne tværsnit (W ): Opsamling. Gentagne tværsnit og paneldata. Gentagne Tværsnit og Paneldata II.

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Kvantitative metoder 2

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Kvantitative metoder 2

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Simpel Lineær Regression: Model

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri 1. Målsætning for Økonometri 1. Dagens program: Afslutningsforelæsning 16. December 2005

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Tema. Dagens tema: Indfør centrale statistiske begreber.

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kvantitative Metoder 1 - Forår Dagens program

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Økonometri, ugeseddel 8 Hold 1 1/4-2003

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Matrix Algebra med Excel Forelæsningsnoter til FR86. Jesper Lund

Normalfordelingen og Stikprøvefordelinger

Uddannelses afkast i Danmark

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Økonometri 1 Efterår 2006 Ugeseddel 11

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

1 Regressionsproblemet 2

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Kvantitative Metoder 1 - Forår 2007

Økonometri 1 Forår 2006 Ugeseddel 11

Simpel Lineær Regression

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Kvantitative Metoder 1 - Efterår Dagens program

Økonometri: Lektion 6 Emne: Heteroskedasticitet

4 Oversigt over kapitel 4

W.2 Simpel lineær regression: Egenskaber ved OLS: Forudsagte værdier og residualer: Et residual:

Kvantitative metoder 2

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Estimation af Uddannelsesafkast

Kvantitative metoder 2

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Rettevejledning til Økonomisk Kandidateksamen 2007II. Økonometri 1

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

Note om Monte Carlo eksperimenter

To samhørende variable

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Opgaver til kapitel 3

Introduktion til Statistiske Modeller for Finansielle Tidsserier. Forelæsningsnoter til Finansiel Økonometri

Udeladelse af én observation. Note til kapitlerne 4, 5 og 6

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Rettevejledning til Økonomisk Kandidateksamen 2005I, Økonometri 1

Bilag 12 Regressionsanalysens tabeller og forklaringer

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Note om Monte Carlo eksperimenter

Fokus på Forsyning. Datagrundlag og metode

Appendiks Økonometrisk teori... II

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Fagplan for statistik, efteråret 2015

Statistik Lektion 4. Variansanalyse Modelkontrol

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kursusgang 3 Matrixalgebra Repetition

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Kvantitative Metoder 1 - Forår Dagens program

1 Hb SS Hb Sβ Hb SC = , (s = )

Løsning eksamen d. 15. december 2008

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Transkript:

1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de anvendes i større og større udstrækning Det kan imidlertid være nyttigt først at diskutere, hvilke fordele empiriske analyser på mikroniveau kan have overfor analyser på makroniveau Der er generelt en fordel ved at bruge mikro-data fremfor makro-data, som relaterer sig til problemer med aggregering 1 Generelt kræver det meget strenge forudsætninger om mikroadfærd for at kunne udlede unbiased estimater for elasticiteter etc på makroniveau Det kommer sig af, at makroadfærd i sagens natur er summen af mikroadfærd, og at marginale ændringer på mikroniveau kun summer op til marginale ændringer på makroniveau, hvis den aktuelle variabel indgår lineært i relationen Et paneldatasæt (også kaldet et longitudinalt datasæt) er et datasæt, der indeholder oplysninger for et givent sæt af»individer«indsamlet til flere forskellige tidspunkter Individer skal naturligvis ikke forstås så bogstaveligt, at det kun er personer, der kan danne basis for et panel - individer forstås her bredt som alt fra husholdninger, virksomheder, til byer, kommuner, lande etc Ofte benævnes individer også»kohorter«eller»den statistiske enhed«et paneldatasæt har flere fordele frem for et tværsnitsdatasæt eller et datasæt bestående udelukkende af tidsserier Den mest åbenlyse fordel ved paneldata er naturligvis, at antallet af observationer ofte er større i forhold til fx et tværsnit Ved et større antal observationer til rådighed kan en models parametre estimeres med større sikkerhed og tests udføres med større præcision Yderligere tillader paneldata at estimere modeller med en mere fejlstruktur end man ellers kan anvende Hvis vi et øjeblik tænker på OLS estimatoren, så kræver vi (for at OLS skal producere en unbiased estimator for parametrene), at fejlledet er ukorreleret med de forklarende variable Som vi vender tilbage til senere, kan denne meget restriktive forudsætning ofte slækkes, når vi har paneldata På den måde kan vi sikre robuste estimater med meget mere realistiske forudsætninger, end det ellers er muligt Lidt i samme boldgade kan paneldata være med til at løse nogle af problemerne med multikollinearitet i mikrodata Et tilbagevendende og uløseligt problem i empirisk arbejde med mikrodata er, at der ofte er korrelation mellem de forklarende variable Dette giver anledning til multikolineraritet i de estimerede parametre, hvilket resulterer i store standardafvigelser på estimaterne Ved netop at have adgang til paneldata øges variationen mellem observationerne, da observationerne her varierer over to dimensioner (indivi- 1 For en grundig diskussion af aggregering kan henvises til Deaton og Muelbauer (1980), chp 6 1

der og tid) og ikke som i tværsnit og tidsserier kun over een (individer hhv tid) I sagens natur tillader paneldata os også at estimere modeller, der ikke lader sig identificere med enten rene tværsnitsdata eller tidsserier Ofte fortolkes parametre estimeret med tværsnitsdata som at være langsigts relationer, mens rene tidsserier afspejler kortsigts relationer Ved at kombinere disse to i paneldata, kan man specificere en række modeller, som både fanger egenskaber på både langt og kort sigt Og det er iøvrigt umuligt at estimere dynamiske relationer med rene tværsnitsdata 12 Notation Lad os fastlægge notation I undervisningsnoterne vil vi forudsætte, at der er observationer til rådighed for N individer over T perioder 2 Perioderne forudsættes at være lige lange Alle variabler, der indgår i modellen, fx y, har derfor værdier, der varierer fra individ til individ og fra periode til periode Denne dobbelte variation viser vi ved et dobbelt indeks: i for individet, og t for perioden Den typiske observation er derfor: y it : i 1,,N ; t 1,,T Ofte vil vi også bruge at samle observationerne for det enkelte individ i en rækkevektor Denne vektor får derfor kun et indeks, nemlig i: y i (T,1) (y i1,,y it ) ) : i 1,,N I andre tilfælde er det praktisk at samle en vektor af observationer for J forskelle variabler for et enkelt individ til et tidspunkt En sådan (søjlevektor) vil have to indeks, både i for individet og t for tidspunktet: x it (1,J) (x i1t,,x ijt ) : i 1,,N ; t 1,,T Endelig vil vi også operere med en individspecifik matrix af observationer for J variabler 2 At hvert individ observeres det samme antal perioder kaldes også et balanceret paneldatasæt Hvis antallet af perioder er forskelligt fra individ til individ, kaldes datasættet for ubalanceret 2

over T perioder Denne matrix har indekset i Observationerne ordnes med hver tidsperiode i stigende orden i rækkerne: x i11,,x ij1 x i (T,J) : i 1,,N x i1t,,x ijt Til slut vil vi også anvende vektorer og matricer, der repræsenterer hele populationen: y 11 x 111,,x 1J1 y 1 y 1T x 1 x 11T,,x 1JT y, x (NT,1) y N y N1 (NT,J) x N x N11,,x NJ1 y NT x N1T,,x NJT 13 Begreber I gennem alle kapitlerne vil vi anvende nogle centrale begreber, som I burde kende fra introducerende økonometri, men det er formentlig en god ide at repetere dem endnu en gang Unbiasedness At en estimator for en parameter er unbiased er et meget stærkt resultat Det betyder nemlig, at uanset hvor mange observationer, vi har til rådighed, giver estimatet i gennemsnit den sande værdi Det er ofte sådan, at variansen på estimatet mindskes med antallet af observationer, men middelværdien er stadig korrekt Man taler også om, at unbiasedness er et begreb, som knytter sig til endelige stikprøver Lad $ være parametrene,som vi er interesserede i Hvis: 3

E( ˆ$) $, hvor ˆ$ er estimatoren af $, så er ˆ$ en unbiased estimator af $ Karakteristisk for denne egenskab er, at den knytter sig til endelige stikprøvestørrelser Dvs, at uanset hvor mange observationer, man har i sit datasæt, så vil forventningen til estimatet altid være de sande parametre Konsistens I modesætning til unbiasedness, knytter konsistens sig til asymptotiske egenskaber ved estimatorer, dvs for et voksende (mod uendelig) antal af observationer Konsistens er et svagere resultat end unbiasedness, da det kræver mere af data og estimatoren Fx bliver vi nødt til at overveje med hvilken hastighed en estimator er konsistent Formuleret matematisk, er ˆ$ en konsistent estimator af $ hvis: lim n64 ˆ$ $, hvor n er antallet af observationer Bemærk, at alle unbiased estimatorer er konsistente, men ikke omvendt Efficiens En estimator er efficient, hvis den blandt alle konsistente estimatorer der den, der har den mindste varians Eksogenitet Vi vil benytte to eksogenitetsbegreber i noterne Lad x t og, it være hhv en forklarende variabel og et fejlled Vi siger nu, at x t er stærkt eksogen, hvis: cov(x t,, s ) 0, s,t1,,t Dvs at der ingen korrelation er mellem den forklarende variabel og fejlledet til alle tidspunkter - både laggede (fortidige), current (samtidige) og leadede (fremtidige) værdier Stærk eksogenitet er ofte et meget stærkt krav til data Derfor opererer vi også med svag eksogenitet: cov(x t,, s ) 0, s>t; t1,,t&1 Svag eksogenitet betyder, at kun laggede værdier af x ikke er korreleret med samtidige og 4

fremtidige fejlled Øvelser 1 Lad to personer være karakteriseret ved følgende socio-økonomiske variabler: år individ 1 individ 2 timeløn erfaring køn timeløn erfaring køn 1996 97 kr 11,7 år kvinde 101 kr 13,3 år mand 1997 100 kr 12,3 år kvinde 120 kr 14,3 år mand 1998 110 kr 12,9 år kvinde 155 kr 15,3 år mand Lad y it defineret som timelønnen til person i til tidspunkt t Opstil y i for de to personer og y for den samlede population Dan x it for hver person til hvert tidspunkt ved et konstantled (et 1-tal), erfaring, en dummy for køn samt en tidsdummy Dan herefter x i matrixen for hver enkelt person og endelig x matrixen for hele populationen 2 Opgave 1 fortsat Definer: ȳ i T &1 T t1 y it Hvad plejer vi at kalde personer 3 Opgave 1 og 2 fortsat Definer:? Beregn transformationen af alle variable i opgave 1 for alle ȳ i ỹ it y it & ȳ i Hvad er ỹ it udtrykt verbalt? Gennemfør denne tranformation på de variabler, der indgår i din y i og x i fra opgave 1 Hvad sker der med konstantledet og dummien for køn i x i matrixen? 5