Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Relaterede dokumenter
Kvantitative metoder 2

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Økonometri 1. Gentagne tværsnit (W ): Opsamling. Gentagne tværsnit og paneldata. Gentagne Tværsnit og Paneldata II.

Kvantitative metoder 2

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Kvantitative metoder 2

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Kvantitative metoder 2

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Kvantitative metoder 2

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Økonometri 1. Målsætning for Økonometri 1. Dagens program: Afslutningsforelæsning 16. December 2005

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Økonometri 1 Efterår 2006 Ugeseddel 11

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

W.2 Simpel lineær regression: Egenskaber ved OLS: Forudsagte værdier og residualer: Et residual:

Rettevejledning til Økonomisk Kandidateksamen 2007II. Økonometri 1

Økonometri 1 Forår 2006 Ugeseddel 11

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Økonometri, ugeseddel 8 Hold 1 1/4-2003

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Kvantitative metoder 2

Økonomisk Kandidateksamen 2006II Økonometri 1. Afkastet af uddannelse for britiske tvillingepar

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Rettevejledning til Økonomisk Kandidateksamen 2007II. Kvantitative Metoder 2: Tag-hjem eksamen

Simpel Lineær Regression: Model

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Økonometri 1. Økonometri 1 Forår Introduktionsforelæsning 1. februar Begrebet økonometri. Dagens program:

Rettevejledning til Økonomisk Kandidateksamen 2005I, Økonometri 1

Kvantitative Metoder 1 - Forår 2007

Kvantitative metoder 2

Kvantitative metoder 2

Undervisningsnoter til øvelse i Panel Modeller. %, it. E(x kjs

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Økonomisk Kandidateksamen 2004II Økonometri 1. Læsefærdigheder hos skoleelever i Danmark

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1. Økonometri 1 Efterår Introduktionsforelæsning 3. september Begrebet økonometri. Dagens program:

Simpel Lineær Regression

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Forelæsning 11: Kapitel 11: Regressionsanalyse

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Appendiks Økonometrisk teori... II

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Rettevejledning til Økonomisk Kandidateksamen 2004I, Økonometri 1

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Module 4: Ensidig variansanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Økonomisk Kandidateksamen 2003II Økonometri 1. Værdisætning af skov

Rettevejledning til Økonomisk Kandidateksamen 2006II, Økonometri 1

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Kvantitative metoder 2

Fokus på Forsyning. Datagrundlag og metode

Rettevejledning til Økonomisk Kandidateksamen 2008II. Kvantitative Metoder 2: Tag-hjem eksamen

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

, i ' 1,...,N ; t ' 1,...,T, - i.i.d.(0,f 2, ), ) ' 0, E(, it. x kjs. œ i,t,s,j,k.

Kunderne betaler højere bankskat

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Kvantitative metoder 2

Økonomisk Kandidateksamen 2004I Økonometri 1. Kvinders arbejdsudbud

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kvantitative metoder 2

Kvantitative metoder 2

Multipel Lineær Regression

Module 9: Residualanalyse

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

De variable, som er inkluderet i de forskellige modeller, er følgende:

Kvantitative metoder 2

Statistik Lektion 4. Variansanalyse Modelkontrol

Økonomisk Kandidateksamen 2005I Økonometri 1. Virker u-landsbistanden?

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Transkript:

Oversigt Økonometri 1 Mere om dataproblemer Gentagne tværsnit og panel data I Info om prøveeksamen Mere om proxyvariabler og målefejl fra sidste gang. Selektion og dataproblemer Intro til nyt emne: Observationer over individuelle enheder og tid: Wooldridge kapitel 13 og 14. Uafhængige tværsnit: Sammensætning af observationer over tid (kap. 13.1-2). Paneldata: Følger de samme individer over tid: To-periode paneldata (W 13.3-4) Generelt tilfælde: To eller flere perioder (W 13.5, 14) Fire dobbelt forelæsninger til at dække disse emner. Ugeseddel 11. Gentagne tværsnit og panel data I 2 1

Info om prøveeksamen Målefejl i de forklarende variabler Ugeseddel 10 er en frivillig prøveeksamen. Formål: I får lejlighed til - under eksamensrealistiske forhold - at: Løse en opgave af samme type som eksamensopgaven (men ca. halv størrelse) Afprøve infrastrukturen omkring download og upload af data og programmer Afprøve den computer og SAS-installation som I har tænkt jer at løse eksamensopgaven på Forløb: Prøveeksamens -opgaven udleveres/downloades ved øvelserne i uge 16 (ugen efter påske). Opgaven afsluttes ved øvelserne i uge 17. Anbefalet tidsforbrug i løbet af uge 16/17: 10 timer. Besvarelsen skal ikke afleveres, men upload af SAS-programmer og datafiler afprøves. Vejledende besvarelse udleveres efter øvelserne i uge 17 (fredag den 28. april). Opgaven bliver gennemgået ved forelæsningerne den 3. maj. NB: HUSK KURSUSTILMELDING! Antag følgende model: * y = β + β x + u 0 1 1 x* er uobserverbar, og i stedet observeres x, som er givet ved x = x * + e 1 1 1 Antagelserne om målefejl: ( i) E( e1 ) = 0 ( ii) Cov( e1, x1) = 0 x kan opfattes som en proxy for x* OLS er middelret og konsistent Gentagne tværsnit og panel data I 3 Gentagne tværsnit og panel data I 4 2

Målefejl i de forklarende variabler Målefejl i de forklarende variabler Antagelsen om, at målefejlen er ukorreleret med det observerede x, er ofte urealistisk Klassiske målefejl Antagelser: () i E( e1 ) = 0 ( ii) Cov( e, x *) = 0 1 1 Disse antagelser er mere naturlige. Egenskaber ved OLS estimatoren OLS ikke konsistent Tavlegennemgang I kapitel 15 ser vi på, hvordan man kan få konsistente estimater når der er målefejl Gentagne tværsnit og panel data I 5 Gentagne tværsnit og panel data I 6 3

Data problemer Manglende observationer Indtil nu har vi antaget, at MLR.2 altid er opfyldt Vi har antaget, at data stammer fra en tilfældig stikprøve Der er mange grunde til, at denne antagelse ikke er opfyldt i praksis: Manglende observationer: Tilfældigt eller ej. Ikke-tilfældig dataudvælgelse: Exogent eller endogent. Er manglende observationer for en eller flere variabler et problem? Manglende observationer vil reducere antallet af observationer i analysen Det afgørende for, om manglende observationer giver alvorlige problemer, er hvorfor observationerne mangler Hvis observationerne mangler tilfældigt, er det et mindre problem -> mindre præcise estimater Gentagne tværsnit og panel data I 7 Gentagne tværsnit og panel data I 8 4

Ikke-tilfældig dataudvælgelse Ikke-tilfældig dataudvælgelse Der er forskellige måder hvorpå stikprøven ikke er tilfældig (dvs. antagelse MLR.2 ikke er opfyldt): Eksogen dataudvælgelse Endogen dataudvælgelse Stratificeret dataudvælgelse Det er ikke alle typer af ikke tilfældig dataudvælgelse, som giver anledning til skæve eller inkonsistente OLS estimater Eksogen dataudvælgelse: Dataudvælgelse baseret på en af de forklarende variabler Denne type af dataudvælgelse vil under forudsætninger af nok variation i de forklarende variable stadig give middelrette og konsistente OLS etimater Dataudvælgelse baseret på variabler, som er uafhængige af fejlleddet, giver stadig, at OLS estimaterne er middelrette og konsistente Gentagne tværsnit og panel data I 9 Gentagne tværsnit og panel data I 10 5

Ikke-tilfældig dataudvælgelse Ikke-tilfældig dataudvælgelse Endogen dataudvælgelse: Dataudvælgelse baseret på den afhængige variabel Eksempler Gennemsnitsvægt ved session Lønrelationen (kun baseret på folk som arbejder) OLS estimator er ikke middelret og ikke konsistent Stratificeret dataudvælgelse: Populationen er delt i grupper (disjunkte grupper som udgør hele populationen) Nogle af grupperne er udvalgt mere hyppigt end andre, sammenlignet med deres andel af populationen OLS er middelret og konsistent, hvis gruppeopdelingen er baseret på eksogene variabler Gentagne tværsnit og panel data I 11 Gentagne tværsnit og panel data I 12 6

Ekstreme observationer Ekstreme observationer Ekstreme observationer er observationer, som har stor betydning på værdien af OLS estimaterne En ekstrem observation får stor betydning på OLS estimater, da OLS bestemmes ved at minimere de kvadrerede residualer Hvorfor er der ekstreme observationer: Fejl i data Enkelte enheder i populationen er meget forskellige fra resten Hvad gør man ved ekstreme observationer: Hvis man er sikker på, at de skyldes fejl i data, bør de ekstreme observationer udelades Hvis ikke det er en oplagt fejl, er der ingen nemme løsninger Estimer modellen med og uden de ekstreme observationer Der findes estimatorer, som er mere robuste overfor ekstreme observationer Gentagne tværsnit og panel data I 13 Gentagne tværsnit og panel data I 14 7

Nyt emne: Gentagne tværsnit og paneldata Gentagne tværsnit Tværsnit ( cross section ): Observationer af et sæt af variabler i en given periode, t, for individuelle enheder i=1,2,,n: ( y, x, x,..., x ) it it1 it 2 itk Antager at tværsnittet er en tilfældig stikprøve fra populationen på tidspunkt t Uafhængige tværsnit for to perioder: Sammensætning af data fra to tværsnit: ( y, x, x,..., x ), i = 1, 2,..., n, n + 1,..., n + n it it1 it 2 itk 1 1 1 2 To-periode tilfældet: Periode-1 tværsnit: ( yi 1, xi11, xi12,..., xi 1k), i = 1,2,..., n1 Periode-2 tværsnit: ( y, x, x,..., x ), i = n + 1, n + 2,..., n + n i2 i21 i22 i2k 1 1 1 2 Hvad er sammenhængen mellem periode-1 og periode-2 tværsnittene? Uafhængige tværsnit: To uafhængige tilfældige stikprøver fra populationen: (Generelt) forskellige individer i periode 1 og periode 2. Panel data: Samme n individer i periode 1 og periode 2. En mulighed: Estimation af samlet model: y = Xβ + u β Alternativt: Se på data i hvert tværsnit for sig: 1 1 y = Xβ + u, i = 1,2,..., n ˆ 1 β 2 ˆ 2 y = X β + u, i = n + 1, n + 2,..., n + n β 1 1 1 2 Partial pooling : Kombinere tværsnit men tillade at koefficienter for visse variabler ændres mellem tværsnittene. ˆpooled Gentagne tværsnit og panel data I 15 Gentagne tværsnit og panel data I 16 8

Gentagne tværsnit Gentagne tværsnit: Test Tillade at koefficienterne til nogle af variablerne ændres over tid: Et specialtilfælde af strukturelle skift (Ugeseddel 8) Brug dummy variabler (W ch. 7): Tidsdummier (fx årsdummier) To perioder: Dummyvariabel (sædvanligvis for periode 2) indeholder information om tidspunkt for observationen: d2i = 1 hvis individ i er i periode-2 samplet = 0 hvis individ iikkeer i samplet i periode 2 Ofte: Tillad at konstantleddet ændres y = β + δ d2 + β x +... + β x + u, i = 1,2,..., n + n i 0 0 i 1 i1 k ik i 1 2 Tillade at andre koefficienter også kan ændres mellem tværsnit: Interaktionsled. Test: Er koefficienten til konstant over tid? Sædvanligt t-test for δ = i 1 0 y = β + δ d2 + β x + δ d2 x + β x... + β x + u Tillad alle koefficienter at ændres over tid: Ingen gevinst fra pooling af tværsnittene Fuldt sæt af interaktionsled i regression: F-test for x 1 i 0 0 i 1 i1 1 i i1 2 i2 k ik i y = β + δ d2 + β x + δ d2 x + β x + δ d2 x +... + β x + δ d2 x + u i 0 0 i 1 i1 1 i i1 2 i2 2 i i2 δ0 = δ1 =... = δ k = 0 k ik k i ik i Nem udgave af F-statistic: SSRs fra poolede og separate regressioner ( Chow test ) Gentagne tværsnit og panel data I 17 Gentagne tværsnit og panel data I 18 9

Gentagne tværsnit: Hjemmeopgave Næste gang Lønregression: Eksempel 13.2 To uafhængige tværsnit: 1978-CPS, 1985-CPS Data for log(wage), educ, exper, expersq, union, female for 1,084 arbejdere. Definer tidsdummy y85 (brug 1978-tværsnit som referencegruppe). Inkluder ovenstående variabler og y85, y85*educ, y85*female Data i CPS78_85 på hjemmesiden. Politikanalyse med gentagne tværsnitsdata. Panel data: Observationer over tid for de samme individuelle enheder. W sec. 13.3-13.4: To-periode paneler Tænk lidt over hjemmeopgaven (ex. 13.2) Spørgsmål: Har afkastet af uddannelse eller løngabet mellem kønnene ændret sig mellem 1978 og 1985? Chow test af samlet regression: Har det interesse her? Hvorfor (ikke)? Gentagne tværsnit og panel data I 19 Gentagne tværsnit og panel data I 20 10