Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Relaterede dokumenter
Kvantitative metoder 2

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Kvantitative metoder 2

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Kvantitative metoder 2

Kvantitative metoder 2

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Kvantitative metoder 2

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Kvantitative metoder 2

Simpel Lineær Regression: Model

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik Lektion 4. Variansanalyse Modelkontrol

Indledning...1. Analyse af lønforskellen mellem kvinder og mænd...2

Kvantitative metoder 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kønsbestemt lønforskel? Analyse på baggrund af IDAs lønstatistik 2018 om forskel på privatansatte kvinder og mænds løn

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Multipel Lineær Regression

Ligelønsanalyse sammenligning af lønniveau offentligt ansatte i kommuner og regioner

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Module 4: Ensidig variansanalyse

Ligelønsanalyse sammenligning af offentligt ansatte kvinder og mænds løn

Ligelønsanalyse sammenligning af privatansatte kvinder og mænds løn

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Økonometri 1. Gentagne tværsnit (W ): Opsamling. Gentagne tværsnit og paneldata. Gentagne Tværsnit og Paneldata II.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri, ugeseddel 8 Hold 1 1/4-2003

Statistik Lektion 16 Multipel Lineær Regression

Ligelønsanalyse sammenligning af offentligt ansatte kvinder og mænds løn

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Rettevejledning til Økonomisk Kandidateksamen 2007II. Økonometri 1

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Kvantitative metoder 2

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Den samlede model til estimation af lønpræmien er da givet ved:

Forelæsning 11: Kapitel 11: Regressionsanalyse

W.2 Simpel lineær regression: Egenskaber ved OLS: Forudsagte værdier og residualer: Et residual:

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Module 3: Statistiske modeller

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Ligelønsanalyse sammenligning af privatansatte kvinder og mænds løn

Statistik II 4. Lektion. Logistisk regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik II 1. Lektion. Analyse af kontingenstabeller

Økonomisk Kandidateksamen 2006II Økonometri 1. Afkastet af uddannelse for britiske tvillingepar

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Lineær og logistisk regression

1 Multipel lineær regression

1 Multipel lineær regression

Kønsbestemt lønforskel? Analyse på baggrund af IDAs lønstatistik om forskel på privatansatte kvinder og mænds løn

Rettevejledning til Økonomisk Kandidateksamen 2004I, Økonometri 1

Tema. Dagens tema: Indfør centrale statistiske begreber.

Økonometri 1 Efterår 2006 Ugeseddel 11

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Rettevejledning til Økonomisk Kandidateksamen 2005I, Økonometri 1

Kvantitative metoder 2

Løsninger til kapitel 14

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Løsning eksamen d. 15. december 2008

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Rettevejledning til Økonomisk Kandidateksamen 2007II. Kvantitative Metoder 2: Tag-hjem eksamen

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Simpel Lineær Regression

Fokus på køns betydning for løn

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Ligelønsanalyse sammenligning af offentligt ansatte kvinder og mænds løn

Hver anden vil benytte øget åbningstid i dagtilbud

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Estimation af lønpræmier

Fokus på Forsyning. Datagrundlag og metode

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

1 Regressionsproblemet 2

Transkript:

Økonometri 1 Prediktion. Dummyvariabler 9. oktober 2006 Økonometri 1: F9 1

Program frem til efterårsferien Om goodness-of-fit, prediktion og residualer (kap. 6.3-4) Kvalitative egenskaber i den multiple regressionsmodel (Wooldridge kap. 7.1-7.6) Kvalitative variabler generelt Dummyvariabler for kvalitative egenskaber med to kategorier Dummyvariabler for kvalitative egenskaber med flere end to kategorier Interaktionsled med dummyvariabler Chow-testet Dummyvariabel som afhængig variabel: Lineær sandsynlighedsmodel Økonometri 1: F9 2

Goodness-of-fit 2 Kender R som et mål for modellens forklaringsgrad. Øges når der tilføjes variabler til modellen (med mindre de er perfekt kollineære med eksisterende regressorer). 2 Uegnet til modelvalg. Høj R er ikke nødvendig for en brugbar model. 2 2 Korrigeret R, betegnet R, straffer for at selvom større modeller tilpasser data bedre, sker dette ved hjælp af flere forklarende variabler. 2 SSR /( n k 1) R = 1 SST /( n 1) Tæller og nævner korrigeres for frihedsgrader >< 2 R Økonometri 1: F9 3

Goodness-of-fit (fortsat) Hvis en variabel tilføjes til modellen vil øges hvis og kun hvis variablen har en t-værdi, der (numerisk) overstiger 1. Svarer til at lave et to-sidet signifikanstest med et signifikansniveau over 30 %! 2 R bruges i nogle tilfælde til at sammenligne ikkenestede modeller, hvor den ene model er ikke et specialtilfælde af den anden. Men begrænsninger: Samme venstre-side variabel (samme funktionelle form). R 2 Økonometri 1: F9 4

Goodness-of-fit (fortsat) Hvor mange variabler skal med i modellen? Overvej hvilke variabler der fortolkningsmæssigt giver mening. Ofte flere praktiske mål for samme teoretiske størrelse: Problematisk at inkludere flere mål og så lave alt-andet-lige betragtning. Høj korrelation mellem forklarende variabler giver multikollinearitetsproblem: Svært at skelne effekterne af de enkelte variabler fra hinanden. Har man mulighed for at tilføje variabler, der er ukorrelerede med de allerede inkluderede, vil det entydigt nedbringe residualvariansen og give mere præcise estimater. Økonometri 1: F9 5

Prediktioner (forudsigelser) Punktprediktion fra MLR: Tilpassede værdi: y ˆ ˆ x ˆ x ˆ x ˆ = β0 + β... 1 1 + β2 2 + + β k k MLR.3: For givne værdier af x x x et estimat af:,,..., k 1 2 Ey ( x) = ˆ β 0 + ˆ β 1x1 + ˆ β 2x2 +... + ˆ β kxk ŷ er en estimator af den sande (men ukendte) middelværdi. For givne værdier af x1, x2,..., xk har prediktionen en standardfejl, der er afledt af standardfejlene på OLS estimaterne ˆ β0, ˆ β1,..., ˆ βk. Kan vises at standardfejlen på prediktionen er mindst når x x x sættes lig deres gennemsnit.,,..., k 1 2 Økonometri 1: F9 6

Prediktioner (forudsigelser) (fortsat) Et konfidensinterval for en tænkt enhed (husholdning, 0 0 0 skole,virksomhed, ) med givne x1, x2,..., xk 0 Må også tage højde for variansen af fejlleddet, u Prediktionsfejlen er: eˆ = y yˆ = β + β x + β x +... + β x + u yˆ 0 0 0 0 0 0 0 0 1 1 2 2 k k 0 0 0 0 = ( β ˆ ˆ ˆ 0 β0) + ( β1 β1) x1 +... + ( βk βk) xk + u 0 OLS er middelret og Eu ( X ) = 0 så Ee ( ˆ0 X ) = 0 0 Prediktionsfejlsvariansen: u ukorreleret med ŷ0 så variansen splitter op i to komponenter: Var( eˆ ) = Var( yˆ ) + Var( u ) = Var( yˆ ) + σ 0 0 2 0 0 Økonometri 1: F9 7

Kvalitative egenskaber og dummyvariabler Indtil nu har vi (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst, )... Men hvad med kvalitative egenskaber? Eksempler: Køn Kommune Sektor (offentlig/privat) Arbejdstid (ikke i arbejde, deltid, fuld tid) Helbred (dårligt, middel, godt) I nogle tilfælde kan udfaldene af den kvalitative egenskab rangordnes Kaldes så for ordinal Eksempler: arbejdstid, helbred Økonometri 1: F9 8

Kvalitativ egenskab med to kategorier For kvalitative egenskaber med to kategorier laves ofte en dummyvariabel Dummyvariabler: Diskret variabel Antager kun værdien 0 og 1. Normalt antages værdien 1, når egenskaben er tilstede, f.eks. kvinde=1 når person er kvinde ellers 0 Kategorien hvor Dummy = 0 kaldes reference-kategorien Dummyvariabler kaldes også for indikatorvariabler og binære variabler Økonometri 1: F9 9

Kvalitativ egenskab med to kategorier Dummyvariabler kan inkluderes i den multiple regressionsmodel som alm. forklarende variabler Eks: lønrelationen log timeloni = β0 + β1uddi + β2erfaringi + β3kvindei + εi hvor kvinde er en dummyvariabel Lønforskellen mellem mænd og kvinder (med samme uddannelse og erfaring) og når antagelse MLR.4 er opfyldt E(log( timeloni ) udd, erfaring, kvinde = 1) E(log( timelon ) udd, erfaring, kvinde = 0) = β i 3 Økonometri 1: F9 10

Eksempel på regressionsanalyse med kvalitativ egenskab: DJØF lønundersøgelse DJØF lavede i 2005 en undersøgelse, hvor man sammenligner lønniveauet for mænd og kvinder i hhv. den offentlige sektor og den private sektor. Ingen kønsmæssig lønforskel i den offentlige sektor: Kvindelige og mandlige djøf ere i den offentlige sektor har den samme løn, når de er på samme niveau og i samme funktion. Kønsmæssig lønforskel på 6 pct. i den private sektor: Privatansatte kvindelige DJØFere i stillinger uden ledelsesansvar har en løn der udgør ca. 94 pct. af den løn deres mandlige kolleger får. I sammenligningen er der korrigeret for forskelle i ancienniet, uddannelse, branche mv. Selvom man korrigerer for disse forhold, er der således stadig en forskel på ca. 6 pct., der ikke umiddelbart kan forklares. Se link til undersøgelsen på hjemmesiden. Økonometri 1: F9 11

DJØF lønundersøgelse Analysen laves ved en regressionsanalyse. I analysen blandt ikkecheferne indgår alle de målelige forhold, der kan inddrages på basis af DJØF Privat s lønstatistik. Følgende variabler indgår: Uddannelsesgruppe Geografi Kandidatår Branche Køn Regressionsanalysen viser, at alle ovennævnte variabler har signifikant betydning for lønnen. Kønnet har altså betydning for lønnen. Betinget af de andre variabler udgør kvindernes løn 93,8 procent af mændenes løn. Når der er korrigeret for de målelige karakteristika, er der stadig en lønforskel på 6 procent der ikke umiddelbart kan forklares. Økonometri 1: F9 12

Kvalitativ egenskab med to kategorier Fortolkning af parameteren til dummyvariablen: Parameteren til dummyvariablen måler forskellen mellem de to kategorier Inkludering af en dummyvariabel kan grafisk fortolkes som et skift i konstantleddet..men koefficienterne til de øvrige forklarende variabler er ens for de to grupper Hvis den afhængige variabel indgår: Lineært (uden transformation) -> parameteren fortolkes som en absolut forskel mellem to kategorier (når man kontrollerer for øvrige forklarende variable) I logaritmer -> parameteren fortolkes som en ca. procentuel forskel mellem to kategorier (når man kontrollerer for øvrige forklarende variable) Vil man have den eksakte procentuelle forskel skal følgende formel anvendes 100*[exp( β ) 1] Økonometri 1: F9 13

Kvalitativ egenskab med to kategorier Valg af referencegruppe: Hvad hvis vi i stedet havde inkluderet en dummy for mand? Man kan blot omparametrisere så får man den samme model (Husk mandi + kvindei = 1 ) Begge variabler kan ikke inkluderes samtidigt (hvis der også er et konstantled i modellen) -> Perfekt multikollinaritet ( dummyvariabelfælden ) Økonometri 1: F9 14

Evaluering af programmer Et meget vigtigt eksempel på dummyvariabler er program evaluering Eks: Hvad er effekten af et jobtræningskursus? Simpelt tilfælde: to grupper Treatment (forsøgs-) gruppen: dem som deltager i programmet Control (kontrol-) gruppen: dem som ikke deltager Parameteren til dummyvariablen for treatment - gruppen måler effekten af at have deltaget Det er dog meget tit at denne variabel er endogen (pga. den måde økonomiske data fremkommer) Økonometri 1: F9 15

Kvalitativ egenskab med flere end to kategorier Hvad hvis den kvalitative egenskab har m kategorier (og m>2)? Generelt skal man lave m-1 dummy variabler Den kategori hvortil der ikke hører en dummy variabel kaldes reference kategorien Hvis man inkluderer m dummy variabler og et konstantled er der perfekt multikollinaritet Parametrene til dummy variablerne angiver forskellen mellem den pågældende kategori og reference kategorien Betyder valget af reference kategori noget? Nej, ikke for estimation, prediktioner Ja, fortolkningen af parametrene til dummy variablerne afhænger af reference kategorien Økonometri 1: F9 16

Kvalitativ egenskab med flere end to kategorier Eksempel: Hvad hvis man brugte dummyvariabler til at kontrollere for uddannelse i lønligningen? Uddannelseskategorier for højeste fuldførte udd.: Folkeskole (udd<10) 10. klasse (udd=10) Gymnasial ungdomsudd./erhvervsfaglig grundudd. (udd=11,12,13) Videregående uddannelse (udd>13) m=4 kategorier: Definerer 3 dummyvariabler: Model: log timelon = γ + γ erfaring + γ kvinde + γ 10klasse + γ gym + γ videreg + ε i 0 1 i 2 i 3 i 4 i 5 i i Økonometri 1: F9 17

Kvalitativ egenskab med flere end to kategorier Hvilke fordele/ulemper er der ved at bruge dummy variabler? Fordele: Generelt mere fleksibel form Ulempe: Flere variabler i regressionen (tab af frihedsgrader) Test for betydning af den kvalitative egenskab udføres som et F-test for at alle parametrene til dummyerne er lig 0 Økonometri 1: F9 18

Kvalitativ egenskab med flere end to kategorier Eksempel: Effekten af uddannelse Sammenligning af effekt af uddannelse målt lineært og som fire grupper 5.4 (mean) lon_d (mean) lon_u 5.2 5 4.8 5 10 15 20 uddaar Effekten af uddannelse Økonometri 1: F9 19

NB er 2 Høj R er ikke nødvendig for en brugbar model. Uegnet til modelvalg. Parameteren til en dummyvariabel måler forskellen til referencekategorien. Valget af referencekategori dikterer fortolkningen af parametre til dummyvariabler. Dummyvariabler kan bruges til at gøre modellen mindre restriktiv: Tillader en mere fleksibel funktionel sammenhæng. Økonometri 1: F9 20

Næste gang: Fredag Resten af kapitel 7: Interaktionsled med dummyvariabler Chow test Lineær sandsynlighedsmodel Økonometri 1: F9 21