Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Relaterede dokumenter
Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Kvantitative metoder 2

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Kvantitative metoder 2

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Kvantitative metoder 2

Kvantitative metoder 2

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Trivsel og fravær i folkeskolen

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

Forelæsning 8: Inferens for varianser (kap 9)

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Module 12: Mere om variansanalyse

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Modul 5: Test for én stikprøve

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

Kvantitative metoder 2

Økonometri, ugeseddel 8 Hold 1 1/4-2003

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Simpel Lineær Regression: Model

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Konfidensinterval for µ (σ kendt)

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Kapitel 3 Centraltendens og spredning

Kvantitative Metoder 1 - Forår 2007

Elevfravær, karakterer og overgang til/status på ungdomsuddannelsen

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

En Introduktion til SAS. Kapitel 6.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Uge 13 referat hold 4

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Hvem kender ÅOP? en empirisk undersøgelse

Matematisk modellering og numeriske metoder. Lektion 18

BILAG 3: DETALJERET REDEGØ- RELSE FOR REGISTER- ANALYSER

Løsning til øvelsesopgaver dag 4 spg 5-9

Kvantitative metoder 2

Effekten af kasernelukninger på beskæftigelse

Statistik Lektion 17 Multipel Lineær Regression

Den nationale trivselsmåling i folkeskolen, 2016

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Module 2: Beskrivende Statistik

Kvantitative Metoder 1 - Forår Dagens program

Rettevejledning til Økonomisk Kandidateksamen 2007II. Økonometri 1

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

3.7 Bornholms Regionskommune

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Kvantitative metoder 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2

W.2 Simpel lineær regression: Egenskaber ved OLS: Forudsagte værdier og residualer: Et residual:

Variable i model Estimat, model 1 Estimat, model 2 Konstant 5,09*** 23,39***

Rettevejledning til Økonomisk Kandidateksamen 2005I, Økonometri 1

Essays on Labor Supply and Health

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Piger er bedst til at bryde den sociale arv

Ensidet variansanalyse

Psykisk arbejdsmiljø og stress blandt medlemmerne af FOA

Økonometri 1. Målsætning for Økonometri 1. Dagens program: Afslutningsforelæsning 16. December 2005

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik II 4. Lektion. Logistisk regression

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Fokus på Forsyning. Datagrundlag og metode

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Næsten hver 3. akademikerbarn går i privatskole

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Faktaark: Fra iværksætter til højvækstvirksomhed

Rettevejledning til Økonomisk Kandidateksamen 2007II. Kvantitative Metoder 2: Tag-hjem eksamen

Multipel Lineær Regression

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 21. september 2005

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Sundhedskartellets guidelines for fleksjobberes løn- og ansættelsesvilkår.

Forum for Mænds Sundhed c/o Rigshospitalet, afsnit 9512, Blegdamsvej 9, 2100 København Ø Tlf: svaam@rh.dk &

Markante sæsonudsving på boligmarkedet

Fremtidens tabere: Flere unge havner i fattigdom

Læsevejledning til resultater på regionsplan

Note til styrkefunktionen

Transkript:

Dagens program Økonometri 1 Dummyvariabler 21. oktober 2004 Emnet for denne forelæsning er kvalitative egenskaber i den multiple regressionsmodel (Wooldridge kap. 7.1-7.6) Kvalitative variabler generelt Dummy variable for kvalitative variable med to kategorier Dummy variable for kvalitative variable med flere end to kategorier Interaktionsled med kvantitative variabler Chow test Dummyvariabel som afhængig variabel: Lineær sandsynlighedsmodel Økonometri 1: Dummyvariabler 1 Økonometri 1: Dummyvariabler 2 Interne evalueringer af forelæsninger Kvalitative variabler 5 har svaret på de interne evalueringer!!! Konklusioner: Studerendes forudsætninger for at følge faget: gode Pensum: svært/højt fagligt niveau Forelæsninger: gode Udbytte af undervisningen: stort Andre kommentarer til forelæsningerne? Indtil nu har vi (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst).. Men hvad med kvalitative variabler? Kvalitative variabler: Diskrete variabler Eksempler: Køn Kommune Sektor Arbejdstid (ikke arbejde, halvtid, fuld tid) Helbred (dårligt, middel, godt) Økonometri 1: Dummyvariabler 3 Økonometri 1: Dummyvariabler 4 1

Kvalitative variabler Kvalitative variabler med to kategorier I nogle tilfælde kan udfaldene af den kvalitative variabel rangordnes. Variablen kaldes så for ordinal Eksempler: arbejdstid og helbred For kvalitative variabler med to kategorier laves ofte en dummy variabel Dummy variabler Diskret variabel Antager kun værdien 0 og 1. Normalt antages værdien 1, når egenskaben er tilstede, f.eks. kvinde=1 når person er kvinde ellers 0 Dummy variable benyttes meget i regressionsmodeller Kategorien hvor Dummy = 0 kaldes reference-kategorien Dummy variable kaldes også for indikator variable og binære variable Økonometri 1: Dummyvariabler 5 Økonometri 1: Dummyvariabler 6 Kvalitative variable med to kategorier Kvalitative variable med to kategorier Dummy variable kan inkluderes i den multiple regressionsmodel som alm. forklarende variable Eks: lønrelationen log timeloni = β0 + β1uddi + β2erfaringi + β3kvindei + εi hvor kvinde er en dummy variabel Lønforskellen mellem mænd og kvinder (med samme uddannelse og erfaring) og når antagelse MLR. 3 er opfyldt E(log( timelon ) udd, erfaring, kvinde = 1) E(log( timelon ) udd, erfaring, kvinde = 0) = β i i 3 Dummy variable kan inkluderes i den multiple regressionsmodel som alm. forklarende variable Eks: lønrelationen log timeloni = β0 + β1uddi + β2erfaringi + β3kvindei + εi hvor kvinde er en dummy variabel Lønforskellen mellem mænd og kvinder (med samme uddannelse og erfaring) og når antagelse MLR. 3 er opfyldt E(log( timelon ) udd, erfaring, kvinde = 1) E(log( timelon ) udd, erfaring, kvinde = 0) = β i i 3 Økonometri 1: Dummyvariabler 7 Økonometri 1: Dummyvariabler 8 2

Kvalitative variabler med to kategorier Kvalitative variabler med to kategorier Fortolkning af parameteren til dummy variablen: Parameteren til dummy variablen måler forskellen mellem de to kategorier Inkludering af en dummy variabel kan grafisk fortolkes som et skift i konstantleddet..men afkast af de øvrige forklarende variabler er de sammen for de to grupper Hvis den afh. var. er lineær -> parameteren fortolkes som en absolut forskel mellem to kategorier (når man kontrollerer for øvrige forklarende variable) Hvis den afh. var. i log -> parameteren fortolkes som en ca. procentuel forskel mellem to kategorier (når man kontrollerer for øvrige forklarende variable) Vil man have den eksakte procentuelle forskel skal følgende formel anvendes 100*[exp( β ) 1] Valg af referencegruppe: Hvad hvis vi i stedet havde inkluderet en dummy for mand? Man kan blot omparametrisere så får man den samme model (Husk mandi + kvindei = 1 ) Begge variable kan ikke inkluderes (hvis der også er et konstantled i modellen) -> Perfekt multikollinaritet Økonometri 1: Dummyvariabler 9 Økonometri 1: Dummyvariabler 10 Evaluering af programmer Et meget vigtigt eksempel på dummy variabler er program evaluation Eks: Effekten af jobtræningskurser Simpelt tilfælde: to grupper Treatment (forsøgs-) gruppen: dem som deltager i programmet control (kontrol) gruppen: dem som ikke deltager Parameteren til dummy variablen for treatment gruppen måler effekten af at have deltaget Det er dog meget tit at denne variabel er endogen (pga. den måde økonomiske data fremkommer) Kvalitative variabler med flere end to kategorier Hvad hvis den kvalitative variabel har m kategorier (og m>2) Generelt skal man lave m-1 dummy variabler Den kategori hvortil der ikke hører en dummy variabel kaldes reference kategorien Hvis man inkluderer m dummy variabler og et konstantled er der perfekt multikollinaritet Parametrene til dummy variablerne angiver forskellen mellem den pågældende kategori og reference kategorien Betyder valget af reference kategori noget? Nej, ikke for estimation, prediktioner Ja, fortolkningen af parametrene til dummy variablerne afhænger af reference kategorien Økonometri 1: Dummyvariabler 11 Økonometri 1: Dummyvariabler 12 3

Kvalitative variabler med flere end to kategorier Eksempel: Hvad hvis man brugte dummy variabler til at kontrollere for uddannelse Uddannelseskategorier for højeste fuldførte udd.: Folkeskole (udd<=9) 10. klasse (udd=10) Gymnasial ungdomsudd./erhvervsfaglig grundudd. (udd=11,12,13) Videregående uddannelse (udd>13) Model log timelon = γ + γ erfaring + γ kvinde + γ 10klasse + γ gym + γ videreg + ε i 0 1 i 2 i 3 i 4 i 5 i i Kvalitative variabler med flere end to kategorier (fortsat) Hvilke fordele/ulemper er der ved at bruge dummy variabler? Fordele: generelt mere fleksibel form Ulempe: flere variabler i regressionen (tab af frihedsgrader) Test for betydning af den kvalitative variabel udføres ved et F-test for at alle parametrene til dummyerne er lig 0 Økonometri 1: Dummyvariabler 13 Økonometri 1: Dummyvariabler 14 Kvalitative variable med flere end to kategorier (fortsat) Eksempel: sammenligning af effekten af uddannelse 5.4 5.2 5 4.8 (mean) lon_d (mean) lon_u 5 10 15 20 uddaar Effekten af uddannelse Interaktionsled med to dummy variable Interaktionsled med dummy variable er helt analogt til interaktionsled med kvantitative variable og ofte anvendt Eksempel: Arbejdsudbud arbejdstid = β0 + β1kvindei + β2børni + εi Denne model er meget restriktiv (urealistisk), fordi man antager, at effekten af børn er uafhængig af køn Denne restriktion kan fjernes ved at introducere et interaktionsled arbejdstid = β ( * ) 0 + β1kvindei + β2børni + β3 børni kvindei + εi Økonometri 1: Dummyvariabler 15 Økonometri 1: Dummyvariabler 16 4

Interaktionsled med to dummy variable Eksempel: lønrelationen interaktion mellem køn og ægteskabelig status Hvorfor skal ægteskabelig status med i en lønrelation? Skal der en interaktionseffekt mellem køn og ægteskabelig status med? Interaktionsled med dummy variable og kvantitative variable Interaktionsled mellem dummy variable og kvantitative variable kan fortolkes som forskellig effekt (eller afkast) af den kvantitative variabel Grafisk kan det illustreres ved forskellige hældninger (se figur 7.2) Eksempel: Lønrelationen - afkastet af erfaring afhænger af køn log timelon = β + βudd + β erfaring + β kvinde + β ( erfaring * kvinde ) + ε i 0 1 i 2 i 3 i 4 i i i log timelon = ( β + β kvinde ) + β udd + ( β + β kvinde )* erfaring + ε i 0 3 i 1 i 2 4 i i i Økonometri 1: Dummyvariabler 17 Økonometri 1: Dummyvariabler 18 Interaktionsled med dummy variable og kvantitative variable Tests β = Samme afkast af erfaring: Ingen forskel på mænd og kvinder: β 4 0 3 = β4 = 0 Chow test Test for om der er forskel mellem to grupper Modellen kan formuleres ved brug af dummy er (d=1 for gruppe 2) y = δ0 + δ1x1+ δ2x2 + + δkxk + + δ d + δ ( d* x ) + δ ( d* x ) + + δ ( d* x ) + ε k+ 1 k+ 2 1 k+ 3 2 2k+ 1 k Hypotesen kan formuleres som H 0 : δ k+ 1 = δk+ 2 = = δ2k+ 1 = 0 Hvis der er mange forklarende variable kan modellen skrives som y = β + β x + β x + + β x + ε g,0 g,1 1 g,2 2 g, k k hvor g=1,2 (to forskellige grupper) Hypotese H 0 : β1,0 = β2,0,, β1, k = β2, k k+1 restriktioner Økonometri 1: Dummyvariabler 19 Økonometri 1: Dummyvariabler 20 5

Chow test (fortsat) Chow test (fortsat) Teststørrelsen udregnes ved at lave tre regressioner af y på en konstant og x1, x2,, xk (uden dummyvariabler) SSR størrelsen til hver af de tre regressioner noteres: Regression for gruppe 1 alene -> SSR 1 Regression for gruppe 2 alene -> SSR 2 Regression for både gruppe 1 og 2 -> SSR P Teststørrelsen ( SSRP ( SSR1+ SSR2))/( k + 1) F = ( SSR1+ SSR2)/( n (2( k + 1)) Hvor n er det samlede antal obs. (både fra gruppe 1 og 2) k+1 er antal restriktioner Teststørrelsen er F-fordelt med (k+1, n-2(k+1)) frihedsgrader NB: Dette test er det klassiske F-test ( SSRR SSRUR)/ q F = SSR /( antal frihedsgrader ( UR )) UR Økonometri 1: Dummyvariabler 21 Økonometri 1: Dummyvariabler 22 Chow test (fortsat) Eksempel: Lønrelation med udd. og erfaring Grupper: Mænd og kvinder Model log timeloni = βg,0 + βg,1 uddi + βg,2erfaringi + εi Teststørrelse (se SAS-output) (79.22515 (30.71222 + 40.61740)) / 3 F = = 38.37 (30.71222 + 40.61740) /(1046 6) F-fordelt med (3,1040) frihedsgrader Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)? Indtil nu har vi betragtet den afhængige variabel som en kvantitativ variabel (løn, priser, forbrug, indkomst) Afhængige variabel: Diskret variabel med to værdier Eksempler: Deltagelse på arbejdsmarkedet eller ej Bestået et kursus eller ej Om man har bil eller ej Videregående udd. eller ej Har investeret i aktier eller ej Firma gået konkurs eller ej Økonometri 1: Dummyvariabler 23 Økonometri 1: Dummyvariabler 24 6

Lineær sandsynlighedsmodel Lineær sandsynlighedsmodel Når den afhængige variabel er en kvalitativ variabel med to kategorier, kan man lave en dummyvariabel: y=0 eller y=1 Regressionsmodellen: y = β0 + β1x1+ β2x2 + + βkxk + u Denne model kaldes den lineære sandsynlighedsmodel (på engelsk: Linear probability model, LPM) Fortolkningen af estimaterne i denne model er anderledes end i den alm. lineære regressionsmodel Parameteren β j kan ikke fortolkes som ændringen i y givet en enhedsændring i x j Hvis antagelsen MLR.3 er opfyldt: Eu ( x ) = 0 Er den betingede middelværdi af y E( y x) = β0 + β1x1+ β2x2 + + βkxk For binære variable gælder det E( y x) = 0*P( y = 0 x) + 1*P( y = 1 x) = P( y = 1 x) Altså P( y = 1 x) = β0 + β1x1+ β2x2 + + βkxk Hvor P( y = 1 x) er respons sandsynligheden Økonometri 1: Dummyvariabler 25 Økonometri 1: Dummyvariabler 26 Lineær sandsynlighedsmodel Lineær sandsynlighedsmodel Fortolkning af parameteren i en LPM: Parametrene angiver ændringen i sandsynligheden for y=1 som følge af, at de forklarende variable ændres med en enhed P( y = 1 x) = β j xj Sandsynligheden for y=0 (betinget på x) kan også udregnes som P( y = 0 x) = 1 P( y = 1 x) LPM kan estimeres med OLS yˆ = ˆ β0 + ˆ β1x1+ ˆ β2x ˆ 2 + + βkxk Hvor ŷ skal fortolkes som den predikterede sandsynlighed (for y=1) Ulemper ved LPM: Prediktionerne er ikke 0 eller 1, som de tilladte værdier af den afhængige variabel Predikterede sandsynligheder kan være negative eller overstige 1 Normalt ligger den predikterede sandsynlighed mellem 0 og 1, når man ser på værdier af de forklarende variable der ligger omkring gennemsnittet. Økonometri 1: Dummyvariabler 27 Økonometri 1: Dummyvariabler 28 7

Lineær sandsynlighedsmodel Lineær sandsynlighedsmodel Gauss Markov antagelserne: MLR.1-4 kan godt være opfyldt for LPM LPM opfylder ikke antagelsen MLR.5 (Homoskedasticitet) 2 V( y x) = σ Variansen af y betinget på x kan udregnes til V( y x) = P( y = 1 x)*(1 P( y = 1 x)) Variansen afhænger altså af x Egenskaber ved OLS estimatoren i LPM OLS estimaterne er middelrette (givet MLR.1-4) Standardfejlene af estimaterne er ikke middelrette F og t test ikke pålidelige Problemet med heteroskedasticitet kan løses ved at korrigere standardfejlene (dette ser vi på i kap. 8): Sjældent noget alvorligt problem. Problemet med negative ssh. og ssh. over 1 kan kun løses ved at benytte en anden model end LPM. De nye modeller introduceres i økonometri 2 Økonometri 1: Dummyvariabler 29 Økonometri 1: Dummyvariabler 30 Næste gang: Tirsdag d. 26/10. Heteroskedasticitet: Kapitel 8.1-8.3 Robuste test Test for heteroskedasticitet Økonometri 1: Dummyvariabler 31 8