Dagens program Økonometri 1 Kvalitative variable 8. marts 2006 Kvalitative variabler som forklarende variabler i en lineær regressionsmodel (Wooldridge kap. 7.1-7.4) Kvalitative variabler generelt Dummy variable for kvalitative variable med to Dummy variable for kvalitative variable med flere end to Interaktionseffekter regressionsmodel 1 regressionsmodel 2 Kvalitative variabler Kvalitative variabler Indtil nu har vi (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst).. Men hvad med kvalitative variabler? Kvalitative variabler: Diskrete variabler Eksempler: Køn Kommune Sektor Arbejdstid (ikke arbejde, halvtid, fuld tid) Helbred (dårligt, middel, godt) I nogle tilfælde kan udfaldene af den kvalitative variabel rangordnes. Variablen kaldes så for ordinal Eksempler: arbejdstid og helbred regressionsmodel regressionsmodel 4 1
Kvalitative variabler med to Kvalitative variable med to For kvalitative variabler med to laves ofte en dummy variabel Dummy variabler Diskret variabel Antager kun værdien 0 og 1. Normalt antages værdien 1, når egenskaben er tilstede, f.eks. kvinde=1 når person er kvinde ellers 0 Dummy variable benyttes meget i regressionsmodeller Kategorien hvor Dummy = 0 kaldes reference-kategorien Dummy variable kaldes også for indikator variable og binære variable Dummy variable kan inkluderes i den multiple regressionsmodel som alm. forklarende variable Eks: lønrelationen log timeloni = β0 + β1uddi + β2erfaringi + βkvindei + εi hvor kvinde er en dummy variabel Lønforskellen mellem mænd og kvinder (med samme uddannelse og erfaring) og når antagelse MLR. 4 er opfyldt E(log( timelon ) udd, erfaring, kvinde = 1) E(log( timelon ) udd, erfaring, kvinde = 0) = β i i regressionsmodel 5 regressionsmodel 6 Eksempel på regressionsanalyse: Djøf undersøgelse Djøf har d. 8/9 2005 offentlig gjort en undersøgelse hvor man har sammenlignet lønniveauet for mænd og kvinder i hhv. den offentlige sektor og den private sektor. Ingen kønsmæssig lønforskel i off. Sektor Kvindelige og mandlige djøfere i den offentlige sektor har den samme løn, når de er på samme niveau og i samme funktion. Kønsmæssig lønforskel på 6 pct. i priv.sekt. Privatansatte kvindelige DJØFere i stillinger uden ledelsesansvar har en løn der udgør ca. 94 pct. af den løn deres mandlige kolleger får. I sammenligningen er der korrigeret for forskelle i ancienniet, uddannelse, branche mv. Selvom man korrigerer for disse forhold, er der således stadig en forskel på ca. 6 pct., der ikke umiddelbart kan forklares. Se http://www.djoef.dk/online/view_folder?id=148&attr_folder=f regressionsmodel 7 Djøf undersøgelser Analysen laves ved en regressionsanalyse. I analysen blandt ikkecheferne indgår alle de målelige forhold vi kan inddrage på basis af DJØF Privat s lønstatistik. Følgende variable indgår: Uddannelsesgruppe Geografi Kandidatår Branche Køn Regressionsanalysen viser, at alle de ovennævnte variable har signifikant betydning for lønnen. Kønnet har altså betydning for lønnen. Betinget af de andre variable udgør kvindernes løn 9,8 procent af mændenes løn. Når der er korrigeret for de målelige karakteristika, er der stadig en lønforskel på 6 procent der ikke umiddelbart kan forklares. regressionsmodel 8 2
Kvalitative variabler med to Kvalitative variabler med to Fortolkning af parameteren til dummy variablen: Parameteren til dummy variablen måler forskellen mellem de to Inkludering af en dummy variabel kan grafisk fortolkes som et skift i konstantleddet..men afkast af de øvrige forklarende variabler er de sammen for de to grupper Hvis den afh. var. er lineær -> parameteren fortolkes som en absolut forskel mellem to (når man kontrollerer for øvrige forklarende variable) Hvis den afh. var. i log -> parameteren fortolkes som en ca. procentuel forskel mellem to (når man kontrollerer for øvrige forklarende variable) Vil man have den eksakte procentuelle forskel skal følgende formel anvendes 100*[exp( β ) 1] Valg af referencegruppe: Hvad hvis vi i stedet havde inkluderet en dummy for mand? Man kan blot omparametrisere så får man den samme model (Husk mandi + kvindei = 1 ) Begge variable kan ikke inkluderes (hvis der også er et konstantled i modellen) -> Perfekt multikollinaritet regressionsmodel 9 regressionsmodel 10 Evaluering af programmer Et meget vigtigt eksempel på dummy variabler er program evaluation Eks: Effekten af jobtræningskurser Simpelt tilfælde: to grupper Treatment (forsøgs-) gruppen: dem som deltager i programmet control (kontrol) gruppen: dem som ikke deltager Parameteren til dummy variablen for treatment gruppen måler effekten af at have deltaget Det er dog meget tit at denne variabel er endogen (pga. den måde økonomiske data fremkommer) Kvalitative variabler med flere end to Hvad hvis den kvalitative variabel har m (og m>2) Generelt skal man lave m-1 dummy variabler Den kategori hvortil der ikke hører en dummy variabel kaldes reference kategorien Hvis man inkluderer m dummy variabler og et konstantled er der perfekt multikollinaritet Parametrene til dummy variablerne angiver forskellen mellem den pågældende kategori og reference kategorien Betyder valget af reference kategori noget? Nej, ikke for estimation, prediktioner Ja, fortolkningen af parametrene til dummy variablerne afhænger af reference kategorien regressionsmodel 11 regressionsmodel 12
Kvalitative variabler med flere end to Eksempel: Hvad hvis man brugte dummy variabler til at kontrollere for uddannelse Uddannelses for højeste fuldførte udd.: Folkeskole (udd<=9) 10. klasse (udd=10) Gymnasial ungdomsudd./erhvervsfaglig grundudd. (udd=11,12,1) Videregående uddannelse (udd>1) Model log timelon = γ + γ erfaring + γ kvinde + γ 10klasse + γ gym + γ videreg + ε i 0 1 i 2 i i 4 i 5 i i Kvalitative variabler med flere end to (fortsat) Hvilke fordele/ulemper er der ved at bruge dummy variabler? Fordele: generelt mere fleksibel form Ulempe: flere variabler i regressionen (tab af frihedsgrader) Test for betydning af den kvalitative variabel udføres ved et F-test for at alle parametrene til dummyerne er lig 0 regressionsmodel 1 regressionsmodel 14 Kvalitative variable med flere end to (fortsat) Eksempel: sammenligning af effekten af uddannelse 5.4 5.2 5 4.8 (mean) lon_d (mean) lon_u 5 10 15 20 uddaar Effekten af uddannelse Interaktionsled med to dummy variable Interaktionsled med dummy variable er helt analogt til interaktionsled med kvantitative variable og ofte anvendt Eksempel: Arbejdsudbud arbejdstid = β0 + β1kvindei + β2børni + εi Denne model er meget restriktiv (urealistisk), fordi man antager, at effekten af børn er uafhængig af køn Denne restriktion kan fjernes ved at introducere et interaktionsled arbejdstid = β ( * ) 0 + β1kvindei + β2børni + β børni kvindei + εi regressionsmodel 15 regressionsmodel 16 4
Interaktionsled med to dummy variable Eksempel: lønrelationen interaktion mellem køn og ægteskabelig status Hvorfor skal ægteskabelig status med i en lønrelation? Skal der en interaktionseffekt mellem køn og ægteskabelig status med? Interaktionsled med dummy variable og kvantitative variable Interaktionsled mellem dummy variable og kvantitative variable kan fortolkes som forskellig effekt (eller afkast) af den kvantitative variabel Grafisk kan det illustreres ved forskellige hældninger (se figur 7.2) Eksempel: Lønrelationen - afkastet af erfaring afhænger af køn log timelon = β + βudd + β erfaring + β kvinde + β ( erfaring * kvinde ) + ε i 0 1 i 2 i i 4 i i i log timelon = ( β + β kvinde ) + β udd + ( β + β kvinde )* erfaring + ε i 0 i 1 i 2 4 i i i regressionsmodel 17 regressionsmodel 18 Interaktionsled med dummy variable og kvantitative variable Tests β = Samme afkast af erfaring: Ingen forskel på mænd og kvinder: β 4 0 = β4 = 0 Næste gang: Husk næste forelæsning er næste onsdag d. 15/ Mere om kvalitative variable (resten af kap 7) Husk eksamenstilmelding i uge 10, 11 og 12 på Punkt KU (se http://www.econ.ku.dk/polit/studerende/eksa men/#tilmelding regressionsmodel 19 regressionsmodel 20 5