Kvalitative egenskaber og dummyvariabler Kvantitative metoder 2 Dummyvariabler 28. marts 2007 Vi har (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst, )... Men hvad med kvalitative egenskaber i regressionsmodellen? Køn Bopælskommune Sektor (offentlig/privat) Arbejdstid (ikke i arbejde, deltid, fuld tid) Helbred (dårligt, middel, godt) I nogle tilfælde kan udfaldene af den kvalitative egenskab rangordnes Kaldes så for ordinal Eksempler: arbejdstid, helbred KM2: F16 1 KM2: F16 2 1
Kvalitativ egenskab med to kategorier Kvalitativ egenskab med to kategorier For kvalitative egenskaber med to kategorier laves ofte en dummyvariabel Dummyvariabler: Diskret variabel Antager kun to værdier. Normalt antages værdien 1, når egenskaben er tilstede, f.eks. kvinde=1 når person er kvinde, ellers 0 Kategorien hvor dummy = 0 kaldes referencekategorien Dummyvariabler for to kategorier kaldes også for indikatorvariabler eller binære variabler KM2: F16 3 Dummyvariabler kan inkluderes i den multiple regressionsmodel som alm. forklarende variabler Eks: lønrelationen log timeloni = β0 + β1uddi + β2erfaringi + β3kvindei + ui hvor kvinde er en dummyvariabel Lønforskellen mellem mænd og kvinder (med samme uddannelse og erfaring) og når antagelse MLR.4 er opfyldt E(log( timeloni ) udd, erfaring, kvinde = 1) E(log( timelon ) udd, erfaring, kvinde = 0) = β i KM2: F16 4 3 2
Eksempel på regressionsanalyse med kvalitativ egenskab: DJØF lønundersøgelse DJØF lavede i 2006 (baseret på september 2005-tal) en undersøgelse, hvor man sammenligner lønniveauet for mænd og kvinder i hhv. den offentlige sektor og den private sektor. Ingen kønsmæssig lønforskel i den offentlige sektor: Kvindelige og mandlige djøf ere i den offentlige sektor har den samme løn, når de er på samme niveau og i samme funktion. Kønsmæssig lønforskel på 4 pct. i den private sektor: Privatansatte kvindelige DJØFere i stillinger uden ledelsesansvar har en løn der udgør ca. 96 pct. af den løn deres mandlige kolleger får. I sammenligningen er der korrigeret for forskelle i ancienniet, uddannelse, branche mv. Selvom man korrigerer for disse forhold, er der således stadig en forskel på ca. 4 pct., der ikke umiddelbart kan forklares. Se link til undersøgelsen på hjemmesiden. DJØF lønundersøgelse Analysen laves ved en regressionsanalyse. I analysen blandt ikkecheferne indgår alle de målelige forhold, der kan inddrages på basis af DJØF Privat s lønstatistik. Følgende variabler indgår: Uddannelsesgruppe Kandidatår Køn Geografi Branche Regressionsanalysen viser, at alle ovennævnte variabler har signifikant betydning for lønnen. Kønnet har altså betydning for lønnen. Betinget af de andre variabler udgør kvindernes løn 96,3 procent af mændenes løn. Når der er korrigeret for de målelige karakteristika, er der stadig en lønforskel på ca. 4 procent der ikke umiddelbart kan forklares. KM2: F16 5 KM2: F16 6 3
Kvalitativ egenskab med to kategorier Kvalitativ egenskab med to kategorier Fortolkning af parameteren til dummyvariablen: Koefficienten til dummyvariablen måler den forventede forskel mellem de to kategorier, alt andet lige Inkludering af en dummyvariabel kan grafisk fortolkes som et skift i konstantleddet..men koefficienterne til de øvrige forklarende variabler er ens for de to grupper Hvis den afhængige variabel indgår: Lineært (uden transformation) -> parameteren fortolkes som en absolut forskel mellem to kategorier (når man kontrollerer for øvrige forklarende variable) I logaritmer -> parameteren fortolkes som en ca. procentuel forskel mellem to kategorier (når man kontrollerer for øvrige forklarende variable) Vil man have den eksakte procentuelle forskel skal følgende formel anvendes 100*[exp( β ) 1] KM2: F16 7 Valg af referencegruppe: Hvad hvis vi i stedet havde inkluderet en dummy for mand? Man kan blot omparametrisere så får man den samme model (Husk mandi + kvindei = 1 ) Begge variabler kan ikke inkluderes samtidigt (hvis der også er et konstantled i modellen) -> Perfekt multikollinearitet ( dummyvariabelfælden ) KM2: F16 8 4
Evaluering af programmer Kvalitativ egenskab med flere end to kategorier Et meget vigtigt eksempel på dummyvariabler er program evaluering Eks: Hvad er effekten af et jobtræningskursus? Simpelt tilfælde: to grupper Treatment (forsøgs-) gruppen: dem som deltager i programmet Control (kontrol-) gruppen: dem som ikke deltager Parameteren til dummyvariablen for treatment - gruppen måler effekten af at have deltaget Det er dog meget tit at denne variabel er endogen (pga. den måde økonomiske data fremkommer) Hvad hvis den kvalitative egenskab har m kategorier (og m>2)? Generelt skal man lave m-1 dummy variabler Den kategori hvortil der ikke hører en dummy variabel kaldes reference kategorien Hvis man inkluderer m dummy variabler og et konstantled vil der være perfekt multikollinearitet Parametrene til dummy variablerne angiver forskellen mellem den pågældende kategori og referencekategorien Betyder valget af referencekategori noget? Nej, ikke for estimation, prediktioner, etc. Ja, fortolkningen af parametrene til dummyvariablerne afhænger af den konkrete referencekategori, der er valgt. KM2: F16 9 KM2: F16 10 5
Kvalitativ egenskab med flere end to kategorier Kvalitativ egenskab med flere end to kategorier Eksempel: Hvad sker der hvis man bruger dummyvariabler til at kontrollere for uddannelse i lønligningen? Uddannelseskategorier for højeste fuldførte uddannelse: Folkeskole (udd<10) 10. klasse (udd=10) Gymnasial ungdomsudd./erhvervsfaglig grundudd. (udd=11,12,13) Videregående uddannelse (udd>13) m=4 kategorier: Definerer 3 dummyvariabler: Model: log timelon = γ + γ erfaring + γ kvinde + γ 10klasse + γ gym + γ videreg + u i 0 1 i 2 i 3 i 4 i 5 i i Hvilke fordele/ulemper er der ved at bruge dummyvariabler? Fordele: Generelt mere fleksibel form Ulempe: Flere variabler i regressionen (tab af frihedsgrader) Test for betydning af den kvalitative egenskab udføres som et F-test for at alle parametrene til dummyerne er lig 0 KM2: F16 11 KM2: F16 12 6
Kvalitativ egenskab med flere end to kategorier Eksempel: Effekten af uddannelse Sammenligning af effekt af uddannelse målt lineært og som fire grupper 5.4 5.2 5 4.8 (mean) lon_d (mean) lon_u 5 10 15 20 uddaar Effekten af uddannelse NB er Parameteren til en dummyvariabel måler forskellen til referencekategorien. Valget af referencekategori dikterer fortolkningen af parametre til dummyvariabler. Dummyvariabler kan bruges til at gøre modellen mindre restriktiv: Tillader en mere fleksibel funktionel sammenhæng. KM2: F16 13 KM2: F16 14 7
Næste gang: Mandag Resten af kapitel 7: Interaktionsled med dummyvariabler Chow test Lineær sandsynlighedsmodel Obligatorisk opgave 2: På hjemmesiden fredag kl. 14. Introduceres ved forelæsningen mandag. KM2: F16 15 8