Dagens program Økonometri 1 Dummy variable 4. marts 003 Emnet for denne forelæsning er kvalitative variable i den multiple regressionsmodel (Wooldridge kap. 7.5-7.6+8.1)! Husk at udfylde spørgeskema 3! Hvad hvis den afhængige variabel er en kvalitative variable (med to kategorier)!!! Mere om evaluering og selvselektion! Introduktion til heteroskedasticitet Økonometri 1: Dummy variable 1 Økonometri 1: Dummy variable Hvad hvis den afhængige variabel er en kvalitative variabel (med to kateg.)! Indtil nu har vi betragtet den afhængige variabel som en kvantitativ variabel (løn, priser, forbrug, indkomst)! Afhængige variabel: " Diskret variabel med to værdier! Eksempler: " Deltagelse på arbejdsmarkedet eller ej " Bestået et kursus eller ej " Om man har bil eller ej " Videregående udd. eller ej " Har investeret i aktier eller ej " Firma gået konkurs eller ej! Når den afhængige variabel er en kvalitativ variabel med to kategorier, kan man lave en dummy variabel y=0 eller y=1! Regressionsmodellen y = β0 + β1x1+ βx + + βkxk + u! Denne model kaldes den lineær sandsynlighedsmodel (på engelsk Linear probability model LPM)! Fortolkningen af estimaterne i denne model er anderledes end i den alm. lineære regressionsmodel " Parameteren β j kan ikke fortolkes som ændringen i y givet en enhedsændring i x j Økonometri 1: Dummy variable 3 Økonometri 1: Dummy variable 4 1
Lineære sandsynlighedsmodel Lineære sandsynlighedsmodel! Hvis antagelsen MLR 3 er opfyldt: Eu ( x ) = 0! Er den betingede middelværdi af y E( y x) = β0 + β1x1+ βx + + βkxk! For binære variable gælder det E( y x) = 0*P( y = 0 x) + 1*P( y= 1 x) = P( y= 1 x)! Altså P( y = 1 x) = β0 + β1x1+ βx + + βkxk! Hvor P( y = 1 x) er respons sandsynligheden! Fortolkning af parameteren i en LPM:! Parametrene angiver ændringen i sandsynligheden for at y=1 som følge af, at de forklarende variable ændres med en enhed P( Y = 1 x) = β j xj! Sandsynligheden for y=0 (betinget på x) kan også udregnes som P( y = 0 x) = 1 P( y = 1 x)! LPM kan estimeres med OLS yˆ = ˆ β0 + ˆ β1x1+ ˆ βx ˆ + + βkxk! Hvor ŷ skal fortolkes som den predikterede sandsynlighed (for y=1) Økonometri 1: Dummy variable 5 Økonometri 1: Dummy variable 6! Ulemper ved LPM:! Prediktionerne er ikke 0 eller 1 som den afhængige variabel! Predikterede sandsynligheder kan være negative eller overstige 1! Normalt er den predikterede sandsynlighed mellem 0 og 1 omkring gennemsnittet af de forklarende variable! Gauss Markov antagelserne! LPM opfylder ikke antagelsen MLR 5 (Homoskedasticitet) V( y x) = σ! Variansen af y betinget på x kan udregnes til V( y x) = P( y = 1 x)*(1 P( y = 1 x))! Variansen afhænger altså af x Økonometri 1: Dummy variable 7 Økonometri 1: Dummy variable 8
! Egenskaber ved OLS estimatoren i LPM " OLS estimaterne er middelrette " Standardfejlene af estimaterne er ikke middelrette " F og t test ikke pålidelige! Hvordan kan problemerne med LPM løses?! Problemet med heteroskedasticitet kan løses ved at korrigere standardfejlene (dette ser vi på i kap. 8)! Det viser sig, at problemerne med heteroskedasticitet sjældent er alvorlige! Problemet med negative ssh og ssh over 1 kan kun løses ved at benytte en anden model end LPM. De nye modeller introduceres i kap. 17 Økonometri 1: Dummy variable 9 Økonometri 1: Dummy variable 10! Hvem er selvstændige i Danmark?! En model for hvem som vælger at være selvstændige i stedet for lønmodtagere! Data: register data (politdata) " Dataudvælgelse: " Data fra 1994 " Individer mellem 0-69 år " Kun lønmodtagere eller selvstændige " I alt 170 individer! Model: Lineære sandsynlighedsmodel " Afhængig variabel: dummy for selvstændige " Forklarende variable! Alder! Alder i anden! Uddannelse! Erhvervserfaring i 1993 (antal år som lønmodtager)! Kvinde! Dummyer for bopæl (Kbh, byer og land)! Arbejdsløshedsgraden (0-1000) Økonometri 1: Dummy variable 11 Økonometri 1: Dummy variable 1 3
! Regressionsmodel y = β + β alder + β alder + β udd + β erfar + 93 0 1 3 4 β kvinde + β dgeo+ β dgeo3+ β arbledg + u 5 6 7 8! Graf for predikteret sandsynlighed for et individ med flg karakteristika: " Udd=1, erfaring=10, mand, Kbh, arbledgr=0 " Alder=40, Udd=1, mand, Kbh, arbledgr=0! Parametrene estimeres ved OLS! Parametrene kan fortolkes som ændringer i sandsynlighed givet en ændring i en af de forklarende variable Økonometri 1: Dummy variable 13 Økonometri 1: Dummy variable 14 (mean) selvst (mean) ssh_hat_a (mean) selvst (mean) ssh_hat_e 1.6.4.5. 0 0 0 40 60 80 alder ultimo året predikteret sandsynlighed for selvstændig -. 0 10 0 30 erfaring_i predikteret sandsynlighed for selvstændig Økonometri 1: Dummy variable 15 Økonometri 1: Dummy variable 16 4
Evaluering af programmer Evaluering af programmer! Evaluering y = β0 + β1d + βx+ u! Hvor d er en dummy variabel (y=1 hvis deltagelse)! Hvorfor er det så problematisk at evaluere programmer?! Det er meget tit at deltagelse (d) er endogen (pga. den måde økonomiske data fremkommer)! Data er ikke fremkommet ved et kontrolleret eksperiment! Selv-selektion " Det er ikke tilfældigt, hvem som melder sig " Det kan være, at dem som får mest ud af kurset, også er dem som melder sig " Deltagelse kan være systematisk relateret til uobserverbare faktorer! Det betyder samlet, at antagelse MLR 3 ikke er opfyldt Eu ( xd, = 1) Eu ( xd, = 0)! Det betyder, at OLS estimatoren er ikke middelret Økonometri 1: Dummy variable 17 Økonometri 1: Dummy variable 18 Evaluering af programmer Heteroskedasticitet! Hvordan kan man så evaluere effekten af et program? " Der findes alternative estimationsmetoder, der under visse antagelser kan give middelrette estimatorer (dette vender vi tilbage til i kap. 15) " I nogle tilfælde kan problemet også løses, hvis man har information før og efter programmet introduceres for både treatmentgruppen og kontrolgruppen. Dette tilfælde kaldes panel data (det kommer der mere om i økonometri )! Definition af heteroskedasticitet! Konsekvenser af heteroskedasticitet (kap. 8.1)! Forsætter på torsdag med heteroskedasticitet Økonometri 1: Dummy variable 19 Økonometri 1: Dummy variable 0 5
Heteroskedasticitet (fortsat) Heteroskedasticitet (fortsat)! I kapitel 3 er antagelsen om homoskedasticitet introduceret:! Denne antagelse kan være meget restriktiv og derfor introduceres nu heteroskedasticitet! Definition:! Lineære multipel regressionsmodel y = β0 + β1x1+ βx + + βkxk + u! Under antagelserne MLR 1- MLR 4 er OLS middelret! Den 5. antagelse i Gauss Markov antagelserne er antagelsen om homoskedasticitet Vu ( x,, x) = σ 1 k! Hvis antagelsen MLR 5 ikke er opfyldt, kaldes fejlledene for heteroskedastiske! Konsekvenser af heteroskedasticitet " OLS stadig middelret " OLS stadig konsistent " R ikke påvirket af heteroskedasticitet Økonometri 1: Dummy variable 1 Økonometri 1: Dummy variable Heteroskedasticitet (fortsat)! Konsekvenser af heteroskedasticitet (fortsat) " Variansen af OLS estimaterne er ikke middelret " Konfidensinterval er ikke længere rigtigt konstrueret " T og F-test er ikke nødvendigvis t og F-fordelt (og derfor er disse test ikke pålidelige) " LM test er ikke nødvendigvis CHI-fordelt " OLS er ikke længere den bedste lineære middelrette estimator (BLUE) " Der findes en anden lineær middelret estimator med mindre varians " OLS er ikke længere asymptotisk efficient Økonometri 1: Dummy variable 3 6