Kvantitative metoder 2

Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007 KM2: F22 1

Program Specifikation og dataproblemer, fortsat (Wooldridge kap. 9): Betydning af målefejl Dataudvælgelse: Manglende observationer Endogen og eksogen dataudvælgelse Ekstreme og indflydelsesrige observationer Multiple choice: 4 spørgsmål (20 min.). KM2: F22 2

Målefejl Der må ofte antages at være målefejl i økonomiske data Mange grunde til at målefejl opstår: Spørgeskemaundersøgelser retrospektiv information Den præcise information, der svarer til det teoretiske begreb, findes ikke Tastefejl To hovedtilfælde: Målefejl i afhængig variabel Målefejl i en eller flere forklarende variabler KM2: F22 3

Målefejl i den afhængige variabel Antag følgende model y = β + β x + β x + + β x + u * 0 1 1 2 2 k k Modellen opfylder MLR.1-MLR.4 Desværre observerer man ikke y*. I stedet observeres y e 0 y = y* + e hvor kan opfattes som en målefejl For at kunne estimere modellen skal y* erstattes med y: y e = β + β x + β x + + β x + u 0 0 1 1 2 2 y = β0 + β1x1 + β2x2 + + βkxk + u+ e 0 0 k k KM2: F22 4

Målefejl i den afhængige variabel u+ e 0 Fejlleddet i den nye model: Hvornår giver OLS middelrette og konsistente estimater af β0, β1, β2,, βk? Under antagelserne Middelværdien af målefejlene er 0 Målefejlene er uafhængige af de forklarende variable vil den nye model med y opfylde MLR.1-MLR.4, og derfor er OLS middelret og konsistent. Hvis målefejlene ikke har middelværdi 0, men stadig er uafhængige af de forklarende variabler, vil OLS blot give et skævt estimat af β 0 KM2: F22 5

Målefejl i den afhængige variabel Variansen i det nye fejlled: Normalt antager man, at variansen af målefejlen er konstant. Så er antagelsen MLR.5 også opfyldt for den nye model. Hvis ikke giver det anledning til heteroskedasticitet Hvis målefejlene og u er ukorrelerede, er variansen Vu ( + e) = σ u + σ > σu 2 2 2 0 0 Variansen er større med målefejl -> større varians af parameterestimaterne. KM2: F22 6

Målefejl i den afhængige variabel Multiplikative målefejl y = y* a0 Målefejl som er proportionale med den afhængige variabel Hvis den afhængige variabel transformeres med log fås log( y) = log( y*) + log( a ) = log( y*) + e 0 0 KM2: F22 7

Målefejl i de forklarende variabler Antag følgende model: y = β + β x + u * 0 1 1 x* er uobserverbar. I stedet observeres x, som er givet ved x = x * + e 1 1 1 Antagelserne om målefejl: ( i) E( e ) = 0 1 ( ii) Cov( e, x ) = 0 1 1 x kan opfattes som en proxy for x* OLS er middelret og konsistent KM2: F22 8

Målefejl i de forklarende variabler At målefejlen er ukorreleret med det observerede x, er ofte en urealistisk antagelse Klassiske målefejl: Målefejlen er ukorreleret med den sande værdi af variablen. Antagelser: () i E( e1 ) = 0 ( ii) Cov( e, x *) = 0 1 1 Disse antagelser er ofte mere naturlige. Desværre giver de anledning til alvorlige problemer. KM2: F22 9

Målefejl i de forklarende variabler Egenskaber ved OLS estimatoren OLS ikke konsistent Tavlegennemgang I kapitel 15 ser vi på, hvordan man kan få konsistente estimater når der er målefejl KM2: F22 10

Data problemer Indtil videre har vi antaget, at MLR.2 altid er opfyldt Vi har antaget, at data stammer fra en tilfældig stikprøve Der er mange grunde til, at denne antagelse ikke er opfyldt i praksis: Manglende observationer: Tilfældigt eller ej? Ikke-tilfældig dataudvælgelse: Exogent eller endogent. KM2: F22 11

Manglende observationer Er manglende observationer for en eller flere variabler et problem? Manglende observationer vil reducere antallet af brugbare observationer i analysen Det afgørende for, om manglende observationer giver alvorlige problemer, er hvorfor observationerne mangler Hvis observationerne mangler tilfældigt, er det et mindre problem -> mindre præcise estimater KM2: F22 12

Ikke-tilfældig dataudvælgelse Der er forskellige måder hvorpå stikprøven kan være ikke-tilfældig (dvs. antagelse MLR.2 ikke er opfyldt): Eksogen dataudvælgelse Endogen dataudvælgelse Stratificeret dataudvælgelse Det er ikke alle typer af ikke-tilfældig dataudvælgelse, som giver anledning til skæve eller inkonsistente OLS estimater KM2: F22 13

Ikke-tilfældig dataudvælgelse Eksogen dataudvælgelse: Dataudvælgelse baseret på værdien af en af de forklarende variabler Denne type af dataudvælgelse vil (under forudsætninger af nok variation i de forklarende variabler) stadig give middelrette og konsistente OLS etimater Generelt: Dataudvælgelse baseret på variabler, som er uafhængige af fejlleddet giver stadig, at OLS estimaterne er middelrette og konsistente KM2: F22 14

Ikke-tilfældig dataudvælgelse Endogen dataudvælgelse: Dataudvælgelse baseret på den afhængige variabel (eller variabler, der er korrelerede dermed) Eksempler Formue i model for investeringsstrategier blandt aktieinvestorer (kun baseret på folk med formue under 0,5 mill. kr.) Lønrelationen (kun baseret på folk som arbejder) OLS estimator er ikke middelret og ikke konsistent KM2: F22 15

Ikke-tilfældig dataudvælgelse Stratificeret dataudvælgelse: Populationen er delt i grupper (disjunkte grupper som udgør hele populationen) Nogle grupper er udvalgt mere hyppigt end andre, sammenlignet med deres andel af populationen OLS er middelret og konsistent, hvis gruppeopdelingen er baseret på eksogene variabler KM2: F22 16

Ekstreme observationer Ekstreme observationer er observationer, som har stor betydning på værdien af OLS estimaterne En ekstrem observation kan få stor betydning på OLS estimaterne, da OLS bestemmes ved at minimere de kvadrerede residualer Hvorfor er der ekstreme observationer: Fejl i data: Kommafejl (tal i 1000 er i stedet for millioner) Enkelte enheder i populationen er meget forskellige fra resten: AP Møller Mærsk i en tilfældig stikprøve af danske virksomheder. KM2: F22 17

Ekstreme observationer Hvad gør man ved ekstreme observationer: Hvis man er sikker på, at de skyldes fejl i data: Ekstreme observationer udelades Hvis det ikke er en oplagt fejl, er der ingen nemme løsninger: Estimér modellen med og uden de ekstreme observationer og sammenlign resultaterne: Robusthedsanalyse Der findes estimatorer, som i sig selv er mere robuste overfor ekstreme observationer end OLS KM2: F22 18

NB er Målefejl i den afhængige variabel giver oftest anledning til mindre præcis estimation, men berører sædvanligvis ikke konsistensen af OLS estimation. Klassiske målefejl: Mest rimelige antagelse i mange tilfælde. Desværre giver dette tilfælde anledning til alvorlige problemer (inkonsistente OLS estimater). Dataudvælgelse der er baseret på information, der er relateret til den afhængige variabel, giver ofte anledning til bias. KM2: F22 19

Næste gang Næste forelæsning er mandag den 7. maj Nyt emne: Gentagne tværsnit og paneldata: Kapitel 13 i Wooldridge. KM2: F22 20