Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Transkript

1 Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35

2 Veksekvirkning: Motivation Vi har set på modeller som Price = β 0 + β 1 Sqft + β 2 Bedrooms + u Vi har fundet at β Fortolkning: Hvert ekstra rum sænker prisen med det samme uanset om det er første rum eller syvende rum. Undren: Effekten af et ekstra rum er den samme uanset størrelsen på huset. Er det rimligt? Løsning?:Det virker rimligt, at effekten af et ekstra rum afhænger af husets størrelse. Vi mangler en vekselvirkning/interaktion mellem Sqft og Bedrooms. 2 / 35

3 Veksekvirkning: Eksempel Oprindelige model: Price = β 0 + β 1 Sqft + β 2 Bedrooms + u Hvis vi ændrer Bedroom med Bedrooms (og holder andre fast), så ændres Price med: Price = β 2 Bedrooms Modificeret model med interaktion: Price = β 0 + β 1 Sqft + β 2 Bedrooms + β 3 Sqft Bedrooms + u Hvis vi ændrer Bedroom med Bedrooms (og holder andre fast), så ændres Price med: Price = (β 2 + β 3 Sqft) Bedrooms 3 / 35

4 Vekselvirkning I R Modellen uden interaktion skrives defineres som model = lm(price ~ SQFT + BEDROOMS, data = homes) Modellen med interaktion skrives defineres som model = lm(price ~ SQFT + BEDROOMS + SQFT:BEDROOMS, data = homes) Det ekstra led SQFT:BEDROOMS er interaktionsleddet. For os dovne kan gøres endnu simplere: model = lm(price ~ SQFT*BEDROOMS, data = homes) En model på formen A+B+A:B er præcis den samme som en på formen A*B. 4 / 35

5 Resultater Model: Price = β 0 + β 1 Sqft + β 2 Bedrooms + β 3 Sqft Bedrooms + u Udrag af summary(model): Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) SQFT e-12 *** BEDROOMS SQFT:BEDROOMS Estimerede model: Price = Sqft Bedrooms Sqft Bedrooms 5 / 35

6 Fortolkning af interaktion Estimerede model: Price = Sqft Bedrooms Sqft Bedrooms = Sqft + ( Sqft) Bedrooms Dvs. prisen for et ekstra værelse, dvs. Bedroom = 1, er Price = Sqft 6 / 35

7 Andre modifikationer Logaritme-transformerede variable Price = β 0 + β 1 log(sqft) + u I R: lm(price ~ log(sqft),data=homes) I R: log(price) = β 0 + β 1 log(sqft) + u lm(log(price) ~ log(sqft), data=homes) Polynomier I R: Price = β 0 + β 1 log(sqft) + β 2 Sqft 2 + u lm(price ~ SQFT + I(SQFT^2), data=homes) Bemærk: Det er vigtigt at huske I(...)!!! PRICE ~ SQFT + SQFT^2 er det samme som PRICE ~ SQFT... 7 / 35

8 Kvalitative forklarende variable Kvalitative variable beskriver (typisk) ting man ikke kan måle. En kvalitativ variabel kaldes ofte en kategorisk variabel eller faktor. En kvalitativ variabel kan kun tage et endeligt antal værdier. Ofte er der ingen rækkefølge på værdierne. Fx. Køn, Favoritfarve, Beskæftigelse. 8 / 35

9 Eksempel: Hvordan afhænger løn af beskæftigelse? Vi har variable Wage og Sector, hvor Sector er en kvalitativ variabel, der kan tage værdierne Construction, Manufacturing og Other. Spørgsmål: Hvordan afhænger løn af sektor? Ide: Hver beskæftigelse har sit niveau: Wage = β Sector + u, Dvs. den forvetede løn for folk, der arbejder med produktion er E[Wage Sector = Manufacturing] = β Manufacturing vi har altså tre β værdier. Problem: Passer ikke så godt ind i vores generelle ramme: y = β 0 + β 1 x 1 + β 2 x β k x k + u 9 / 35

10 Simpelt eksempel: Kvalitativ variabel med to niveauer Hvordan påvirker længe af uddannelse og køn ens løn? Vi skal se på tre variable Wage: Timeløn i $ Sex: Køn, kvalitativ variabel med værdierne Female og Male Education: Længden af uddannelse målt i år Overblik: Vi starter med et plot / 35

11 Scatter plot library(car) ## Henter car pakken wage = read.table("wage3.dat",header=t) ## Henter data ind scatterplot(wage~education SEX, data=wage, smooth=f) ## Plotter 11 / 35

12 Model med dummy-variabel Vi vil gerne have en model, med struktur som Wage = Konst. + Effekt af Education + Effekt af Sex For at få Sex med introducerer vi en ny binær variabel Male: Male = 1 hvis Sex = Male Male = 0 hvis Sex = Female Male er en såkaldt dummy variabel, der indikerer værdien af Sex Model (på sædvanlig form): Wage = β 0 + β 1 Education + β 2 Male + u Dummy variable bruges generelt til at omkode kvalitative variable til en eller flere binære variable. 12 / 35

13 Fortolkning Model Wage = β 0 + β 1 Education + β 2 Male + u Fortolkning: For kvinder har vi Male = 0 og Wage = β 0 + β 1 Education For mænd har vi Male = 1 og Wage = β 0 + β 1 Education + β 2 Dvs. to rette linjer med samme hældning (β 1 ), men forskellige skæringspunkter (hhv. β 0 og β 0 + β 2 ). Da β 2 angiver hvordan mænd er forskellige fra kvinder, så kalder vi Female for reference-kategorien. 13 / 35

14 Analyse i R ## Tilføjer en variabel MALE der 1 når SEX er male og 0 ellers: wage$male = 1*(wage$SEX == "male") ## Definer model model = lm(wage ~ EDUCATION + MALE, data = wage) Uddrag af summary(model): Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) EDUCATION < 2e-16 *** MALE e-07 *** Konklusion: Begge forklarende variable er signifikante (når der er taget højde for den anden). Længden på uddannelsen har en positiv indvikrning på lønnen. Mænd tjener mere end kvinder. 14 / 35

15 Interaktion Kunne det tænkes at kønnet har inflydselse på effekten af uddannelsens længde? Model med interaktio mellem køn og års uddannelse: Wage = β 0 + β 1 Education + β 2 Male + β 3 Education Male Male er en binær dummy variabel som før. Fortolkning: For kvinder har vi Male = 0 og For mænd har vi Male = 1 og Wage = β 0 + β 1 Education Wage = β 0 + β 1 Education + β 2 + β 3 Education = (β 0 + β 2 ) + (β 1 + β 3 )Education 15 / 35

16 Resultat af interaktion Model: Wage = β 0 + β 1 Education + β 2 Male + β 3 Education Male + u Call: lm(formula = WAGE ~ EDUCATION * MALE, data = wage) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * EDUCATION e-12 *** MALE * EDUCATION:MALE Estimeret model: Ŵage = Education+4.37 Male 0.17 Education Male Konklusion: Hovedeffekterne af uddannelseslænge og køn er signifikante, men vekselvirkningen ikke er. Der er med andre ord ikke en signifikant forskel i effekten af uddannelseslængen mellem de to køn. 16 / 35

17 Smart skal det være Det er lidt trælst at skulle kode dummy variable hver gang... R kan (selvfølgelig) lave dummy variable automatisk. Først skal vi kontrollere at SEX faktisk er en kategorisk variabel: > is.factor(wage$sex) [1] TRUE Svaret TRUE betyder at SEX er en kategorisk variabel. Havde svaret være FALSE kunne vi tvinge SEX til at være en kategorisk variabel: wage$sex = as.factor(wage$sex) 17 / 35

18 Samme historie en gang til... Resultat: Analyse hvor vi har brugt SEX i stedet for MALE Call: lm(formula = WAGE ~ EDUCATION * SEX, data = wage) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * EDUCATION e-12 *** SEXmale * EDUCATION:SEXmale Når der står SEXmale, så svarer det til β for dummy-variablen MALE. SEXfemale mangler da denne kategori er reference-kategorien for SEX. Konklusion: 18 / 35

19 Mere end to kategorier Vi vil undersøge betydninge af beskæftigelse på løn. Vi har variablen Sector: Kvalitativ variabel med kategorierne Manufacturing, Production og Other Vi indfører tre dummy-variable: Manufacturing = 1, hvis Sector = Manufacturing og = 0 ellers Production = 1, hvis Sector = Production og = 0 ellers Other = 1, hvis Sector = Other og = 0 ellers Model: Wage = β 0 + β 1 Manufacturing + β 2 Production + β 3 Other + u Fortolkning: E[Wage Sector = Production] = β 0 + β 2 19 / 35

20 Overparametrisering Vores model er overparametriseret: Det giver uendelig mange lige gode OLS estimater!!! Løsning: Vælg en reference-kategori og fjern den tilsvarede dummy variabel fra modellen. Bemærk: Dette er den generelle årsag til at reference-kategorien altid mangler. Vi vælger Production som reference-kategori: Fortolkning: Wage = β 0 + β 1 Manufacturing + β 2 Other + u E[Wage Sector = Production] = β 0 E[Wage Sector = Manufaturing] = β 0 + β 1 20 / 35

21 Analyse i R Model: Wage = β 0 + β 1 Manufacturing + β 2 Other + u Vi definerer modelle: model = lm(wage~sector,data=wage) Uddrag af summary(model): Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** SECTORmanufacturing SECTORother Estimerede model: Ŵage = Manufacturing 0.35 Other Fortolkning: Hvad er effekten af SECTOR? Er den signifikant? 21 / 35

22 Test for betydning af SECTOR Model: Wage = β 0 + β 1 Manufacturing + β 2 Other + u Vi vil gerne teste hypotesen H 0 : β 1 = β 2 = 0 H 1 : β 1 0og/eller β 2 0 Dvs. Sector har ingen effekt på Wage I dette tilfælde svarer det til testet af om modellen er besværet værd. Sidst i output et fra R får vi F-statistic: on 2 and 520 DF, p-value: Konklusion: 22 / 35

23 Mere generelt Hvis vi vil teste en betydningen af en kategorisk variabel er bkvemt at bruge anova kommanoden: > anova(model) Analysis of Variance Table Response: WAGE Df Sum Sq Mean Sq F value Pr(>F) SECTOR Residuals Her har vi testet effekten af SECTOR. Konklusion præcis som før. 23 / 35

24 Et mere kompliceret eksempel Las os analysere en mere kompliceret model! Modellen i R-notation: I formel notation bliver det WAGE ~ SECTOR + EDUCATION*SEX Wage = β 0 + β 1 Manufacturing + β 2 Other + β 3 Education + β 4 Male + β 5 Education Male, hvor Manufacturing, Other og Male er binære dummy-variable. Reference kategorierne er altså Production og Female. Hvilken struktur påstår modellen? 24 / 35

25 Estimerede model Definer model: > model = lm(wage ~ SECTOR + EDUCATION*SEX, data=wage) Uddrag af summary(model): Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) SECTORmanufacturing SECTORother EDUCATION e-12 *** SEXmale * EDUCATION:SEXmale Signif. codes: 0 *** ** 0.01 * Residual standard error: 4.61 on 517 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 5 and 517 DF, p-value: < 2.2e / 35

26 Hvilke led er signifikante? > anova(model) Analysis of Variance Table Response: WAGE Df Sum Sq Mean Sq F value Pr(>F) SECTOR EDUCATION < 2.2e-16 *** SEX e-07 *** EDUCATION:SEX Residuals Signif. codes: 0 *** ** 0.01 * Konklusion: 26 / 35

27 Modelkontrol Vores konklusioner baserer sig på parameter-estimater og p-værdier. Korrektheden af p-værdien afhænger af at MLR.1 til MLR.6 er opfyldt. Specielt antagelserne om varianshomogene og normalfordelt fejlled. Vi skal med andre have styr på om vi med rimelighed kan antage at disse antagelser er opfyldt. I det følgende vil vi se på eksempler på grafisk modelkontrol. 27 / 35

28 Modelkontrol model = lm(wage ~ SECTOR + EDUCATION*SEX, data=wage) par(mfrow=c(2,2)) ## Inddeler vinduet i 2 x 2 underplot. plot(model) Fitted values Residuals Residuals vs Fitted Theoretical Quantiles Standardized residuals Normal Q Q Fitted values Standardized residuals Scale Location Leverage Standardized residuals Cook's distance 0.5 Residuals vs Leverage / 35

29 Mellemregning: Lidt linear algebra Residualerne û bliver nogle gange omtalt som de rå residualer. Vi vil nu se på de standardiserede residualer. Vore model kan formuleres vha. linear algebra som og estimatoren for β er givet ved y = Xβ + u ˆβ = (X X) 1 X y og de prædikterede værdier er givet ved hvor H = X(X X) 1 X. Bemærk: H = H og HH = H. ŷ = X ˆβ = X(X X) 1 X y = Hy, 29 / 35

30 Standardiserede residualer Da vi har Var(u) = σ 2 I kan man vise, at Var(ŷ) = σ 2 H. Dvs. Var(ŷ i ) = σ 2 h ii, hvor h ii er det i te element i H s diagonal. Dvs. et 95% konfidens interval for ŷ i er ŷ i ± 1.96σh ii y x 30 / 35

31 Standardiserede residualer Da vi har Var(u) = σ 2 I kan man vise, at Var(û) = σ 2 (I H). Konsekvens: Variansen på residualet ikke er konstant: Var(û i ) = σ 2 (1 h ii ), hvor h ii er det i te element i H s diagonal. En standardisering giver ( ) û i Var σ = 1. 1 h ii De standardiserede residualer er derfor givet ved ˆr i = û i σ 1 h ii. h ii kaldes også leverage ( vægtstang ). 31 / 35

32 Modelkontrol: Middelværdi = nul Plot af de rå residualer (û erne) mod de fittede værdier (ŷ erne). Vi har antaget at E[u x] = 0. Det svarer til E[u ŷ] = 0. û erne skal altså være nul i gennemsnit uanset ŷ. Den røde linje er en glidende gennemsnit, der ideelt set skulle være nul hele vejen Fitted values Residuals lm(wage ~ SECTOR + EDUCATION * SEX) Residuals vs Fitted / 35

33 Modelkontrol: Normalfordeling Vi har antaget at u N (0, σ 2 ) Grafisk kontrol: QQ-plot af de standardiserede residualer (ˆr i erne, da de rå residualer ikke er varianshomogene) Hvis residualerne virkelig er normalfordelte, så skal prikkerne ligge usystematisk omkring den stiplede linje Theoretical Quantiles Standardized residuals lm(wage ~ SECTOR + EDUCATION * SEX) Normal Q Q / 35

34 Modelkontrol: Konstant varians Antag z N (0, σ 2 ). Da gælder E [ z ] σ. Hvis fejlledene er normalfordelte og med konstant varians, så bør E[ ˆr i ] være konstant. Grafisk kontrol: Den røde linje viser en glidende gennemsnit af ˆr erne. Bør være konstant, hvis variansen er konstant Fitted values Standardized residuals lm(wage ~ SECTOR + EDUCATION * SEX) Scale Location / 35

35 Modelkontrol Husk: Var(u i ) = σ 2 (1 h ii ), dvs. jo større h ii, jo mindre varians. Dvs. jo større h ii jo mere indflydelsesrig er den observation potentielt. Cook s distance: Lad ŷ være de prædikterede værdier og lad ŷ (i) være de prædikterede værdier, hvis den i te observation udelades. Cook s distance for den i te observation er da forskellen mellem de prædikterede værdier: D i = ŷ ŷ (i) 2. Jo større D i jo mere påvirker den i te observation resultatet Leverage Standardized residuals lm(wage ~ SECTOR + EDUCATION * SEX) Cook's distance 0.5 Residuals vs Leverage Leverage = h ii 35 / 35