Økonometri B i R. Sebastian Barfort.

Transkript

1 Økonometri B i R Sebastian Barfort [email protected] Hvis man gerne vil igang med R, men har svært ved den stejle læringskurve, kan nedenstående måske fungere som en slags guide. For at have et konkret dataset at forholde os til vil vi arbejde med data fra sommer eksamensopgaven i Økonometri B. Bemærk, at denne guide ikke anbefaler at skifte SAS ud med R, men blot er ment som en illustration af, at R kan mange af de samme ting som Stata og SAS. At R så er platform uafhængigt og gratis kan man så alt efter behov vurdere værdien af. Dette dokument er skrevet i R og kan frit downloades her. Bemærk, at jeg ikke har sammenholdt resultaterne i dette dokument med rettevejledningen, og det er muligt, at enkelte fejl har sneget sig ind. Kontakt mig endelig i tilfælde af fejl, eller endnu bedre, ret selv i filen på Github. 1 Data Vi vil arbejde med det data der ligger i en.zip fil på instituttes hjemmeside. Den første opgave må således være at downloade data til vores computer. Det følgende stykke kode downloader.zip filen i en til lejligheden oprettet mappe på skrivebordet, unzipper, og loader den som et dataset i R..exdir <- "~/Desktop/tmp" dir.create(.exdir).file <- file.path(.exdir, "groupdata7.zip") # download file url <- " download.file(url,.file) # unzip it unzip(.file, exdir = path.expand(.exdir)) # load groupdata0.sas7bdat examdata <- read.sas7bdat("/users/sebastianbarfort/desktop/tmp/groupdata0.sas7bdat") Data er en redigeret version af data brugt i Bloom et al. (2012), Americans Do IT Better. Vi kan se navnene på de 24 variable i data således names(examdata) [1] "COMPANY_CODE" "MONITORING" "OPERATIONS" "PEEPS" "SIC" [6] "YEAR" "LDGR" "DFRA" "DGER" "DITA" [11] "DSWE" "DY0" "DY1" "DY2" "DY3" [16] "DY4" "DY5" "Q" "C" "L" [21] "K" "CL" "DUSO" "DOFO" 1

2 og få et hurtigt overblik over variablene med summary(examdata) COMPANY_CODE MONITORING OPERATIONS PEEPS SIC Min. : 1 Min. : Min. : Min. : Min. :201 1st Qu.: 420 1st Qu.: st Qu.: st Qu.: st Qu.:267 Median : 718 Median : Median : Median : Median :326 Mean : 809 Mean : Mean : Mean : Mean :311 3rd Qu.:1083 3rd Qu.: rd Qu.: rd Qu.: rd Qu.:356 Max. :1822 Max. : Max. : Max. : Max. :671 YEAR LDGR DFRA DGER DITA Min. :2000 Min. :-2.7 Min. :0.000 Min. : Min. : st Qu.:2001 1st Qu.: 1.6 1st Qu.: st Qu.: st Qu.:0.000 Median :2003 Median : 2.4 Median :0.000 Median : Median :0.000 Mean :2003 Mean : 2.3 Mean :0.185 Mean : Mean : rd Qu.:2004 3rd Qu.: 3.1 3rd Qu.: rd Qu.: rd Qu.:0.000 Max. :2005 Max. : 4.6 Max. :1.000 Max. : Max. :1.000 NA's :447 DSWE DY0 DY1 DY2 DY3 Min. :0.000 Min. :0.000 Min. :0.000 Min. :0.000 Min. : st Qu.: st Qu.: st Qu.: st Qu.: st Qu.:0.000 Median :0.000 Median :0.000 Median :0.000 Median :0.000 Median :0.000 Mean :0.181 Mean :0.132 Mean :0.147 Mean :0.159 Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.: rd Qu.:0.000 Max. :1.000 Max. :1.000 Max. :1.000 Max. :1.000 Max. :1.000 DY4 DY5 Q C L Min. :0.000 Min. :0.00 Min. : 3.5 Min. : Min. :0.00 1st Qu.: st Qu.:0.00 1st Qu.:10.3 1st Qu.: st Qu.:5.12 Median :0.000 Median :0.00 Median :10.9 Median : Median :5.61 Mean :0.198 Mean :0.18 Mean :11.0 Mean : Mean :5.75 3rd Qu.: rd Qu.:0.00 3rd Qu.:11.7 3rd Qu.: rd Qu.:6.27 Max. :1.000 Max. :1.00 Max. :15.8 Max. : Max. :9.39 K CL DUSO DOFO Min. : Min. : Min. : Min. :0.00 1st Qu.: st Qu.: st Qu.: st Qu.:0.00 Median : Median : Median : Median :0.00 Mean : Mean : Mean : Mean :0.27 3rd Qu.: rd Qu.: rd Qu.: rd Qu.:1.00 Max. : Max. : Max. : Max. :1.00 2

3 I de første opgaver i eksamensopgaven bliver vi bedt om at fokusere på de 409 observationer for året Vi kan subsette vores data i R med følgende kommando examdata2005 <- subset(examdata, YEAR == 2005) Variablene kan gruperes forskelligt, og vi kan lave deskriptive tabeller på et par forskellige grupper således prod <- c("q", "C", "L", "K", "CL") own <- c("duso", "DOFO") c.op <- c("dfra", "DGER", "DITA", "DSWE") # subsetting examdata2005 examdata <- examdata2005[prod] examdata <- examdata2005[own] examdata <- examdata2005[c.op] tabellerne ser således ud Table 1: Statistic N Mean St. Dev. Min Max Q C L K CL Table 2: Statistic N Mean St. Dev. Min Max DUSO DOFO Table 3: Statistic N Mean St. Dev. Min Max DFRA DGER DITA DSWE

4 Vi kan også lave et par figurer over sammenhængeng mellem IT og produktion baseret på virksomhedens ejerskab. examdata2005$duso <- as.factor(examdata2005$duso) examdata2005$duso <- revalue(examdata2005$duso, c(`0` = "non-us ownership", `1` = "US ownership")) examdata2005$dofo <- as.factor(examdata2005$dofo) examdata2005$dofo <- revalue(examdata2005$dofo, c(`0` = "non-foreign ownership", `1` = "foreign ownershi figurerne ser således ud IT and Production non US ownership US ownership IT and Production non foreign ownership foreign ownership Production 12 Production IT IT I eksamensopgaven bliver man bedt om at lave to OLS og en enkelt first difference regression. Vi kan foretage de to OLS er med følgende kommando lm.1 <- lm(q ~ C + L + K + DUSO + DUSO * CL + DOFO + DOFO * CL + DY1 + DY2 + DY3 + DY4 + DY5 + DFRA + DGER + DITA + DSWE, data = examdata) lm.2 <- lm(q ~ C + L + K + DUSO + DUSO * CL + DOFO + DOFO * CL + DY1 + DY2 + DY3 + DY4 + DY5 + DFRA + DGER + DITA + DSWE + PEEPS + PEEPS * CL, data = examdata) Vi kan udføre en Breusch-Pagan test for heteroskedasticitet på de to OLS er med følgende kommando bptest(lm.1) studentized Breusch-Pagan test data: lm.1 BP = 84.78, df = 17, p-value = 5.356e-11 bptest(lm.2) studentized Breusch-Pagan test data: lm.2 BP = 96.11, df = 19, p-value = 2.69e-12 Bemærk, at nul hypotesen om homoskedasticitet afvises på alle fornuftige signifikansniveauer for begge modeller. 4

5 Vi kan også teste en lineær hypotese, eksempelvis at β 1 = β 2 som linearhypothesis(lm.1, "C = L") Linear hypothesis test Hypothesis: C - L = 0 Model 1: restricted model Model 2: Q ~ C + L + K + DUSO + DUSO * CL + DOFO + DOFO * CL + DY1 + DY2 + DY3 + DY4 + DY5 + DFRA + DGER + DITA + DSWE Res.Df RSS Df Sum of Sq F Pr(>F) Vi kan tilføje White heteroskedasticitets robuste standard fejl på følgende måde lm.1$se <- vcovhc(lm.1) lm.2$se <- vcovhc(lm.2) og lave tabeller af de to regressioner uden 5

6 Table 4: Model 1 Model 2 C ( ) ( ) L ( ) ( ) K (0.01) (0.01) DUSO CL ( ) ( ) DOFO (0.02) (0.02) DY DY DY DY DY DFRA DGER DITA DSWE DUSO:CL (0.07) (0.07) CL:DOFO PEEPS 0.05 CL:PEEPS (0.01) 0.10 (0.02) N R adj. R Resid. sd Standard errors in parentheses significant at p <.10; p <.05; p <.01; p <.001 6

7 og med korrigerende standard fejl Table 5: Model 1 Model 2 C ( ) ( ) L ( ) ( ) K (0.01) (0.01) DUSO CL ( ) ( ) DOFO (0.02) (0.02) DY DY DY DY DY DFRA DGER (0.05) (0.05) DITA DSWE DUSO:CL (0.06) (0.05) CL:DOFO PEEPS 0.05 CL:PEEPS (0.01) 0.10 (0.02) N R adj. R Resid. sd Robust standard errors in parentheses significant at p <.10; p <.05; p <.01; p <.001 7

8 I en af de sidste opgaver bliver vi bedt om at konstruere et balanceret panel med virksomheder, der både indgår i data i 2000 og Det kan vi gøre med følgende kommandoer examdata2000 <- subset(examdata, YEAR == 2000) # extract company code ccode <- examdata2000$company_code examdata2005 <- subset(examdata2005, COMPANY_CODE %in% ccode) ccode2005 <- examdata2005$company_code examdata2000 <- subset(examdata2000, COMPANY_CODE %in% ccode2005) merge.examdata <- smartbind(examdata2000, examdata2005) Vi kan estimere en first difference model på vores panel fd.lm.2 <- plm(q ~ C + L + K + DUSO + DUSO * CL + DOFO + DOFO * CL + DFRA + DGER + DITA + DSWE + PEEPS + PEEPS * CL, index = c("company_code", "YEAR"), data = merge.examdata, model = "fd") series DY1, xdy2, xdy3, xdy4 are constants and have been removed 8

9 og lave en flot tabel Table 6: Dependent variable: Q panel linear C 122, (119, ) L 122, (119, ) K (0.046) CL 122, (119, ) DUSO:CL (0.084) CL:DOFO (0.078) CL:PEEPS (0.056) Constant (0.025) Observations 187 R Adjusted R F statistic (d f = 7; 179) Note: p < 0.1; p < 0.05; p <