Motivatio Scatter-plot at det mådelige salg mod det måedlige reklamebudget. R: plot(salg ~ budget, data = salg) Økoometri Lektio Simpel Lieær Regressio salg 400 450 500 550 20 25 30 35 40 45 50 budget Er der e sammehæg mellem reklamebudgettet og salget? / 33 2 / 33 Simpel Lieær Regressio Mål: Forklare variable y vha. variable x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi atager at sammehæge mellem y og x er beskrevet ved y = β 0 + β x + u. E tegig β 0 : Skærigspuktet β : Hældigs koefficiete y (Salg) y i u i (x i, y i ) y : Afhægige variabel x : Forklarede/uafhægige variabel u : Fejlleddet Fejlleddet u forklarer de del af variatioe i y, som ikke ka forklares af x. x i β 0 + β x i x (Budget) Det hedder simpel lieær regressio, fordi β 0 og β idgår liiært (dvs. som sig selv gage e kostat) og fordi vi ku har é forklarede variabel, emlig x. 3 / 33 4 / 33
Fejlleddet: Atagelser Middelværdi-uafhægighed For at komme videre, skal vi ataget lidt mere of fejlleddet u. Vi atager at fejlleddet har middelværdi ul uaset værdie af x: E[u x] = 0 Vi siger at u er middelværdi-uafhægig af x. Hådvifte-fortolkig: Fejlleddet har i geemsit ige betydig det er lige meget over som uder. Hvis x og u er uafhægige, og E[u] = 0 opår vi det samme. Uafhægighed er e stærkere atagelse ed middelværdi-uafhægighed. Middelværdi-uafhægighed, E[u x] = 0 medfører følgede E[y x] = E[β 0 + β x + u x] = β 0 + β x Dvs., givet x, så er de forvetede værdi af y lig β 0 + β x. Fortolkig: Regressioslije agiver hvorda de forvetede værdi af Y afhæger af x. Ex: Hvis Budget = 500, så siger vores atagelser, at vi i geemsit vil observere et salg på β 0 + β 500. 5 / 33 6 / 33 Fortolkig af β 0 og β Idledede kæbøjiger Vores model er: y = β 0 + β x + u Fortolkig af β 0 : β 0 er de forvetede værdi af y år x = 0. Har i mage tilfælde ikke de store iteresse. Fortolkig af β : De forvetede værdi af y ædres med β, år x vokser med ehed. Med adre ord: Hvorda y forklares af x er beskrevet geem β 0 og β... som vi ikke keder... Atag vi har par af observatioer: (x, y ), (x 2, y 2 ),..., (x, y ). Vi vil fide estimater af β 0 og β. Vores estimatio tager udgagspukt i to middelværdier: Atag x og y er stokastiske variable. Kovariase mellem x og u er da Cov[x, u] = E[(x E[x])(u E[u])] = E[xu E[x]u] = E[xu] E[x]E[u] = E[xu] = E[E[ux x]] = 0 Vi har altså E[u] = 0 og E[xu] = 0. 7 / 33 8 / 33
Armstræk Vores model siger y = β 0 + β x + u, hvilket vi ka omskrive til Dvs. E[u] = 0 ka omskrives til og E[xu] = 0 ka omskrives til u = y β 0 β x. E[y β 0 β x] = 0 E[x(y β 0 β x)] = 0 Tæker vi på x og y som kedte stokastiake variable, så har vi to ligiger med to ubekedte (β 0 og β ). Vi skal altså bare fide β 0 og β, der løser oveståede ligiger. Dee fremgagsmåde kaldes method of momets. Problem: Vi keder itet til E[x]... 9 / 33 Løselige ligiger Ide: Erstat de forvetede værdier med stikprøve-geemsit: De teoretiske ligige E[y β 0 β x] = 0 erstatter vi med stikprøve-versioe (y i ˆβ 0 ˆβ x i ) = 0 () og E[x(y β 0 β x)] = 0 erstatter vi med x i (y i ˆβ 0 ˆβ x i ) = 0 (2) Vi lader løsigere, ˆβ 0 og ˆβ, til oveståede ligiger være vores estimater af β 0 og β. Løsigsstrategi: Isolér ˆβ 0 i () og idsæt i (2). 0 / 33 Isolér ˆβ 0 Idsæt ˆβ 0 i (2) Vi starter med ligige (): (y i ˆβ 0 ˆβ x i ) = 0 Som vi ka skrive lidt om på y i = ( ˆβ 0 + ˆβ x i ) ȳ = ˆβ 0 + ˆβ x ˆβ 0 = ȳ ˆβ x. Dvs. år vi keder ˆβ (estimatet af hældige), så keder vi ˆβ 0. Vi idsætter ˆβ 0 = ȳ ˆβ x i (2): x i (y i ˆβ 0 ˆβ x i ) = 0 x i (y i (ȳ ˆβ x) ˆβ x i ) = 0 x i (y i ȳ) = ˆβ ˆβ = x i (x i x) (x i x)(y i ȳ) (x i x) 2, hvor sidste ligig forudsætter at (x i x) 2 > 0. / 33 2 / 33
OLS Estimatere Vores model er hvor β 0 og β estimeres ved og ˆβ = y = β 0 + β x + u, ˆβ 0 = ȳ ˆβ x (x i x)(y i ȳ) (x i x) 2. Disse to estimatorer kaldes OLS (Ordiary Least Squares) Estimatore. Estimerede regressios-lije Regressios-lije er estimeret ved ŷ = ˆβ 0 + ˆβ x. Prædikteret værdi: ŷ i = ˆβ 0 + ˆβ x i de prædikterede værdi for y i. Residual û i = y i ŷ i = y i ˆβ 0 ˆβ x i. Estimat af fejlleddet u i. y (Salg) y i û i ŷ i x i ˆβ 0 + ˆβ x x (Budget) Lije ˆβ 0 + ˆβ x går altid igeem puktet ( x, ȳ)! 3 / 33 4 / 33 Egeskaber for residualere Summe af residualere er ul: û i = 0 Stikprøve-kovariase mellem û og x er ul: (û i 0)(x i x) = û i x i = 0 Sums of Squares (Et lille sidesprig) De totale variatio i y i ere er beskrevet ved Total Sum of Squares (SST): SST = (y i ȳ) 2 y (Salg) y i ȳ y i ȳ û i x i ŷ i ȳ ˆβ 0 + ˆβ x x (Budget) De totale afvigelse y i ȳ ka opdeles i e forklaret del, ŷ i ȳ og e uforklaret del y i ŷ i. 5 / 33 6 / 33
Opsplitig af SST Determiatios Koefficiete De totale variatio, SST ka splittes op i to: SST = SSE + SSR. Hvor SSE er Explaied Sum of Squares (de forklarede variatio): SSE = (ŷ i ȳ) 2 Hvor SSR er Residual Sum of Squares (de uforklarede variatio): SSR = (y i ŷ i ) 2 = û 2 i De totale variatio SST ka opdeles i e uforklaret del SSR og e forklaret det SSE. Adele af de totale variatio, der er forklaret kaldes determiatios koefficiete R 2 = SSE SST = SSR SST. Hvis R 2 = 0.7 betyder det at modelle ka forklare 70% af variatioe i y i ere. De sidste 30% er tilfældig, uforklaret variatio. 7 / 33 8 / 33 Bevis for SST = SSE + SSR Eksempel: Salg og Reklame (y i ȳ) 2 = [(y i ŷ i ) + (ŷ i ȳ)] 2 = = [û i + (ŷ i ȳ)] 2 ûi 2 + 2 = SSR + 2 û i (ŷ i ȳ) + (ŷ i ȳ) 2 û i (ŷ i ȳ) + SSE. Færdig, da ûi(ŷ i ȳ) = 0, idet ûi = 0 og ûix i = 0. Aalyse af sammehæg mellem salg og reklamebudget vha. simpel lieær regressio. Start R og idlæs data vha. reklame = read.table("salg.dat",header=true) Kommadoe ames(reklame) giver [] "budget" "salg" Dvs. reklame ideholder to variable budget og salg. Vi ka se fx. budget variable vha. reklame$budget [] 40 20 25 20 30 50 40 20 50 40 25 50 9 / 33 20 / 33
Eksempel fortsat Eksempel fortsat Oversæt fra matematik til R De matematiske formulerig af SLR er y = β 0 + β x + u De tilsvarede sammehæg formuleres i R som y ~ x Parametree β 0 og β er uderforståede. Vi ka plotte sammehæge mellem salg mod budget vha. Vi ka u opstille og aalysere vores (simple) lieære regressios model vha. model = lm(salg ~ budget, data = reklame) Vi har u skabt e model ved av model (hvor orgialt!). Kommadoe lm betyder liear model. Vi ka opsummerer model og de tilhørede aalyse vha. summary(model) som giver... plot(salg ~ budget, data = reklame) 2 / 33 22 / 33 Resultat Cetralitet summary(model) giver Call: lm(formula = salg ~ budget, data = reklame) Residuals: Mi Q Media 3Q Max -87.538-32.700 8.566 39.8 55.774 Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) 343.706 44.766 7.678.68e-05 *** budget 3.22.240 2.598 0.0266 * --- Sigif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. Residual stadard error: 50.23 o 0 degrees of freedom Multiple R-squared: 0.403, Adjusted R-squared: 0.3433 F-statistic: 6.75 o ad 0 DF, p-value: 0.02657 Estimater af β ere fider vi i Estimate søjle. Dvs. ˆβ 0 = 343.706 og ˆβ = 3.22. Desude har vi R 2 = 0.403. Vi har estimater ˆβ 0 og ˆβ, me hvilke egeskaber har de? Hvis vi tæker på y i ere som tilfældige er estimatorere ˆβ 0 og ˆβ det også. Vi vil gere have, at vores estimatore er cetrale (ubiased), dvs. E[ ˆβ 0 ] = β 0 og E[ ˆβ ] = β, dvs. vi i geemsit får det rigtige svar. For at vi ka vise cetralitet, skal vi gøre os ogle atagelser. Fortolkig? 23 / 33 24 / 33
Atagelser Atagelse SLR. (Lieære parametre) I populatios-modelle er sammehæge mellem y, x og u givet ved y = β 0 + β x + u. Atagelse SLR.2 (Tilfældig stikprøve) Vi har e tilfældig stikprøve af størrelse, (x, y ), (x 2, y 2 ),..., (x, y ) fra populatios-modelle i SLR.. Atagelse SLR.3 (Variatio i x i ere) Alle x i ere må ikke have samme værdi. Cetrale estimatorer Sætig Uder atagelse SLR. til SLR.4 gælder E[ ˆβ 0 ] = β 0 og E[ ˆβ ] = β, dvs. ˆβ 0 og ˆβ er cetrale estimatorer. Atagelse SLR.4 (Betige ul-middelværdi) Fejlleddet u har forvetet værdi ul uaset værdie af x, mao. E[u x] = 0 25 / 33 26 / 33 Bevis for cetralitet af ˆβ Vi starter at skrive lidt om på ˆβ : ˆβ = (x i x)y i (x i x) 2 = (x i x)(β 0 + β x i + u i ) (3) Tællere ka omskrives til: (x i x)β 0 + (x i x)β x i + β 0 (x i x) + β (x i x)x i + Sætter vi dette tilbage i (3) får vi ˆβ = β + = = 0 + β + 27 / 33 Bevis for cetralitet af ˆβ (fortsat) Vi tager udgagspukt i De forvetede værdi er [ ˆβ = β + E[ ˆβ ] = E β + ] = E[β ] + E[ ] = β + (x i x)e[u i ] = β, hvor vi har brugt at E[u i ] = 0. 28 / 33
Variase af Estimatorere Estimatoere ˆβ 0 ad ˆβ er altså rigtige i geemsit, me hvad med variase? Vi atager at fejlleddee har kostat varias: Atagelse SLR.5 (Homoskedastisk) Fejlledet u har samme varias uaset værdie af de forklarede variabel, x, mao. Var[u x] = σ 2. E kosekves af SLR.4 (E[u x] = 0) og SLR.5 er at E[y x] = β 0 + β x og Var[y x] = σ 2. Gekald jer, at ˆβ = β + Vi ka u udrege variase for ˆβ : [ ] Var[ ˆβ ] = Var β + ( ) [ 2 ] = Var ( ) 2 = (x i x) 2 Var[u i ] = σ2 29 / 33 30 / 33 Estimatio af Fejlledsvariase σ 2 Var[ ˆβ 0 ] udreges på tilsvarede vis. Vi har altså Var[ ˆβ ] = σ2 og Var[ ˆβ 0 ] = σ2 x i 2 Bemærk, hvorda variase for ˆβ falder år vokser hvorfor er det ikke overraskede? E cetral estimator for σ 2 er ˆσ 2 = 2 ûi 2 = SSR/( 2). Nævere, 2, svarer til atallet af frihedsgrader. Vi har altså mistet to frihedsgradere pga. følgede begræsiger: û i = 0 og x i û i = 0. Tommelfigerregel: ˆσ 2 afhæger af de to estimater ˆβ 0 og ˆβ, så derfor mister vi to frihedsgrader. 3 / 33 32 / 33
ˆσ 2 i R summary(model) giver Call: lm(formula = salg ~ budget, data = reklame) Residuals: Mi Q Media 3Q Max -87.538-32.700 8.566 39.8 55.774 Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) 343.706 44.766 7.678.68e-05 *** budget 3.22.240 2.598 0.0266 * --- Sigif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. Residual stadard error: 50.23 o 0 degrees of freedom Multiple R-squared: 0.403, Adjusted R-squared: 0.3433 F-statistic: 6.75 o ad 0 DF, p-value: 0.02657 Estimatet af σ 2 er Residual stadard error i ade, dvs. ˆσ 2 = 50.23 2 = 2523.05. Ikke-liiær sammehæg Nogle gage er e liiær sammehæg ikke de mest passede. Atag at vi har hvor u er et fejlled. y = β 0 β x u, Ser vi bort fra u-ledet, så er y ekopoetielt voksede som e fuktio af x. Tager vi u de aturlige logaritme på begge sider af lighedsteget får vi l(y) = l(β 0 ) + l(β )x + l(u) = β 0 + β x + ũ Vi ka u udføre simpel liære regressio af l(y) mod x, bl.a. uder atagelse af at E[ũ x] = 0. 33 / 33 34 / 33 Fortolkig Vi har de estimerede ligig l(y) = ˆβ 0 + ˆβ x. Hvor meget ædrer y sig år x ædrer sig? l(y efter ) l(y før ) = ˆβ (x efter x før ). Bemærk at l(y) y år y, så vi omskriver: ( ) yefter l y efter ˆβ x y før y før y efter ( + ˆβ x)y før. Dvs. år x øges med x, så øges ŷ med cirka ( ˆβ x)00%. 35 / 33