Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige variabel x: Forklarende/uafhængige variabel u: Fejlleddet Fejlleddet u forklarer den del af variationen i y, som ikke kan forklares af x.
En tegning β 0 : Skæring-punktet β 1 : Hældnings koefficienten y (Salg) y i u i (x i, y i ) β 0 + β 1 x i x i x (Budget) Det hedder simpel lineær regression, fordi β 0 og β 1 indgår liniært (dvs. som sig selv gange en konstant) og fordi vi kun har en forklarende variabel, nemlig x.
Fejlleddet For at komme videre, skal vi antaget lidt mere of fejlleddet u. Vi antager at fejlleddet har middelværdi nul uanset værdien af x: E[u x] = 0 Vi siger at u er middelværdi-uafhængig af x. Håndvifte-fortolkning: Fejlleddet har i gennemsnit ingen betydning det er lige meget over som under. Hvis x og u er uafhængige, og E[u] = 0 opnår vi det samme. Uafhængighed er en stærkere antagelse end middelværdi-uafhængighed.
Middelværdi-uafhængighed, E[u x] = 0 medfører følgende E[y x] = E[β 0 + β 1 x + u x] = β 0 + β 1 x Dvs., givet x, så er den forventede værdi af y lig β 0 + β 1 x. Ex: Hvis Budget = 1500, så siger vores antagelser, at vi i gennemsnit vil observere et udbytte på β 0 + β 1 1500.
Model-fortolkning Vores model siger: y = β 0 + β 1 x + u β 0 er den forventede værdi af y når x = 0. Har i mange tilfælde ikke den store interesse. Den forventede værdi af y ændres med β 1, når x vokser med 1 enhed. Med andre ord: Hvordan y forklares af x er beskrevet gennem β 0 og β 1... som vi ikke kender... Antag vi har n par af observationer: (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ). Vi vil finde estimater af β 0 og β 1.
Indledende knæbøjninger Vores estimation tager udgangspunkt i to middelværdier: Antag x og y er stokastiske variable. Kovariansen mellem x og u er da Cov[x, y] = E[(x E[x])(u E[u])] = E[xu E[x]u] = E[xu] E[x]E[u] = E[xu] = E[E[ux x]] = 0 Vi har altså E[u] = 0 og E[xu] = 0.
Armstræk Vores model siger y = β 0 + β 1 x + u, hvilket vi kan omskrive til u = y β 0 β 1 x. Dvs. E[u] = 0 kan omskrives til og E[xu] = 0 kan omskrives til E[y β 0 β 1 x] = 0 E[x(y β 0 β 1 x)] = 0 Tænker vi på x og y som kendte stokastiake variable, så har vi to ligninger med to ubekendte (β 0 og β 1 ). Vi skal altså bare finde β 0 og β 1, der løser ovenstående ligninger. Denne fremgangsmåde kaldes method of moments. Problem: Vi kender intet til E[x]...
Løselige ligninger Ide: Erstat de forventede værdier med stikprøve-gennemsnit: Den teoretiske ligningen E[y β 0 β 1 x] = 0 erstatter vi med stikprøve-versionen 1 n (y i ˆβ 0 ˆβ 1 x i ) = 0 (1) og E[x(y β 0 β 1 x)] = 0 erstatter vi med erstatter vi med 1 n x i (y i ˆβ 0 ˆβ 1 x i ) = 0 (2) Vi lader løsningerne, ˆβ 0 og ˆβ 1, til ovenstående ligninger være vores estimater af β 0 og β 1. Løsningsstrategi: Isolér ˆβ 0 i (1) og indsæt i (2).
Isolér ˆβ 0 Vi starter med ligninge (1): 1 n (y i ˆβ 0 ˆβ 1 x i ) = 0 Som vi kan skrive lidt om på 1 n y i = 1 n (ˆβ 0 + ˆβ 1 x i ) ȳ = ˆβ 0 + ˆβ 1 x ˆβ 0 = ȳ ˆβ 1 x. Dvs. når vi kender ˆβ 1 (estimatet af hældningen), så kender vi ˆβ 0.
Indsæt ˆβ 0 i (2) Vi indsætter ˆβ 0 = ȳ ˆβ 1 x i (2): 1 n 1 n x i (y i ˆβ 0 ˆβ 1 x i ) = 0 x i (y i (ȳ ˆβ 1 x) ˆβ 1 x i ) = 0 x i (y i ȳ) = ˆβ 1 x i (x i x) ˆβ 1 = n (x i x)(y i ȳ) n (x i x) 2, hvor sidste ligning forudsætter at n (x i x) 2 > 0.
OLS Estimaterne Vores model er y = β 0 + β 1 x + u, hvor β 0 og β 1 estimaeres ved ˆβ 0 = ȳ ˆβ 1 x og ˆβ 1 = n (x i x)(y i ȳ) n (x i x) 2. Disse to estimatorer kaldes OLS (Ordinary Least Squares) Estimatore.
Estimerede regressions-linje Regressions-linjen er estimeret ved ŷ = ˆβ 0 + β 1 x. Prædikteret værdi: ŷ i = ˆβ 0 + ˆβ 1 x i den prædikterede værdi for y i. Residual û i = y i ŷ i = y i ˆβ 0 ˆβ 1 x i. Estimat af fejlleddet u i. y (Salg) y i û i ˆβ 0 + ˆβ 1 x ŷ i Linjen ˆβ 0 + ˆβ 1 x går altid igennem punktet ( x, ȳ)! x i x (Budget)
Egenskaber for residualerne Summen af residualerne er nul: û i = 0 Stikprøve-kovariansen mellem û og x er nul: (û i 0)(x i x) = û i x i = 0
Sums of Squares (Et lille sidespring) Den totale variation i y i erne er beskrevet ved Total Sum of Squares (SST): SST = (y i ȳ) 2 y (Salg) y i y i ȳ ȳ û i ˆβ 0 + ˆβ 1 x ŷ i ȳ x i x (Budget) Den totale afvigelse y i ȳ kan opdeles i en forklaret del, ŷ i ȳ og en uforklaret del y i ŷ i.
Opsplitning af SST Den totale variation, SST kan splittes op i to: SST = SSE + SSR. Hvor SSE er Explained Sum of Squares (den forklarede variation): SSE = (ŷ i ȳ) 2 Hvor SSR er Residual Sum of Squares (den uforklarede variation): SSR = (y i ŷ i ) 2 = û 2 i
Determinations Koefficienten Den totale variation SST kan opdeles i en uforklaret del SSR og en forklaret det SSE. Andelen af den totale variation, der er forklaret kaldes determinations koefficienten R 2 = SSE SST = 1 SSR SST. Hvis R 2 = 0.7 betyder det at modellen kan forklare 70% af variationen i y i erne. De sidste 30% er tilfældig, uforklaret variation.
Bevis for SST = SSE + SSR (y i ȳ) 2 = [(y i ŷ i ) + (ŷ i ȳ)] 2 = = [û i + (ŷ i ȳ)] 2 ûi 2 + 2 = SSR + 2 û i (ŷ i ȳ) + (ŷ i ȳ) 2 û i (ŷ i ȳ) + SSE. Færdig, da n ûi(ŷ i ȳ) = 0, idet n ûi = 0 og n ûix i = 0.
Eksempel I dette eksempel skal vi se på sammenhængen mellem Salg og Reklame-budget. Start R og start derefter R-commander med library(rcmdr). I dette tilfælde importere vi data-filen salg.dat vha. Data Import data From text file... Vi starter med at lave et scatter-plot: Graphs Scatter plot... Det ser rimligt ud.
Eksempel fortsat Næste trin er at opstille vores simple lineære regressionsmodel. Dette gøres under Statistics Fit models Linear Regression... Her kan i give modellen et navn samt angive hvilken variabel, der er afhængig (Response), og hvilken der er den forklarende (Explanatory). I output vinduet læg mærke til kommandoen lm(salg budget, data=reklame). Denne kommando angiver en lineær regressionsmodel (lm), hvor salg afhænger af budget (salg budget). Kommandoen Summary(RegModel.1) får vi bl.a. ˆβ 0 = 343.706 (Intercept) ˆβ 1 = 3.221 (budget) R 2 = 0.3433
Centralitet Vi har estimater ˆβ 0 og ˆβ 1, men hvilke egenskaber har de? Hvis vi tænker på y i erne som tilfældige er estimatorerne ˆβ0 og ˆβ1 det også. Vi vil gerne have, at vores estimatore er centrale (unbiased), dvs. E[ˆβ 0 ] = β 0 og E[ˆβ 1 ], mao. vi i gennemsnit får det rigtige svar. For at vi kan vise centralitet, skal vi gøre os nogle antagelser.
Antagelser Antagelse SLR.1 (Lineære parametre) I populations-modellen er sammenhængen mellem y, x og u givet ved y = β 0 + β 1 x + u. Antagelse SLR.2 (Tilfældig stikprøve) Vi har en tilfældig stikprøve af størrelse n, (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ) fra populations-modellen i SLR.1. Antagelse SLR.3 (Variation i x i erne) Alle x i erne må ikke have samme værdi. Antagelse SLR.4 (Betingel nul-middelværdi) Fejlleddet u har forventet værdi nul uanset værdien af x, mao. E[u x] = 0
Centrale estimatorer Under antagelse SLR.1 til SLR.4 gælder E[ˆβ 0 ] = β 0 og E[ˆβ 1 ] = β 1, dvs. ˆβ0 og ˆβ1 er centrale estimatorer.
Bevis for centralitet af ˆβ 1 Vi starter at skrive lidt om på ˆβ 1 : ˆβ 1 = n (x i x)y i n (x i x) 2 = n (x i x)(β 0 + β 1 x i + u i ) SST x I tælleren kan vi gange ind i parentesen: (x i x)β 0 + (x i x)β 1 x i + β 0 (x i x) + β 1 (x i x)x i + Sætter vi tilbage får vi ˆβ 1 = β 1 + 1 SST x (x i x)u i = (x i x)u i = 0 + β 1 SST x + (x i x)u i (x i x)u i
Bevis for centralitet af ˆβ 1 (fortsat) Vi tager udgangspunkt i Den forventede værdi er [ ˆβ 1 = β 1 + 1 SST x E[ˆβ 1 ] = E β 1 + 1 SST x (x i x)u i ] (x i x)u i 1 = E[β 1 ] + E[ (x i x)u i ] SST x = β 1 + 1 (x i x)e[u i ] SST x = β 1, hvor vi har brugt at E[u i ] = 0.
Variansen af Estimatorerne Estimatoerne ˆβ 0 and ˆβ 1 er altså rigtige i gennemsnit, men hvad med variansen? Vi antager at fejlleddene har konstant varians: Antagelse SLR.5 (Homoskedastisk) Fejlledet u har samme varians uanset værdien af den forklarende variabel, x, mao. Var[u x] = σ 2. En konsekvens af SLR.4 (E[u x] = 0) og SLR.5 er at E[y x] = β 0 + β 1 x og Var[y x] = σ 2.
Genkald jer, at ˆβ 1 = β 1 + 1 SST x (x i x)u i Vi kan nu udregne variansen for ˆβ 1 : [ ] Var[ˆβ 1 ] = Var β 1 + 1 (x i x)u i SST x ( ) [ 1 2 ] = Var (x i x)u i SST x ( ) 1 2 = (x i x) 2 Var[u i ] SST x = σ2 SST x
Var[ˆβ 0 ] udregnes på tilsvarende vis. Vi har altså Var[ˆβ 1 ] = σ2 SST x og Var[ˆβ 0 ] = σ2 n 1 n x2 i SST x Bemærk, hvordan variansen for ˆβ 1 falder når SST x vokser hvorfor er det ikke overraskende?
Estimation af Fejlledsvariansen σ 2 En central estimator for σ 2 er ˆσ 2 = 1 n 2 ûi 2 = SSR/(n 2). Nævneren, n 2, svarer til antallet af frihedsgrader. Vi har altså mistet to frihedsgraderne pga. følgende begrænsninger: û i = 0 og x i û i = 0 Tommelfingerregel: û i afhænger af to estimater ˆβ 0 og ˆβ 1, derfor to mistede frihedsgrader.