Simpel Lineær Regression



Relaterede dokumenter
Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Simpel Lineær Regression: Model

Motivation. En tegning

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Anvendt Statistik Lektion 7. Simpel Lineær Regression

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

To samhørende variable

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Kvantitative metoder 2

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Appendiks Økonometrisk teori... II

Modul 6: Regression og kalibrering

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Løsning til eksaminen d. 14. december 2009

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Løsning eksamen d. 15. december 2008

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Forelæsning 11: Kapitel 11: Regressionsanalyse

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Module 3: Statistiske modeller

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Kursus 02402/02323 Introducerende Statistik

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik Lektion 4. Variansanalyse Modelkontrol

Kvantitative metoder 2

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Multipel Lineær Regression

Kapitel 11 Lineær regression

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Module 4: Ensidig variansanalyse

Statistik Lektion 16 Multipel Lineær Regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Løsning til eksaminen d. 29. maj 2009

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Modul 11: Simpel lineær regression

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Statistik Lektion 17 Multipel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Skriftlig eksamen Science statistik- ST501

Lineære normale modeller (4) udkast

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Note om Monte Carlo metoden

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Løsning til eksamen d.27 Maj 2010

Module 9: Residualanalyse

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Bedste rette linje ved mindste kvadraters metode

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Bilag 12 Regressionsanalysens tabeller og forklaringer

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Stastistik og Databehandling på en TI-83

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Normalfordelingen og Stikprøvefordelinger

Nanostatistik: Lineær regression

Bilag 7. SFA-modellen

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Produkt og marked - matematiske og statistiske metoder

Transkript:

Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige variabel x: Forklarende/uafhængige variabel u: Fejlleddet Fejlleddet u forklarer den del af variationen i y, som ikke kan forklares af x.

En tegning β 0 : Skæring-punktet β 1 : Hældnings koefficienten y (Salg) y i u i (x i, y i ) β 0 + β 1 x i x i x (Budget) Det hedder simpel lineær regression, fordi β 0 og β 1 indgår liniært (dvs. som sig selv gange en konstant) og fordi vi kun har en forklarende variabel, nemlig x.

Fejlleddet For at komme videre, skal vi antaget lidt mere of fejlleddet u. Vi antager at fejlleddet har middelværdi nul uanset værdien af x: E[u x] = 0 Vi siger at u er middelværdi-uafhængig af x. Håndvifte-fortolkning: Fejlleddet har i gennemsnit ingen betydning det er lige meget over som under. Hvis x og u er uafhængige, og E[u] = 0 opnår vi det samme. Uafhængighed er en stærkere antagelse end middelværdi-uafhængighed.

Middelværdi-uafhængighed, E[u x] = 0 medfører følgende E[y x] = E[β 0 + β 1 x + u x] = β 0 + β 1 x Dvs., givet x, så er den forventede værdi af y lig β 0 + β 1 x. Ex: Hvis Budget = 1500, så siger vores antagelser, at vi i gennemsnit vil observere et udbytte på β 0 + β 1 1500.

Model-fortolkning Vores model siger: y = β 0 + β 1 x + u β 0 er den forventede værdi af y når x = 0. Har i mange tilfælde ikke den store interesse. Den forventede værdi af y ændres med β 1, når x vokser med 1 enhed. Med andre ord: Hvordan y forklares af x er beskrevet gennem β 0 og β 1... som vi ikke kender... Antag vi har n par af observationer: (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ). Vi vil finde estimater af β 0 og β 1.

Indledende knæbøjninger Vores estimation tager udgangspunkt i to middelværdier: Antag x og y er stokastiske variable. Kovariansen mellem x og u er da Cov[x, y] = E[(x E[x])(u E[u])] = E[xu E[x]u] = E[xu] E[x]E[u] = E[xu] = E[E[ux x]] = 0 Vi har altså E[u] = 0 og E[xu] = 0.

Armstræk Vores model siger y = β 0 + β 1 x + u, hvilket vi kan omskrive til u = y β 0 β 1 x. Dvs. E[u] = 0 kan omskrives til og E[xu] = 0 kan omskrives til E[y β 0 β 1 x] = 0 E[x(y β 0 β 1 x)] = 0 Tænker vi på x og y som kendte stokastiake variable, så har vi to ligninger med to ubekendte (β 0 og β 1 ). Vi skal altså bare finde β 0 og β 1, der løser ovenstående ligninger. Denne fremgangsmåde kaldes method of moments. Problem: Vi kender intet til E[x]...

Løselige ligninger Ide: Erstat de forventede værdier med stikprøve-gennemsnit: Den teoretiske ligningen E[y β 0 β 1 x] = 0 erstatter vi med stikprøve-versionen 1 n (y i ˆβ 0 ˆβ 1 x i ) = 0 (1) og E[x(y β 0 β 1 x)] = 0 erstatter vi med erstatter vi med 1 n x i (y i ˆβ 0 ˆβ 1 x i ) = 0 (2) Vi lader løsningerne, ˆβ 0 og ˆβ 1, til ovenstående ligninger være vores estimater af β 0 og β 1. Løsningsstrategi: Isolér ˆβ 0 i (1) og indsæt i (2).

Isolér ˆβ 0 Vi starter med ligninge (1): 1 n (y i ˆβ 0 ˆβ 1 x i ) = 0 Som vi kan skrive lidt om på 1 n y i = 1 n (ˆβ 0 + ˆβ 1 x i ) ȳ = ˆβ 0 + ˆβ 1 x ˆβ 0 = ȳ ˆβ 1 x. Dvs. når vi kender ˆβ 1 (estimatet af hældningen), så kender vi ˆβ 0.

Indsæt ˆβ 0 i (2) Vi indsætter ˆβ 0 = ȳ ˆβ 1 x i (2): 1 n 1 n x i (y i ˆβ 0 ˆβ 1 x i ) = 0 x i (y i (ȳ ˆβ 1 x) ˆβ 1 x i ) = 0 x i (y i ȳ) = ˆβ 1 x i (x i x) ˆβ 1 = n (x i x)(y i ȳ) n (x i x) 2, hvor sidste ligning forudsætter at n (x i x) 2 > 0.

OLS Estimaterne Vores model er y = β 0 + β 1 x + u, hvor β 0 og β 1 estimaeres ved ˆβ 0 = ȳ ˆβ 1 x og ˆβ 1 = n (x i x)(y i ȳ) n (x i x) 2. Disse to estimatorer kaldes OLS (Ordinary Least Squares) Estimatore.

Estimerede regressions-linje Regressions-linjen er estimeret ved ŷ = ˆβ 0 + β 1 x. Prædikteret værdi: ŷ i = ˆβ 0 + ˆβ 1 x i den prædikterede værdi for y i. Residual û i = y i ŷ i = y i ˆβ 0 ˆβ 1 x i. Estimat af fejlleddet u i. y (Salg) y i û i ˆβ 0 + ˆβ 1 x ŷ i Linjen ˆβ 0 + ˆβ 1 x går altid igennem punktet ( x, ȳ)! x i x (Budget)

Egenskaber for residualerne Summen af residualerne er nul: û i = 0 Stikprøve-kovariansen mellem û og x er nul: (û i 0)(x i x) = û i x i = 0

Sums of Squares (Et lille sidespring) Den totale variation i y i erne er beskrevet ved Total Sum of Squares (SST): SST = (y i ȳ) 2 y (Salg) y i y i ȳ ȳ û i ˆβ 0 + ˆβ 1 x ŷ i ȳ x i x (Budget) Den totale afvigelse y i ȳ kan opdeles i en forklaret del, ŷ i ȳ og en uforklaret del y i ŷ i.

Opsplitning af SST Den totale variation, SST kan splittes op i to: SST = SSE + SSR. Hvor SSE er Explained Sum of Squares (den forklarede variation): SSE = (ŷ i ȳ) 2 Hvor SSR er Residual Sum of Squares (den uforklarede variation): SSR = (y i ŷ i ) 2 = û 2 i

Determinations Koefficienten Den totale variation SST kan opdeles i en uforklaret del SSR og en forklaret det SSE. Andelen af den totale variation, der er forklaret kaldes determinations koefficienten R 2 = SSE SST = 1 SSR SST. Hvis R 2 = 0.7 betyder det at modellen kan forklare 70% af variationen i y i erne. De sidste 30% er tilfældig, uforklaret variation.

Bevis for SST = SSE + SSR (y i ȳ) 2 = [(y i ŷ i ) + (ŷ i ȳ)] 2 = = [û i + (ŷ i ȳ)] 2 ûi 2 + 2 = SSR + 2 û i (ŷ i ȳ) + (ŷ i ȳ) 2 û i (ŷ i ȳ) + SSE. Færdig, da n ûi(ŷ i ȳ) = 0, idet n ûi = 0 og n ûix i = 0.

Eksempel I dette eksempel skal vi se på sammenhængen mellem Salg og Reklame-budget. Start R og start derefter R-commander med library(rcmdr). I dette tilfælde importere vi data-filen salg.dat vha. Data Import data From text file... Vi starter med at lave et scatter-plot: Graphs Scatter plot... Det ser rimligt ud.

Eksempel fortsat Næste trin er at opstille vores simple lineære regressionsmodel. Dette gøres under Statistics Fit models Linear Regression... Her kan i give modellen et navn samt angive hvilken variabel, der er afhængig (Response), og hvilken der er den forklarende (Explanatory). I output vinduet læg mærke til kommandoen lm(salg budget, data=reklame). Denne kommando angiver en lineær regressionsmodel (lm), hvor salg afhænger af budget (salg budget). Kommandoen Summary(RegModel.1) får vi bl.a. ˆβ 0 = 343.706 (Intercept) ˆβ 1 = 3.221 (budget) R 2 = 0.3433

Centralitet Vi har estimater ˆβ 0 og ˆβ 1, men hvilke egenskaber har de? Hvis vi tænker på y i erne som tilfældige er estimatorerne ˆβ0 og ˆβ1 det også. Vi vil gerne have, at vores estimatore er centrale (unbiased), dvs. E[ˆβ 0 ] = β 0 og E[ˆβ 1 ], mao. vi i gennemsnit får det rigtige svar. For at vi kan vise centralitet, skal vi gøre os nogle antagelser.

Antagelser Antagelse SLR.1 (Lineære parametre) I populations-modellen er sammenhængen mellem y, x og u givet ved y = β 0 + β 1 x + u. Antagelse SLR.2 (Tilfældig stikprøve) Vi har en tilfældig stikprøve af størrelse n, (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ) fra populations-modellen i SLR.1. Antagelse SLR.3 (Variation i x i erne) Alle x i erne må ikke have samme værdi. Antagelse SLR.4 (Betingel nul-middelværdi) Fejlleddet u har forventet værdi nul uanset værdien af x, mao. E[u x] = 0

Centrale estimatorer Under antagelse SLR.1 til SLR.4 gælder E[ˆβ 0 ] = β 0 og E[ˆβ 1 ] = β 1, dvs. ˆβ0 og ˆβ1 er centrale estimatorer.

Bevis for centralitet af ˆβ 1 Vi starter at skrive lidt om på ˆβ 1 : ˆβ 1 = n (x i x)y i n (x i x) 2 = n (x i x)(β 0 + β 1 x i + u i ) SST x I tælleren kan vi gange ind i parentesen: (x i x)β 0 + (x i x)β 1 x i + β 0 (x i x) + β 1 (x i x)x i + Sætter vi tilbage får vi ˆβ 1 = β 1 + 1 SST x (x i x)u i = (x i x)u i = 0 + β 1 SST x + (x i x)u i (x i x)u i

Bevis for centralitet af ˆβ 1 (fortsat) Vi tager udgangspunkt i Den forventede værdi er [ ˆβ 1 = β 1 + 1 SST x E[ˆβ 1 ] = E β 1 + 1 SST x (x i x)u i ] (x i x)u i 1 = E[β 1 ] + E[ (x i x)u i ] SST x = β 1 + 1 (x i x)e[u i ] SST x = β 1, hvor vi har brugt at E[u i ] = 0.

Variansen af Estimatorerne Estimatoerne ˆβ 0 and ˆβ 1 er altså rigtige i gennemsnit, men hvad med variansen? Vi antager at fejlleddene har konstant varians: Antagelse SLR.5 (Homoskedastisk) Fejlledet u har samme varians uanset værdien af den forklarende variabel, x, mao. Var[u x] = σ 2. En konsekvens af SLR.4 (E[u x] = 0) og SLR.5 er at E[y x] = β 0 + β 1 x og Var[y x] = σ 2.

Genkald jer, at ˆβ 1 = β 1 + 1 SST x (x i x)u i Vi kan nu udregne variansen for ˆβ 1 : [ ] Var[ˆβ 1 ] = Var β 1 + 1 (x i x)u i SST x ( ) [ 1 2 ] = Var (x i x)u i SST x ( ) 1 2 = (x i x) 2 Var[u i ] SST x = σ2 SST x

Var[ˆβ 0 ] udregnes på tilsvarende vis. Vi har altså Var[ˆβ 1 ] = σ2 SST x og Var[ˆβ 0 ] = σ2 n 1 n x2 i SST x Bemærk, hvordan variansen for ˆβ 1 falder når SST x vokser hvorfor er det ikke overraskende?

Estimation af Fejlledsvariansen σ 2 En central estimator for σ 2 er ˆσ 2 = 1 n 2 ûi 2 = SSR/(n 2). Nævneren, n 2, svarer til antallet af frihedsgrader. Vi har altså mistet to frihedsgraderne pga. følgende begrænsninger: û i = 0 og x i û i = 0 Tommelfingerregel: û i afhænger af to estimater ˆβ 0 og ˆβ 1, derfor to mistede frihedsgrader.