Motivation. En tegning



Relaterede dokumenter
Økonometri Lektion 1 Simpel Lineær Regression 1/31

Simpel Lineær Regression

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Kvantitative metoder 2

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Simpel Lineær Regression: Model

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Estimation ved momentmetoden. Estimation af middelværdiparameter

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Generelle lineære modeller

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit

Stikprøvefordelinger og konfidensintervaller

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Sammenligning af to grupper

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

antal gange krone sker i første n kast = n

Løsninger til kapitel 7

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Repetition. Forårets højdepunkter

9. Binomialfordelingen

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Konfidens intervaller

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Teoretisk Statistik, 9. februar Beskrivende statistik

Uge 40 I Teoretisk Statistik, 30. september 2003

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Renteformlen. Erik Vestergaard

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Asymptotisk optimalitet af MLE

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

STATISTIKNOTER Simple normalfordelingsmodeller

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Appendiks Økonometrisk teori... II

Den flerdimensionale normalfordeling

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Projekt 1.3 Brydningsloven

Program. Middelværdi af Y = t(x ) Transformationssætningen

Vejledende besvarelser til opgaver i kapitel 15

Vejledende opgavebesvarelser

Elementær Matematik. Polynomier

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet.

Claus Munk. kap. 1-3

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

Projekt 9.10 St. Petersborg paradokset

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Uge 37 opgaver. Opgave 1. Svar : Starter med at definere sup (M) og inf (M) :

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Matematisk Modellering 1 Hjælpeark

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Simpel Lineær Regression - repetition

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Forelæsning 11: Kapitel 11: Regressionsanalyse

DATV: Introduktion til optimering og operationsanalyse, Følsomhed af Knapsack Problemet

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Analyse 1, Prøve maj 2009

TEKST NR TEKSTER fra IMFUFA

Introduktion til uligheder

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Tankegangskompetence. Kapitel 9 Algebraiske strukturer i skolen 353

Undersøgelse af numeriske modeller

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kapitel 10 KALIBRERING AF STRØMNINGSMODEL

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

StudyGuide til Matematik B.

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6

Transkript:

Motivatio Scatter-plot at det mådelige salg mod det måedlige reklamebudget. R: plot(salg ~ budget, data = salg) Økoometri Lektio Simpel Lieær Regressio salg 400 450 500 550 20 25 30 35 40 45 50 budget Er der e sammehæg mellem reklamebudgettet og salget? / 33 2 / 33 Simpel Lieær Regressio Mål: Forklare variable y vha. variable x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi atager at sammehæge mellem y og x er beskrevet ved y = β 0 + β x + u. E tegig β 0 : Skærigspuktet β : Hældigs koefficiete y (Salg) y i u i (x i, y i ) y : Afhægige variabel x : Forklarede/uafhægige variabel u : Fejlleddet Fejlleddet u forklarer de del af variatioe i y, som ikke ka forklares af x. x i β 0 + β x i x (Budget) Det hedder simpel lieær regressio, fordi β 0 og β idgår liiært (dvs. som sig selv gage e kostat) og fordi vi ku har é forklarede variabel, emlig x. 3 / 33 4 / 33

Fejlleddet: Atagelser Middelværdi-uafhægighed For at komme videre, skal vi ataget lidt mere of fejlleddet u. Vi atager at fejlleddet har middelværdi ul uaset værdie af x: E[u x] = 0 Vi siger at u er middelværdi-uafhægig af x. Hådvifte-fortolkig: Fejlleddet har i geemsit ige betydig det er lige meget over som uder. Hvis x og u er uafhægige, og E[u] = 0 opår vi det samme. Uafhægighed er e stærkere atagelse ed middelværdi-uafhægighed. Middelværdi-uafhægighed, E[u x] = 0 medfører følgede E[y x] = E[β 0 + β x + u x] = β 0 + β x Dvs., givet x, så er de forvetede værdi af y lig β 0 + β x. Fortolkig: Regressioslije agiver hvorda de forvetede værdi af Y afhæger af x. Ex: Hvis Budget = 500, så siger vores atagelser, at vi i geemsit vil observere et salg på β 0 + β 500. 5 / 33 6 / 33 Fortolkig af β 0 og β Idledede kæbøjiger Vores model er: y = β 0 + β x + u Fortolkig af β 0 : β 0 er de forvetede værdi af y år x = 0. Har i mage tilfælde ikke de store iteresse. Fortolkig af β : De forvetede værdi af y ædres med β, år x vokser med ehed. Med adre ord: Hvorda y forklares af x er beskrevet geem β 0 og β... som vi ikke keder... Atag vi har par af observatioer: (x, y ), (x 2, y 2 ),..., (x, y ). Vi vil fide estimater af β 0 og β. Vores estimatio tager udgagspukt i to middelværdier: Atag x og y er stokastiske variable. Kovariase mellem x og u er da Cov[x, u] = E[(x E[x])(u E[u])] = E[xu E[x]u] = E[xu] E[x]E[u] = E[xu] = E[E[ux x]] = 0 Vi har altså E[u] = 0 og E[xu] = 0. 7 / 33 8 / 33

Armstræk Vores model siger y = β 0 + β x + u, hvilket vi ka omskrive til Dvs. E[u] = 0 ka omskrives til og E[xu] = 0 ka omskrives til u = y β 0 β x. E[y β 0 β x] = 0 E[x(y β 0 β x)] = 0 Tæker vi på x og y som kedte stokastiake variable, så har vi to ligiger med to ubekedte (β 0 og β ). Vi skal altså bare fide β 0 og β, der løser oveståede ligiger. Dee fremgagsmåde kaldes method of momets. Problem: Vi keder itet til E[x]... 9 / 33 Løselige ligiger Ide: Erstat de forvetede værdier med stikprøve-geemsit: De teoretiske ligige E[y β 0 β x] = 0 erstatter vi med stikprøve-versioe (y i ˆβ 0 ˆβ x i ) = 0 () og E[x(y β 0 β x)] = 0 erstatter vi med x i (y i ˆβ 0 ˆβ x i ) = 0 (2) Vi lader løsigere, ˆβ 0 og ˆβ, til oveståede ligiger være vores estimater af β 0 og β. Løsigsstrategi: Isolér ˆβ 0 i () og idsæt i (2). 0 / 33 Isolér ˆβ 0 Idsæt ˆβ 0 i (2) Vi starter med ligige (): (y i ˆβ 0 ˆβ x i ) = 0 Som vi ka skrive lidt om på y i = ( ˆβ 0 + ˆβ x i ) ȳ = ˆβ 0 + ˆβ x ˆβ 0 = ȳ ˆβ x. Dvs. år vi keder ˆβ (estimatet af hældige), så keder vi ˆβ 0. Vi idsætter ˆβ 0 = ȳ ˆβ x i (2): x i (y i ˆβ 0 ˆβ x i ) = 0 x i (y i (ȳ ˆβ x) ˆβ x i ) = 0 x i (y i ȳ) = ˆβ ˆβ = x i (x i x) (x i x)(y i ȳ) (x i x) 2, hvor sidste ligig forudsætter at (x i x) 2 > 0. / 33 2 / 33

OLS Estimatere Vores model er hvor β 0 og β estimeres ved og ˆβ = y = β 0 + β x + u, ˆβ 0 = ȳ ˆβ x (x i x)(y i ȳ) (x i x) 2. Disse to estimatorer kaldes OLS (Ordiary Least Squares) Estimatore. Estimerede regressios-lije Regressios-lije er estimeret ved ŷ = ˆβ 0 + ˆβ x. Prædikteret værdi: ŷ i = ˆβ 0 + ˆβ x i de prædikterede værdi for y i. Residual û i = y i ŷ i = y i ˆβ 0 ˆβ x i. Estimat af fejlleddet u i. y (Salg) y i û i ŷ i x i ˆβ 0 + ˆβ x x (Budget) Lije ˆβ 0 + ˆβ x går altid igeem puktet ( x, ȳ)! 3 / 33 4 / 33 Egeskaber for residualere Summe af residualere er ul: û i = 0 Stikprøve-kovariase mellem û og x er ul: (û i 0)(x i x) = û i x i = 0 Sums of Squares (Et lille sidesprig) De totale variatio i y i ere er beskrevet ved Total Sum of Squares (SST): SST = (y i ȳ) 2 y (Salg) y i ȳ y i ȳ û i x i ŷ i ȳ ˆβ 0 + ˆβ x x (Budget) De totale afvigelse y i ȳ ka opdeles i e forklaret del, ŷ i ȳ og e uforklaret del y i ŷ i. 5 / 33 6 / 33

Opsplitig af SST Determiatios Koefficiete De totale variatio, SST ka splittes op i to: SST = SSE + SSR. Hvor SSE er Explaied Sum of Squares (de forklarede variatio): SSE = (ŷ i ȳ) 2 Hvor SSR er Residual Sum of Squares (de uforklarede variatio): SSR = (y i ŷ i ) 2 = û 2 i De totale variatio SST ka opdeles i e uforklaret del SSR og e forklaret det SSE. Adele af de totale variatio, der er forklaret kaldes determiatios koefficiete R 2 = SSE SST = SSR SST. Hvis R 2 = 0.7 betyder det at modelle ka forklare 70% af variatioe i y i ere. De sidste 30% er tilfældig, uforklaret variatio. 7 / 33 8 / 33 Bevis for SST = SSE + SSR Eksempel: Salg og Reklame (y i ȳ) 2 = [(y i ŷ i ) + (ŷ i ȳ)] 2 = = [û i + (ŷ i ȳ)] 2 ûi 2 + 2 = SSR + 2 û i (ŷ i ȳ) + (ŷ i ȳ) 2 û i (ŷ i ȳ) + SSE. Færdig, da ûi(ŷ i ȳ) = 0, idet ûi = 0 og ûix i = 0. Aalyse af sammehæg mellem salg og reklamebudget vha. simpel lieær regressio. Start R og idlæs data vha. reklame = read.table("salg.dat",header=true) Kommadoe ames(reklame) giver [] "budget" "salg" Dvs. reklame ideholder to variable budget og salg. Vi ka se fx. budget variable vha. reklame$budget [] 40 20 25 20 30 50 40 20 50 40 25 50 9 / 33 20 / 33

Eksempel fortsat Eksempel fortsat Oversæt fra matematik til R De matematiske formulerig af SLR er y = β 0 + β x + u De tilsvarede sammehæg formuleres i R som y ~ x Parametree β 0 og β er uderforståede. Vi ka plotte sammehæge mellem salg mod budget vha. Vi ka u opstille og aalysere vores (simple) lieære regressios model vha. model = lm(salg ~ budget, data = reklame) Vi har u skabt e model ved av model (hvor orgialt!). Kommadoe lm betyder liear model. Vi ka opsummerer model og de tilhørede aalyse vha. summary(model) som giver... plot(salg ~ budget, data = reklame) 2 / 33 22 / 33 Resultat Cetralitet summary(model) giver Call: lm(formula = salg ~ budget, data = reklame) Residuals: Mi Q Media 3Q Max -87.538-32.700 8.566 39.8 55.774 Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) 343.706 44.766 7.678.68e-05 *** budget 3.22.240 2.598 0.0266 * --- Sigif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. Residual stadard error: 50.23 o 0 degrees of freedom Multiple R-squared: 0.403, Adjusted R-squared: 0.3433 F-statistic: 6.75 o ad 0 DF, p-value: 0.02657 Estimater af β ere fider vi i Estimate søjle. Dvs. ˆβ 0 = 343.706 og ˆβ = 3.22. Desude har vi R 2 = 0.403. Vi har estimater ˆβ 0 og ˆβ, me hvilke egeskaber har de? Hvis vi tæker på y i ere som tilfældige er estimatorere ˆβ 0 og ˆβ det også. Vi vil gere have, at vores estimatore er cetrale (ubiased), dvs. E[ ˆβ 0 ] = β 0 og E[ ˆβ ] = β, dvs. vi i geemsit får det rigtige svar. For at vi ka vise cetralitet, skal vi gøre os ogle atagelser. Fortolkig? 23 / 33 24 / 33

Atagelser Atagelse SLR. (Lieære parametre) I populatios-modelle er sammehæge mellem y, x og u givet ved y = β 0 + β x + u. Atagelse SLR.2 (Tilfældig stikprøve) Vi har e tilfældig stikprøve af størrelse, (x, y ), (x 2, y 2 ),..., (x, y ) fra populatios-modelle i SLR.. Atagelse SLR.3 (Variatio i x i ere) Alle x i ere må ikke have samme værdi. Cetrale estimatorer Sætig Uder atagelse SLR. til SLR.4 gælder E[ ˆβ 0 ] = β 0 og E[ ˆβ ] = β, dvs. ˆβ 0 og ˆβ er cetrale estimatorer. Atagelse SLR.4 (Betige ul-middelværdi) Fejlleddet u har forvetet værdi ul uaset værdie af x, mao. E[u x] = 0 25 / 33 26 / 33 Bevis for cetralitet af ˆβ Vi starter at skrive lidt om på ˆβ : ˆβ = (x i x)y i (x i x) 2 = (x i x)(β 0 + β x i + u i ) (3) Tællere ka omskrives til: (x i x)β 0 + (x i x)β x i + β 0 (x i x) + β (x i x)x i + Sætter vi dette tilbage i (3) får vi ˆβ = β + = = 0 + β + 27 / 33 Bevis for cetralitet af ˆβ (fortsat) Vi tager udgagspukt i De forvetede værdi er [ ˆβ = β + E[ ˆβ ] = E β + ] = E[β ] + E[ ] = β + (x i x)e[u i ] = β, hvor vi har brugt at E[u i ] = 0. 28 / 33

Variase af Estimatorere Estimatoere ˆβ 0 ad ˆβ er altså rigtige i geemsit, me hvad med variase? Vi atager at fejlleddee har kostat varias: Atagelse SLR.5 (Homoskedastisk) Fejlledet u har samme varias uaset værdie af de forklarede variabel, x, mao. Var[u x] = σ 2. E kosekves af SLR.4 (E[u x] = 0) og SLR.5 er at E[y x] = β 0 + β x og Var[y x] = σ 2. Gekald jer, at ˆβ = β + Vi ka u udrege variase for ˆβ : [ ] Var[ ˆβ ] = Var β + ( ) [ 2 ] = Var ( ) 2 = (x i x) 2 Var[u i ] = σ2 29 / 33 30 / 33 Estimatio af Fejlledsvariase σ 2 Var[ ˆβ 0 ] udreges på tilsvarede vis. Vi har altså Var[ ˆβ ] = σ2 og Var[ ˆβ 0 ] = σ2 x i 2 Bemærk, hvorda variase for ˆβ falder år vokser hvorfor er det ikke overraskede? E cetral estimator for σ 2 er ˆσ 2 = 2 ûi 2 = SSR/( 2). Nævere, 2, svarer til atallet af frihedsgrader. Vi har altså mistet to frihedsgradere pga. følgede begræsiger: û i = 0 og x i û i = 0. Tommelfigerregel: ˆσ 2 afhæger af de to estimater ˆβ 0 og ˆβ, så derfor mister vi to frihedsgrader. 3 / 33 32 / 33

ˆσ 2 i R summary(model) giver Call: lm(formula = salg ~ budget, data = reklame) Residuals: Mi Q Media 3Q Max -87.538-32.700 8.566 39.8 55.774 Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) 343.706 44.766 7.678.68e-05 *** budget 3.22.240 2.598 0.0266 * --- Sigif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. Residual stadard error: 50.23 o 0 degrees of freedom Multiple R-squared: 0.403, Adjusted R-squared: 0.3433 F-statistic: 6.75 o ad 0 DF, p-value: 0.02657 Estimatet af σ 2 er Residual stadard error i ade, dvs. ˆσ 2 = 50.23 2 = 2523.05. Ikke-liiær sammehæg Nogle gage er e liiær sammehæg ikke de mest passede. Atag at vi har hvor u er et fejlled. y = β 0 β x u, Ser vi bort fra u-ledet, så er y ekopoetielt voksede som e fuktio af x. Tager vi u de aturlige logaritme på begge sider af lighedsteget får vi l(y) = l(β 0 ) + l(β )x + l(u) = β 0 + β x + ũ Vi ka u udføre simpel liære regressio af l(y) mod x, bl.a. uder atagelse af at E[ũ x] = 0. 33 / 33 34 / 33 Fortolkig Vi har de estimerede ligig l(y) = ˆβ 0 + ˆβ x. Hvor meget ædrer y sig år x ædrer sig? l(y efter ) l(y før ) = ˆβ (x efter x før ). Bemærk at l(y) y år y, så vi omskriver: ( ) yefter l y efter ˆβ x y før y før y efter ( + ˆβ x)y før. Dvs. år x øges med x, så øges ŷ med cirka ( ˆβ x)00%. 35 / 33