Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Relaterede dokumenter
Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Modul 12: Regression og korrelation

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Kapitel 11 Lineær regression

Kvantitative metoder 2

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Module 4: Ensidig variansanalyse

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

1 Regressionsproblemet 2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Kvantitative metoder 2

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Eksamen i Statistik for biokemikere. Blok

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Modul 6: Regression og kalibrering

Løsninger til kapitel 14

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Statistik II 4. Lektion. Logistisk regression

Perspektiver i Matematik-Økonomi: Linær regression

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Modul 11: Simpel lineær regression

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

1 Hb SS Hb Sβ Hb SC = , (s = )

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Multipel Lineær Regression

Uge 10 Teoretisk Statistik 1. marts 2004

Kvantitative metoder 2

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Statistik Lektion 4. Variansanalyse Modelkontrol

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Nanostatistik: Lineær regression

To samhørende variable

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Løsning eksamen d. 15. december 2008

Opgaver til kapitel 3

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Kvantitative metoder 2

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Lineære normale modeller (4) udkast

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Økonometri: Lektion 6 Emne: Heteroskedasticitet

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Konfidensintervaller og Hypotesetest

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Kvantitative metoder 2

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Module 9: Residualanalyse

Kvantitative Metoder 1 - Efterår Dagens program

Transkript:

Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier Forudsigelser Model : Yi=β +β xi + ei i =,...,n Restleddene e,,e n er uafhængige og N(, σ )-fordelte. Med forudsigelse af responsvariablen betegnes en estimation af middelværdien af responsvariablen for given værdi x af den forklarende variabel. Dvs. en forudsigelse er givet som ŷ =β ˆ +β ˆ x =α+β ˆ ˆ x x

hvor αˆ, βˆ ˆ og β er middelrette estimatorer for α, β og β, og hvor ˆα og ˆβ er stokastisk uafhængige. Vi finder derfor at ( x x) var[ yˆ ] = var ˆ ˆ ( x x) α+β =σ + n SAK x Denne varians angiver usikkerheden vedr. regressionslinien for x = x. Man kan derfor teste, om regressionslinien går gennem punktet (x, y ), altså teste nulhypotesen H : y = y = β + β x ved et t-test med teststørrelsen T = S n ŷ + y ( x x) SAK der under H er t(n-)-fordelt, se tabel uge 4 I. x Imidlertid er man ofte interesseret i at bestemme et forudsigelsesinterval, som en fremtidig y -værdi svarende til x = x vil falde i. Lad Y betegne den tilsvarende stokastiske variabel. Vi får da ( x x) var[ Y ˆ y] = σ + + n SAK x Således at ( α)% forudsigelsesintervallet bliver ŷ ± t s + /n+ x x /SAK α/ x

Dette estimerede interval om ŷ må opfattes som et interval, der med (-α)% sikkerhed indeholder y = y svarende til x = x. Ønskes i stedet et test for den hypotese, at en ny observation (x, y ) tilhører samme regressionsmodel som de øvrige observationer, kan det ske ved et hertil svarende t-test, dvs. et test med teststørrelse T = Y + + yˆ ( x x) S n SAK x ( ) t n Testet udføres på samme måde som andre t-test. Ved ekstrapolation, dvs. ved beregning af forudsigelser svarende til værdier af x, der ligger uden for variationsområdet for x erne, bør stor forsigtighed iagttages, især hvis den lineære sammenhæng ikke er teoretisk begrundet. 3

Eksempel Vi har ˆ ˆ ˆ SAK x= 57.9; β =.76; β =.9; σ = s =.675; Hvis x = 7: ŷ =.76 +.9 7= 6.4 [ ] PI = 6.4 ±.984.675.43 = 6.4 ±.7 = 4.7,8. Y yˆ 6 yˆ P( Y 6) = P = P( T.47) =.68 s.43 s.43 PI er forudsigelsesintervallet også kaldet PrediktionsIn terval. () Eksempel Hvis x = : ŷ =.76 +.9 = 9. [ ] PI = 9.±.984.675. = 9.±.6 = 7.5,.7 Y yˆ 6 yˆ P( Y 6) = P = P( T 3.73) s. s. Hvorfor er stikprøven temmelig uegnet til forudsigelser? 4

Fortolkning af regressionsmodel Udfra regressionsmodellen kan vi højest konkludere, at der tilsyneladende er en lineær sammenhæng mellem x og Y i det område, hvor vi har observationer af x og Y. Pas på med at ekstrapolere udover observationsområdet for x og Y at forudsige værdier af Y at konkludere mere fra den lineære sammenhæng end der er belæg for Fortolkning af x erne I regressionsmodellen forestiller man sig x i som en konstant, dvs. ikke som en observation af en stokastisk variabel. Alternativ: x i er en observation af X i, og regressionen beskriver den betingede fordeling af Y i givet x i : [ ] [ x ] EY X= x =β +β x i i i i var Y X i i i = = σ Det giver mulighed for også at modellere variationen i X i. 5

() Fortolkning af x erne Man kan f. eks. antage at (X i, Y i ) er todimensionalt normalfordelt (se kap. 4.). Det er ikke altid klart, hvilken variabel der skal være responsvariablen og hvilken, der skal være den forklarende variabel i regressionsanalysen. Ekstreme observationer En observation y i af Y i er ekstrem hvis og/eller punktet (x i, y i ) ligger langt fra den estimerede regressionslinie, så den standardiserede residual ê i er meget større end observationen y i bidrager voldsomt til parameterestimationen, dvs. estimaterne ændres kraftigt, hvis observationen udelades. Det opdages enten grafisk eller ved at gennemføre estimationen uden denne observation; Cook s afstand (se kap. 3, specielt figur 3.8 på side 445). 6

Transformationer Antag at modelkontrollen har vist at en model, der fremstiller y som en lineær funktion af x ikke er acceptabel. Man kan da søge at finde passende transformationer g og h således at g(y) = β + β h(x) + e hvor β= g y / h x og e'erne ukorrelerede samt e N, σ Ved valg af transformationer g og h kan man udover den grafiske analyse tage udgangspunkt i baggrundsviden om relationen mellem de variable. Tre eksempler herpå kan nævnes:. y = β + β log(x) + e for β >. Lad yi = i'te huss tan ds forbrugsudgifter xi = i'te huss tan ds samlede indkomst y y y/y β= = = y = indkomstelasticitet i y log x x / x x / x indkomstelasticiteten er omvendt proportional med forbruget. β. y =αx u log y = log α +β log x + e hvor α > og e = log(u). Lad 7

y= efterspurgt mængde x= pris log y y/y β= = = priselasticitet log x x / x efterspørgslens priselacitet er konstant. β 3. y =αe u log y = log α +β x + e x hvor α > og e = log(u). Lad y= folketal x = tid log y y/y y β = = = / y = relativ ændring x x x relativ ændring af folketallet er konstant. I de to sidstnævnte eksempler indgår den tilfældige fejl u multiplikativt. Det medfører at spredningen om g(y) vokser proportionalt med værdien af g(y). Dette at usikkerheden er procentiel, er meget almindelig i økonomiske sammenhænge, hvorfor de nævnte to modeller fra et økonomisk synspunkt kan anses for at være meget realistiske. 8

Opsummering om transformation Der er mindst tre forskellige grunde til at transformere data: Teorien siger, at sammenhængen er ikke-lineær I plottet af y mod x observeres en ikke-lineær sammenhæng Modelkontrollen afslører, at restleddene ikke har konstant varians I mange tilfælde opnås bedre overensstemmelse med modellen ved at bruge log(y) som respons og enten x eller måske log(x) som forklarende variabel. Sammenligning af regressionslinier Givet: Model: x, y i =,...,n x, y i =,...,n i i i i Y =β +β x + e i =,...,n Y =β +β x + e i =,...,n i i i i i i Nulhypotesen H : β = β kan afprøves forudsat e ji 'erne er stok. uafh. og normalford. j,i var[ ei ] =σ = var[ ei ] =σ Derfor testes først nulhypotesen H : σ = σ = σ overfor H : σ σ a a 9

De to empiriske regressionslinier estimeres ved ŷj =β ˆ j+β ˆ jx ˆ j = yj+βj xj x j, hvor j =,. ˆ SAP /SAK og s SRK / n β j = xjy xj j = j j Vi har under a H :σ =σ =σ at SRK χ S = σ j=, n n j j j j S og S er uafhængige, hvorfor testet udføres som et sædvanligt F-test. Lad os antage, at F-testet giver accept. Det medfører, at der kan dannes et fælles skøn s over restledsvariansen σ som s n s + n s SRK + SRK = = n + n n + n 4

Vi er nu klar til at teste nulhypotesen om regressionsliniernes parallelitet: H : β = β =β overfor H : β β b b Idet βˆ N β, σ /SAK x ˆ N, /SAK β β σ x U βˆ βˆ β ˆ ˆ β β β = = σ /SAK + /SAK σ /SAK + /SAK x x x x hvor sidste lighedstegn kun gælder under nulhypotesen. Imidlertid er σ ukendt, hvorfor den må erstattes med estimatoren S. Det medfører at vi under b H får βˆ T= t n+ n 4 S /SAK x βˆ + /SAK dvs. et sædvanligt t-test. Accepteres nulhypotesen kan den fælles hældning for de to regressionslinier estimeres ved ˆ ˆ ˆ SAK β + SAK β SAP + SAP β= = SAK + SAK SAK + SAK der er lineær i y i. Det bevirker at x x x x y x y x x x x ( ) β ˆ N β, σ / SAK + SAK x x

Tilbage er nu kun spørgsmålet om de teoretiske regressionslinier er sammenfaldende, dvs. afskærer samme stykke på y-aksen. Vi skal altså teste en nulhypotese om regressionsliniernes identitet. H : β =β overfor H : β β c c H : β β = overfor H : β β c c Først reestimeres akseafskæringerne på y-aksen. Vi får β ˆ = y β ˆ x j=, j j j hvorved den lodrette afstand mellem regressionslinierne estimeres ved β β βˆ β ˆ = y y βˆ x x Middelværdi og varians af den hertil svarende estimator bliver

E βˆ β ˆ =β β var βˆ β ˆ = var Y ˆ Y β x x = var Y + var Y + ( x x ) ˆ β = σ + + n n SAKx + SAKx x x var ˆ Da β β ˆ er lineær i y i følger af additionssætningen for normalfordelingen (AJKM sætn. 4.4) at βˆ β ˆ ~ N( β β, ( x x ) σ + + n n SAK + SAK x x ) Dvs. under nulhypotesen har vi βˆ β ˆ ~ N(, ( x x ) σ + + n n SAK + SAK x x ) således at teststørrelsen bliver en t-fordelt stokastisk variabel med n + n 4 frihedsgrader: Hvis både βˆ βˆ = + T t n n 4 ( x x) S + + n n SAK + SAK x x a b c H,Hog H accepteres betyder det, at materialet er fuldstændig homogent - der var ingen rund til at dele det op, det tilhører samme lineære model. Hvis c H forkastes, mens de øvrige 3

hypoteser accepteres, betyder det, at materialet har samme grundlæggende variabilitet og samme hældning, men forskelligt niveau. Hvis a H forkastes, må vi stoppe derved. b H forkastes, testes c H ikke. Hvis Opsummering Regressionsmodellen kan - i en vis udstrækning - bruges til at forudsige nye værdier. Pas på med at overfortolke modellen. Er der observationer, der bidrager i ekstrem grad til parameterestimaterne? Udelad dem eventuelt af analysen. Transformation kan være nødvendigt for at opnå tilfredsstillende overensstemmelse mellem data og model. En sammenligning af to regressionslinier kan foregå i tre trin () test af ens variabilitet om linierne, () test af liniernes parallelitet og (3) test af liniernes identitet. 4