Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Relaterede dokumenter
Motivation. En tegning

Simpel Lineær Regression - repetition

Kvantitative metoder 2

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Anvendt Statistik Lektion 7. Simpel Lineær Regression

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Statistik Lektion 4. Variansanalyse Modelkontrol

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Generelle lineære modeller

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Repetition. Forårets højdepunkter

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Løsninger til kapitel 7

Simpel Lineær Regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Stikprøvefordelinger og konfidensintervaller

9. Binomialfordelingen

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Vejledende besvarelser til opgaver i kapitel 15

Vejledende opgavebesvarelser

Estimation ved momentmetoden. Estimation af middelværdiparameter

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Multipel Lineær Regression

Den flerdimensionale normalfordeling

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Opsamling. Lidt om det hele..!

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Program. Middelværdi af Y = t(x ) Transformationssætningen

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Konfidens intervaller

Simpel Lineær Regression: Model

Modul 11: Simpel lineær regression

Sammenligning af to grupper

Statistik Lektion 16 Multipel Lineær Regression

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Uge 40 I Teoretisk Statistik, 30. september 2003

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Morten Frydenberg version dato:

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Teoretisk Statistik, 9. februar Beskrivende statistik

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Maja Tarp AARHUS UNIVERSITET

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

STATISTIKNOTER Simple normalfordelingsmodeller

Matematisk Modellering 1 Hjælpeark

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

Asymptotisk optimalitet af MLE

1 Regressionsproblemet 2

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Løsning eksamen d. 15. december 2008

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Forelæsning 11: Kapitel 11: Regressionsanalyse

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

To samhørende variable

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

antal gange krone sker i første n kast = n

Supplement til Kreyszig

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Module 3: Statistiske modeller

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Statikstik II 4. Lektion. Generelle Lineære Modeller

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Løsning til eksaminen d. 14. december 2009

Projekt 1.3 Brydningsloven

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Transkript:

Simpel Lieær Regressio Opsplitig af variatioe Determiatios koefficiet Variasaalse F-test Model-kotrol

Opbgig af statistisk model Specificer model Ligiger og atagelser Estimer parametre Modelkotrol Er modelle passede Nej Ja Aved modelle

Simpel Lieær Regressio - repetitio Spørgsmål: Afhæger lieært af?. Model: iid N(, σ i i i i ) Sstematisk kompoet Stokastisk kompoet

Estimatio - repetitio Vha. Midste Kvadraters Metode fider vi regressiosliie hvor b b ˆ Residual: i SS SS b b b ˆ ei i i i b b i ˆ b b estimat af estimat af estimat af E( Y i X i ) i

Forklaret og uforklaret afvigelse Y i s afvigelse fra Y ka opdeles i to. Y Y Yˆ Y Forklaret afvigelse Forklaret afvigelse. Totale afvigelse X X X

Total og forklaret variatio - illustratio Y Y De totale variatio ses år vi kigger lags -akse X De uforklarede variatio ses år vi kigger lags regressiosliie X

De totale variatio De totale variatio for data er SST ( ) ( i i SS Variatioe i data omkrig datas middelværdi SST Sum of Squares Total Y )

Opslitig af de totale variatio De totale variatio ka opslittes: ( ) ( ) ˆ ( ˆ ) i i i i i i i SSE ( ˆ ) i er de uforklarede variatio. SSR i ( ) er de forklarede variatio. ˆ i i SSR Sum of Squares Regressio i

Total og forklaret variatio Opslitig a variatioe Total Uforklaret Forklaret i i i i i i ( ) ( ˆ ) ( ˆ ) i SST SSE SSR

Determiatios koeffciete Determiatios Koeffciete: Adele af de totale variatio, der er forklaret. r Forklaret variatio SSR SST SSE Total variatio SST SST SSE SST Pr defiitio: r. Jo tættere r er på, jo mere af variatioe i data er forklaret af modelle. r >.8 er godt! r meget tæt på er dog mistækeligt.

Eksempler på r Y Y Y r SST SSE X r.5 X SST SSE SSR r.9 S S E SST SSR X

r og Korrelatioskoefficiete r De estimerede korrelatioskoefficiete Vis at r r. :-s r SS SS X XY SS Y Igredieser: SST SS Y b SS SS XY X SST SSE SSR r SSR SST SSE SS b Y SS XY

Variasaalse-tabel Hpoteser: H : Lieær regressio er ikke besværet værd. H : Uder H gælder SSE/σ og SSR/σ er uafhægige og SSE SSR ~ χ χ σ σ ( ) og ~ () Atal observatioer mius totale atal parametre. Atal parametre ivolveret i teste.

Variasaalse - fortsat Af forrige slide følger: F SSR MSR ~ F SSE MSE ( ) (, ) Store værdier af F er kritiske for H. Med sigifikasiveau α afviser vi H, hvis F > F α (, )

SPSS output SSR SSE SST MRE MSE F MSR SSR SSE ( ) MSE p værdi F-teststørresle Sums of Squares Frihedsgrader Mea Sums of Squares

r SSR SST 73,44 456,5,43.635.43

Modelkotrol For at kue stole på test og estimater skal vi sikre os, at modelles atagelser er overholdt! Er der e lieær sammehæg mellem X og Y? Er fejlleddee,, uafhæige? Følger fejlleddee,, alle N(,σ )?

Residualaalse Bemærk at residualet e i i ˆ i er et estimat for i. Dvs. e i ere groft sagt skal opføre sig som uafhægige N(,σ ) variable! Grafisk kotrol: Plot e i ere mod i eller. ŷ i

Residualplot Residualer Residualer eller ˆ eller ˆ Homoskedastisk: Residualere ser ud til at variere ufahægigt af hiade og. Heteroskedastisk: Variase for residualere ædrer sig år ædrer sig. Residualer Residualer Tid eller ˆ Residualere udviser lieær tred med tide (eller ade variabel vi ikke har brugt). Dette idikerer at tid skulle ikluderes i modelle. Det buede møster idikerer e uderlæggede ikke-lieær sammehæg.

TV-Statistik-Køkke Jeg har sdt og lavet mit eget data Det liger reklame/salg data, me med flere observatioer (3).

Residualer i SPSS I Liear Regressio viduet vælges Save I Save viduet vælges Ustadardized både uder Reresiduals (e i ere) og ŷ i Predicted Values ( ere).

Efter edt regressio skaber SPSS to e søjler i Data Editor, der ideholder residualer ( RES_ ) prædiktioer ( PRE_ ). Derefter ka ma f lave scatter plots.

Scatter plot af residualer (e i ere) mod højde ( i ere) (øverst) residualer (e i ere) mod prædiktioere (^ i ere) (ederst). Ser jo gaske usstematisk ud!

Grafiske check for Normalfordelig For at tjekke holdbarhede af atagelse om ormalfordelte fejlled: ( i ~N(,σ ) ) Lav et histogram over residualere og se efter om det ormalfordelt ud. Lave et ormalfordeligsplot (Q-Q plot). Lav et formelt χ -test for goodess of fit til e ormalfordelig for residualere

Histogram af residualer Det ser jo ca ormalfordelt ud

Normalfordeligsplot (Q-Q plot) For hvert residual e i udreger vi q i l i m hvor l i er atallet af residualer der er midre ed e i, og m i er atallet af residualer med samme værdi som e i. i For hvert q i fider vi z i, så P(Z z i ) q i, hvor Z~N(,). Hvis e i ere er ormalfordelte vil et plot af (e i, z i ) ligge på e ret liie.

Normalfordeligsplot (Q-Q plot) Nemmere med e tegig

Vælg Aalze Descriptive Statistics Q-Q plots Ser helt fit ud sor sig ikke alt for sstematisk omkrig lije.

Prædiktio i SLR-modelle Puktprædiktio: Hvilke værdi vil forveteligt atage, hvis atager e bestemt værdi, f? Svar: ˆ b b ˆ b b Gaske simpelt ved at idsætte i de estimerede regressios lije! Dvs. vi prædikterer som bedste bud på puktets værdi. Bedst ikke at prædiktere for værdier for lagt fra, hvor vi har data

Prædiktiositerval for observatioe X s t SS ) ( ) ( ˆ ± α Et (-α)% prædiktios iterval for Y X er Hvor s MSE. Et (-α)% kofides iterval for E(Y X) er X s t SS ) ( ) ( ˆ ± α

Prædiktiosbåd Y Prædiktiosbåd for E[Y X] Regressiosliie Prædiktiosbåd for Y X X Prædiktiosbådee fremkommer ved at betragte kofidesitervallets edepukter som fuktio af.

SLR og lieær algebra De simple lieære regressios model siger: Hvor,..., er uafhægige og efordelte ~N(,σ ). Det ka vi skrive som to søjle-vektore! 3 3 3 M M

SLR og lieær algebra Såda! De sidste vektor ka vi skrive som e sum af vektore 3 3 3 M M

SLR og lieær algebra Modelle ka skrives vha. matrier og vektore: Hvor Matrice X kaldes Desig-matrice. X M M M M M M M M 3 3 3 3 3 3 3 M M M M 3 3 3 X

SLR og lieær algebra Regeregel fra lieære algebra: T i i Estimatet for er: b b b ( T ) T X X X