Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Relaterede dokumenter
Forelæsning 11: Kapitel 11: Regressionsanalyse

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kapitel 11 Lineær regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 9: Inferens for andele (kapitel 10)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Kursus 02402/02323 Introducerende Statistik

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Multipel Lineær Regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Modul 6: Regression og kalibrering

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Modul 12: Regression og korrelation

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Opgavebesvarelse, brain weight

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

(studienummer) (underskrift) (bord nr)

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Løsning eksamen d. 15. december 2008

Forelæsning 1: Intro og beskrivende statistik

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Løsninger til kapitel 14

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Løsning til eksamen d.27 Maj 2010

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Modul 11: Simpel lineær regression

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik Lektion 4. Variansanalyse Modelkontrol

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Appendiks Økonometrisk teori... II

Løsning til eksaminen d. 29. maj 2009

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

To samhørende variable

Perspektiver i Matematik-Økonomi: Linær regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Statistik Lektion 16 Multipel Lineær Regression

Forelæsning 8: Inferens for varianser (kap 9)

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Lineære normale modeller (4) udkast

Nanostatistik: Lineær regression

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Forelæsning 11: Envejs variansanalyse, ANOVA

Løsning til eksaminen d. 14. december 2009

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Forelæsning 10: Statistik ved hjælp af simulering

Opgavebesvarelse, brain weight

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Lineær regression i SAS. Lineær regression i SAS p.1/20

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Tema. Dagens tema: Indfør centrale statistiske begreber.

Klasseøvelser dag 2 Opgave 1

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Skriftlig eksamen Science statistik- ST501

Konfidensintervaller og Hypotesetest

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Eksamen i Statistik for biokemikere. Blok

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Transkript:

Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: perbb@dtu.dk 4 5 Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 1 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 2 / 32 Gennemgående eksempel: Højde og vægt Højde og vægt af unge danske mænd Korrelation Korrelation X = Højde Y = Vægt n = 10 Korrelationskoefficienten r angiver den lineære sammenhæng mellem variablerne x og y Korrelationskoefficienten mellem 2 variable x og y estimeres ved r = 1 n 1 (x i x )(y i ȳ) s y Det antages her, at observationerne (x i, y i ) er sammenhørende værdier. Der gælder r [ 1 1] s x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 4 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 6 / 32

Korrelations-beregninger Korrelation Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Y s afhængighed af en forklarende variabel x Vi undersøger en lineær sammenhæng mellem Y og x, dvs. ved en regressionsmodel på formen Y = α + βx + ε Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 7 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 9 / 32 Simpel lineær regressionsmodel Simpel lineær model Y = α + βx }{{} model + ε }{{} residual Y afhængig variabel x uafhængig variabel α skæring med Y-akse β hældning ε residual (tilfældig fejl) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 10 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 11 / 32

200 Scatterplot af x mod Y Antag at vi har observationerne x 1 2 3 4 5 6 7 8 9 10 11 12 y 16 35 45 64 86 96 106 124 134 156 164 182 Er der en sammenhæng mellem x og y? Vi foreslår en model på formen ŷ = a + bx Hvordan beregnes a og b? Y 180 160 140 120 100 80 60 40 20 0 0 2 4 6 8 10 12 x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 13 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 14 / 32 200 Regressionmodel Vi definerer Y 180 160 140 120 100 80 60 40 20 0 0 2 4 6 8 10 12 x = S yy = S xy = (x i x) 2 (y i ȳ) 2 (x i x)(y i ȳ) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 15 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 16 / 32

a og b bestemmes ved b = S xy a = ȳ b x a og b er nu de værdier, der giver den regressionslinie, der minimerer den kvadratiske afstand mellem punkter og linie a er et estimat for α og b er et estimat for β Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 17 / 32 I eksemplet fås = S yy = S xy = (x i x) 2 = 143 (y i ȳ) 2 = 31533 (x i x)(y i ȳ) = 2119 samt x = 6.50 og ȳ = 100.67 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 18 / 32 Estimater for α og β: b = S xy = 2119 143 = 14.82 a = ȳ b x = 100.67 14.82 6.50 = 4.34 Modellen bliver: ŷ = 4.34 + 14.82 x Vi antager at de observerede data (Y i, x i ) kan beskrives ved modellen Y i = α + βx i + ε i hvor det antages at ε i er uafhængige normalfordelte stokastiske variable med middelværdi 0 og konstant varians σ 2 Et estimat af σ 2 bliver s 2 e = S yy (S xy ) 2 / n 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 19 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 21 / 32

Antag at vi vil teste en hypotese om skæring med y-aksen Antag at vi vil teste en hypotese om hældningen β Teststørrelsen bliver t = (a a 0) s e H 0 : α = a 0 H 1 : α a 0 n + n( x) 2 Kritisk værdi findes i t-fordelingen, t α/2 (n 2) Teststørrelsen bliver H 0 : β = b 0 H 1 : β b 0 t = (b b 0) Sxx s e Kritisk værdi findes i t-fordelingen, t α/2 (n 2) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 22 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 23 / 32 Konfidensintervaller for α og β Konfidensinterval for α + βx 0 Konfidensinterval for linien Konfidensinterval for α Konfidensinterval for β a ± t α/2 s e 1 n + ( x)2 b ± t α/2 s e 1 Sxx Konfidensinterval for α + βx 0 svarer til et konfidensinterval for modellen i punktet x 0 1 (a + bx 0 ) ± t α/2 s e n + (x 0 x) 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 24 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 25 / 32

Prædiktionsinterval for α + βx 0 Prædiktionsinterval for linien Korrelation og regression Korrelation og regression Korrelation og regression: Prædiktionsinterval for α + βx 0 svarer til et prædiktionsinterval for modellen i punktet x 0 (a + bx 0 ) ± t α/2 s e 1 + 1 n + (x 0 x) 2 Et prædiktionsinterval bliver altså større end et konfidensinterval for fastholdt α r = Sxx Syy b, r 2 = S yy b 2 Korrelationen r udtrykker graden af lineær sammenhæng. Korrelationen kvadreret r 2 udtrykker "forklaringsgraden": S yy = Variation forklaret af linien +Uforklaret variation ( ) S yy = S2 xy + S yy S2 xy Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 26 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 28 / 32 Inferens for korrelation Korrelation og regression R (R note 10) R (R note 10) Antager både y og x er tilfældige tal (IKKE kun y) r er et estimat for ρ - den underliggende sande lineære sammenhæng mellem y og x. Side 340-341 (7ed: 380-381): Formler for hypotesetest og konfidensinterval for korrelationskoefficienten. ρ = 0 er ensbetydende med β = 0 r = 0 er ensbetydende med b = 0 Hypotesetest om ρ = 0 kan udføres ved at teste β = 0 > fit.evap <- lm(evap ~ velocity) > summary(fit.evap) Call: lm(formula = evap ~ velocity) Residuals: Min 1Q Median 3Q Max -0.201-0.1467 0.05261 0.1232 0.1747 Coefficients: Value Std. Error t value Pr(> t ) (Intercept) 0.0692 0.1010 0.6857 0.5123 velocity 0.0038 0.0004 8.7460 0.0000 Residual standard error: 0.1591 on 8 degrees of freedom Multiple R-Squared: 0.9053 F-statistic: 76.49 on 1 and 8 degrees of freedom, the p-value is 2.286e-05 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 29 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 31 / 32

R (R note 10) Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 4 5 Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 32 / 32