Forelæsning 11: Kapitel 11: Regressionsanalyse

Relaterede dokumenter
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kapitel 11 Lineær regression

1 Regressionsproblemet 2

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Kursus 02402/02323 Introducerende Statistik

Forelæsning 9: Inferens for andele (kapitel 10)

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Modul 6: Regression og kalibrering

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Multipel Lineær Regression

Modul 12: Regression og korrelation

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Opgavebesvarelse, brain weight

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

(studienummer) (underskrift) (bord nr)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Løsning eksamen d. 15. december 2008

Løsning til eksamen d.27 Maj 2010

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

(studienummer) (underskrift) (bord nr)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Modul 11: Simpel lineær regression

Forelæsning 1: Intro og beskrivende statistik

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Løsninger til kapitel 14

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Perspektiver i Matematik-Økonomi: Linær regression

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

To samhørende variable

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik Lektion 4. Variansanalyse Modelkontrol

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Løsning til eksaminen d. 29. maj 2009

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Forelæsning 8: Inferens for varianser (kap 9)

Løsning til eksaminen d. 14. december 2009

Appendiks Økonometrisk teori... II

Statistik Lektion 16 Multipel Lineær Regression

Nanostatistik: Lineær regression

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Opgavebesvarelse, brain weight

Lineære normale modeller (4) udkast

Forelæsning 11: Envejs variansanalyse, ANOVA

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

(studienummer) (underskrift) (bord nr)

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Forelæsning 10: Statistik ved hjælp af simulering

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

(studienummer) (underskrift) (bord nr)

Lineær regression i SAS. Lineær regression i SAS p.1/20

Økonometri: Lektion 6 Emne: Heteroskedasticitet

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Skriftlig eksamen Science statistik- ST501

Statistisk modellering og regressionsanalyse

Tema. Dagens tema: Indfør centrale statistiske begreber.

Transkript:

Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: perbb@dtu.dk Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 1 / 32

Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 2 / 32

Gennemgående eksempel: Højde og vægt Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 3 / 32

Gennemgående eksempel: Højde og vægt Højde og vægt af unge danske mænd X = Højde Y = Vægt n = 10 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 4 / 32

Korrelation Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 5 / 32

Korrelation Korrelation Korrelationskoefficienten r angiver den lineære sammenhæng mellem variablerne x og y Korrelationskoefficienten mellem 2 variable x og y estimeres ved r = 1 n 1 n (x i x )(y i ȳ) s y i=1 Det antages her, at observationerne (x i, y i ) er sammenhørende værdier. Der gælder r [ 1 1] s x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 6 / 32

Korrelation Korrelations-beregninger Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 7 / 32

Regressionsanalyse (kap 11) Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 8 / 32

Regressionsanalyse (kap 11) Regressionsanalyse (kap 11) Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Y s afhængighed af en forklarende variabel x Vi undersøger en lineær sammenhæng mellem Y og x, dvs. ved en regressionsmodel på formen Y = α + βx + ε Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 9 / 32

Regressionsanalyse (kap 11) Simpel lineær regressionsmodel Y afhængig variabel x uafhængig variabel Y = α + βx }{{} model α skæring med Y-akse β hældning ε residual (tilfældig fejl) + ε }{{} residual Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 10 / 32

Regressionsanalyse (kap 11) Simpel lineær model * * * * * * * * * Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 11 / 32

Mindste kvadraters metode Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 12 / 32

Mindste kvadraters metode Mindste kvadraters metode Antag at vi har observationerne x 1 2 3 4 5 6 7 8 9 10 11 12 y 16 35 45 64 86 96 106 124 134 156 164 182 Er der en sammenhæng mellem x og y? Vi foreslår en model på formen ŷ = a + bx Hvordan beregnes a og b? Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 13 / 32

Mindste kvadraters metode Mindste kvadraters metode 200 Scatterplot af x mod Y 180 160 140 120 Y 100 80 60 40 20 0 0 2 4 6 8 10 12 x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 14 / 32

Mindste kvadraters metode Mindste kvadraters metode 200 Regressionmodel 180 160 140 120 Y 100 80 60 40 20 0 0 2 4 6 8 10 12 x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 15 / 32

Mindste kvadraters metode Mindste kvadraters metode Vi definerer S xx = S yy = S xy = n (x i x) 2 i=1 n (y i ȳ) 2 i=1 n (x i x)(y i ȳ) i=1 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 16 / 32

Mindste kvadraters metode Mindste kvadraters metode a og b bestemmes ved b = S xy S xx a = ȳ b x a og b er nu de værdier, der giver den regressionslinie, der minimerer den kvadratiske afstand mellem punkter og linie a er et estimat for α og b er et estimat for β Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 17 / 32

Mindste kvadraters metode Mindste kvadraters metode I eksemplet fås S xx = S yy = S xy = n (x i x) 2 = 143 i=1 n (y i ȳ) 2 = 31533 i=1 n (x i x)(y i ȳ) = 2119 i=1 samt x = 6.50 og ȳ = 100.67 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 18 / 32

Mindste kvadraters metode Mindste kvadraters metode Estimater for α og β: b = S xy S xx = 2119 143 = 14.82 a = ȳ b x = 100.67 14.82 6.50 = 4.34 Modellen bliver: ŷ = 4.34 + 14.82 x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 19 / 32

Inferens i regressionsmodel Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 20 / 32

Inferens i regressionsmodel Inferens i regressionsmodel Vi antager at de observerede data (Y i, x i ) kan beskrives ved modellen Y i = α + βx i + ε i hvor det antages at ε i er uafhængige normalfordelte stokastiske variable med middelværdi 0 og konstant varians σ 2 Et estimat af σ 2 bliver s 2 e = S yy (S xy ) 2 /S xx n 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 21 / 32

Inferens i regressionsmodel Inferens for afskæring og hældning Inferens i regressionsmodel Antag at vi vil teste en hypotese om skæring med y-aksen Teststørrelsen bliver t = (a a 0) s e H 0 : α = a 0 H 1 : α a 0 ns xx S xx + n( x) 2 Kritisk værdi findes i t-fordelingen, t α/2 (n 2) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 22 / 32

Inferens i regressionsmodel Inferens for afskæring og hældning Inferens i regressionsmodel Antag at vi vil teste en hypotese om hældningen β Teststørrelsen bliver H 0 : β = b 0 H 1 : β b 0 t = (b b 0) Sxx s e Kritisk værdi findes i t-fordelingen, t α/2 (n 2) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 23 / 32

Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensintervaller for α og β Konfidensinterval for α Konfidensinterval for β a ± t α/2 s e 1 n + ( x)2 S xx b ± t α/2 s e 1 Sxx Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 24 / 32

Inferens i regressionsmodel Konfidensinterval for linien Konfidensinterval for α + βx 0 Konfidensinterval for α + βx 0 svarer til et konfidensinterval for modellen i punktet x 0 1 (a + bx 0 ) ± t α/2 s e n + (x 0 x) 2 S xx Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 25 / 32

Inferens i regressionsmodel Prædiktionsinterval for linien Prædiktionsinterval for α + βx 0 Prædiktionsinterval for α + βx 0 svarer til et prædiktionsinterval for modellen i punktet x 0 (a + bx 0 ) ± t α/2 s e 1 + 1 n + (x 0 x) 2 S xx Et prædiktionsinterval bliver altså større end et konfidensinterval for fastholdt α Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 26 / 32

Korrelation og regression Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 27 / 32

Korrelation og regression Korrelation og regression Korrelation og regression: Sxx r = b, Syy r 2 = S xx S yy b 2 Korrelationen r udtrykker graden af lineær sammenhæng. Korrelationen kvadreret r 2 udtrykker "forklaringsgraden": S yy = Variation forklaret af linien +Uforklaret variation ( ) S yy = S2 xy S xx + S yy S2 xy S xx Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 28 / 32

Korrelation og regression Inferens for korrelation Antager både y og x er tilfældige tal (IKKE kun y) r er et estimat for ρ - den underliggende sande lineære sammenhæng mellem y og x. Side 340-341 (7ed: 380-381): Formler for hypotesetest og konfidensinterval for korrelationskoefficienten. ρ = 0 er ensbetydende med β = 0 r = 0 er ensbetydende med b = 0 Hypotesetest om ρ = 0 kan udføres ved at teste β = 0 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 29 / 32

R (R note 10) Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 30 / 32

R (R note 10) R (R note 10) > fit.evap <- lm(evap ~ velocity) > summary(fit.evap) Call: lm(formula = evap ~ velocity) Residuals: Min 1Q Median 3Q Max -0.201-0.1467 0.05261 0.1232 0.1747 Coefficients: Value Std. Error t value Pr(> t ) (Intercept) 0.0692 0.1010 0.6857 0.5123 velocity 0.0038 0.0004 8.7460 0.0000 Residual standard error: 0.1591 on 8 degrees of freedom Multiple R-Squared: 0.9053 F-statistic: 76.49 on 1 and 8 degrees of freedom, the p-value is 2.286e-05 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 31 / 32

R (R note 10) Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 32 / 32