Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: perbb@dtu.dk Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 1 / 32
Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 2 / 32
Gennemgående eksempel: Højde og vægt Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 3 / 32
Gennemgående eksempel: Højde og vægt Højde og vægt af unge danske mænd X = Højde Y = Vægt n = 10 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 4 / 32
Korrelation Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 5 / 32
Korrelation Korrelation Korrelationskoefficienten r angiver den lineære sammenhæng mellem variablerne x og y Korrelationskoefficienten mellem 2 variable x og y estimeres ved r = 1 n 1 n (x i x )(y i ȳ) s y i=1 Det antages her, at observationerne (x i, y i ) er sammenhørende værdier. Der gælder r [ 1 1] s x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 6 / 32
Korrelation Korrelations-beregninger Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 7 / 32
Regressionsanalyse (kap 11) Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 8 / 32
Regressionsanalyse (kap 11) Regressionsanalyse (kap 11) Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Y s afhængighed af en forklarende variabel x Vi undersøger en lineær sammenhæng mellem Y og x, dvs. ved en regressionsmodel på formen Y = α + βx + ε Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 9 / 32
Regressionsanalyse (kap 11) Simpel lineær regressionsmodel Y afhængig variabel x uafhængig variabel Y = α + βx }{{} model α skæring med Y-akse β hældning ε residual (tilfældig fejl) + ε }{{} residual Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 10 / 32
Regressionsanalyse (kap 11) Simpel lineær model * * * * * * * * * Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 11 / 32
Mindste kvadraters metode Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 12 / 32
Mindste kvadraters metode Mindste kvadraters metode Antag at vi har observationerne x 1 2 3 4 5 6 7 8 9 10 11 12 y 16 35 45 64 86 96 106 124 134 156 164 182 Er der en sammenhæng mellem x og y? Vi foreslår en model på formen ŷ = a + bx Hvordan beregnes a og b? Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 13 / 32
Mindste kvadraters metode Mindste kvadraters metode 200 Scatterplot af x mod Y 180 160 140 120 Y 100 80 60 40 20 0 0 2 4 6 8 10 12 x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 14 / 32
Mindste kvadraters metode Mindste kvadraters metode 200 Regressionmodel 180 160 140 120 Y 100 80 60 40 20 0 0 2 4 6 8 10 12 x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 15 / 32
Mindste kvadraters metode Mindste kvadraters metode Vi definerer S xx = S yy = S xy = n (x i x) 2 i=1 n (y i ȳ) 2 i=1 n (x i x)(y i ȳ) i=1 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 16 / 32
Mindste kvadraters metode Mindste kvadraters metode a og b bestemmes ved b = S xy S xx a = ȳ b x a og b er nu de værdier, der giver den regressionslinie, der minimerer den kvadratiske afstand mellem punkter og linie a er et estimat for α og b er et estimat for β Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 17 / 32
Mindste kvadraters metode Mindste kvadraters metode I eksemplet fås S xx = S yy = S xy = n (x i x) 2 = 143 i=1 n (y i ȳ) 2 = 31533 i=1 n (x i x)(y i ȳ) = 2119 i=1 samt x = 6.50 og ȳ = 100.67 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 18 / 32
Mindste kvadraters metode Mindste kvadraters metode Estimater for α og β: b = S xy S xx = 2119 143 = 14.82 a = ȳ b x = 100.67 14.82 6.50 = 4.34 Modellen bliver: ŷ = 4.34 + 14.82 x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 19 / 32
Inferens i regressionsmodel Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 20 / 32
Inferens i regressionsmodel Inferens i regressionsmodel Vi antager at de observerede data (Y i, x i ) kan beskrives ved modellen Y i = α + βx i + ε i hvor det antages at ε i er uafhængige normalfordelte stokastiske variable med middelværdi 0 og konstant varians σ 2 Et estimat af σ 2 bliver s 2 e = S yy (S xy ) 2 /S xx n 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 21 / 32
Inferens i regressionsmodel Inferens for afskæring og hældning Inferens i regressionsmodel Antag at vi vil teste en hypotese om skæring med y-aksen Teststørrelsen bliver t = (a a 0) s e H 0 : α = a 0 H 1 : α a 0 ns xx S xx + n( x) 2 Kritisk værdi findes i t-fordelingen, t α/2 (n 2) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 22 / 32
Inferens i regressionsmodel Inferens for afskæring og hældning Inferens i regressionsmodel Antag at vi vil teste en hypotese om hældningen β Teststørrelsen bliver H 0 : β = b 0 H 1 : β b 0 t = (b b 0) Sxx s e Kritisk værdi findes i t-fordelingen, t α/2 (n 2) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 23 / 32
Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensintervaller for α og β Konfidensinterval for α Konfidensinterval for β a ± t α/2 s e 1 n + ( x)2 S xx b ± t α/2 s e 1 Sxx Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 24 / 32
Inferens i regressionsmodel Konfidensinterval for linien Konfidensinterval for α + βx 0 Konfidensinterval for α + βx 0 svarer til et konfidensinterval for modellen i punktet x 0 1 (a + bx 0 ) ± t α/2 s e n + (x 0 x) 2 S xx Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 25 / 32
Inferens i regressionsmodel Prædiktionsinterval for linien Prædiktionsinterval for α + βx 0 Prædiktionsinterval for α + βx 0 svarer til et prædiktionsinterval for modellen i punktet x 0 (a + bx 0 ) ± t α/2 s e 1 + 1 n + (x 0 x) 2 S xx Et prædiktionsinterval bliver altså større end et konfidensinterval for fastholdt α Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 26 / 32
Korrelation og regression Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 27 / 32
Korrelation og regression Korrelation og regression Korrelation og regression: Sxx r = b, Syy r 2 = S xx S yy b 2 Korrelationen r udtrykker graden af lineær sammenhæng. Korrelationen kvadreret r 2 udtrykker "forklaringsgraden": S yy = Variation forklaret af linien +Uforklaret variation ( ) S yy = S2 xy S xx + S yy S2 xy S xx Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 28 / 32
Korrelation og regression Inferens for korrelation Antager både y og x er tilfældige tal (IKKE kun y) r er et estimat for ρ - den underliggende sande lineære sammenhæng mellem y og x. Side 340-341 (7ed: 380-381): Formler for hypotesetest og konfidensinterval for korrelationskoefficienten. ρ = 0 er ensbetydende med β = 0 r = 0 er ensbetydende med b = 0 Hypotesetest om ρ = 0 kan udføres ved at teste β = 0 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 29 / 32
R (R note 10) Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 30 / 32
R (R note 10) R (R note 10) > fit.evap <- lm(evap ~ velocity) > summary(fit.evap) Call: lm(formula = evap ~ velocity) Residuals: Min 1Q Median 3Q Max -0.201-0.1467 0.05261 0.1232 0.1747 Coefficients: Value Std. Error t value Pr(> t ) (Intercept) 0.0692 0.1010 0.6857 0.5123 velocity 0.0038 0.0004 8.7460 0.0000 Residual standard error: 0.1591 on 8 degrees of freedom Multiple R-Squared: 0.9053 F-statistic: 76.49 on 1 and 8 degrees of freedom, the p-value is 2.286e-05 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 31 / 32
R (R note 10) Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode 5 Inferens i regressionsmodel Inferens for afskæring og hældning Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 32 / 32