Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: perbb@dtu.dk 4 5 Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 1 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 2 / 32 Gennemgående eksempel: Højde og vægt Højde og vægt af unge danske mænd Korrelation Korrelation X = Højde Y = Vægt n = 10 Korrelationskoefficienten r angiver den lineære sammenhæng mellem variablerne x og y Korrelationskoefficienten mellem 2 variable x og y estimeres ved r = 1 n 1 (x i x )(y i ȳ) s y Det antages her, at observationerne (x i, y i ) er sammenhørende værdier. Der gælder r [ 1 1] s x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 4 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 6 / 32
Korrelations-beregninger Korrelation Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Y s afhængighed af en forklarende variabel x Vi undersøger en lineær sammenhæng mellem Y og x, dvs. ved en regressionsmodel på formen Y = α + βx + ε Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 7 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 9 / 32 Simpel lineær regressionsmodel Simpel lineær model Y = α + βx }{{} model + ε }{{} residual Y afhængig variabel x uafhængig variabel α skæring med Y-akse β hældning ε residual (tilfældig fejl) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 10 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 11 / 32
200 Scatterplot af x mod Y Antag at vi har observationerne x 1 2 3 4 5 6 7 8 9 10 11 12 y 16 35 45 64 86 96 106 124 134 156 164 182 Er der en sammenhæng mellem x og y? Vi foreslår en model på formen ŷ = a + bx Hvordan beregnes a og b? Y 180 160 140 120 100 80 60 40 20 0 0 2 4 6 8 10 12 x Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 13 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 14 / 32 200 Regressionmodel Vi definerer Y 180 160 140 120 100 80 60 40 20 0 0 2 4 6 8 10 12 x = S yy = S xy = (x i x) 2 (y i ȳ) 2 (x i x)(y i ȳ) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 15 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 16 / 32
a og b bestemmes ved b = S xy a = ȳ b x a og b er nu de værdier, der giver den regressionslinie, der minimerer den kvadratiske afstand mellem punkter og linie a er et estimat for α og b er et estimat for β Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 17 / 32 I eksemplet fås = S yy = S xy = (x i x) 2 = 143 (y i ȳ) 2 = 31533 (x i x)(y i ȳ) = 2119 samt x = 6.50 og ȳ = 100.67 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 18 / 32 Estimater for α og β: b = S xy = 2119 143 = 14.82 a = ȳ b x = 100.67 14.82 6.50 = 4.34 Modellen bliver: ŷ = 4.34 + 14.82 x Vi antager at de observerede data (Y i, x i ) kan beskrives ved modellen Y i = α + βx i + ε i hvor det antages at ε i er uafhængige normalfordelte stokastiske variable med middelværdi 0 og konstant varians σ 2 Et estimat af σ 2 bliver s 2 e = S yy (S xy ) 2 / n 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 19 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 21 / 32
Antag at vi vil teste en hypotese om skæring med y-aksen Antag at vi vil teste en hypotese om hældningen β Teststørrelsen bliver t = (a a 0) s e H 0 : α = a 0 H 1 : α a 0 n + n( x) 2 Kritisk værdi findes i t-fordelingen, t α/2 (n 2) Teststørrelsen bliver H 0 : β = b 0 H 1 : β b 0 t = (b b 0) Sxx s e Kritisk værdi findes i t-fordelingen, t α/2 (n 2) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 22 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 23 / 32 Konfidensintervaller for α og β Konfidensinterval for α + βx 0 Konfidensinterval for linien Konfidensinterval for α Konfidensinterval for β a ± t α/2 s e 1 n + ( x)2 b ± t α/2 s e 1 Sxx Konfidensinterval for α + βx 0 svarer til et konfidensinterval for modellen i punktet x 0 1 (a + bx 0 ) ± t α/2 s e n + (x 0 x) 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 24 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 25 / 32
Prædiktionsinterval for α + βx 0 Prædiktionsinterval for linien Korrelation og regression Korrelation og regression Korrelation og regression: Prædiktionsinterval for α + βx 0 svarer til et prædiktionsinterval for modellen i punktet x 0 (a + bx 0 ) ± t α/2 s e 1 + 1 n + (x 0 x) 2 Et prædiktionsinterval bliver altså større end et konfidensinterval for fastholdt α r = Sxx Syy b, r 2 = S yy b 2 Korrelationen r udtrykker graden af lineær sammenhæng. Korrelationen kvadreret r 2 udtrykker "forklaringsgraden": S yy = Variation forklaret af linien +Uforklaret variation ( ) S yy = S2 xy + S yy S2 xy Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 26 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 28 / 32 Inferens for korrelation Korrelation og regression R (R note 10) R (R note 10) Antager både y og x er tilfældige tal (IKKE kun y) r er et estimat for ρ - den underliggende sande lineære sammenhæng mellem y og x. Side 340-341 (7ed: 380-381): Formler for hypotesetest og konfidensinterval for korrelationskoefficienten. ρ = 0 er ensbetydende med β = 0 r = 0 er ensbetydende med b = 0 Hypotesetest om ρ = 0 kan udføres ved at teste β = 0 > fit.evap <- lm(evap ~ velocity) > summary(fit.evap) Call: lm(formula = evap ~ velocity) Residuals: Min 1Q Median 3Q Max -0.201-0.1467 0.05261 0.1232 0.1747 Coefficients: Value Std. Error t value Pr(> t ) (Intercept) 0.0692 0.1010 0.6857 0.5123 velocity 0.0038 0.0004 8.7460 0.0000 Residual standard error: 0.1591 on 8 degrees of freedom Multiple R-Squared: 0.9053 F-statistic: 76.49 on 1 and 8 degrees of freedom, the p-value is 2.286e-05 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 29 / 32 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 31 / 32
R (R note 10) Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 4 5 Konfidensinterval for linien Prædiktionsinterval for linien 6 Korrelation og regression 7 R (R note 10) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 11 Foråret 2014 32 / 32