enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Transkript

1 enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med simpel lineær regressionsmodel Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark Efterår 2016 ρ, R og R 2 Statistisk model: Y i = β 0 + β 1 i + ε i Estimation, konfidensintervaller og tests for β 0 og β 1 Konfidensinterval for linjen (95% sikkerhed for den rigtige linje ligger indenfor) Prædiktionsinterval for punkter (95% sikkerhed for at ne punkter ligger indenfor) ρ er korrelationen (= sign β1 R) er graden af lineær sammenhæng mellem og R 2 er andelen af den totale variation som er forklaret af modellen Afvises H 0 : β 1 = 0 så afvises også H 0 : ρ = 0 DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 enote 5: Simple linear Regression Analsis Oversigt Two quantitative variables: and Calculating the least squares line Inferences for a simple linear regression model Statistical model: i = β 0 + β 1 i + ε i Estimation, confidence intervals and tests for β 0 and β 1. ρ, R and R 2 Confidence interval for the line (95% certaint that the real line will be inside) Prediction interval for punkter (95% certaint that new points will be inside) ρ is the correlation (= sign β1 R) is the strength of linear relation between and R 2 is the fraction of the total variation eplained b the model If H 0 : β 1 = 0 is rejected, then H 0 : ρ = 0 is also rejected 1 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) 4 Statistik og lineær regression 5 Hpotesetests og konfidensintervaller for ˆβ 0 og ˆβ 1 6 Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Prædiktionsinterval 7 summar(lm()) wrap up 8 Korrelation 9 Residual Analsis: Model kontrol DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

2 Heights ( i) Weights ( i) Heights ( i) Weights ( i) Weight Weight Height Height DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Heights ( i) Weights ( i) Heights ( i) Weights ( i) Call: lm(formula = ~ ) Residuals: Min 1Q Median 3Q Ma Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** e-06 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.9 on 8 degrees of freedom Multiple R-squared: 0.932,Adjusted R-squared: F-statistic: 110 on 1 and 8 DF, p-value: 5.87e-06 Weight Height DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

3 Lineær regressionsmodel Et scatter plot af nogle punkter. Hvilken model? Lineær regressionsmodel Kommer de fra en almindelig lineær model? Datapunkter ( i, i ) Opstil en lineær model: i = β 0 + β 1 i Data punkter Linear model men den der mangler noget til at beskrive den tilfældige variation! DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Lineær regressionsmodel De kommer fra en lineær regressionsmodel Lineær regressionsmodel Opstil en lineær regressionsmodel Opstil en lineær regressionsmodel: Y i = β 0 + β 1 i + ε i hvor ε i N(0,σ 2 ) σ Data punkter Lineaer model Normal fordeling Opstil den lineære regressionsmodel Y i = β 0 + β 1 i + ε i Y i er den afhængige variabel (dependent variable). En stokastisk variabel i er en forklarende variabel (eplanator variable) ε i (epsilon) er afvigelsen (deviation). En stokastisk variabel og vi antager ε i er independent and identicall distributed (i.i.d.) og N(0,σ 2 ) Den tilfældige variation er beskrevet med en normalfordeling om linien DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

4 Mindste kvadraters metode (least squares) Mindste kvadraters metode Mindste kvadraters metode (least squares) Illustration af model, data og fit Hvis vi kun har datapunkterne, hvordan kan vi estimere parametrene β 0 og β 1? God ide: Minimer variansen σ 2 på afvigelsen. Det er på næsten alle måder det bedste valg i dette setup. But how!? Minimer summen af de kvadrerede afvigelser (Residual Sum of Squares (RSS)) RSS(β 0,β 1 ) = n εi 2 i=1 Dvs. estimaterne ˆβ 0 og ˆβ 1 er dem som minimerer RSS ˆε i = e i σ β 0 + β 1 ˆβ 0 + ˆβ 1 Data punkter Lineaer model Estimeret linie ˆε i eller e i: Residual DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Mindste kvadraters metode (least squares) Spørgsmål om beregning af residual (socrative.com-room:pbac) Mindste kvadraters metode (least squares) Spørgsmål om beregning af RSS (socrative.com-room:pbac) Udregning af residual for punkt i: i = ˆβ 0 + ˆβ 1 i + e i = ŷ i + e i e i = i ŷ i 1 ŷ e 2 1 = 0.57 linear fit Beregn: Residual Sum of Squares (RSS) Fire punkter, så n= e 2 3 = e 2 2 = 0.32 e 2 4 = 0.32 e 2 1 = Data punkter Estimeret linie Hvad er e 1 her? A: ca B: ca C: ca. 1.3 D: Ved ikke Svar A: ca Hvad er RSS = n i=1 e2 i her? A: ca B: ca C: ca. 3.4 D: Ved ikke Svar A: RSS = = 0.67 DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

5 Mindste kvadraters metode (least squares) Least squares estimator minimerer RSS Mindste kvadraters metode (least squares) Least squares estimater minimerer RSS Theorem 5.4 (her for estimatorer som i enoten) The least squares estimators of β 0 and β 1 are given b where S = n i=1 ( i ) 2. ˆβ 1 = n i=1 (Y i Ȳ)( i ) S ˆβ 0 = Ȳ ˆβ 1 Theorem 5.4 (her for estimater) The least squares estimatates of β 0 and β 1 are given b where S = n i=1 ( i ) 2. ˆβ 1 = n i=1 ( i ȳ)( i ) S ˆβ 0 = ȳ ˆβ 1 Vi går ikke dbere ind forskellen mellem estimatorer og estimater her i kurset DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 R eksempel Mindste kvadraters metode (least squares) Statistik og lineær regression Parameter estimaterne er stokastiske variabler Simuler en lineær model med normalfordelt afvigelse og estimer parametrene FØRST LAV DATA: Generer n værdier af input som uniform fordelt <- runif(n=20, min=-2, ma=4) Simuler lineær regressionsmodel beta0=50; beta1=200; sigma=90 <- beta0 + beta1 * + rnorm(n=length(), mean=0, sd=sigma) HERFRA ligesom virkeligheden, vi har dataen i og : Et scatter plot af og plot(, ) Udregn least squares estimaterne, brug Theorem 5.4 (beta1hat <- sum( (-mean())*(-mean()) ) / sum( (-mean())^2 )) (beta0hat <- mean() - beta1hat*mean()) Brug lm() til at udregne estimaterne lm( ~ ) Hvis vi tog en n stikprøve ville estimaterne ˆβ 0 og ˆβ 1 have samme udfald? Nej, de er stokastiske variabler. Tog vi en n stikprøve så ville vi have en anden realisation af dem. Hvordan er parameter estimaterne i en lineær regressionsmodel fordelt (givet normalfordelte afvigelser)? Prøv lige at simulere for at se på det... Plot den estimerede linie abline(lm( ~ ), col="red") DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

6 Statistik og lineær regression Statistik og lineær regression Estimater af standardafvigelserne på ˆβ 0 og ˆβ 1 Hvordan er parameter estimaterne i en lineær regressionsmodel fordelt (givet normalfordelte afvigelser)? De er normalfordelte og deres varians kan estimeres: Theorem 5.7 (første del) V[ ˆβ 0 ] = σ 2 n + 2 σ 2 S V[ ˆβ 1 ] = σ 2 S Cov[ ˆβ 0, ˆβ 1 ] = σ 2 Kovariansen Cov[ ˆβ 0, ˆβ 1 ] (covariance) gør vi ikke mere ud af her. S Theorem 5.7 (anden del) Where σ 2 is usuall replaced b its estimate ( ˆσ 2 ). The central estimator for σ 2 is ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2. When the estimate of σ 2 is used the variances also become estimates and we ll refer to them as ˆσ 2 β 0 and ˆσ 2 β 1. Estimat af standardafvigelserne for ˆβ 0 og ˆβ 1 (ligningerne (5-73)) ˆσ β0 = ˆσ 1 n + 2 S ; 1 ˆσ β1 = ˆσ n i=1 ( i ) 2 DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Statistik og lineær regression Spørgsmål: Om fejlenes spredning σ (socrative.com-room:pbac) Statistik og lineær regression Spørgsmål: Om fejlenes spredning σ (socrative.com-room:pbac) A linear fit B linear fit A linear fit B linear fit For hvilken er residual variansen ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2 størst? A: For fit i plot A B: For fit i plot B C: Lige stor for begge D: Ved ikke Svar A: For fit i plot A er ˆσ ca. 100 og for fit i plot B ca. 20 For hvilken er residual variansen ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2 størst? A: For fit i plot A B: For fit i plot B C: Lige stor for begge D: Ved ikke Svar C: Lige stor for begge, omkring 200 DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

7 Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Hpotesetests for parameter parametrene Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Eksempel: Hpotesetest for parametrene Vi kan altså udføre hpotesetests for parameter estimater i en lineær regressionsmodel: Vi bruger de t-fordelte statistikker: Theorem 5.11 H 0,i : β i = β 0,i H 1,i : β i β 1,i Under the null-hpothesis (β 0 = β 0,0 and β 1 = β 0,1 ) the statistics T β0 = ˆβ 0 β 0,0 ˆσ β0 ; T β1 = ˆβ 1 β 0,1 ˆσ β1, are t-distributed with n 2 degrees of freedom, and inference should be based on this distribution. Se Eksempel 5.12 for eksempel på hpotesetest Test om parametrene er signifikant forskellige fra 0 Se resultatet med simulering i R Hpotesetests for signifikante parametre H 0,i : β i = 0 H 1,i : β i 0 Generer <- runif(n=20, min=-2, ma=4) Simuler Y beta0=50; beta1=200; sigma=90 <- beta0 + beta1 * + rnorm(n=length(), mean=0, sd=sigma) Brug lm() til at udregne estimaterne fit <- lm( ~ ) Se summar, deri står hvad vi har brug for summar(fit) DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Konfidensintervaller for parametrene Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Simuleringseksempel: Konfidensintervaller for parametrene Lav konfidensintervaller for parametrene Method 5.14 (1 α) confidence intervals for β 0 and β 1 are given b ˆβ 0 ± t 1 α/2 ˆσ β0 ˆβ 1 ± t 1 α/2 ˆσ β1 where t 1 α/2 is the (1 α/2)-quantile of a t-distribution with n 2 degrees of freedom. husk at ˆσ β0 og ˆσ β1 findes ved ligningerne (5-74) i R kan ˆσ β0 og ˆσ β1 aflæses ved Std. Error ved summar(fit) Antal gentagelser nrepeat <- 100 Fangede vi den rigtige parameter TrueValInCI <- logical(nrepeat) Gentag simuleringen og estimeringen nrepeat gange for(i in 1:nRepeat){ Generer <- runif(n=20, min=-2, ma=4) Simuler beta0=50; beta1=200; sigma=90 <- beta0 + beta1 * + rnorm(n=length(), mean=0, sd=sigma) Brug lm() til at udregne estimaterne fit <- lm( ~ ) Heldigvis kan R beregne konfidensintervallet (level=1-alpha) (ci <- confint(fit, "(Intercept)", level=0.95)) Var den rigtige parameterværdi "fanget" af intervallet? (TrueValInCI[i] <- ci[1] < beta0 & beta0 < ci[2]) } Hvor ofte blev den rigtige værdi "fanget"? sum(truevalinci) / nrepeat DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

8 Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Spørgsmål: Om fordelingen af ˆβ 1 (socrative.com-room:pbac) Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Spørgsmål: Om fordelingen af ˆβ 1 β 0,1 ˆσ β1 (socrative.com-room:pbac) Simuleret data med linear model n = linear model pdf pdf pdf A B C Simuleret data med linear model n = linear model pdf pdf pdf A B C Hvilket plot repræsenterer fordelingen af ˆβ 1? A: Plot A B: Plot B C: Plot C D: Ved ikke Svar A: β 1 er negativ (β 1 = 25) og fordelingen af ˆβ 1 er centreret i β 1 Hvilket plot repræsenterer fordelingen af ˆβ 1 β 0,1 ˆσ β1 under H 0 : β 0,1 = 25? A: Plot A B: Plot B C: Plot C D: Ved ikke ˆβ Svar C: 1 β 0,1 ˆσ følger under H 0 en t-fordeling, dvs. centreret i 0 β1 DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Konfidensinterval og prædiktionsinterval Prædiktionsinterval Method 5.17: Konfidensinterval for β 0 + β 1 0 Method 5.17: Prædiktionsinterval for β 0 + β ε 0 Konfidensinterval for β 0 + β 1 0 svarer til et konfidensinterval for linien i punktet 0 Beregnes med ( β ˆ 0 + β ˆ ) ± t α/2 ˆσ n + ( 0 ) 2 S Der er 100(1 α)% sandsnlighed for at den rigtige linie, altså β 0 + β 1 0, er inde i konfidensintervallet Prædiktionsintervallet (prediction interval) for Y 0 beregnes for en n værdi af i, her kaldt 0 Dette gøres før Y 0 observeres ved ( β ˆ 0 + ˆβ 1 0 ) ± t α/2 ˆσ n + ( 0 ) 2 S Der er 100(1 α)% sandsnlighed for at den observerede 0 vil falde inde i prædiktionsintervallet Et prædiktionsinterval bliver altid større end et konfidensinterval for fastholdt α DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

9 Konfidensinterval og prædiktionsinterval Prædiktionsinterval Eksempel med konfidensinterval for linien Konfidensinterval og prædiktionsinterval Prædiktionsinterval Eksempel med prædiktionsinterval Eksempel med konfidensinterval for linien Lav en sekvens af værdier val <- seq(from=-2, to=6, length.out=100) Brug predict funktionen CI <- predict(fit, newdata=data.frame(=val), interval="confidence", level=.95) Se lige hvad der kom head(ci) Plot data, model og intervaller plot(,, pch=20) abline(fit) lines(val, CI[, "lwr"], lt=2, col="red", lwd=2) lines(val, CI[, "upr"], lt=2, col="red", lwd=2) Eksempel med prædiktionsinterval Lav en sekvens a værdier val <- seq(from=-2, to=6, length.out=100) Beregn interval for hvert PI <- predict(fit, newdata=data.frame(=val), interval="prediction", level=.95) Se lige hvad der kom tilbage head(pi) Plot data, model og intervaller plot(,, pch=20) abline(fit) lines(val, PI[, "lwr"], lt=2, col="blue", lwd=2) lines(val, PI[, "upr"], lt=2, col="blue", lwd=2) DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 summar(lm()) wrap up Hvad bliver mere skrevet ud af summar? summar(lm()) wrap up summar(lm( )) wrap up Call: lm(formula = ~ ) Residuals: Min 1Q Median 3Q Ma Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-11 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 100 on 18 degrees of freedom Multiple R-squared: 0.923,Adjusted R-squared: F-statistic: 216 on 1 and 18 DF, p-value: 1.8e-11 Residuals: Min 1Q Median 3Q Ma: Residualernes: Minimum, 1. kvartil, Median, 3. kvartil, Maimum Coefficients: Estimate Std. Error t value Pr(> t ) "stjerner" Koefficienternes: Estimat ˆσ βi t obs p-værdi Testen er H 0,i : β i = 0 vs. H 1,i : β i 0 Stjernerne er sat efter p-værdien Residual standard error: XXX on XXX degrees of freedom ε i N(0,σ 2 ): Udskrevet er ˆσ og ν frihedsgrader (brug til hpotesetesten) Multiple R-squared: Forklaret varians r 2 XXX Resten bruger vi ikke i det her kursus DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

10 Korrelation Forklaret varians og korrelation Korrelation Forklaret varians og korrelation Forklaret varians af en model er r 2, i summar Multiple R-squared Beregnes med hvor ŷ i = ˆβ 0 + ˆβ 1 i r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 Andel af den totale varians i data ( i ) der er forklaret med modellen Korrelationen ρ er et mål for lineær sammenhæng mellem to stokastiske variable Estimeret (i.e. empirisk) korrelation ˆρ = r = r 2 sgn( ˆβ 1 ) hvor sgn( ˆβ 1 ) er: 1 for ˆβ 1 0 og 1 for ˆβ 1 > 0 Altså: Positiv korrelation ved positiv hældning Negativ korrelation ved negativ hældning DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 = = = 0.89 r = r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 = = = 0.26 r = Hvad er korrelationen mellem og? A: ca B: ca. 0 C: ca Svar) C: ca Hvad er korrelationen mellem og? A: ca B: ca. 0 C: ca. 0.5 Svar) A: ca DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

11 Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 = = 1 1 = 0 r = r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 = = 1 1 = r = Hvad er korrelationen mellem og? A: ca B: ca. 0 C: ca. 0.5 Svar) B: ca. 0 Hvad er korrelationen mellem og? A: ca B: ca. 0 C: ca. 0.5 Svar) B: ca. 0 DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Korrelation Test for signifikant korrelation Korrelation Simuleringseksempel om korrelation Korrelation Test for signifikant korrelation (lineær sammenhæng) mellem to variable H 0 : ρ = 0 H 1 : ρ 0 er ækvivalent med H 0 : β 1 = 0 H 1 : β 1 0 hvor ˆβ 1 er estimatet af hældningen i simpel lineær regressionsmodel Generer <- runif(n=20, min=-2, ma=4) Simuler beta0=50; beta1=200; sigma=90 <- beta0 + beta1 * + rnorm(n=length(), mean=0, sd=sigma) Scatter plot plot(,) Brug lm() til at udregne estimaterne fit <- lm( ~ ) Den rigtige linie abline(beta0, beta1) Plot fittet abline(fit, col="red") Se summar, deri står hvad vi har brug for summar(fit) Korrelation mellem og cor(,) Kvadreret er den "Multiple R-squared" fra summar(fit) cor(,)^2 DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56

12 Residual Analsis Residual Analsis: Model kontrol Residual Analsis in R Residual Analsis: Model kontrol fit <- lm( ~ ) par(mfrow = c(1, 2)) qqnorm(fit$residuals) qqline(fit$residuals) plot(fit$fitted, fit$residuals, lab='fitted values', lab='residuals') Method 5.26 Normal Q-Q Plot Check normalit assumption with qq-plot. Check (non)sstematic behavior b plotting the residuals e i as a function of fitted values ŷ i Sample Quantiles Residuals Theoretical Quantiles Fitted values DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Outline Outline 1 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) 4 Statistik og lineær regression 5 Hpotesetests og konfidensintervaller for ˆβ 0 og ˆβ 1 6 Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Prædiktionsinterval 7 summar(lm()) wrap up 8 Korrelation 9 Residual Analsis: Model kontrol DTU Compute Introduktion til Statistik Efterår / 56