enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Relaterede dokumenter
Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Kursus 02402/02323 Introducerende Statistik

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Forelæsning 11: Envejs variansanalyse, ANOVA

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Anvendt Statistik Lektion 8. Multipel Lineær Regression

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Forelæsning 11: Tovejs variansanalyse, ANOVA

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Multipel Lineær Regression

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Løsning til eksaminen d. 14. december 2009

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Modul 6: Regression og kalibrering

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Løsning til eksaminen d. 29. maj 2009

Løsning eksamen d. 15. december 2008

Simpel Lineær Regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Opgavebesvarelse, brain weight

To samhørende variable

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Kapitel 11 Lineær regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

En Introduktion til SAS. Kapitel 5.

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Generelle lineære modeller

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Statistik Lektion 16 Multipel Lineær Regression

Modul 11: Simpel lineær regression

Statistik Lektion 17 Multipel Lineær Regression

Kvantitative metoder 2

Module 3: Statistiske modeller

Lineær regression i SAS. Lineær regression i SAS p.1/20

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Besvarelse af vitcap -opgaven

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Appendiks Økonometrisk teori... II

Simpel Lineær Regression: Model

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Logistisk Regression - fortsat

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Konfidensintervaller og Hypotesetest

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Ikke-parametriske tests

Perspektiver i Matematik-Økonomi: Linær regression

Skriftlig eksamen Science statistik- ST501

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Transkript:

enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med simpel lineær regressionsmodel Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail: pbac@dtu.dk Efterår 2016 ρ, R og R 2 Statistisk model: Y i = β 0 + β 1 i + ε i Estimation, konfidensintervaller og tests for β 0 og β 1 Konfidensinterval for linjen (95% sikkerhed for den rigtige linje ligger indenfor) Prædiktionsinterval for punkter (95% sikkerhed for at ne punkter ligger indenfor) ρ er korrelationen (= sign β1 R) er graden af lineær sammenhæng mellem og R 2 er andelen af den totale variation som er forklaret af modellen Afvises H 0 : β 1 = 0 så afvises også H 0 : ρ = 0 DTU Compute Introduktion til Statistik Efterår 2016 1 / 56 DTU Compute Introduktion til Statistik Efterår 2016 2 / 56 enote 5: Simple linear Regression Analsis Oversigt Two quantitative variables: and Calculating the least squares line Inferences for a simple linear regression model Statistical model: i = β 0 + β 1 i + ε i Estimation, confidence intervals and tests for β 0 and β 1. ρ, R and R 2 Confidence interval for the line (95% certaint that the real line will be inside) Prediction interval for punkter (95% certaint that new points will be inside) ρ is the correlation (= sign β1 R) is the strength of linear relation between and R 2 is the fraction of the total variation eplained b the model If H 0 : β 1 = 0 is rejected, then H 0 : ρ = 0 is also rejected 1 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) 4 Statistik og lineær regression 5 Hpotesetests og konfidensintervaller for ˆβ 0 og ˆβ 1 6 Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Prædiktionsinterval 7 summar(lm()) wrap up 8 Korrelation 9 Residual Analsis: Model kontrol DTU Compute Introduktion til Statistik Efterår 2016 3 / 56 DTU Compute Introduktion til Statistik Efterår 2016 4 / 56

Heights ( i) 168 161 167 179 184 166 198 187 191 179 Weights ( i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 Heights ( i) 168 161 167 179 184 166 198 187 191 179 Weights ( i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 7 7 Weight 60 70 80 90 100 2 3 1 6 4 10 5 8 9 Weight 60 70 80 90 100 2 3 1 6 4 10 5 8 9 160 170 180 190 Height 160 170 180 190 Height DTU Compute Introduktion til Statistik Efterår 2016 6 / 56 DTU Compute Introduktion til Statistik Efterår 2016 7 / 56 Heights ( i) 168 161 167 179 184 166 198 187 191 179 Weights ( i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 Heights ( i) 168 161 167 179 184 166 198 187 191 179 Weights ( i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 7 Call: lm(formula = ~ ) Residuals: Min 1Q Median 3Q Ma -5.876-1.451-0.608 2.234 6.477 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -119.958 18.897-6.35 0.00022 *** 1.113 0.106 10.50 5.9e-06 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.9 on 8 degrees of freedom Multiple R-squared: 0.932,Adjusted R-squared: 0.924 F-statistic: 110 on 1 and 8 DF, p-value: 5.87e-06 Weight 60 70 80 90 100 2 3 1 6 4 10 5 8 9 160 170 180 190 Height DTU Compute Introduktion til Statistik Efterår 2016 8 / 56 DTU Compute Introduktion til Statistik Efterår 2016 9 / 56

Lineær regressionsmodel Et scatter plot af nogle punkter. Hvilken model? Lineær regressionsmodel Kommer de fra en almindelig lineær model? Datapunkter ( i, i ) Opstil en lineær model: i = β 0 + β 1 i -200 0 200 400 600 800-200 0 200 400 600 800 Data punkter Linear model -1 0 1 2 3-1 0 1 2 3 men den der mangler noget til at beskrive den tilfældige variation! DTU Compute Introduktion til Statistik Efterår 2016 11 / 56 DTU Compute Introduktion til Statistik Efterår 2016 12 / 56 Lineær regressionsmodel De kommer fra en lineær regressionsmodel Lineær regressionsmodel Opstil en lineær regressionsmodel Opstil en lineær regressionsmodel: Y i = β 0 + β 1 i + ε i hvor ε i N(0,σ 2 ) -200 0 200 400 600 800 σ Data punkter Lineaer model Normal fordeling Opstil den lineære regressionsmodel Y i = β 0 + β 1 i + ε i Y i er den afhængige variabel (dependent variable). En stokastisk variabel i er en forklarende variabel (eplanator variable) ε i (epsilon) er afvigelsen (deviation). En stokastisk variabel og vi antager ε i er independent and identicall distributed (i.i.d.) og N(0,σ 2 ) -1 0 1 2 3 Den tilfældige variation er beskrevet med en normalfordeling om linien DTU Compute Introduktion til Statistik Efterår 2016 13 / 56 DTU Compute Introduktion til Statistik Efterår 2016 14 / 56

Mindste kvadraters metode (least squares) Mindste kvadraters metode Mindste kvadraters metode (least squares) Illustration af model, data og fit Hvis vi kun har datapunkterne, hvordan kan vi estimere parametrene β 0 og β 1? God ide: Minimer variansen σ 2 på afvigelsen. Det er på næsten alle måder det bedste valg i dette setup. But how!? Minimer summen af de kvadrerede afvigelser (Residual Sum of Squares (RSS)) RSS(β 0,β 1 ) = n εi 2 i=1 Dvs. estimaterne ˆβ 0 og ˆβ 1 er dem som minimerer RSS -200 0 200 400 600 800 ˆε i = e i σ β 0 + β 1 ˆβ 0 + ˆβ 1 Data punkter Lineaer model Estimeret linie ˆε i eller e i: Residual -1 0 1 2 3 DTU Compute Introduktion til Statistik Efterår 2016 16 / 56 DTU Compute Introduktion til Statistik Efterår 2016 17 / 56 Mindste kvadraters metode (least squares) Spørgsmål om beregning af residual (socrative.com-room:pbac) Mindste kvadraters metode (least squares) Spørgsmål om beregning af RSS (socrative.com-room:pbac) Udregning af residual for punkt i: i = ˆβ 0 + ˆβ 1 i + e i = ŷ i + e i e i = i ŷ i 1 ŷ1-2 -1 0 1 2 e 2 1 = 0.57 linear fit Beregn: Residual Sum of Squares (RSS) Fire punkter, så n=4-2 -1 0 1 2 e 2 3 = 0.013 e 2 2 = 0.32 e 2 4 = 0.32 e 2 1 = 0.013 Data punkter Estimeret linie -2-1 1 0 1 2-2 -1 0 1 2 Hvad er e 1 her? A: ca. 0.57 B: ca. 0.33 C: ca. 1.3 D: Ved ikke Svar A: ca. 0.57 Hvad er RSS = n i=1 e2 i her? A: ca. 0.67 B: ca. 1.65 C: ca. 3.4 D: Ved ikke Svar A: RSS = 0.013 + 0.32 + 0.32 + 0.013 = 0.67 DTU Compute Introduktion til Statistik Efterår 2016 18 / 56 DTU Compute Introduktion til Statistik Efterår 2016 19 / 56

Mindste kvadraters metode (least squares) Least squares estimator minimerer RSS Mindste kvadraters metode (least squares) Least squares estimater minimerer RSS Theorem 5.4 (her for estimatorer som i enoten) The least squares estimators of β 0 and β 1 are given b where S = n i=1 ( i ) 2. ˆβ 1 = n i=1 (Y i Ȳ)( i ) S ˆβ 0 = Ȳ ˆβ 1 Theorem 5.4 (her for estimater) The least squares estimatates of β 0 and β 1 are given b where S = n i=1 ( i ) 2. ˆβ 1 = n i=1 ( i ȳ)( i ) S ˆβ 0 = ȳ ˆβ 1 Vi går ikke dbere ind forskellen mellem estimatorer og estimater her i kurset DTU Compute Introduktion til Statistik Efterår 2016 20 / 56 DTU Compute Introduktion til Statistik Efterår 2016 21 / 56 R eksempel Mindste kvadraters metode (least squares) Statistik og lineær regression Parameter estimaterne er stokastiske variabler Simuler en lineær model med normalfordelt afvigelse og estimer parametrene FØRST LAV DATA: Generer n værdier af input som uniform fordelt <- runif(n=20, min=-2, ma=4) Simuler lineær regressionsmodel beta0=50; beta1=200; sigma=90 <- beta0 + beta1 * + rnorm(n=length(), mean=0, sd=sigma) HERFRA ligesom virkeligheden, vi har dataen i og : Et scatter plot af og plot(, ) Udregn least squares estimaterne, brug Theorem 5.4 (beta1hat <- sum( (-mean())*(-mean()) ) / sum( (-mean())^2 )) (beta0hat <- mean() - beta1hat*mean()) Brug lm() til at udregne estimaterne lm( ~ ) Hvis vi tog en n stikprøve ville estimaterne ˆβ 0 og ˆβ 1 have samme udfald? Nej, de er stokastiske variabler. Tog vi en n stikprøve så ville vi have en anden realisation af dem. Hvordan er parameter estimaterne i en lineær regressionsmodel fordelt (givet normalfordelte afvigelser)? Prøv lige at simulere for at se på det... Plot den estimerede linie abline(lm( ~ ), col="red") DTU Compute Introduktion til Statistik Efterår 2016 22 / 56 DTU Compute Introduktion til Statistik Efterår 2016 24 / 56

Statistik og lineær regression Statistik og lineær regression Estimater af standardafvigelserne på ˆβ 0 og ˆβ 1 Hvordan er parameter estimaterne i en lineær regressionsmodel fordelt (givet normalfordelte afvigelser)? De er normalfordelte og deres varians kan estimeres: Theorem 5.7 (første del) V[ ˆβ 0 ] = σ 2 n + 2 σ 2 S V[ ˆβ 1 ] = σ 2 S Cov[ ˆβ 0, ˆβ 1 ] = σ 2 Kovariansen Cov[ ˆβ 0, ˆβ 1 ] (covariance) gør vi ikke mere ud af her. S Theorem 5.7 (anden del) Where σ 2 is usuall replaced b its estimate ( ˆσ 2 ). The central estimator for σ 2 is ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2. When the estimate of σ 2 is used the variances also become estimates and we ll refer to them as ˆσ 2 β 0 and ˆσ 2 β 1. Estimat af standardafvigelserne for ˆβ 0 og ˆβ 1 (ligningerne (5-73)) ˆσ β0 = ˆσ 1 n + 2 S ; 1 ˆσ β1 = ˆσ n i=1 ( i ) 2 DTU Compute Introduktion til Statistik Efterår 2016 25 / 56 DTU Compute Introduktion til Statistik Efterår 2016 26 / 56 Statistik og lineær regression Spørgsmål: Om fejlenes spredning σ (socrative.com-room:pbac) Statistik og lineær regression Spørgsmål: Om fejlenes spredning σ (socrative.com-room:pbac) -300-200 -100 0 100 200 300 400 A linear fit -300-200 -100 0 100 200 300 400 B linear fit -3000-2000 -1000 0 1000 2000 3000 A linear fit -3000-2000 -1000 0 1000 2000 3000 B linear fit -2 0 2 4-2 0 2 4-6 -4-2 0 2 4 6-6 -4-2 0 2 4 6 For hvilken er residual variansen ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2 størst? A: For fit i plot A B: For fit i plot B C: Lige stor for begge D: Ved ikke Svar A: For fit i plot A er ˆσ ca. 100 og for fit i plot B ca. 20 For hvilken er residual variansen ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2 størst? A: For fit i plot A B: For fit i plot B C: Lige stor for begge D: Ved ikke Svar C: Lige stor for begge, omkring 200 DTU Compute Introduktion til Statistik Efterår 2016 27 / 56 DTU Compute Introduktion til Statistik Efterår 2016 28 / 56

Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Hpotesetests for parameter parametrene Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Eksempel: Hpotesetest for parametrene Vi kan altså udføre hpotesetests for parameter estimater i en lineær regressionsmodel: Vi bruger de t-fordelte statistikker: Theorem 5.11 H 0,i : β i = β 0,i H 1,i : β i β 1,i Under the null-hpothesis (β 0 = β 0,0 and β 1 = β 0,1 ) the statistics T β0 = ˆβ 0 β 0,0 ˆσ β0 ; T β1 = ˆβ 1 β 0,1 ˆσ β1, are t-distributed with n 2 degrees of freedom, and inference should be based on this distribution. Se Eksempel 5.12 for eksempel på hpotesetest Test om parametrene er signifikant forskellige fra 0 Se resultatet med simulering i R Hpotesetests for signifikante parametre H 0,i : β i = 0 H 1,i : β i 0 Generer <- runif(n=20, min=-2, ma=4) Simuler Y beta0=50; beta1=200; sigma=90 <- beta0 + beta1 * + rnorm(n=length(), mean=0, sd=sigma) Brug lm() til at udregne estimaterne fit <- lm( ~ ) Se summar, deri står hvad vi har brug for summar(fit) DTU Compute Introduktion til Statistik Efterår 2016 30 / 56 DTU Compute Introduktion til Statistik Efterår 2016 31 / 56 Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Konfidensintervaller for parametrene Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Simuleringseksempel: Konfidensintervaller for parametrene Lav konfidensintervaller for parametrene Method 5.14 (1 α) confidence intervals for β 0 and β 1 are given b ˆβ 0 ± t 1 α/2 ˆσ β0 ˆβ 1 ± t 1 α/2 ˆσ β1 where t 1 α/2 is the (1 α/2)-quantile of a t-distribution with n 2 degrees of freedom. husk at ˆσ β0 og ˆσ β1 findes ved ligningerne (5-74) i R kan ˆσ β0 og ˆσ β1 aflæses ved Std. Error ved summar(fit) Antal gentagelser nrepeat <- 100 Fangede vi den rigtige parameter TrueValInCI <- logical(nrepeat) Gentag simuleringen og estimeringen nrepeat gange for(i in 1:nRepeat){ Generer <- runif(n=20, min=-2, ma=4) Simuler beta0=50; beta1=200; sigma=90 <- beta0 + beta1 * + rnorm(n=length(), mean=0, sd=sigma) Brug lm() til at udregne estimaterne fit <- lm( ~ ) Heldigvis kan R beregne konfidensintervallet (level=1-alpha) (ci <- confint(fit, "(Intercept)", level=0.95)) Var den rigtige parameterværdi "fanget" af intervallet? (TrueValInCI[i] <- ci[1] < beta0 & beta0 < ci[2]) } Hvor ofte blev den rigtige værdi "fanget"? sum(truevalinci) / nrepeat DTU Compute Introduktion til Statistik Efterår 2016 32 / 56 DTU Compute Introduktion til Statistik Efterår 2016 33 / 56

Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Spørgsmål: Om fordelingen af ˆβ 1 (socrative.com-room:pbac) Hpotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Spørgsmål: Om fordelingen af ˆβ 1 β 0,1 ˆσ β1 (socrative.com-room:pbac) -300-200 -100 0 100 200 300 Simuleret data med linear model n = 50-2 0 2 4 linear model pdf pdf pdf 0.00 0.10 0.20 0.00 0.10 0.20 0.0 0.2 0.4 A -30-20 -10 0 10 20 30 B -30-20 -10 0 10 20 30 C -30-20 -10 0 10 20 30-300 -200-100 0 100 200 300 Simuleret data med linear model n = 50-2 0 2 4 linear model pdf pdf pdf 0.00 0.10 0.20 0.00 0.10 0.20 0.0 0.2 0.4 A -30-20 -10 0 10 20 30 B -30-20 -10 0 10 20 30 C -30-20 -10 0 10 20 30 Hvilket plot repræsenterer fordelingen af ˆβ 1? A: Plot A B: Plot B C: Plot C D: Ved ikke Svar A: β 1 er negativ (β 1 = 25) og fordelingen af ˆβ 1 er centreret i β 1 Hvilket plot repræsenterer fordelingen af ˆβ 1 β 0,1 ˆσ β1 under H 0 : β 0,1 = 25? A: Plot A B: Plot B C: Plot C D: Ved ikke ˆβ Svar C: 1 β 0,1 ˆσ følger under H 0 en t-fordeling, dvs. centreret i 0 β1 DTU Compute Introduktion til Statistik Efterår 2016 34 / 56 DTU Compute Introduktion til Statistik Efterår 2016 35 / 56 Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Konfidensinterval og prædiktionsinterval Prædiktionsinterval Method 5.17: Konfidensinterval for β 0 + β 1 0 Method 5.17: Prædiktionsinterval for β 0 + β 1 0 + ε 0 Konfidensinterval for β 0 + β 1 0 svarer til et konfidensinterval for linien i punktet 0 Beregnes med ( β ˆ 0 + β ˆ 1 1 0 ) ± t α/2 ˆσ n + ( 0 ) 2 S Der er 100(1 α)% sandsnlighed for at den rigtige linie, altså β 0 + β 1 0, er inde i konfidensintervallet Prædiktionsintervallet (prediction interval) for Y 0 beregnes for en n værdi af i, her kaldt 0 Dette gøres før Y 0 observeres ved ( β ˆ 0 + ˆβ 1 0 ) ± t α/2 ˆσ 1 + 1 n + ( 0 ) 2 S Der er 100(1 α)% sandsnlighed for at den observerede 0 vil falde inde i prædiktionsintervallet Et prædiktionsinterval bliver altid større end et konfidensinterval for fastholdt α DTU Compute Introduktion til Statistik Efterår 2016 37 / 56 DTU Compute Introduktion til Statistik Efterår 2016 38 / 56

Konfidensinterval og prædiktionsinterval Prædiktionsinterval Eksempel med konfidensinterval for linien Konfidensinterval og prædiktionsinterval Prædiktionsinterval Eksempel med prædiktionsinterval Eksempel med konfidensinterval for linien Lav en sekvens af værdier val <- seq(from=-2, to=6, length.out=100) Brug predict funktionen CI <- predict(fit, newdata=data.frame(=val), interval="confidence", level=.95) Se lige hvad der kom head(ci) Plot data, model og intervaller plot(,, pch=20) abline(fit) lines(val, CI[, "lwr"], lt=2, col="red", lwd=2) lines(val, CI[, "upr"], lt=2, col="red", lwd=2) -100-50 0 50 Eksempel med prædiktionsinterval Lav en sekvens a værdier val <- seq(from=-2, to=6, length.out=100) Beregn interval for hvert PI <- predict(fit, newdata=data.frame(=val), interval="prediction", level=.95) Se lige hvad der kom tilbage head(pi) Plot data, model og intervaller plot(,, pch=20) abline(fit) lines(val, PI[, "lwr"], lt=2, col="blue", lwd=2) lines(val, PI[, "upr"], lt=2, col="blue", lwd=2) -100-50 0 50-2 -1 0 1 2 3 4-2 -1 0 1 2 3 4 DTU Compute Introduktion til Statistik Efterår 2016 39 / 56 DTU Compute Introduktion til Statistik Efterår 2016 40 / 56 summar(lm()) wrap up Hvad bliver mere skrevet ud af summar? summar(lm()) wrap up summar(lm( )) wrap up Call: lm(formula = ~ ) Residuals: Min 1Q Median 3Q Ma -190.2-61.0 29.1 66.8 141.8 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 29.5 25.8 1.15 0.27 226.1 15.4 14.70 1.8e-11 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 100 on 18 degrees of freedom Multiple R-squared: 0.923,Adjusted R-squared: 0.919 F-statistic: 216 on 1 and 18 DF, p-value: 1.8e-11 Residuals: Min 1Q Median 3Q Ma: Residualernes: Minimum, 1. kvartil, Median, 3. kvartil, Maimum Coefficients: Estimate Std. Error t value Pr(> t ) "stjerner" Koefficienternes: Estimat ˆσ βi t obs p-værdi Testen er H 0,i : β i = 0 vs. H 1,i : β i 0 Stjernerne er sat efter p-værdien Residual standard error: XXX on XXX degrees of freedom ε i N(0,σ 2 ): Udskrevet er ˆσ og ν frihedsgrader (brug til hpotesetesten) Multiple R-squared: Forklaret varians r 2 XXX Resten bruger vi ikke i det her kursus DTU Compute Introduktion til Statistik Efterår 2016 42 / 56 DTU Compute Introduktion til Statistik Efterår 2016 43 / 56

Korrelation Forklaret varians og korrelation Korrelation Forklaret varians og korrelation Forklaret varians af en model er r 2, i summar Multiple R-squared Beregnes med hvor ŷ i = ˆβ 0 + ˆβ 1 i r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 Andel af den totale varians i data ( i ) der er forklaret med modellen Korrelationen ρ er et mål for lineær sammenhæng mellem to stokastiske variable Estimeret (i.e. empirisk) korrelation ˆρ = r = r 2 sgn( ˆβ 1 ) hvor sgn( ˆβ 1 ) er: 1 for ˆβ 1 0 og 1 for ˆβ 1 > 0 Altså: Positiv korrelation ved positiv hældning Negativ korrelation ved negativ hældning DTU Compute Introduktion til Statistik Efterår 2016 45 / 56 DTU Compute Introduktion til Statistik Efterår 2016 46 / 56 Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) 0.0 0.2 0.4 0.6 0.8 1.0 1.2 r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 = 1 1.97 18.02 = 1 0.11 = 0.89 r = 0.94-2 -1 0 1 r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 = 1 57.98 78.32 = 1 0.74 = 0.26 r = 0.51 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Hvad er korrelationen mellem og? A: ca. -0.95 B: ca. 0 C: ca. 0.95 Svar) C: ca. 0.95 Hvad er korrelationen mellem og? A: ca. -0.5 B: ca. 0 C: ca. 0.5 Svar) A: ca. -0.5 DTU Compute Introduktion til Statistik Efterår 2016 47 / 56 DTU Compute Introduktion til Statistik Efterår 2016 48 / 56

Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) -3-2 -1 0 1 2 r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 = 1 168.66 169.18 = 1 1 = 0 r = 0.06 0.0 0.2 0.4 0.6 0.8 1.0 r 2 = 1 i( i ŷ i ) 2 i ( i ȳ) 2 = 1 19.81 19.81 = 1 1 = 1.52 10 5 r = 0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Hvad er korrelationen mellem og? A: ca. -0.5 B: ca. 0 C: ca. 0.5 Svar) B: ca. 0 Hvad er korrelationen mellem og? A: ca. -0.5 B: ca. 0 C: ca. 0.5 Svar) B: ca. 0 DTU Compute Introduktion til Statistik Efterår 2016 49 / 56 DTU Compute Introduktion til Statistik Efterår 2016 50 / 56 Korrelation Test for signifikant korrelation Korrelation Simuleringseksempel om korrelation Korrelation Test for signifikant korrelation (lineær sammenhæng) mellem to variable H 0 : ρ = 0 H 1 : ρ 0 er ækvivalent med H 0 : β 1 = 0 H 1 : β 1 0 hvor ˆβ 1 er estimatet af hældningen i simpel lineær regressionsmodel Generer <- runif(n=20, min=-2, ma=4) Simuler beta0=50; beta1=200; sigma=90 <- beta0 + beta1 * + rnorm(n=length(), mean=0, sd=sigma) Scatter plot plot(,) Brug lm() til at udregne estimaterne fit <- lm( ~ ) Den rigtige linie abline(beta0, beta1) Plot fittet abline(fit, col="red") Se summar, deri står hvad vi har brug for summar(fit) Korrelation mellem og cor(,) Kvadreret er den "Multiple R-squared" fra summar(fit) cor(,)^2 DTU Compute Introduktion til Statistik Efterår 2016 51 / 56 DTU Compute Introduktion til Statistik Efterår 2016 52 / 56

Residual Analsis Residual Analsis: Model kontrol Residual Analsis in R Residual Analsis: Model kontrol fit <- lm( ~ ) par(mfrow = c(1, 2)) qqnorm(fit$residuals) qqline(fit$residuals) plot(fit$fitted, fit$residuals, lab='fitted values', lab='residuals') Method 5.26 Normal Q-Q Plot Check normalit assumption with qq-plot. Check (non)sstematic behavior b plotting the residuals e i as a function of fitted values ŷ i Sample Quantiles -100-50 0 50 100 150 Residuals -100-50 0 50 100 150-2 -1 0 1 2 Theoretical Quantiles -400-200 0 200 400 600 800 Fitted values DTU Compute Introduktion til Statistik Efterår 2016 54 / 56 DTU Compute Introduktion til Statistik Efterår 2016 55 / 56 Outline Outline 1 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) 4 Statistik og lineær regression 5 Hpotesetests og konfidensintervaller for ˆβ 0 og ˆβ 1 6 Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Prædiktionsinterval 7 summar(lm()) wrap up 8 Korrelation 9 Residual Analsis: Model kontrol DTU Compute Introduktion til Statistik Efterår 2016 56 / 56