Kursus 02402/02323 Introducerende Statistik

Relaterede dokumenter
Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Forelæsning 11: Envejs variansanalyse, ANOVA

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Forelæsning 11: Tovejs variansanalyse, ANOVA

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Løsning til eksaminen d. 14. december 2009

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Multipel Lineær Regression

1 Regressionsproblemet 2

Modul 6: Regression og kalibrering

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Simpel Lineær Regression

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Løsning eksamen d. 15. december 2008

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Løsning til eksaminen d. 29. maj 2009

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Normalfordelingen. Statistik og Sandsynlighedsregning 2

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Opgavebesvarelse, brain weight

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Klasseøvelser dag 2 Opgave 1

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

To samhørende variable

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Generelle lineære modeller

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kapitel 11 Lineær regression

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kursus 02402/02323 Introducerende Statistik. Forelæsning 9: Multipel lineær regression. Klaus K. Andersen og Per Bruun Brockhoff

En Introduktion til SAS. Kapitel 5.

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Statistik Lektion 16 Multipel Lineær Regression

Lineær regression i SAS. Lineær regression i SAS p.1/20

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Besvarelse af vitcap -opgaven

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Module 3: Statistiske modeller

Modul 11: Simpel lineær regression

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Appendiks Økonometrisk teori... II

Statistik Lektion 17 Multipel Lineær Regression

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

(studienummer) (underskrift) (bord nr)

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Konfidensintervaller og Hypotesetest

Logistisk Regression - fortsat

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Opgavebesvarelse, brain weight

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kvantitative metoder 2

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Skriftlig eksamen Science statistik- ST501

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Perspektiver i Matematik-Økonomi: Linær regression

(studienummer) (underskrift) (bord nr)

Forelæsning 9: Multipel lineær regression

Simpel Lineær Regression: Model

(studienummer) (underskrift) (bord nr)

Ikke-parametriske tests

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Transkript:

Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår 2016 DTU Compute Introduktion til Statistik Efterår 2016 1 / 56

enote 5: Simpel lineær regressions analyse To variable: x og y Beregn mindstekvadraters estimat af ret linje Inferens med simpel lineær regressionsmodel Statistisk model: Y i = β 0 + β 1 x i + ε i Estimation, konfidensintervaller og tests for β 0 og β 1 Konfidensinterval for linjen (95% sikkerhed for den rigtige linje ligger indenfor) Prædiktionsinterval for punkter (95% sikkerhed for at nye punkter ligger indenfor) ρ, R og R 2 ρ er korrelationen (= sign β1 R) er graden af lineær sammenhæng mellem x og y R 2 er andelen af den totale variation som er forklaret af modellen Afvises H 0 : β 1 = 0 så afvises også H 0 : ρ = 0 DTU Compute Introduktion til Statistik Efterår 2016 2 / 56

enote 5: Simple linear Regression Analysis Two quantitative variables: x and y Calculating the least squares line Inferences for a simple linear regression model Statistical model: y i = β 0 + β 1 x i + ε i Estimation, confidence intervals and tests for β 0 and β 1. Confidence interval for the line (95% certainty that the real line will be inside) Prediction interval for punkter (95% certainty that new points will be inside) ρ, R and R 2 ρ is the correlation (= sign β1 R) is the strength of linear relation between x and y R 2 is the fraction of the total variation explained by the model If H 0 : β 1 = 0 is rejected, then H 0 : ρ = 0 is also rejected DTU Compute Introduktion til Statistik Efterår 2016 3 / 56

Oversigt 1 Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) 4 Statistik og lineær regression 5 Hypotesetests og konfidensintervaller for ˆβ 0 og ˆβ 1 6 Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Prædiktionsinterval 7 summary(lm()) wrap up 8 Korrelation 9 Residual Analysis: Model kontrol DTU Compute Introduktion til Statistik Efterår 2016 4 / 56

Motiverende eksempel: Højde-vægt Motiverende eksempel: Højde-vægt Heights (x i) 168 161 167 179 184 166 198 187 191 179 Weights (y i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 7 Weight 60 70 80 90 100 2 3 1 6 4 10 5 8 9 160 170 180 190 Height DTU Compute Introduktion til Statistik Efterår 2016 6 / 56

Motiverende eksempel: Højde-vægt Motiverende eksempel: Højde-vægt Heights (x i) 168 161 167 179 184 166 198 187 191 179 Weights (y i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 7 Weight 60 70 80 90 100 2 3 1 6 4 10 5 8 9 160 170 180 190 Height DTU Compute Introduktion til Statistik Efterår 2016 7 / 56

Motiverende eksempel: Højde-vægt Motiverende eksempel: Højde-vægt Heights (x i) 168 161 167 179 184 166 198 187 191 179 Weights (y i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 ## ## Call: ## lm(formula = y ~ x) ## ## Residuals: ## Min 1Q Median 3Q Max ## -5.876-1.451-0.608 2.234 6.477 ## ## Coefficients: ## Estimate Std. Error t value Pr(> t ) ## (Intercept) -119.958 18.897-6.35 0.00022 *** ## x 1.113 0.106 10.50 5.9e-06 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 3.9 on 8 degrees of freedom ## Multiple R-squared: 0.932,Adjusted R-squared: 0.924 ## F-statistic: 110 on 1 and 8 DF, p-value: 5.87e-06 DTU Compute Introduktion til Statistik Efterår 2016 8 / 56

Motiverende eksempel: Højde-vægt Motiverende eksempel: Højde-vægt Heights (x i) 168 161 167 179 184 166 198 187 191 179 Weights (y i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 7 Weight 60 70 80 90 100 2 3 1 6 4 10 5 8 9 160 170 180 190 Height DTU Compute Introduktion til Statistik Efterår 2016 9 / 56

Lineær regressionsmodel Et scatter plot af nogle punkter. Hvilken model? Datapunkter (x i,y i ) y -200 0 200 400 600 800-1 0 1 2 3 x DTU Compute Introduktion til Statistik Efterår 2016 11 / 56

Lineær regressionsmodel Kommer de fra en almindelig lineær model? Opstil en lineær model: y i = β 0 + β 1 x i y -200 0 200 400 600 800 Data punkter Linear model -1 0 1 2 3 x men den der mangler noget til at beskrive den tilfældige variation! DTU Compute Introduktion til Statistik Efterår 2016 12 / 56

Lineær regressionsmodel De kommer fra en lineær regressionsmodel Opstil en lineær regressionsmodel: Y i = β 0 + β 1 x i + ε i hvor ε i N(0,σ 2 ) y -200 0 200 400 600 800 σ Data punkter Lineaer model Normal fordeling -1 0 1 2 3 Den tilfældige variation er beskrevet med en normalfordeling om linien x DTU Compute Introduktion til Statistik Efterår 2016 13 / 56

Lineær regressionsmodel Opstil en lineær regressionsmodel Opstil den lineære regressionsmodel Y i = β 0 + β 1 x i + ε i Y i er den afhængige variabel (dependent variable). En stokastisk variabel x i er en forklarende variabel (explanatory variable) ε i (epsilon) er afvigelsen (deviation). En stokastisk variabel og vi antager ε i er independent and identically distributed (i.i.d.) og N(0,σ 2 ) DTU Compute Introduktion til Statistik Efterår 2016 14 / 56

Mindste kvadraters metode (least squares) Mindste kvadraters metode Hvis vi kun har datapunkterne, hvordan kan vi estimere parametrene β 0 og β 1? God ide: Minimer variansen σ 2 på afvigelsen. Det er på næsten alle måder det bedste valg i dette setup. But how!? Minimer summen af de kvadrerede afvigelser (Residual Sum of Squares (RSS)) RSS(β 0,β 1 ) = n εi 2 i=1 Dvs. estimaterne ˆβ 0 og ˆβ 1 er dem som minimerer RSS DTU Compute Introduktion til Statistik Efterår 2016 16 / 56

Mindste kvadraters metode (least squares) Illustration af model, data og fit y -200 0 200 400 600 800 ˆε i = e i σ β 0 + β 1 x ˆβ 0 + ˆβ 1 x Data punkter Lineaer model Estimeret linie ˆε i eller e i: Residual -1 0 1 2 3 x DTU Compute Introduktion til Statistik Efterår 2016 17 / 56

Mindste kvadraters metode (least squares) Spørgsmål om beregning af residual (socrative.com-room:pbac) Udregning af residual for punkt i: y i = ˆβ 0 + ˆβ 1 x i + e i = ŷ i + e i e i = y i ŷ i y y1 ŷ1-2 -1 0 1 2 e 2 1 = 0.57 data punkter linear fit -2-1 x 1 0 1 2 x Hvad er e 1 her? A: ca. 0.57 B: ca. 0.33 C: ca. 1.3 D: Ved ikke Svar A: ca. 0.57 DTU Compute Introduktion til Statistik Efterår 2016 18 / 56

Mindste kvadraters metode (least squares) Spørgsmål om beregning af RSS (socrative.com-room:pbac) Beregn: Residual Sum of Squares (RSS) Fire punkter, så n=4 y -2-1 0 1 2 e 2 3 = 0.013 e 2 2 = 0.32 e 2 4 = 0.32 e 2 1 = 0.013 Data punkter Estimeret linie -2-1 0 1 2 x Hvad er RSS = n i=1 e2 i her? A: ca. 0.67 B: ca. 1.65 C: ca. 3.4 D: Ved ikke Svar A: RSS = 0.013 + 0.32 + 0.32 + 0.013 = 0.67 DTU Compute Introduktion til Statistik Efterår 2016 19 / 56

Mindste kvadraters metode (least squares) Least squares estimator minimerer RSS Theorem 5.4 (her for estimatorer som i enoten) The least squares estimators of β 0 and β 1 are given by where S xx = n i=1 (x i x) 2. ˆβ 1 = n i=1 (Y i Ȳ)(x i x) S xx ˆβ 0 = Ȳ ˆβ 1 x DTU Compute Introduktion til Statistik Efterår 2016 20 / 56

Mindste kvadraters metode (least squares) Least squares estimater minimerer RSS Theorem 5.4 (her for estimater) The least squares estimatates of β 0 and β 1 are given by where S xx = n i=1 (x i x) 2. ˆβ 1 = n i=1 (y i ȳ)(x i x) S xx ˆβ 0 = ȳ ˆβ 1 x Vi går ikke dybere ind forskellen mellem estimatorer og estimater her i kurset DTU Compute Introduktion til Statistik Efterår 2016 21 / 56

R eksempel Mindste kvadraters metode (least squares) ## Simuler en lineær model med normalfordelt afvigelse og estimer parametrene ## FØRST LAV DATA: ## Generer n værdier af input x som uniform fordelt x <- runif(n=20, min=-2, max=4) ## Simuler lineær regressionsmodel beta0=50; beta1=200; sigma=90 y <- beta0 + beta1 * x + rnorm(n=length(x), mean=0, sd=sigma) ## HERFRA ligesom virkeligheden, vi har dataen i x og y: ## Et scatter plot af x og y plot(x, y) ## Udregn least squares estimaterne, brug Theorem 5.4 (beta1hat <- sum( (y-mean(y))*(x-mean(x)) ) / sum( (x-mean(x))^2 )) (beta0hat <- mean(y) - beta1hat*mean(x)) ## Brug lm() til at udregne estimaterne lm(y ~ x) ## Plot den estimerede linie abline(lm(y ~ x), col="red") DTU Compute Introduktion til Statistik Efterår 2016 22 / 56

Statistik og lineær regression Parameter estimaterne er stokastiske variabler Hvis vi tog en ny stikprøve ville estimaterne ˆβ 0 og ˆβ 1 have samme udfald? Nej, de er stokastiske variabler. Tog vi en ny stikprøve så ville vi have en anden realisation af dem. Hvordan er parameter estimaterne i en lineær regressionsmodel fordelt (givet normalfordelte afvigelser)? Prøv lige at simulere for at se på det... DTU Compute Introduktion til Statistik Efterår 2016 24 / 56

Statistik og lineær regression Hvordan er parameter estimaterne i en lineær regressionsmodel fordelt (givet normalfordelte afvigelser)? De er normalfordelte og deres varians kan estimeres: Theorem 5.7 (første del) V[ ˆβ 0 ] = σ 2 n + x2 σ 2 S xx V[ ˆβ 1 ] = σ 2 S xx Cov[ ˆβ 0, ˆβ 1 ] = xσ 2 S xx Kovariansen Cov[ ˆβ 0, ˆβ 1 ] (covariance) gør vi ikke mere ud af her. DTU Compute Introduktion til Statistik Efterår 2016 25 / 56

Statistik og lineær regression Estimater af standardafvigelserne på ˆβ 0 og ˆβ 1 Theorem 5.7 (anden del) Where σ 2 is usually replaced by its estimate ( ˆσ 2 ). The central estimator for σ 2 is ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2. When the estimate of σ 2 is used the variances also become estimates and we ll refer to them as ˆσ 2 β 0 and ˆσ 2 β 1. Estimat af standardafvigelserne for ˆβ 0 og ˆβ 1 (ligningerne (5-73)) ˆσ β0 = ˆσ 1 n + x2 S xx ; 1 ˆσ β1 = ˆσ n i=1 (x i x) 2 DTU Compute Introduktion til Statistik Efterår 2016 26 / 56

Statistik og lineær regression Spørgsmål: Om fejlenes spredning σ (socrative.com-room:pbac) A B y -300-200 -100 0 100 200 300 400 data punkter linear fit y -300-200 -100 0 100 200 300 400 data punkter linear fit -2 0 2 4-2 0 2 4 x x For hvilken er residual variansen ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2 størst? A: For fit i plot A B: For fit i plot B C: Lige stor for begge D: Ved ikke Svar A: For fit i plot A er ˆσ ca. 100 og for fit i plot B ca. 20 DTU Compute Introduktion til Statistik Efterår 2016 27 / 56

Statistik og lineær regression Spørgsmål: Om fejlenes spredning σ (socrative.com-room:pbac) y -3000-2000 -1000 0 1000 2000 3000 A data punkter linear fit y -3000-2000 -1000 0 1000 2000 3000 B data punkter linear fit -6-4 -2 0 2 4 6-6 -4-2 0 2 4 6 x x For hvilken er residual variansen ˆσ 2 = RSS( ˆβ 0, ˆβ 1 ) n 2 = n i=1 e2 i n 2 størst? A: For fit i plot A B: For fit i plot B C: Lige stor for begge D: Ved ikke Svar C: Lige stor for begge, omkring 200 DTU Compute Introduktion til Statistik Efterår 2016 28 / 56

Hypotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Hypotesetests for parameter parametrene Vi kan altså udføre hypotesetests for parameter estimater i en lineær regressionsmodel: H 0,i : β i = β 0,i H 1,i : β i β 1,i Vi bruger de t-fordelte statistikker: Theorem 5.11 Under the null-hypothesis (β 0 = β 0,0 and β 1 = β 0,1 ) the statistics T β0 = ˆβ 0 β 0,0 ˆσ β0 ; T β1 = ˆβ 1 β 0,1 ˆσ β1, are t-distributed with n 2 degrees of freedom, and inference should be based on this distribution. DTU Compute Introduktion til Statistik Efterår 2016 30 / 56

Hypotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Eksempel: Hypotesetest for parametrene Se Eksempel 5.12 for eksempel på hypotesetest Test om parametrene er signifikant forskellige fra 0 Se resultatet med simulering i R ## Hypotesetests for signifikante parametre H 0,i : β i = 0 H 1,i : β i 0 ## Generer x x <- runif(n=20, min=-2, max=4) ## Simuler Y beta0=50; beta1=200; sigma=90 y <- beta0 + beta1 * x + rnorm(n=length(x), mean=0, sd=sigma) ## Brug lm() til at udregne estimaterne fit <- lm(y ~ x) ## Se summary, deri står hvad vi har brug for summary(fit) DTU Compute Introduktion til Statistik Efterår 2016 31 / 56

Hypotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Konfidensintervaller for parametrene Method 5.14 (1 α) confidence intervals for β 0 and β 1 are given by ˆβ 0 ± t 1 α/2 ˆσ β0 ˆβ 1 ± t 1 α/2 ˆσ β1 where t 1 α/2 is the (1 α/2)-quantile of a t-distribution with n 2 degrees of freedom. husk at ˆσ β0 og ˆσ β1 findes ved ligningerne (5-74) i R kan ˆσ β0 og ˆσ β1 aflæses ved Std. Error ved summary(fit) DTU Compute Introduktion til Statistik Efterår 2016 32 / 56

Hypotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Simuleringseksempel: Konfidensintervaller for parametrene ## Lav konfidensintervaller for parametrene ## Antal gentagelser nrepeat <- 100 ## Fangede vi den rigtige parameter TrueValInCI <- logical(nrepeat) ## Gentag simuleringen og estimeringen nrepeat gange for(i in 1:nRepeat){ ## Generer x x <- runif(n=20, min=-2, max=4) ## Simuler y beta0=50; beta1=200; sigma=90 y <- beta0 + beta1 * x + rnorm(n=length(x), mean=0, sd=sigma) ## Brug lm() til at udregne estimaterne fit <- lm(y ~ x) ## Heldigvis kan R beregne konfidensintervallet (level=1-alpha) (ci <- confint(fit, "(Intercept)", level=0.95)) ## Var den rigtige parameterværdi "fanget" af intervallet? (TrueValInCI[i] <- ci[1] < beta0 & beta0 < ci[2]) } ## Hvor ofte blev den rigtige værdi "fanget"? sum(truevalinci) / nrepeat DTU Compute Introduktion til Statistik Efterår 2016 33 / 56

Hypotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Spørgsmål: Om fordelingen af ˆβ 1 (socrative.com-room:pbac) y -300-200 -100 0 100 200 300 Simuleret data med linear model n = 50-2 0 2 4 x data punkter linear model pdf pdf pdf 0.00 0.10 0.20 0.00 0.10 0.20 0.0 0.2 0.4 A -30-20 -10 0 10 20 30 B -30-20 -10 0 10 20 30 C -30-20 -10 0 10 20 30 Hvilket plot repræsenterer fordelingen af ˆβ 1? A: Plot A B: Plot B C: Plot C D: Ved ikke Svar A: β 1 er negativ (β 1 = 25) og fordelingen af ˆβ 1 er centreret i β 1 DTU Compute Introduktion til Statistik Efterår 2016 34 / 56

Hypotesetests og konfidensintervaller for ˆβ0 og ˆβ1 Spørgsmål: Om fordelingen af ˆβ 1 β 0,1 ˆσ β1 (socrative.com-room:pbac) y -300-200 -100 0 100 200 300 Simuleret data med linear model n = 50-2 0 2 4 x data punkter linear model pdf pdf pdf 0.00 0.10 0.20 0.00 0.10 0.20 0.0 0.2 0.4 A -30-20 -10 0 10 20 30 B -30-20 -10 0 10 20 30 C -30-20 -10 0 10 20 30 Hvilket plot repræsenterer fordelingen af ˆβ 1 β 0,1 ˆσ β1 under H 0 : β 0,1 = 25? A: Plot A B: Plot B C: Plot C D: Ved ikke ˆβ Svar C: 1 β 0,1 ˆσ følger under H 0 en t-fordeling, dvs. centreret i 0 β1 DTU Compute Introduktion til Statistik Efterår 2016 35 / 56

Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Method 5.17: Konfidensinterval for β 0 + β 1 x 0 Konfidensinterval for β 0 + β 1 x 0 svarer til et konfidensinterval for linien i punktet x 0 Beregnes med ( β ˆ 0 + β ˆ 1 1 x 0 ) ± t α/2 ˆσ n + (x 0 x) 2 S xx Der er 100(1 α)% sandsynlighed for at den rigtige linie, altså β 0 + β 1 x 0, er inde i konfidensintervallet DTU Compute Introduktion til Statistik Efterår 2016 37 / 56

Konfidensinterval og prædiktionsinterval Prædiktionsinterval Method 5.17: Prædiktionsinterval for β 0 + β 1 x 0 + ε 0 Prædiktionsintervallet (prediction interval) for Y 0 beregnes for en ny værdi af x i, her kaldt x 0 Dette gøres før Y 0 observeres ved ( β ˆ 0 + ˆβ 1 x 0 ) ± t α/2 ˆσ 1 + 1 n + (x 0 x) 2 S xx Der er 100(1 α)% sandsynlighed for at den observerede y 0 vil falde inde i prædiktionsintervallet Et prædiktionsinterval bliver altid større end et konfidensinterval for fastholdt α DTU Compute Introduktion til Statistik Efterår 2016 38 / 56

Konfidensinterval og prædiktionsinterval Prædiktionsinterval Eksempel med konfidensinterval for linien ## Eksempel med konfidensinterval for linien ## Lav en sekvens af x værdier xval <- seq(from=-2, to=6, length.out=100) ## Brug predict funktionen CI <- predict(fit, newdata=data.frame(x=xval), interval="confidence", level=.95) ## Se lige hvad der kom head(ci) ## Plot data, model og intervaller plot(x, y, pch=20) abline(fit) lines(xval, CI[, "lwr"], lty=2, col="red", lwd=2) lines(xval, CI[, "upr"], lty=2, col="red", lwd=2) y -100-50 0 50-2 -1 0 1 2 3 4 x DTU Compute Introduktion til Statistik Efterår 2016 39 / 56

Konfidensinterval og prædiktionsinterval Prædiktionsinterval Eksempel med prædiktionsinterval ## Eksempel med prædiktionsinterval ## Lav en sekvens a x værdier xval <- seq(from=-2, to=6, length.out=100) ## Beregn interval for hvert x PI <- predict(fit, newdata=data.frame(x=xval), interval="prediction", level=.95) ## Se lige hvad der kom tilbage head(pi) ## Plot data, model og intervaller plot(x, y, pch=20) abline(fit) lines(xval, PI[, "lwr"], lty=2, col="blue", lwd=2) lines(xval, PI[, "upr"], lty=2, col="blue", lwd=2) y -100-50 0 50-2 -1 0 1 2 3 4 x DTU Compute Introduktion til Statistik Efterår 2016 40 / 56

summary(lm()) wrap up Hvad bliver mere skrevet ud af summary? ## ## Call: ## lm(formula = y ~ x) ## ## Residuals: ## Min 1Q Median 3Q Max ## -190.2-61.0 29.1 66.8 141.8 ## ## Coefficients: ## Estimate Std. Error t value Pr(> t ) ## (Intercept) 29.5 25.8 1.15 0.27 ## x 226.1 15.4 14.70 1.8e-11 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 100 on 18 degrees of freedom ## Multiple R-squared: 0.923,Adjusted R-squared: 0.919 ## F-statistic: 216 on 1 and 18 DF, p-value: 1.8e-11 DTU Compute Introduktion til Statistik Efterår 2016 42 / 56

summary(lm()) wrap up summary(lm(y x)) wrap up Residuals: Min 1Q Median 3Q Max: Residualernes: Minimum, 1. kvartil, Median, 3. kvartil, Maximum Coefficients: Estimate Std. Error t value Pr(> t ) "stjerner" Koefficienternes: Estimat ˆσ βi t obs p-værdi Testen er H 0,i : β i = 0 vs. H 1,i : β i 0 Stjernerne er sat efter p-værdien Residual standard error: XXX on XXX degrees of freedom ε i N(0,σ 2 ): Udskrevet er ˆσ og ν frihedsgrader (brug til hypotesetesten) Multiple R-squared: Forklaret varians r 2 XXX Resten bruger vi ikke i det her kursus DTU Compute Introduktion til Statistik Efterår 2016 43 / 56

Korrelation Forklaret varians og korrelation Forklaret varians af en model er r 2, i summary Multiple R-squared Beregnes med hvor ŷ i = ˆβ 0 + ˆβ 1 x i r 2 = 1 i(y i ŷ i ) 2 i (y i ȳ) 2 Andel af den totale varians i data (y i ) der er forklaret med modellen DTU Compute Introduktion til Statistik Efterår 2016 45 / 56

Korrelation Forklaret varians og korrelation Korrelationen ρ er et mål for lineær sammenhæng mellem to stokastiske variable Estimeret (i.e. empirisk) korrelation ˆρ = r = r 2 sgn( ˆβ 1 ) hvor sgn( ˆβ 1 ) er: 1 for ˆβ 1 0 og 1 for ˆβ 1 > 0 Altså: Positiv korrelation ved positiv hældning Negativ korrelation ved negativ hældning DTU Compute Introduktion til Statistik Efterår 2016 46 / 56

Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) y 0.0 0.2 0.4 0.6 0.8 1.0 1.2 r 2 = 1 i(y i ŷ i ) 2 i (y i ȳ) 2 = 1 1.97 18.02 = 1 0.11 = 0.89 r = 0.94 0.0 0.2 0.4 0.6 0.8 1.0 x Hvad er korrelationen mellem x og y? A: ca. -0.95 B: ca. 0 C: ca. 0.95 Svar) C: ca. 0.95 DTU Compute Introduktion til Statistik Efterår 2016 47 / 56

Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) y -2-1 0 1 r 2 = 1 i(y i ŷ i ) 2 i (y i ȳ) 2 = 1 57.98 78.32 = 1 0.74 = 0.26 r = 0.51 0.0 0.2 0.4 0.6 0.8 1.0 x Hvad er korrelationen mellem x og y? A: ca. -0.5 B: ca. 0 C: ca. 0.5 Svar) A: ca. -0.5 DTU Compute Introduktion til Statistik Efterår 2016 48 / 56

Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) y -3-2 -1 0 1 2 r 2 = 1 i(y i ŷ i ) 2 i (y i ȳ) 2 = 1 168.66 169.18 = 1 1 = 0 r = 0.06 0.0 0.2 0.4 0.6 0.8 1.0 x Hvad er korrelationen mellem x og y? A: ca. -0.5 B: ca. 0 C: ca. 0.5 Svar) B: ca. 0 DTU Compute Introduktion til Statistik Efterår 2016 49 / 56

Korrelation Spørgsmål om korrelation (socrative.com-room:pbac) y 0.0 0.2 0.4 0.6 0.8 1.0 r 2 = 1 i(y i ŷ i ) 2 i (y i ȳ) 2 = 1 19.81 19.81 = 1 1 = 1.52 10 5 r = 0 0.0 0.2 0.4 0.6 0.8 1.0 x Hvad er korrelationen mellem x og y? A: ca. -0.5 B: ca. 0 C: ca. 0.5 Svar) B: ca. 0 DTU Compute Introduktion til Statistik Efterår 2016 50 / 56

Korrelation Test for signifikant korrelation Test for signifikant korrelation (lineær sammenhæng) mellem to variable H 0 : ρ = 0 H 1 : ρ 0 er ækvivalent med H 0 : β 1 = 0 H 1 : β 1 0 hvor ˆβ 1 er estimatet af hældningen i simpel lineær regressionsmodel DTU Compute Introduktion til Statistik Efterår 2016 51 / 56

Korrelation Simuleringseksempel om korrelation ## Korrelation ## Generer x x <- runif(n=20, min=-2, max=4) ## Simuler y beta0=50; beta1=200; sigma=90 y <- beta0 + beta1 * x + rnorm(n=length(x), mean=0, sd=sigma) ## Scatter plot plot(x,y) ## Brug lm() til at udregne estimaterne fit <- lm(y ~ x) ## Den rigtige linie abline(beta0, beta1) ## Plot fittet abline(fit, col="red") ## Se summary, deri står hvad vi har brug for summary(fit) ## Korrelation mellem x og y cor(x,y) ## Kvadreret er den "Multiple R-squared" fra summary(fit) cor(x,y)^2 DTU Compute Introduktion til Statistik Efterår 2016 52 / 56

Residual Analysis: Model kontrol Residual Analysis Method 5.26 Check normality assumption with qq-plot. Check (non)systematic behavior by plotting the residuals e i as a function of fitted values ŷ i DTU Compute Introduktion til Statistik Efterår 2016 54 / 56

Residual Analysis in R Residual Analysis: Model kontrol fit <- lm(y ~ x) par(mfrow = c(1, 2)) qqnorm(fit$residuals) qqline(fit$residuals) plot(fit$fitted, fit$residuals, xlab='fitted values', ylab='residuals') Normal Q-Q Plot Sample Quantiles -100-50 0 50 100 150 Residuals -100-50 0 50 100 150-2 -1 0 1 2 Theoretical Quantiles -400-200 0 200 400 600 800 Fitted values DTU Compute Introduktion til Statistik Efterår 2016 55 / 56

Outline Outline 1 Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) 4 Statistik og lineær regression 5 Hypotesetests og konfidensintervaller for ˆβ 0 og ˆβ 1 6 Konfidensinterval og prædiktionsinterval Konfidensinterval for linien Prædiktionsinterval 7 summary(lm()) wrap up 8 Korrelation 9 Residual Analysis: Model kontrol DTU Compute Introduktion til Statistik Efterår 2016 56 / 56