men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Relaterede dokumenter
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Kursus 02402/02323 Introducerende Statistik

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Modul 11: Simpel lineær regression

Perspektiver i Matematik-Økonomi: Linær regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Opgavebesvarelse, brain weight

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

(studienummer) (underskrift) (bord nr)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Appendiks Økonometrisk teori... II

Konfidensintervaller og Hypotesetest

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Modul 6: Regression og kalibrering

To samhørende variable

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Nanostatistik: Lineær regression

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Løsning eksamen d. 15. december 2008

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

(studienummer) (underskrift) (bord nr)

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Eksamen i Statistik for biokemikere. Blok

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Opgaver til kapitel 3

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Multipel Lineær Regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

(studienummer) (underskrift) (bord nr)

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Klasseøvelser dag 2 Opgave 1

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Module 3: Statistiske modeller

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

(studienummer) (underskrift) (bord nr)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Forelæsning 11: Envejs variansanalyse, ANOVA

Løsning til eksaminen d. 29. maj 2009

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget?

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Løsning til eksaminen d. 14. december 2009

(studienummer) (underskrift) (bord nr)

Kapitel 11 Lineær regression

Transkript:

Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) = 1% 1. repetition: hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test, p-værdi. 2. lineær regression. Type II fejl: accepter når hypotese falsk. Styrke= 1- β = 1- P(type II)=sandsynlighed for at forkaste hypotese. Eksempel: antag µ = µ 1 og µ 1 µ 0. styrke = P µ=µ1 (Z < 2.58) + P µ=70 (Z > 2.58) men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! 1 Bemærk: signifikansniveau og styrke kan beregnes før forsøget udføres (dvs. uden vi har observeret X). 3 Hypotese-test: repetition Udgangspunkt i test for H 0 : µ = µ 0 mod alternativ µ µ 0 og σ kendt. Store/små værdier af kritiske. Hvis H 0 er sand, er X µ 0 eller Z = X µ 0 σ n X µ 0 N(0,σ 2 /n) og Z N(0,1) Eksempel: opgave 15 side 299 µ 0 = 200, σ = 15 og n = 9. Forkaster hvis X 191 eller X 209 eller hvis Z (191 200)/(15/ 9) = 1.8 eller Z (209 200)/(15/ 9) = 1.8. Signifikansniveau: α = P(Z 1.8) + P(Z 1.8) = 7.2% Styrke hvis µ = 185: 1 β = P µ=185 (Z 1.8) + P µ=185 (Z 1.8) = 88% Omvendt, hvis H 0 ikke er sand og µ = µ 1 : X µ 0 N(µ 1 µ 0,σ 2 /n) og Z N((µ 1 µ 0 ) n/σ, 1) da Z N((185 200) 9/15,1) = N( 3,1) når µ = 185. 2 4

Illustration af ensidet test Forkast hvis Z < 1.64 giver igen signifikansniveau P(Z < 1.64) = 7.2%. Styrke hvis µ = 185 er P µ=185 (Z < 1.64) = 91%! dnorm() 0.0 0.1 0.2 0.3 0.4 mu=185 6 4 2 0 2 H0 Dvs. mindst 91 % sandsynlighed for at detektere afvigelser µ 200 < 15 (µ < 185). Ensidet test relevant fra forbrugerens synsvinkel. 5 Fortolkning af p-værdi p \ H 0 sand falsk lille noget usandsynligt er indtruffet ingen modstrid stor ingen modstrid ingen modstrid Dvs. håndfaste konklusioner kun mulig hvis lille p. Stor p-værdi : kan konkludere, at der ikke er evidens mod H 0 men ikke at H 0 er sand! (store p-værdier kan sagtens optræde under den alternative hypotese) p-værdi ikke sandsynlighed for at H 0 er sand - netop beregnet under antagelse, at H 0 er sand! 7 p-værdi I modsætning til α og styrke udregnes p efter at forsøget er udført. Ide: jo større afstand X µ 0 eller større Z des mere skeptisk er vi overfor hypotese. Ide: observeret afstand µ 0 eller observeret z stor hvis lille sandsynlighed for at observere endnu større afstand/z: p = P( Z > z) = P(Z < z) + P(Z > z) Bemærk: p-værdi udregnes under antagelse af, at H 0 er sand. Eksempel opgave 15 (soft drink). H 0 : µ = 200 Antag = 185 hvorved z = (185 200)/(15/ 9) = 3. p = P(Z < 3) + P(Z > 3) = 0.3% Dvs. enten er der sket noget meget usandsynligt eller også er antagelse µ = 200 forkert. Lille p: enten er der sket noget meget usandsynligt eller også er H 0 falsk. For test med signifikansniveau α: p < α forkast 6 8

Lineær regression Sammenhørende (regnmængde) og y (luftforurening) målinger: 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5 y 126 121 116 118 114 118 132 141 108 Plot af målinger samt regressionslinie: Den lineære regressionsmodel Forklarende/Uafhængige variable: 1, 2,..., n y 110 120 130 140 2 3 4 5 6 7 Afhængige variable: Y 1,Y 2,...,Y n (stokastiske) Y i = α + β i + ǫ i hvor ǫ i angiver uafhængige normalfordelte målefejl/støj: ǫ i N(0,σ 2 ) Y i N(α + β i,σ 2 ) Simpel model for sammenhæng: y = β + α Problem: passer ikke nøjagtigt pga. målefejl. 9 11 Statistiske problemstillinger: Pas på: i denne sammenhæng er α og β ikke sandsynligheder for type I og type II fejl. (bogens notation lidt uheldig) estimation af α og β. check af forudsætninger for lineær regressionsmodel. test af hypoteser vedr. α og β. prediktion. 10 12

Mindste kvadraters metode For estimater ˆα og ˆβ er den predikterede værdi af Y i givet ved ŷ i = ˆα + ˆβ i Residual (afvigelse mellem observation og prediktion): e i = y i ŷ i Mindste kvadraters metode: vælg ˆα og ˆβ så sum af kvadrerede residualer i=1 e2 i minimeres. > fit=lm(y~) # ~ specificerer at y afhaenger af > fit Call: lm(formula = y ~ ) Coefficients: (Intercept) 153.175-6.324 Dette giver ˆβ = i=1 ( i )(Y i Ȳ ) i=1 ( i ) og ˆα = Ȳ ˆβ > abline(fit) #tegner regressionslinie I R vha. lm(y~) 13 15 Check af modellens forudsætninger Husk ǫ i uafhængige og N(0,σ 2 ). ǫ i = Y (α + β i ) estimeres af residualer e i = y i (ˆα + ˆβ i ) Estimat af σ 2 : s 2 = 1 n 2 n (y i ŷ i ) 2 n 2: mister 2 frihedsgrader ved estimation af de 2 ukendte middelværdiparametre α og β. i=1 Histogram og qq plot af e i : Frequency 0 1 2 3 4 Histogram of res Sample Quantiles 3 2 1 0 1 2 3 Normal Q Q Plot 4 2 0 2 4 1.5 1.0 0.5 0.0 0.5 1.0 1.5 res Theoretical Quantiles Et par rigeligt store residualer - men ikke usædvanligt for så lille n. 14 16

Varianshomogenitet y R kommandoer Ifølge modelantagelse har alle fejl ǫ i samme varians. Eksempel Typisk afvigelse er, at varians voksende/aftagende funktion af α + β i : y vs. residuals vs. ŷ fit=lm(y~) alpha.beta=coef(fit) #etract coefficients res=residuals(fit) #etract residuals hist(res,nclass=4) 5 10 15 res 0 5 10 qqnorm(res) qqline(res) 1 2 3 4 5 3 4 5 6 7 hat y yhat=fitted(fit) # etract predictions plot(yhat,res) abline(c(0,0)) 17 19 For regn/forureningsdata Statistisk inferens vedr. α og β ˆα og ˆβ funktioner af Y 1,...,Y n dvs. stokastiske variable. Fordeling af ˆα og ˆβ: res 3 2 1 0 1 2 3 ˆβ β S/ SS og ˆα α S SS /(nss ) er begge t(n 2) fordelte (SS = i=1 2 i og SS = i=1 ( i ) 2 ). Dvs. konfidensintervaller, p-værdier og hypotese-test helt analog til konfidensintervaller og test for µ (σ ukendt). 105 110 115 120 125 130 135 140 yhat Ingen systematisk sammenhæng 18 Eksempel 95 % konfidensinterval for β: t 0.025 ˆβ β S/ SS t 0.975 ˆβ + t 0.025 S/ SS β ˆβ + t 0.975 S/ SS og vi accepterer hypotese H 0 : β = β 0 hvis (n 2 frihedsgrader). 20 ˆβ β 0 S/ SS mellem t 0.025 og t 0.975

> summary(fit) Call: lm(formula = y ~ ) Residuals: Min 1Q Median 3Q Ma -3.7175-0.5992 0.1360 1.1049 2.8557 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 153.1755 2.6147 58.58 1.11e-10 *** -6.3240 0.5019-12.60 4.58e-06 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Residual standard error: 2.203 on 7 degrees of freedom Multiple R-Squared: 0.9578,Adjusted R-squared: 0.9517 F-statistic: 158.8 on 1 and 7 DF, p-value: 4.579e-06 # aekvivalent med t-test for 21 Forsøgsplanlægning Hvordan skal vi vælge 1,..., n for at få præcist estimat af β? (smalt konfidensinterval) 23 R 2 Konfidensintervaller: > confint(fit) 2.5 % 97.5 % (Intercept) 146.992807 159.358179-7.510773-5.137202 NB: ˆα = 153.18 og standard error for ˆα er 2.61. Grænser for konfidensinterval ˆα ± 2 std. error. Tilsvarende for β. R 2 = 1 i=1 (y i ŷ i ) 2 i=1 (y i ȳ) 2 mål for hvor megen variation, der beskrives af regressionslinie. Hvis lineær regressionsmodel ikke er forbedring i forhold til model hvor alle observationer har samme middelværdi µ gælder Dermed fås lille R 2. n (y i ŷ i ) 2 i=1 n (y i ȳ) 2 i=1 Omvendt R 2 tæt på 1 hvis lineær regression god beskrivelse af data. 22 24

Estimation/Prediktion Lad 0 være en værdi af den forklarende variabel og antag Y 0 uobserveret Vi kan nu være interesseret i at estimere µ Y 0 = E(Y 0 ) = α + β 0 (deterministisk størrelse) eller prediktere Y 0 = α + β 0 + ǫ (stokastisk variabel). I begge tilfælde er bedste estimat/prediktor givet ved Ŷ0 = ˆα + ˆβ 0. Konfidensinterval for EY 0 se WMMY side 368 henh. 409. 95 % Prediktionsinterval for Y 0 : interval der med sandsynlighed 95 % vil indeholde uobserverede Y 0 (side 370 henh. 411 i WMMY). 25 Bereging af konfidensintervaller og prediktionsintervaller vha. R 0=seq(min(),ma(),len=100) #danner vektor af -vaerdier # som vi vil prediktere y for #udregner prediktioner samt intervaller ypred0=predict(fit,newdata=data.frame(=0),interval="prediction") yhat0=predict(fit,newdata=data.frame(=0),interval="confidence") #newdata indeholder de -vaerdier som vi vil prediktere for plot(,y) #plotter data abline(fit) #samt tilpasset regressionslinie #tilfoejer konf. og pred. intervaller til plot lines(0,ypred0[,2],lty=2) lines(0,ypred0[,3],lty=2) lines(0,yhat0[,2],lty=3) lines(0,yhat0[,3],lty=3) 27 NB: Y 0 Ŷ0 = Y 0 E(Y 0 ) + E(Y 0 ) Ŷ0 = ǫ 0 + E(Y 0 ) Ŷ0 dvs. prediktionsfejl er ǫ 0 plus estimationsfejl af E(Y 0 ). Derfor er prediktionsinterval for Y 0 bredere end konfidensinterval for EY 0. Regnvejrs/forureningsdata: y 110 120 130 140 2 3 4 5 6 7 26