Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Størrelse: px

Starte visningen fra side:

Download "Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19"

Bjarne Klausen
9 år siden
Visninger:

1 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

2 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større afstand X µ 0 eller større Z = ( X µ 0 )/(σ/ n) des mere skeptisk er vi overfor H 0. Observeret afstand x µ 0 eller observeret z stor hvis lille sandsynlighed for at observere endnu større afstand eller z: H 1 : µ µ 0 : p = P(Z < z) + P(Z > z) H 1 : µ < µ 0 : p = P(Z < z) H 1 : µ > µ 0 : p = P(Z > z) Bemærk: p-værdi udregnes under antagelse af, at H 0 er sand. Lille p: enten er der sket noget meget usandsynligt eller også er H 0 falsk.

3 Fortolkning af p-værdi p \ H 0 sand falsk lille noget meget usandsynligt er indtruffet ingen modstrid stor ingen modstrid ingen modstrid Dvs. håndfaste konklusioner kun mulig hvis lille p. Stor p-værdi : kan konkludere, at der ikke er evidens mod H 0 men ikke at H 0 er sand. (Store p-værdier kan sagtens optræde under den alternative hypotese) HUSK: p-værdi ikke sandsynlighed for at H 0 er sand - men netop beregnet under antagelse, at H 0 er sand! 3/19

4 Eksempel Opgave (soft drink). H 0 : µ = 200 Antag x = hvorved z = ( )/(15/ 9) = p = P(Z < 2.78) + P(Z > 2.78) = 0.5% Dvs. enten er der sket noget meget usandsynligt eller også er antagelsen µ = 200 forkert. 4/19

5 Lineær regression Sammenhørende x (regnmængde) og y (luftforurening) målinger: x y Plot af målinger samt regressionslinie: y x Simpel model for sammenhæng: y = α + βx Problem: passer ikke nøjagtigt pga. målefejl. 5/19

6 Notation Pas på: I denne sammenhæng er α og β ikke sandsynligheder for type I og type II fejl. (bogens notation er dog ikke specielt uheldig, for de fleste bøger bruger α og/eller β ved regression) 6/19

7 Den lineære regressionsmodel Forklarende/Uafhængige variable: x 1, x 2,...,x n (givne) Afhængige variable: y 1, y 2,...,y n (stokastiske) y i = α + βx i + ǫ i hvor ǫ i angiver uafhængige normalfordelte målefejl/støj: ǫ i N(0, σ 2 ) y i N(α + βx i, σ 2 ) 7/19

8 Statistiske problemstillinger: Estimation af α og β. Check af forudsætninger for lineær regressionsmodel. Test af hypoteser vedr. α og β. Prediktion. 8/19

9 Estimation af α og β For estimater ˆα og ˆβ er den predikterede værdi af y i givet ved ŷ i = ˆα + ˆβx i Residual (afvigelse mellem observation og prediktion): e i = y i ŷ i Mindste kvadraters metode: vælg ˆα og ˆβ så sum af kvadrerede residualer n i=1 e2 i minimeres. Dette giver ˆβ = n i=1 (x i x)(y i ȳ) n i=1 (x i x) og ˆα = ȳ ˆβ x I regnvejrseksemplet fås: ˆβ = og ˆα = /19

10 Estimation af σ 2 Estimat af σ 2 : s 2 = 1 n 2 n (y i ŷ i ) 2 n 2: mister 2 frihedsgrader ved estimation af de 2 ukendte middelværdiparametre α og β. i=1 10/19

11 Check af modellens forudsætninger Husk ǫ i uafhængige og N(0, σ 2 ). ǫ i = y i (α + βx i ) estimeres af residualer e i = y i (ˆα + ˆβx i ) Histogram og QQ plot af e i : Histogram of res Normal Q Q Plot Frequency Sample Quantiles res Theoretical Quantiles Et par rigeligt store residualer - men ikke usædvanligt for så lille n. 11/19

12 Varianshomogenitet Ifølge modelantagelse har alle fejl ǫ i samme varians σ 2. Eksempel Typisk afvigelse er, at varians voksende/aftagende funktion af α + βx i : y vs. x residuals vs. ŷ res y x hat y 12/19

13 For regn/forureningsdata res yhat Ingen systematisk sammenhæng 13/19

14 Statistisk inferens vedr. α og β ˆα og ˆβ funktioner af y 1,...,y n dvs. stokastiske variable. Fordeling af ˆα og ˆβ: ˆβ β S/ SS xx og ˆα α S SS x /(nss xx ) er begge t(n 2) fordelte (SS x = n i=1 x2 i og SS xx = n i=1 (x i x) 2 ). Dvs. konfidensintervaller og hypotese-test helt analog til konfidensintervaller og test for µ (σ ukendt). 14/19

15 Eksempel: Konfidensintervaller og hypoteser for β Konfidensinterval: t 1 α/2 ˆβ β S/ t α/2 SS xx S ˆβ + t 1 α/2 β ˆβ + t α/2 SSxx Hypotese-test: Hypotesen H 0 : β = β 0 accepteres hvis t 1 α/2 og t α/2 (n 2 frihedsgrader). S SSxx ˆβ β 0 S/ SS xx ligger mellem 15/19

16 Determinationskoefficient R 2 R 2 = 1 n i=1 (y i ŷ i ) 2 n i=1 (y i ȳ) 2 mål for hvor megen variation, der beskrives af regressionslinie. Hvis lineær regressionsmodel ikke er forbedring i forhold til model hvor alle observationer har samme middelværdi µ gælder residualvariation fra regressionen totalvariation af y ( n ) n (y i ŷ i ) 2 (y i ȳ) 2 i=1 Dermed fås lille R 2, dvs. tæt på 0. Omvendt R 2 tæt på 1 hvis lineær regression god beskrivelse af data. i=1 16/19

17 Estimation/Prediktion Lad x 0 være en værdi af den forklarende variabel og antag y 0 uobserveret Vi kan nu være interesseret i at estimere µ y x0 = E(y 0 ) = α + βx 0 (deterministisk størrelse) eller prediktere y 0 = α + βx 0 + ǫ (stokastisk variabel). I begge tilfælde er bedste estimat/prediktor givet ved ŷ 0 = ˆα+ ˆβx 0. Konfidensinterval for E(y 0 ) (hvor ligger linjen): 1 ŷ 0 t α/2 s n + (x 0 x) 2 1 < µ S y x0 < ŷ 0 + t α/2 s xx n + (x 0 x) 2 S xx Prediktionsinterval for y 0 (hvor ligger ny observation): ŷ 0 t α/2 s n + (x 0 x) 2 < y 0 < ŷ 0 +t S α/2 s xx n + (x 0 x) 2 S xx 17/19

18 Estimation/Prediktion Bemærk: prediktionsfejlen er estimationsfejl af E(y 0 ) plus variation af ny observation. Derfor er prediktionsinterval for y 0 bredere end konfidensinterval for E(y 0 ). Regnvejrs/forureningsdata: y x 18/19

19 Lineær regression i SPSS Gå ind i Analyze Regression Linear. Under Statistics og Plots kan konfidensintervaller, residual-plots osv. findes. Alternativt kan man bruge Analyze Regression Curve Estimation - den viser et plot af data med linjen. 19/19

Relaterede dokumenter

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =