Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større afstand X µ 0 eller større Z = ( X µ 0 )/(σ/ n) des mere skeptisk er vi overfor H 0. Observeret afstand x µ 0 eller observeret z stor hvis lille sandsynlighed for at observere endnu større afstand eller z: H 1 : µ µ 0 : p = P(Z < z) + P(Z > z) H 1 : µ < µ 0 : p = P(Z < z) H 1 : µ > µ 0 : p = P(Z > z) Bemærk: p-værdi udregnes under antagelse af, at H 0 er sand. Lille p: enten er der sket noget meget usandsynligt eller også er H 0 falsk.

Fortolkning af p-værdi p \ H 0 sand falsk lille noget meget usandsynligt er indtruffet ingen modstrid stor ingen modstrid ingen modstrid Dvs. håndfaste konklusioner kun mulig hvis lille p. Stor p-værdi : kan konkludere, at der ikke er evidens mod H 0 men ikke at H 0 er sand. (Store p-værdier kan sagtens optræde under den alternative hypotese) HUSK: p-værdi ikke sandsynlighed for at H 0 er sand - men netop beregnet under antagelse, at H 0 er sand! 3/19

Eksempel Opgave 10.15 (soft drink). H 0 : µ = 200 Antag x = 186.1 hvorved z = (186.2 200)/(15/ 9) = 2.78. p = P(Z < 2.78) + P(Z > 2.78) = 0.5% Dvs. enten er der sket noget meget usandsynligt eller også er antagelsen µ = 200 forkert. 4/19

Lineær regression Sammenhørende x (regnmængde) og y (luftforurening) målinger: x 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5 y 126 121 116 118 114 118 132 141 108 Plot af målinger samt regressionslinie: y 110 120 130 140 2 3 4 5 6 7 x Simpel model for sammenhæng: y = α + βx Problem: passer ikke nøjagtigt pga. målefejl. 5/19

Notation Pas på: I denne sammenhæng er α og β ikke sandsynligheder for type I og type II fejl. (bogens notation er dog ikke specielt uheldig, for de fleste bøger bruger α og/eller β ved regression) 6/19

Den lineære regressionsmodel Forklarende/Uafhængige variable: x 1, x 2,...,x n (givne) Afhængige variable: y 1, y 2,...,y n (stokastiske) y i = α + βx i + ǫ i hvor ǫ i angiver uafhængige normalfordelte målefejl/støj: ǫ i N(0, σ 2 ) y i N(α + βx i, σ 2 ) 7/19

Statistiske problemstillinger: Estimation af α og β. Check af forudsætninger for lineær regressionsmodel. Test af hypoteser vedr. α og β. Prediktion. 8/19

Estimation af α og β For estimater ˆα og ˆβ er den predikterede værdi af y i givet ved ŷ i = ˆα + ˆβx i Residual (afvigelse mellem observation og prediktion): e i = y i ŷ i Mindste kvadraters metode: vælg ˆα og ˆβ så sum af kvadrerede residualer n i=1 e2 i minimeres. Dette giver ˆβ = n i=1 (x i x)(y i ȳ) n i=1 (x i x) og ˆα = ȳ ˆβ x I regnvejrseksemplet fås: ˆβ = 6.324 og ˆα = 153.2 9/19

Estimation af σ 2 Estimat af σ 2 : s 2 = 1 n 2 n (y i ŷ i ) 2 n 2: mister 2 frihedsgrader ved estimation af de 2 ukendte middelværdiparametre α og β. i=1 10/19

Check af modellens forudsætninger Husk ǫ i uafhængige og N(0, σ 2 ). ǫ i = y i (α + βx i ) estimeres af residualer e i = y i (ˆα + ˆβx i ) Histogram og QQ plot af e i : Histogram of res Normal Q Q Plot Frequency 0 1 2 3 4 Sample Quantiles 3 2 1 0 1 2 3 4 2 0 2 4 res 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles Et par rigeligt store residualer - men ikke usædvanligt for så lille n. 11/19

Varianshomogenitet Ifølge modelantagelse har alle fejl ǫ i samme varians σ 2. Eksempel Typisk afvigelse er, at varians voksende/aftagende funktion af α + βx i : y vs. x residuals vs. ŷ 5 10 15 res 0 5 10 y 1 2 3 4 5 x 3 4 5 6 7 hat y 12/19

For regn/forureningsdata res 3 2 1 0 1 2 3 105 110 115 120 125 130 135 140 yhat Ingen systematisk sammenhæng 13/19

Statistisk inferens vedr. α og β ˆα og ˆβ funktioner af y 1,...,y n dvs. stokastiske variable. Fordeling af ˆα og ˆβ: ˆβ β S/ SS xx og ˆα α S SS x /(nss xx ) er begge t(n 2) fordelte (SS x = n i=1 x2 i og SS xx = n i=1 (x i x) 2 ). Dvs. konfidensintervaller og hypotese-test helt analog til konfidensintervaller og test for µ (σ ukendt). 14/19

Eksempel: Konfidensintervaller og hypoteser for β Konfidensinterval: t 1 α/2 ˆβ β S/ t α/2 SS xx S ˆβ + t 1 α/2 β ˆβ + t α/2 SSxx Hypotese-test: Hypotesen H 0 : β = β 0 accepteres hvis t 1 α/2 og t α/2 (n 2 frihedsgrader). S SSxx ˆβ β 0 S/ SS xx ligger mellem 15/19

Determinationskoefficient R 2 R 2 = 1 n i=1 (y i ŷ i ) 2 n i=1 (y i ȳ) 2 mål for hvor megen variation, der beskrives af regressionslinie. Hvis lineær regressionsmodel ikke er forbedring i forhold til model hvor alle observationer har samme middelværdi µ gælder residualvariation fra regressionen totalvariation af y ( n ) n (y i ŷ i ) 2 (y i ȳ) 2 i=1 Dermed fås lille R 2, dvs. tæt på 0. Omvendt R 2 tæt på 1 hvis lineær regression god beskrivelse af data. i=1 16/19

Estimation/Prediktion Lad x 0 være en værdi af den forklarende variabel og antag y 0 uobserveret Vi kan nu være interesseret i at estimere µ y x0 = E(y 0 ) = α + βx 0 (deterministisk størrelse) eller prediktere y 0 = α + βx 0 + ǫ (stokastisk variabel). I begge tilfælde er bedste estimat/prediktor givet ved ŷ 0 = ˆα+ ˆβx 0. Konfidensinterval for E(y 0 ) (hvor ligger linjen): 1 ŷ 0 t α/2 s n + (x 0 x) 2 1 < µ S y x0 < ŷ 0 + t α/2 s xx n + (x 0 x) 2 S xx Prediktionsinterval for y 0 (hvor ligger ny observation): ŷ 0 t α/2 s 1 + 1 n + (x 0 x) 2 < y 0 < ŷ 0 +t S α/2 s 1 + 1 xx n + (x 0 x) 2 S xx 17/19

Estimation/Prediktion Bemærk: prediktionsfejlen er estimationsfejl af E(y 0 ) plus variation af ny observation. Derfor er prediktionsinterval for y 0 bredere end konfidensinterval for E(y 0 ). Regnvejrs/forureningsdata: y 110 120 130 140 2 3 4 5 6 7 x 18/19

Lineær regression i SPSS Gå ind i Analyze Regression Linear. Under Statistics og Plots kan konfidensintervaller, residual-plots osv. findes. Alternativt kan man bruge Analyze Regression Curve Estimation - den viser et plot af data med linjen. 19/19