Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med baglæns eleminering 7 33 Matrixnotation 9 331 Vektorer og matricer 9 332 Modelspecifikation 10 333 Estimation af model 12 334 Fittede værdier og residualer 13 335 Inferens 15 34 Figurer 16 31 ANOVA ANalysis Of VAriance Opsplitning af variation forklarende variable fejlled Teste hypoteser: H 0 : Afhænger responsen overhovedet af de forklarende variable? dss H 0 : β 1 β q 0 mod H A : ikke H 0 Eksempel 31 Højde, vægt og alder af børn For en gruppe børn med en bestemt spiseforstyrrelse, blev vægt, højde og alder noteret
31 ANOVA 2 Afhænger vægten overhovedet af højde og alder? (F1) Modul 2: Test hypotese vha H 0i : β i 0, ˆβ i N ( β i,σ 2 (β i ) ) Men her H 0 : β 1 β q 0 Total variation i data: hvor n ( SSTO Yi Y ) 2, i1 Ȳ 1 n n Y i i1 SSTO n ( Yi Y ) 2 i1 n i1 i1 ( ) 2 Y i Ŷi + Ŷi Y n ( ) 2 n ) 2 Y i Ŷi + (Ŷi Y SSE + SSR prediktion: Ŷ i ˆβ 0 + ˆβ 1 x 1i + ˆβ 2 x 2i + + ˆβ q x qi modelvariation: SSR residualvariation: SSE i1
31 ANOVA 3 H 0 : Afhænger responsen overhovedet af de forklarende variable? JA: Estimeret model forklarer stor del af variationen i data: modelvariation SSR stor ŷ ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + + ˆβ q x q NEJ: Variationen i data skyldes fejled: ǫ i residualvariation SSE stor H 0 : β 1 β q 0 mod H A : ikke H 0 Teststørrelse: H 0 sand: H 0 falsk: F SSR/q SSE/(n q 1) SSR lille relativ til SSE F lille SSR stor relativ til SSE F stor F SSR/q SSE/(n q 1) MSR MSE Mean squares: Kvadratsum delt med frihedsgrader SST O : total frihedsgrader n 1 SSR : modelfrihedsgrader q SSE : residualfrihedsgrader n q 1
32 Variabelselektion 4 Frihedsgrad: mindste antal led så kvadratsum kan beregnes Fordeling af teststørrelse: F F (q,n q 1) Forkast H 0 hvis obs værdi af F er stor iht ford Eksempel 31 Højde, vægt og alder af børn For en gruppe børn med en bestemt spiseforstyrrelse, blev vægt (Y ), højde (X 1 ) og alder (X 2 ) noteret (Outlier fjernet) Model: Hypotese: F-test: i F (2,8)-ford: Y i β 0 + β 1 x 1i + β 2 x 2i + ǫ i, ǫ i N ( 0,σ 2), i 1,2,11 H 0 : β 1 β 2 0 mod H A : ikke H 0 F 59003/2 669/8 3077, p 00002 32 Variabelselektion Eksempel 32 Påvirkning af pesticider i kyllinger Pesticider (insekticider) benyttes i kyllingestalde for at holde insekter nede, men giften påvirker desuden kyllingerne Ved at øge aktiviteten af visse enzymer i leveren hos kyllingerne, kan effekten af giften mindskes Hos 10 kyllinger blev 5 forskellige enzymeaktiviteter (x 1,,x 5 ) øget, og effekten af pesticidforgiftningen (Y ) målt (Alle målinger som % i forhold til ubehandlet kylling) Model: Y i β 0 + β 1 x 1i + β 2 x 2i + + β 5 x 5i + ǫ i, ǫ i N ( 0,σ 2), i 1,2,10 Kan modellen forbedres:
32 Variabelselektion 5 Mere informativ? Simplere? Hvad er den bedste model? 321 Multipel determinationskoefficient R 2 SSR SSTO 1 SSE SSTO Andel af variation i data, som kan beskrives vha modellen Korrelation mellem respons Y og predikterede Ŷ Alternativt: R 2 100% PAS PÅ: kan være misvisende! Simpel lineær regression: R 2 SSR SSTO determinationskoefficient Bemærk: Kan antage alle værdier: R 2 [0,1] R 1 : modellen beskriver stor del af variation R 0 : modellen beskriver næsten intet af variationen Eksempel 31 Højde, vægt og alder af børn Vægt, højde og alder af en gruppe børn med en bestemt spiseforstyrrelse Model med interaktion: ŷ 1808 + 062x 1 + 054x 2 + 0021x 1 x 2 Model uden interaktion: r 2 0886 ŷ 821 + 168x 1 + 073x 2 r 2 0885
32 Variabelselektion 6 Problem: R 2 altid størst i model med flest variable, uanset om variable informative! Justeret multipel determinationskoefficient R 2 a: Samme fortolkning som R 2 R 2 1 Øges ikke hvis ny variabel ikke informativ PAS PÅ: kan være misvisende! SSE/(n q 1) SSTO/(n 1) Eksempel 31 Højde, vægt og alder af børn Vægt, højde og alder af en gruppe børn med en bestemt spiseforstyrrelse Model med interaktion: ŷ 1808 + 062x 1 + 054x 2 + 0021x 1 x 2 Model uden interaktion: r 2 a 0837 ŷ 821 + 168x 1 + 073x 2 r 2 a 0856 Eksempel 32 Påvirkning af pesticider i kyllinger Hos 10 kyllinger blev 5 forskellige enzymeaktiviteter (x 1,,x 5 ) øget, og effekten af pesticidforgiftningen (Y ) målt: Y i β 0 + β 1 x 1i + β 2 x 2i + + β 5 x 5i + ǫ i, ǫ i N ( 0,σ 2), i 1,2,10 Den bedste model? 2 5 32 kombinationer! System i modelvalg?
32 Variabelselektion 7 322 Variabelselektion med baglæns eleminering 1 Estimer fuld model 2 Fjern den mindst signifikante variabel (p > 010) 3 Estimer reduceret model 4 Fjern den mindst signifikante variabel i reduceret model 5 Fortsæt m Trin 3 og 4 indtil kun signifikante variable i model Example 32 Påvirkning af pesticider i kyllinger Hos 10 kyllinger blev 5 forskellige enzymeaktiviteter (x 1,,x 5 ) øget, og effekten af pesticidforgiftningen (Y ) målt Estimation af fuld model giver Y i β 0 + β 1 x 1i + β 2 x 2i + + β 5 x 5i + ǫ i, ǫ i N ( 0,σ 2), i 1,2,10 r 2 0793, r 2 a 0533 Estimation af fuld model Parameter Estimate Standard error t-statistic p-value β 0-896 1954-046 0670 β 1 01714 01042 164 0175 β 2 00326 01440 023 0832 β 3 03378 06803 050 0646 β 4 00403 01362 030 0782 β 5 0725 1740 042 0699 giver Y i β 0 + β 1 x 1i + β 2 x 2i + + β 5 x 5i + ǫ i, ǫ i N ( 0,σ 2), i 1,2,10 r 2 0793, r 2 a 0533 Parameter Estimate Standard error t-statistic p-value β 0-896 1954-046 0670 β 1 01714 01042 164 0175 β 2 00326 01440 023 0832 β 3 03378 06803 050 0646 β 4 00403 01362 030 0782 β 5 0725 1740 042 0699
32 Variabelselektion 8 Estimation af reduceret model giver Y i β 0 + β 1 x 1i + β 3 x 3i + β 4 x 4i + β 5 x 5i + ǫ i, ǫ i N ( 0,σ 2), i 1,2,10 r 2 07930, r 2 a 0622 Parameter Estimate Standard error t-statistic p-value β 0-12781 8915-143 0211 β 1 018919 006187 306 0028 β 3 03067 05998 051 0631 β 4 005818 009982 058 0585 β 5 10931 05605 195 0109 Estimation af reduceret model giver Y i β 0 + β 1 x 1i + β 4 x 4i + β 5 x 5i + ǫ i, ǫ i N ( 0,σ 2), i 1,2,10 r 2 0779, r 2 a 0668 Parameter Estimate Standard error t-statistic p-value β 0-10194 6875-148 0189 β 1 019494 005697 342 0014 β 4 010022 005303 189 0108 β 5 11028 05247 210 0080 Estimation af reduceret model giver Slutmodel: Y i β 0 + β 1 x 1i + β 5 x 5i + ǫ i, ǫ i N ( 0,σ 2), i 1,2,10 r 2 0647, r 2 a 0546 Parameter Estimate Standard error t-statistic p-value β 0-9418 8025-117 0279 β 1 022723 006355 358 0009 β 5 12111 06099 199 0087 ŷ 9418 + 0227x 1 + 1211x 5 Bemærk: Model med x 1 og x 5 : r 2 0647, r 2 a 0546 Model med x 1,x 4 og x 5 : r 2 0779, r 2 a 0668
33 Matrixnotation 9 33 Matrixnotation Lineære modeller og beregninger simplificeres vha matrixregning Vektorer og matricer Matrixnotation for lineære modeller modelspecifikation estimation af model fittede værdier og residualer inferens 331 Vektorer og matricer Søjlevektor r 1: Rækkevektor 1 c: b b 1 b 2 b r d [d 1,d 2,,d c ] Matrice r c: A a 11 a 12 a 13 a 1c a 21 a 22 a 23 a 2c a r1 a r2 a r3 a rc Matricer: Kvadratisk: r c Symmetrisk (kvadratisk): a ij a ji, i,j Transponeret A : ombyt a ij og a ji, i,j A A A symmetrisk Identitetsmatrice I: a ii 1 i og a ij 0 i j IA A og BI B, hvis I (k k), A(k c), B (r k)
33 Matrixnotation 10 Invers A 1 (kvadratisk): A 1 A AA 1 I Vektor: specialtilfælde af matrice Matrixmultiplikation ( række gange søjle ): a 11 a 12 a 1k b 11 b 12 b 1c a 21 a 22 a 2k A, B b 21 b 22 b 2c a r1 a r2 a rk b k1 b k2 b kc c 11 c 12 c 1c c 21 c 22 c 2c k AB, hvor c ij a il b lj l1 c r1 c r2 c rc 332 Modelspecifikation Eksempel 33 Sommerhuse i Odsherred Salgspriser, alder og areal for 5 sommerhuse Odsherred: Pris Alder Areal DDK 1000 år m 2 (y) (x 1 ) (x 2 ) 745 36 66 895 37 68 442 47 64 440 32 53 1598 1 101 Model: Y i β 0 + β 1 x 1i + β 2 x 2i + ǫ i, ǫ i N ( 0,σ 2) uafh, i 1,,5 Ligninger: 745 β 0 + 36β 1 + 66β 2 + ǫ 1 895 β 0 + 37β 1 + 68β 2 + ǫ 2 442 β 0 + 47β 1 + 64β 2 + ǫ 3 440 β 0 + 32β 1 + 53β 2 + ǫ 4 1598 β 0 + β 1 + 101β 2 + ǫ 5
33 Matrixnotation 11 Responsvektor y: y y 1 y 2 y 3 y 4 y 5 745 895 442 440 1598 Designmatrix X : X 1 x 11 x 21 1 x 12 x 22 1 x 13 x 23 1 x 14 x 24 1 x 15 x 25 1 36 66 1 37 68 1 47 64 1 32 53 1 1 101 Ligningssystem: hvor Fx, første ligning: β β 0 β 1 β 2 y X β + ǫ, and ǫ ǫ 1 ǫ 2 ǫ 3 ǫ 4 ǫ 5 y 1 β 0 (1,x 11,x 21 ) β 1 β 2 + ǫ 1 β 0 + 36β 1 + 66β 2 + ǫ 1 Generelt: Ligninger: Y i β 0 + β 1 x 1i + β 2 x 2i + + β q x qi + ǫ i, i 1, n Y 1 β 0 + β 1 x 1,1 + β 2 x 1,2 + + β k x 1,k + ǫ 1 Y 2 β 0 + β 1 x 2,1 + β 2 x 2,2 + + β k x 2,k + ǫ 2 Y n β 0 + β 1 x n,1 + β 2 x n,2 + + β k x n,k + ǫ n
33 Matrixnotation 12 Responsvektor og designmatrice: Y 1 Y 2 Y og X Y n Parametervektor og fejlvektor: β β 0 β 1 β k 1 x 11 x 21 x q1 1 x 12 x 22 x q2 1 x 1n x 2n x qn, ǫ ǫ 1 ǫ 2 ǫ n Matrixform hvor Y X β + ǫ, ǫ i N ( 0,σ 2) uafhængige 333 Estimation af model Least squares method: n e 2 i i1 n (y i β 0 β 1 x 1i β 2 x 2i β q x qi ) 2 i1 Minimer mht β [β 0,β 1,,β q ] : (y X β) (y X β) 0 2X X ˆβ 2X y ˆβ ( X X ) 1 X y Eksempel 33 Sommerhuse i Odsherred Salgspriser (Y ), alder (x 1 ) og areal (x 2 ) for 5 sommerhuse Odsherred: 745 1 36 66 895 y 442 440, X 1 37 68 1 47 64 1 32 53 1598 1 1 101
33 Matrixnotation 13 Så er X T X 1 1 1 1 1 36 37 47 32 1 66 68 64 53 101 5 153 352 153 5899 9697 352 9697 26 086, 1 36 66 1 37 68 1 47 64 1 32 53 1 1 101 ( X T X ) 1 5 153 352 153 5899 9697 352 9697 26 086 1 27 53 0266 0273 0266 00030 0002 5 0273 00025 00028 ˆβ ( X T X ) 1 X T y 27 53 0266 0273 0266 00030 0002 5 0273 00025 00028 28143 7611 1901 334 Fittede værdier og residualer 1 1 1 1 1 36 37 47 32 1 66 68 64 53 101 745 895 442 440 1598 Vektor af fittede værdier: ŷ ŷ 1 ŷ 2 ŷ n H y, Hatmatrice: H X ( X T X ) 1 X T, (n n)
33 Matrixnotation 14 Residualer: e e 1 e 2 e n (I H) y Varians-kovariansmatrice: Σ (e) Var (e) Var e 1 e 2 e n v 11 v 12 v 1n v 21 v 22 v 2n v n1 v n2 v nn Symmetrisk Diagonalelemeter varianser: Var (e i ) v ii Ikke-diagonalelementer kovarianser: Cov(e i,e j ) v ij v ji Kan vise: Var (e) σ 2 (I H), n n Dvs Var (e i ) σ 2 (e i ) σ 2 (1 h ii ) σ (e i ) σ 1 h ii Standardiserede residualer: e i e i 1 hii Studentiserede residualer: e i e i σ 2 i e i (1 h ii ) σ 2 i, hvor σ 2 i MSE (i)
33 Matrixnotation 15 335 Inferens Varians-kovarians matrice for ˆβ: ) Σ (ˆβ σ 2 ( X T X ) 1 Estimeres ved: ) ˆΣ (ˆβ s 2 ( X T X ) 1 ( MSE X T X ) 1 For x 0 [1,x 10,x 20,,x q0 ] : Forventet middelrespons: Estimeret standard error: ŷ 0 x ˆβ 0 ˆσ (ŷ 0 ) x ˆΣ ) 0 (ˆβ x 0 Prediktion: ŷ new x ˆβ 0 Estimeret standard error: ˆσ (ŷ new ) MSE + ˆσ 2 (ŷ 0 ) MSE + x ˆΣ ) 0 (ˆβ Konfidensinterval hhv prediktionsinterval x 0 Eksempel 33 Sommerhuse i Odsherred Salgspriser (Y ), alder (x 1 ) og areal (x 2 ) for 5 sommerhuse Odsherred: ˆβ 0 28143 ˆβ ˆβ 1 7611, ˆβ 2 1901 ( X X ) 27 53 0266 0273 1 0266 00030 0002 5, 0273 00025 00028 MSE 25344 Så er ) ˆΣ(ˆβ 25344 27 53 0266 0273 0266 00030 0002 5 0273 00025 00028 69772 10 5 67415 69189 6741 5 76 032 63 36 6918 9 63 36 70 963
34 Figurer 16 Forventet salgspris for sommerhus på 25 år og 70 m 2 : 28143 ŷ 0 (1,25,70) 7611 1901 859 Estimeret standard error: ˆσ (ŷ 0 ) (1,25,70) 8802 69772 10 5 67415 69189 6741 5 76 032 63 36 6918 9 63 36 70 963 1 25 70 95% konfidensinterval for middelpris: CI 095 (y) ( )) ŷ 0 ± t 0975 (n q 1) ˆσ (Ŷ0 (859 ± 430 88) (481, 1237) 34 Figurer Vaegt 50 60 70 Vaegt 50 60 70 6 7 8 9 11 Alder 45 50 55 60 Hoejde Alder 6 7 8 9 11 45 50 55 60 Hoejde Figure 31: Vægt og højde, vægt og alder
34 Figurer 17 00 02 04 06 08 10 0 2 4 6 8 10 F(2,8) density Figure 32: Tæthed for F(2,8)-fordeling 00 02 04 06 00 02 04 06 0 2 4 6 8 F(3,1) density 0 2 4 6 8 F(3,20) density 00 02 04 06 00 04 08 0 2 4 6 8 F(20,3) density 0 2 4 6 8 F(25,25) density Figure 33: Tætheder for diverse F-fordelinger