Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2 Parrede data....................... 7 4.3 Énsidig variansanalyse.................. 11 4.3.1 Model....................... 12 4.3.2 Estimation.................... 13 1

4.3.3 Modelkontrol................... 18 4.3.4 Hypotesetest................... 21 4.3.5 Præsentation af resultater........... 24. 4.1 Analyse af én stikprøve Eksempel: Vægt af 15 pakker sukker Statistisk model: 16.1 15.8 15.8 15.9 16.1 16.2 16.0 15.9 16.0 15.7 15.7 15.8 16.0 16.0 15.8 Y 1,...,Y n er uafhængige, Y i N ( β,σ 2) i 2

β R og σ 2 > 0 er ukendte Er det en lineær model? Bemærk: Modellen er Y = µ + ε, med µ = EY = β. β = β1 3

4.1.1 Estimation Lad L 1 = span {1}. p 1 (Y) = YT 1 1 21 = Y +1 Altså finder vi estimatorerne: ˆβ (Y) = ˆβ = Y + σ 2 1 (Y) = σ 2 1 = 1 n 1 n i=1 ( Yi Y + ) 2 } uafhængige ˆβ (Y) N ( β,σ 2 /n ) σ 1 2 (Y) σ 2 χ 2 (n 1) / (n 1) Eksempel: Vægt af 15 pakker sukker ˆβ (y) = 15.92 og σ 1 2 (y) = 0.02314 4

Bemærk: Estimatorer er stokastiske variable, som har en fordeling. Estimater er kendte tal, som udregnes på grundlag af givne data. Fremover vil vi dog ikke skelne mellem estimater ( f.eks. ˆβ (y)) og estimatorer ( f.eks. ˆβ (Y)) i notationen. Vi skriver i stedet ˆβ uden argument, og det bør fremgå af sammenhængen om der menes estimat eller estimator. 4.1.2 Modelkontrol Før vi kan gå videre skal modellen kontrolleres. 1. Uafhængighed: følger af måden data er indsamlet på. Da der er tale om et homogent sample, er det rimeligt at antage, at 5

Y i -erne er ens fordelt. 2. Normalitet: undersøges ved et normalfordelingplot ( ) i 1/2 Normal score = Φ 1 n Figure 4.1: Normal plot for the sugar data (BJ Fig 1.1 i Kap. 3.) De lodrette søjler af data må skyldes den kraftige afrunding. Ellers ser forløbet pænt lineært ud. (Resume om normalfordelingsplot i 6

BJ s. 15 16.) 4.1.3 Hypotesetest Eksempel: Vægt af 15 pakker sukker Test H 2 : β = β 0 = 16 (Affin hypotese. Kun en parameter indgår, så brug t-test.) Vi benytter Da t 0.975 (14) = 2.145 accepteres H 2 0.06. t(y) = ˆβ β ( 0 ) = ˆβ 16 s.e. ˆβ σ/ 15 = 2.037 t(y) H 2 t (n 1) på niveau 5% med en p-værdi på 7

Data tyder ikke på, at den gennemsnitslige vægt afviger fra 16. Altså kan vi ikke forkaste H 2 på baggrund af de givne data. 4.2 Parrede data Eksempel: Stivelse i kartofler Data: BJ Tabel 2.1. s. 73: Potato no. Method 1 Method 2 Difference 1 21.7 21.5-0.2 2. 18.7. 18.7. 0.0. 16 15.6 15.5-0.1 Lad Y i = U i2 U i1, 8

Figure 4.2: Scatterplot for the starch data (BJ figur 2.1, kap. 3) hvor U i1 refererer til indholdet målt ved metode 1 og U i2 refererer til metode 2. Antag Y i N ( β, σ 2) for i = 1,...,16 = n 9

β = Systematisk forskel på metoder. σ 2 = Variansen på differensen. Så model samme som før. Modelcheck: Figure 4.3: Normal plot of differences, starch data (BJ figur 2.2, kap. 3) 10

Test hypotese: H 2 : β = 0 (ingen forskel) Estimater: ˆβ = 0.075, σ 2 1 = 0.0287 t-test: t (y) = ˆβ 0 σ/ n = 1.77 Så det to-sidede test for H 2 har p-værdi = 0.097. Altså tyder data ikke på, at de to metoder er forskellige. 11

4.3 Énsidig variansanalyse Sammenligning af flere stikprøver. Eksempel: Bilirubin data Data: BJ Tabel 3.3. s. 83: Individual Concentration 1 0.14 0.20 0.66 2 0.20 0.27 0.55 3 0.32 0.41 0.91 12

Figure 4.4: A scatterplot of the bilirubin data (BJ figur 3.4, kap. 3) 4.3.1 Model hvor Y ij N ( β i,σ 2) 13

i = 1, 2,...,k individ (k=3) j = 1,...,n i gentagelser (n 1 = 11, n 2 = 10 og n 3 = 8) Interessant hypotese om der er samme gennemsnitskoncentration for alle k individer. Dvs, test H 2 : β 1 = = β k. 4.3.2 Estimation hvor Y = µ + ε, 14

µ = β 1. β 1 β 2. β 2 β 3. β 3 n 1 n 2 n 3 15

Lad e i = 0. 0 1. 1 0. 0 gruppe i, Så er Y = β 1 e 1 + β 2 e 2 + + β k e k + ε, dvs, hvor β i -erne er ukendte. µ = k e i β i, i=1 16

Så modellen er lineær. Vektorerne e 1,...,e k er ortogonale, altså en ortogonal basis. ˆµ 1 = p 1 (Y) = k i=1 Y e i e i 2 e i = k Y i+ e i. i=1 Ved at aflæse koefficienterne i linearkombinationen fås ˆβ i = Y i+ for i = 1,...,k. Så ˆβ 1,..., ˆβ k er uafhængige (da Y erne er uafhængige), og ˆβ i = Y i+ N ( β i, σ 2 /n i ) 17

Variansestimat hvor D 1 = σ 2 1 = 1 n k Y ˆµ 1 2 = 1 n k D 1, k i=1 n i j=1 D 1 = samlet variation indenfor grupper. ( Yij Y i+ ) 2 H1 σ 2 χ 2 (n k) Bemærk: Der gælder altid i ensidig variansanalyse at alle parameter estimatorerne ˆβ 1,..., ˆβ k og σ 1 2 er uafhængige. 18

4.3.3 Modelkontrol Residualer: Fittede værdier R ij = Y ij Y i+ ˆµ ij = Y i+ i,j. Figure 4.5: Residual plot for bilirubin data (BJ figur 3.6, kap. 3) 19

Figure 4.6: Normal plot of residuals for bilirubin data (BJ figur 3.7, kap. 3) Lad nu y ij =log(koncentrationen). Så modellen er log (Y) = µ + ε, 20

Figure 4.7: Residual plot for the bilirubin data (logarithms) (BJ figur 3.9, kap. 3) 21

Figure 4.8: Normal plot of residuals, bilirubin data (logarithms) (BJ figur 3.10, kap. 3) 4.3.4 Hypotesetest Test hypotesen at der ikke er forskel på de k grupper. (Fx, ingen forskel på bilirubinkoncentrationen for de tre mænd.) 22

Hypotesen er: H 2 : β 1 = = β k = β, hvor β er fælles, men ukendt. Under H 2 er modellen µ = β1 samme som før Så estimaterne er og ˆβ = Y ++ = 1 n k i=1 n i j=1 σ 2 2 = 1 n 1 D 2, Y ij 23

hvor D 2 = k i=1 n i j=1 ( Yij Y ++ ) 2 = den totale variation Tæller i F-test: D 2 D 1 = ˆµ 1 ˆµ 2 2 = = = k i=1 n i j=1 ( Yij Y ++ ) 2 k n k i ( ) 2 Y i+ Y ++ i=1 j=1 k ( ) 2 n i Y i+ Y ++ i=1 i=1 n i j=1 = variation mellem grupper. ( Yij Y i+ ) 2 24

F-test: F (Y) = (D 2 D 1 )/(k 1) σ 2 1 H 2 F (k 1,n k) 4.3.5 Præsentation af resultater Klassisk AVOVA tabel: Så p-værdi: 0.0387. Kilde D d.f. D F Mellem grp (D 2 D 1 ) 1.11 2 0.55 3.67 Indenfor grp (D 1 ) 3.95 26 0.15 Total 5.06 28 De tre β i -er er forskellige, altså tyder data på, at middel log-koncentratione af bilirubin er forskellig fra individ til individ. 25

Brug derfor estimater fra H 1 : Parameter Estimat s.e. β 1 1.09 0.12 β 2 1.03 0.12 β 3 0.63 0.14 Middel koncentrationen estimeres ved ( ) exp ˆβi : Hvilke individer er forskellige? 1 0.3362 2 0.3570 3 0.5325 Test for H 2 : β 1 = β 2 (f.eks.) 26

Hypotesen H 2 kan skrives som Test for H 2 : β = β 1 β 2 = 0, hvor ˆβ ( ) N 0,σ 2 ( 1 n 1 + 1 n 2 ) under H 2. (Da ˆβ i er uafhængige og fordelt N ( β, σ 2 /n 1 ) under H2.) Brug t-test t (Y) = ˆβ 1 ˆβ 2 σ 1 n 1 1 + n 1 2 H 2 t (n k) Tilsvarende for β 2 = β 3 etc. Eksempel: Bilirubin data β 1 = β 2 : t (y) = 0.376 β 2 = β 3 : t (y) = 2.164 t 0.975 (26) = 2.056 27

Konklusion: Der er ikke signifikant forskel på bilirubinkoncentrationen for Individ 1 og 2. Der er signifikant forskel på bilirubinkoncentrationen for Individ 2 og 3. Bemærk: Hvis k = 2 kan t-testet (tosidet) erstatte F-testet, som test for sammenligning af β-er. 28