Module 12: Mere om variansanalyse

Transkript

1 Module 12: Mere om variansanalyse 12.1 Parreded observationer Faktor med 2 niveauer (0-1 variabel) Tosidig variansanalyse med tilfældig virkning Uafhængighedsbetragtninger Opsummering

2 12.1 Parreded observationer Specialtilfælde af tosidig variansanalyse (uden gentagelser), hvor s = 2 : Y ij N ( µ ij, σ 2), i = 1,...,r, j = 1, 2 (s = 2). Så kan H 2 skrives: H 2 : µ ij = { αi for j = 1 α i + δ for j = 2 Test for ingen J-faktor effekt, dvs test H 3 : δ = 0. Benyt t-test, da ˆδ = Y +2 Y +1 N ) (δ, 2σ2, r 2

3 så t (Y) = Y +2 Y ) +1 s.e. (ˆδ H 3 t (r 1), hvor og ) s.e. (ˆδ = σ 2 2/r 3

4 σ 2 2 = 1 r 1 D I.J = 1 r { (Yi1 ) 2 ( ) 2 } Y i+ Y +1 + Y ++ + Yi2 Y i+ Y +2 + Y ++ r 1 i=1 { = 1 r [1 r 1 2 (Y i1 Y i2 ) 1 ( ) ] 2 [ 1 Y +1 Y (Y i2 Y i1 ) 1 ( ) Y +2 Y +1 2 i=1 1 r [ = Yi2 Y i1 ( )] 2 Y +2 Y (r 1) i= Faktor med 2 niveauer (0-1 variabel) Lad I i = 1, 2 Faktor 4

5 Vektorer: 1,e 1,e 2 lineært afhængige, da e 1 + e 2 = 1: Konst. i = 1 i = } Gruppe 1 } Gruppe 2 Tre mulige baser: (1,e 1 ) α1 + β 1 e 1 = (1,e 2 ) α1 + β 2 e 2 = { α i gruppe 2 α + β 1 i gruppe 1 { α i gruppe 1 α + β 2 i gruppe 2 5

6 3. (e 1,e 2 ) β 1 e 1 + β 2 e 2 = { β1 i gruppe 1 β 2 i gruppe 2 (3. er uheldig, fordi den mangler en konstant) Fortolkning af parametre: 1. α = niveau for gruppe 2, β 1 = forskel mellem gruppe 1 og gruppe α = niveau for gruppe 1, β 2 = forskel mellem gruppe 2 og gruppe β 1 = niveau for gruppe 1, β 2 = niveau for gruppe 2. Konklusion: Brug 0 1 variabel i stedet for faktor. (Mao, drop den ene vektor e i.) 6

7 Vælges e 1 er gruppe 2 referencegruppe. Vælges e 2 er gruppe 1 referencegruppe. Bemærk: Partielle residualplots giver ikke mening for 0 1 variable. Eksempler: Rask som referencegruppe og Syg som anden gruppe som referencegruppe og 1994 som anden gruppe. Danmark som referencegruppe og Sverige som anden gruppe. Eksempel: Rottefodring 7

8 Gruppe1: meget protein, oksekød Gruppe2: lidt protein, oksekød Gruppe3: meget protein, vegetabilsk Gruppe4: lidt protein, vegetabilsk Vægt efter bestemt tid: oksekød vegetabilsk lidt protein meget protein Istedet for faktorer, definer to 0-1 variable: e type = e mængde = { 1 hvis vegetabilsk 0 hvis oksekød { 1 hvis meget protein 0 hvis lidt protein 8

9 Dvs, oksekødsdiæt er referencegruppen mht typevariablen og lidt protein er referencegruppen mht mængdevariablen. En regressionsanalyse med forklarende variable e type og e mændge giver flg ANOVA tabel: Variable df Estimate Error t P intercept type amount Dvs, typefaktoren er ikke signifikant, men mængdefaktoren er, på niveau 5%. Den fittede model er: vægt = e type e mængde. Estimater for middelværdierne i de fire grupper fås fra modellen: Gruppe1 (meget protein, oksekød): µ 1 = =

10 Gruppe2 (lidt protein, oksekød): µ 2 = = 83.9 Gruppe3 (meget protein, vegetabilsk): µ 3 = = 90.6 Gruppe4 (lidt protein, vegetabilsk): µ 4 = = Tosidig variansanalyse med tilfældig virkning Tilbage til generelle modeller: 10

11 H 1 : δ ij H 2 : Y ijk = α i + β j + δ ij + ε ijk Y ijk = α i + β j + ε ijk α i ւ ց β j Y ijk = β j + ε ijk H 3 H3 : β j ց ւ α i Y ijk = α i + ε ijk H 4 : Y ijk = α + ε ijk hvor ε ijk N ( 0, σ 2) uafhængige. Antag balanceret design, dvs Y ijk : i = 1,...,r j = 1,...,s k = 1,...,t. 11

12 Problem: H 2 forkastes! Dvs, for mindst et i,j, med i = 1,...,r og j = 1,...,s, er δ ij 0. I vores sædvanlige approach må vi stoppe her: vi kan ikke bestemme hovedvirkninger. (rs ligninger med rs + r + s ubestemte). i \ j 1 2 s 1 2. t replikationer r Løsning: Indfør random (tilfældig) effekt 12

13 Udgangspunkt: Y ijk = α i + β j + δ ij + ε ijk, ε ijk N ( 0, σ 2) Ny model: hvor Y ijk = α i + β j + d ij + ε ijk, ε ijk N ( 0,σ 2) } uafh. d ij N ( 0,τ 2) uafhængig uafh. Dette er en faktor random effekt model (varianskomponent model). Analysemetode: 13

14 Prøv de sædvanlige metoder på den nye model. Betragt hvor p 1 er projektion på Den ijk te koordinat af p 1 : Y = p 1 (Y) + Y p 1 (Y) L 1 = {µ R n µ ijk = α i + β j + d ij i,j,k}. p 1 (Y) ijk = Y ij+ = α i + β j + d ij + ε ij+ = α i + β j + e ij e ij = d ij + ε ij+ 14

15 Fordelingen af e ij er normal og E [e ij ] = E [d ij ] + E [ε ij+ ] = 0 idet Konklusion 1: Var [e ij ] = Var [d ij ] + Var [ε ij+ ] + Cov [d ij,ε ij+ ] }{{} =0 = τ 2 + σ2 t Var [ε ij+ ] = Var [ t k=1 ε ijk t ] = t k=1 σ 2 t 2 = σ2 t. Y ij+ opfylder betingelserne for den sædvanlige to-faktor ANOVA med 1 replikation Y ij+ er uafhængige. 15

16 Y ij+ er normalfordelt. Y ij+ har alle samme varians. Dvs. α i, β j, τ 2 = τ 2 + σ 2 /t (τ 2 R + ) kan estimeres fra Y ij+. Men mangler estimat for σ 2 (giver samtidig et estimat for τ 2 ). Betragt {Y p 1 (Y)} ijk = α i + β j + d ij + ε ijk (α i + β j + d ij + ε ij+ ) = ε ijk ε ij+ = ε ijk p 1 (ε) ijk = {ε p 1 (ε)} ijk. 16

17 Konklusion 2: Da ε ijk N ( 0, σ 2) i både ny og gammel model, har Y p 1 (Y) samme fordeling i den nye model Y ijk = α i + β j + d ij + ε ijk, som i den gamle to-faktormodel Y ijk = α i + β j + δ ij + ε ijk. Husk: I gammel model, estimat for variansen for ε, σ 2, er en funktion af Y gennem Y p 1 (Y). Da fordelingerne af Y p 1 (Y) er ens i ny og gammel, giver Y p 1 (Y) (ny model) også et estimat for σ 2, dvs σ 2 1 = 1 rs (t 1) r i=1 s j=1 t ( ) 2 Yijk Y ij+. k=1 17

18 Fordelingen (under H 1 ) er σ 2 σ2 χ 2 (rs (t 1)). rs (t 1) 1. Fra Konklusion 1: τ 2 = τ 2 + σ 2 /t kan estimeres 2. Fra Konklusion 2: σ 2 kan estimeres Dvs, τ 2 kan estimeres. Altså kan vi estimere alle parametre i den nye model Y ijk = α i + β j + d ij + ε ijk. via de marginale fordelinger af Y ij+ (estimation af α i, β j, τ 2 ) og Y p 1 (Y) (estimation af σ 2 ). 18

19 Men får vi gode estimater? Eller bliver varianserne af estimaterne større når vi estimerer i de marginale fordelinger fremfor den simultane fordeling? (dvs: mister vi efficiens?) Uafhængighedsbetragtninger Vi ved, at p 1 (ε) uafhængig af ε p 1 (ε) (thm. 3 side 41 i BJ) og d ij uafh. ε ijk uafh. } indbyrdes uafhængige pr. antagelse Det følger at flg. alle er uafhængige: d ij, ε ij+, ε p 1 (ε). 19

20 Videre: p 1 (Y) afhænger kun af d ij og ε ij+ Y p 1 (Y) afhænger kun af ε p 1 (ε) dvs. p 1 (Y) og Y p 1 (Y) uafhængige p 1 (Y) har kun parametre α i,β j,τ 2 Y p 1 (Y) har kun parameter σ 2 τ 2 = τ 2 + σ 2 /t varierer uafhængigt at σ 2 Det følger at: α i,β j,τ 2 estimeres ligegodt marginalt fra p 1 (Y) som fra Y. 20

21 σ 2 estimeres ligegodt marginalt fra Y p 1 (Y) som fra Y. Da både τ 2 og σ 2 estimeres optimalt, og de varierer uafhængigt, estimeres τ 2 optimalt vha τ 2 = τ 2 + σ 2 /t Opsummering Modellen ) (α i + β j,τ 2 + σ2 M 1 : Y ij+ N t i = 1,...,r, j = 1,...s betragtes som en to-faktor ANOVA med 1 replikation. 21

22 Denne model (Y ijk = α i + β j + e ij ) tjekkes med residualanalyse. Accepteres den fortsættes som vanligt. Specielt er D I.J en estimator af tτ 2 + σ 2, da r s ( ) 2 D I.J = t Y ij+ Y i++ Y +j+ + Y +++ i=1 j=1 ( ) = t Y ij+ p 1 Y ij+ 2, hvor p 1 er projektionen på L 1 = {µ R n µ ij+ = α i + β j i,j}. ANOVA tabellen bliver: 22

23 Kilde D d.f. D F F tilf. I D I r 1 D I D I /D err D I /D I.J J D J s 1 D J D J /D err D J /D I.J I.J D I.J (r 1) (s 1) D I.J D I.J /D err Fejl D err rs (t 1) D err Total S y rst 1 F-testene er de sædvanlige. Specielt er testet D I.J /D err et test for hypotesen H 0 : τ 2 = 0. F tilf. er F-testene med tilfældig virkning. Eksempel: Investigation into whether the drugs levorphanol and epinephrine reduce stress. Each treatment was given to five animals, and the cortical sterone level (which reflects the stress-level) was measured. 23

24 Epinephrine: Yes No Levorph.: Yes 3.08, 1.42, 4.54, 1.25, , 3.36, 1.64, 1.74, 1.21 No 5.33, 4.84, 5.26, 4.92, , 1.80, 1.54, 4.10, 1.89 ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol Epinephrine Interaction Error Total Dvs, interaktionen er signifikant (på niveau 5%). Også begge 24

25 hovedeffekter. Lad interaktionen være en tilfældig effekt. Ny ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol Epinephrine Interaction Error Total Ingen af hovedeffekterne er signifikante! 25