Module 12: Mere om variansanalyse

Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................ 2 2.3 Tosidig variansanalyse med tilfældig virkning................... 4 2.3. Uafhængighedsbetragtninger........................ 7 2.3.2 Opsummering................................. 8 2. Parreded observationer Specialtilfælde af tosidig variansanalyse (uden gentagelser), hvor s = 2 : Så kan H 2 skrives: Y ij N ( µ ij,σ 2), i =,...,r, j =,2 (s = 2). H 2 : µ ij = Test for ingen J-faktor effekt, dvs test { αi for j = α i + δ for j = 2 H 3 : δ = 0. Benyt t-test, da så ˆδ = Y +2 Y + N ) (δ, 2σ2, r t (Y) = Y +2 Y ) + H 3 t (r ), s.e.(ˆδ hvor og ) s.e. (ˆδ = σ 2 2/r

2.2 Faktor med 2 niveauer (0- variabel) 2 σ 2 2 = = = = r D I.J r { (Yi ) 2 ( ) } 2 Y i+ Y + + Y ++ + Yi2 Y i+ Y +2 + Y ++ r i= { r [ r 2 (Y i Y i2 ) ( ) ] 2 [ Y + Y +2 + 2 2 (Y i2 Y i ) ( ) ] } 2 Y +2 Y + 2 i= 2(r ) r [ Yi2 Y i ( )] 2 Y +2 Y +. i= 2.2 Faktor med 2 niveauer (0- variabel) Lad I i =,2 Faktor Vektorer:,e,e 2 lineært afhængige, da e + e 2 = : Konst. i = i = 2 0 0 0 0 } Gruppe } Gruppe 2 Tre mulige baser:. 2. 3. (,e ) α + β e = (,e 2 ) α + β 2 e 2 = (e,e 2 ) β e + β 2 e 2 = (3. er uheldig, fordi den mangler en konstant) { α i gruppe 2 α + β i gruppe { α i gruppe α + β 2 i gruppe 2 { β i gruppe β 2 i gruppe 2 Fortolkning af parametre:. α = niveau for gruppe 2, β = forskel mellem gruppe og gruppe 2. 2. α = niveau for gruppe, β 2 = forskel mellem gruppe 2 og gruppe.

2.2 Faktor med 2 niveauer (0- variabel) 3 3. β = niveau for gruppe, β 2 = niveau for gruppe 2. Konklusion: Brug 0 variabel i stedet for faktor. (Mao, drop den ene vektor e i.) Vælges e er gruppe 2 referencegruppe. Vælges e 2 er gruppe referencegruppe. Bemærk: Partielle residualplots giver ikke mening for 0 variable. Eksempler: Rask som referencegruppe og Syg som anden gruppe. 2004 som referencegruppe og 994 som anden gruppe. Danmark som referencegruppe og Sverige som anden gruppe. Eksempel: Rottefodring Gruppe: meget protein, oksekød Gruppe2: lidt protein, oksekød Gruppe3: meget protein, vegetabilsk Gruppe4: lidt protein, vegetabilsk Vægt efter bestemt tid: Istedet for faktorer, definer to 0- variable: oksekød vegetabilsk lidt protein 90 76 90... 07 95 97... meget protein 73 2 8... 98 74 56... e type = e mængde = { hvis vegetabilsk 0 hvis oksekød { hvis meget protein 0 hvis lidt protein Dvs, oksekødsdiæt er referencegruppen mht typevariablen og lidt protein er referencegruppen mht mængdevariablen.

2.3 Tosidig variansanalyse med tilfældig virkning 4 En regressionsanalyse med forklarende variable e type og e mændge giver flg ANOVA tabel: Variable df Estimate Error t P intercept 83.9 4.255 9.72 <0.00 type -4.7 4.94-0.96 0.345 amount.4 4.94 2.32 0.026 Dvs, typefaktoren er ikke signifikant, men mængdefaktoren er, på niveau 5%. Den fittede model er: vægt = 83.9 4.7e type +.4e mængde. Estimater for middelværdierne i de fire grupper fås fra modellen: Gruppe (meget protein, oksekød): µ = 83.9 4.7 0 +.4 = 95.3 Gruppe2 (lidt protein, oksekød): µ 2 = 83.9 4.7 0 +.4 0 = 83.9 Gruppe3 (meget protein, vegetabilsk): µ 3 = 83.9 4.7 +.4 = 90.6 Gruppe4 (lidt protein, vegetabilsk): µ 4 = 83.9 4.7 +.4 0 = 79.2. 2.3 Tosidig variansanalyse med tilfældig virkning Tilbage til generelle modeller: hvor H : δ ij H 2 : Y ijk = α i + β j + δ ij + ε ijk Y ijk = α i + β j + ε ijk α i ւ ց β j Y ijk = β j + ε ijk H 3 H3 : β j ց ւ α i Y ijk = α i + ε ijk H 4 : Y ijk = α + ε ijk Antag balanceret design, dvs ε ijk N ( 0,σ 2) uafhængige. Y ijk : i =,...,r j =,...,s k =,...,t. Problem: H 2 forkastes! Dvs, for mindst et i,j, med i =,...,r og j =,...,s, er δ ij 0.

2.3 Tosidig variansanalyse med tilfældig virkning 5 I vores sædvanlige approach må vi stoppe her: vi kan ikke bestemme hovedvirkninger. (rs ligninger med rs + r + s ubestemte). i \ j 2 s 2 Løsning: Indfør random (tilfældig) effekt. t replikationer r Udgangspunkt: Y ijk = α i + β j + δ ij + ε ijk, ε ijk N ( 0,σ 2) Ny model: hvor Y ijk = α i + β j + d ij + ε ijk, ε ijk N ( 0,σ 2) uafh. d ij N ( 0,τ 2) uafh. } uafhængig Dette er en faktor random effekt model (varianskomponent model). Analysemetode: Prøv de sædvanlige metoder på den nye model. Betragt hvor p er projektion på Y = p (Y) + Y p (Y) Den ijk te koordinat af p : L = {µ R n µ ijk = α i + β j + d ij i,j,k}. p (Y) ijk = Y ij+ = α i + β j + d ij + ε ij+ = α i + β j + e ij e ij = d ij + ε ij+

2.3 Tosidig variansanalyse med tilfældig virkning 6 Fordelingen af e ij er normal og E[e ij ] = E[d ij ] + E[ε ij+ ] = 0 idet Var [e ij ] = Var [d ij ] + Var [ε ij+ ] + Cov[d ij,ε ij+ ] } {{ } =0 = τ 2 + σ2 t Var [ε ij+ ] = Var [ t k= ε ijk t ] = t k= σ 2 t 2 = σ2 t. Konklusion : Y ij+ opfylder betingelserne for den sædvanlige to-faktor ANOVA med replikation Y ij+ er uafhængige. Y ij+ er normalfordelt. Y ij+ har alle samme varians. Dvs. α i, β j, τ 2 = τ 2 + σ 2 /t (τ 2 R + ) kan estimeres fra Y ij+. Men mangler estimat for σ 2 (giver samtidig et estimat for τ 2 ). Betragt {Y p (Y)} ijk = α i + β j + d ij + ε ijk (α i + β j + d ij + ε ij+ ) = ε ijk ε ij+ = ε ijk p (ε) ijk = {ε p (ε)} ijk. Konklusion 2: Da ε ijk N ( 0,σ 2) i både ny og gammel model, har Y p (Y) samme fordeling i den nye model Y ijk = α i + β j + d ij + ε ijk, som i den gamle to-faktormodel Y ijk = α i + β j + δ ij + ε ijk. Husk: I gammel model, estimat for variansen for ε, σ 2, er en funktion af Y gennem Y p (Y).

2.3 Tosidig variansanalyse med tilfældig virkning 7 Da fordelingerne af Y p (Y) er ens i ny og gammel, giver Y p (Y) (ny model) også et estimat for σ 2, dvs σ 2 = r s t ( ) 2 Yijk Y ij+. rs (t ) Fordelingen (under H ) er i= j= k= σ 2 σ2 χ 2 (rs (t )). rs (t ). Fra Konklusion : τ 2 = τ 2 + σ 2 /t kan estimeres 2. Fra Konklusion 2: σ 2 kan estimeres Dvs, τ 2 kan estimeres. Altså kan vi estimere alle parametre i den nye model Y ijk = α i + β j + d ij + ε ijk. via de marginale fordelinger af Y ij+ (estimation af α i, β j, τ 2 ) og Y p (Y) (estimation af σ 2 ). Men får vi gode estimater? Eller bliver varianserne af estimaterne større når vi estimerer i de marginale fordelinger fremfor den simultane fordeling? (dvs: mister vi efficiens?) 2.3. Uafhængighedsbetragtninger Vi ved, at p (ε) uafhængig af ε p (ε) (thm. 3 side 4 i BJ) og d ij ε ijk uafh. uafh. Det følger at flg. alle er uafhængige: Videre: } indbyrdes uafhængige pr. antagelse d ij, ε ij+, ε p (ε). p (Y) afhænger kun af d ij og ε ij+ Y p (Y) afhænger kun af ε p (ε)

2.3 Tosidig variansanalyse med tilfældig virkning 8 dvs. p (Y) og Y p (Y) uafhængige p (Y) har kun parametre α i,β j,τ 2 Y p (Y) har kun parameter σ 2 τ 2 = τ 2 + σ 2 /t varierer uafhængigt at σ 2 Det følger at: α i,β j,τ 2 estimeres ligegodt marginalt fra p (Y) som fra Y. σ 2 estimeres ligegodt marginalt fra Y p (Y) som fra Y. Da både τ 2 og σ 2 estimeres optimalt, og de varierer uafhængigt, estimeres τ 2 optimalt vha τ 2 = τ 2 + σ 2 /t. 2.3.2 Opsummering Modellen M : Y ij+ N ) (α i + β j,τ 2 + σ2 t betragtes som en to-faktor ANOVA med replikation. i =,...,r, j =,... s Denne model (Y ijk = α i + β j + e ij ) tjekkes med residualanalyse. Accepteres den fortsættes som vanligt. Specielt er D I.J en estimator af tτ 2 + σ 2, da D I.J r s ( ) 2 = t Y ij+ Y i++ Y +j+ + Y +++ i= j= = t Y ij+ p ( Y ij+ ) 2, hvor p er projektionen på L = {µ R n µ ij+ = α i + β j i,j}. ANOVA tabellen bliver:

2.3 Tosidig variansanalyse med tilfældig virkning 9 Kilde D d.f. D F F tilf. I D I r D I D I /D err D I /D I.J J D J s D J D J /D err D J /D I.J I.J D I.J (r ) (s ) D I.J D I.J /D err Fejl D err rs (t ) D err Total S y rst F-testene er de sædvanlige. Specielt er testet D I.J /D err et test for hypotesen H 0 : τ 2 = 0. F tilf. er F-testene med tilfældig virkning. Eksempel: Investigation into whether the drugs levorphanol and epinephrine reduce stress. Each treatment was given to five animals, and the cortical sterone level (which reflects the stress-level) was measured. ANOVA tabel: Epinephrine: Yes No Levorph.: Yes 3.08,.42, 4.54,.25, 2.57 0.82, 3.36,.64,.74,.2 No 5.33, 4.84, 5.26, 4.92, 6.07.90,.80,.54, 4.0,.89 Source d.f. Sum of squares Mean square F-value p-value Levorphanol 2.83 2.83 2.60 0.003 Epinephrine 8.59 8.59 8.25 0.00 Interaction 6.6 6.6 6.05 0.026 Error 6 6.30.02 Total 9 53.88 Dvs, interaktionen er signifikant (på niveau 5%). Også begge hovedeffekter. Lad interaktionen være en tilfældig effekt. Ny ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol 2.83 2.83 2.083 0.386 Epinephrine 8.59 8.59 3.06 0.333 Interaction 6.6 6.6 Error 6 6.30.02 Total 9 53.88 Ingen af hovedeffekterne er signifikante!