Module 4: Ensidig variansanalyse

Størrelse: px

Starte visningen fra side:

Download "Module 4: Ensidig variansanalyse"

Birthe Damgaard
9 år siden
Visninger:

1 Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve Estimation Modelkontrol Hypotesetest Parrede data Énsidig variansanalyse Model Estimation

2 4.3.3 Modelkontrol Hypotesetest Præsentation af resultater Analyse af én stikprøve Eksempel: Vægt af 15 pakker sukker Statistisk model: Y 1,...,Y n er uafhængige, Y i N ( β,σ 2) i 2

3 β R og σ 2 > 0 er ukendte Er det en lineær model? Bemærk: Modellen er Y = µ + ε, med µ = EY = β. β = β1 3

4 4.1.1 Estimation Lad L 1 = span {1}. p 1 (Y) = YT = Y +1 Altså finder vi estimatorerne: ˆβ (Y) = ˆβ = Y + σ 2 1 (Y) = σ 2 1 = 1 n 1 n i=1 ( Yi Y + ) 2 } uafhængige ˆβ (Y) N ( β,σ 2 /n ) σ 1 2 (Y) σ 2 χ 2 (n 1) / (n 1) Eksempel: Vægt af 15 pakker sukker ˆβ (y) = og σ 1 2 (y) =

5 Bemærk: Estimatorer er stokastiske variable, som har en fordeling. Estimater er kendte tal, som udregnes på grundlag af givne data. Fremover vil vi dog ikke skelne mellem estimater ( f.eks. ˆβ (y)) og estimatorer ( f.eks. ˆβ (Y)) i notationen. Vi skriver i stedet ˆβ uden argument, og det bør fremgå af sammenhængen om der menes estimat eller estimator Modelkontrol Før vi kan gå videre skal modellen kontrolleres. 1. Uafhængighed: følger af måden data er indsamlet på. Da der er tale om et homogent sample, er det rimeligt at antage, at 5

6 Y i -erne er ens fordelt. 2. Normalitet: undersøges ved et normalfordelingplot ( ) i 1/2 Normal score = Φ 1 n Figure 4.1: Normal plot for the sugar data (BJ Fig 1.1 i Kap. 3.) De lodrette søjler af data må skyldes den kraftige afrunding. Ellers ser forløbet pænt lineært ud. (Resume om normalfordelingsplot i 6

7 BJ s ) Hypotesetest Eksempel: Vægt af 15 pakker sukker Test H 2 : β = β 0 = 16 (Affin hypotese. Kun en parameter indgår, så brug t-test.) Vi benytter Da t (14) = accepteres H t(y) = ˆβ β ( 0 ) = ˆβ 16 s.e. ˆβ σ/ 15 = t(y) H 2 t (n 1) på niveau 5% med en p-værdi på 7

8 Data tyder ikke på, at den gennemsnitslige vægt afviger fra 16. Altså kan vi ikke forkaste H 2 på baggrund af de givne data. 4.2 Parrede data Eksempel: Stivelse i kartofler Data: BJ Tabel 2.1. s. 73: Potato no. Method 1 Method 2 Difference Lad Y i = U i2 U i1, 8

9 Figure 4.2: Scatterplot for the starch data (BJ figur 2.1, kap. 3) hvor U i1 refererer til indholdet målt ved metode 1 og U i2 refererer til metode 2. Antag Y i N ( β, σ 2) for i = 1,...,16 = n 9

10 β = Systematisk forskel på metoder. σ 2 = Variansen på differensen. Så model samme som før. Modelcheck: Figure 4.3: Normal plot of differences, starch data (BJ figur 2.2, kap. 3) 10

11 Test hypotese: H 2 : β = 0 (ingen forskel) Estimater: ˆβ = 0.075, σ 2 1 = t-test: t (y) = ˆβ 0 σ/ n = 1.77 Så det to-sidede test for H 2 har p-værdi = Altså tyder data ikke på, at de to metoder er forskellige. 11

12 4.3 Énsidig variansanalyse Sammenligning af flere stikprøver. Eksempel: Bilirubin data Data: BJ Tabel 3.3. s. 83: Individual Concentration

13 Figure 4.4: A scatterplot of the bilirubin data (BJ figur 3.4, kap. 3) Model hvor Y ij N ( β i,σ 2) 13

14 i = 1, 2,...,k individ (k=3) j = 1,...,n i gentagelser (n 1 = 11, n 2 = 10 og n 3 = 8) Interessant hypotese om der er samme gennemsnitskoncentration for alle k individer. Dvs, test H 2 : β 1 = = β k Estimation hvor Y = µ + ε, 14

15 µ = β 1. β 1 β 2. β 2 β 3. β 3 n 1 n 2 n 3 15

16 Lad e i = gruppe i, Så er Y = β 1 e 1 + β 2 e β k e k + ε, dvs, hvor β i -erne er ukendte. µ = k e i β i, i=1 16

17 Så modellen er lineær. Vektorerne e 1,...,e k er ortogonale, altså en ortogonal basis. ˆµ 1 = p 1 (Y) = k i=1 Y e i e i 2 e i = k Y i+ e i. i=1 Ved at aflæse koefficienterne i linearkombinationen fås ˆβ i = Y i+ for i = 1,...,k. Så ˆβ 1,..., ˆβ k er uafhængige (da Y erne er uafhængige), og ˆβ i = Y i+ N ( β i, σ 2 /n i ) 17

18 Variansestimat hvor D 1 = σ 2 1 = 1 n k Y ˆµ 1 2 = 1 n k D 1, k i=1 n i j=1 D 1 = samlet variation indenfor grupper. ( Yij Y i+ ) 2 H1 σ 2 χ 2 (n k) Bemærk: Der gælder altid i ensidig variansanalyse at alle parameter estimatorerne ˆβ 1,..., ˆβ k og σ 1 2 er uafhængige. 18

19 4.3.3 Modelkontrol Residualer: Fittede værdier R ij = Y ij Y i+ ˆµ ij = Y i+ i,j. Figure 4.5: Residual plot for bilirubin data (BJ figur 3.6, kap. 3) 19

20 Figure 4.6: Normal plot of residuals for bilirubin data (BJ figur 3.7, kap. 3) Lad nu y ij =log(koncentrationen). Så modellen er log (Y) = µ + ε, 20

21 Figure 4.7: Residual plot for the bilirubin data (logarithms) (BJ figur 3.9, kap. 3) 21

22 Figure 4.8: Normal plot of residuals, bilirubin data (logarithms) (BJ figur 3.10, kap. 3) Hypotesetest Test hypotesen at der ikke er forskel på de k grupper. (Fx, ingen forskel på bilirubinkoncentrationen for de tre mænd.) 22

23 Hypotesen er: H 2 : β 1 = = β k = β, hvor β er fælles, men ukendt. Under H 2 er modellen µ = β1 samme som før Så estimaterne er og ˆβ = Y ++ = 1 n k i=1 n i j=1 σ 2 2 = 1 n 1 D 2, Y ij 23

24 hvor D 2 = k i=1 n i j=1 ( Yij Y ++ ) 2 = den totale variation Tæller i F-test: D 2 D 1 = ˆµ 1 ˆµ 2 2 = = = k i=1 n i j=1 ( Yij Y ++ ) 2 k n k i ( ) 2 Y i+ Y ++ i=1 j=1 k ( ) 2 n i Y i+ Y ++ i=1 i=1 n i j=1 = variation mellem grupper. ( Yij Y i+ ) 2 24

25 F-test: F (Y) = (D 2 D 1 )/(k 1) σ 2 1 H 2 F (k 1,n k) Præsentation af resultater Klassisk AVOVA tabel: Så p-værdi: Kilde D d.f. D F Mellem grp (D 2 D 1 ) Indenfor grp (D 1 ) Total De tre β i -er er forskellige, altså tyder data på, at middel log-koncentratione af bilirubin er forskellig fra individ til individ. 25

26 Brug derfor estimater fra H 1 : Parameter Estimat s.e. β β β Middel koncentrationen estimeres ved ( ) exp ˆβi : Hvilke individer er forskellige? Test for H 2 : β 1 = β 2 (f.eks.) 26

27 Hypotesen H 2 kan skrives som Test for H 2 : β = β 1 β 2 = 0, hvor ˆβ ( ) N 0,σ 2 ( 1 n n 2 ) under H 2. (Da ˆβ i er uafhængige og fordelt N ( β, σ 2 /n 1 ) under H2.) Brug t-test t (Y) = ˆβ 1 ˆβ 2 σ 1 n n 1 2 H 2 t (n k) Tilsvarende for β 2 = β 3 etc. Eksempel: Bilirubin data β 1 = β 2 : t (y) = β 2 = β 3 : t (y) = t (26) =

28 Konklusion: Der er ikke signifikant forskel på bilirubinkoncentrationen for Individ 1 og 2. Der er signifikant forskel på bilirubinkoncentrationen for Individ 2 og 3. Bemærk: Hvis k = 2 kan t-testet (tosidet) erstatte F-testet, som test for sammenligning af β-er. 28

Relaterede dokumenter

Module 9: Residualanalyse

Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer