Module 12: Mere om variansanalyse

Relaterede dokumenter
Module 12: Mere om variansanalyse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Module 4: Ensidig variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

To-sidet varians analyse

Kapitel 12 Variansanalyse

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kapitel 12 Variansanalyse

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Module 3: Statistiske modeller

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Multipel Lineær Regression

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Modul 11: Simpel lineær regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Tema. Dagens tema: Indfør centrale statistiske begreber.

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Eksamen i Statistik for biokemikere. Blok

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Generelle lineære modeller

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

k normalfordelte observationsrækker (ensidet variansanalyse)

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

1 Hb SS Hb Sβ Hb SC = , (s = )

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

To-sidet variansanalyse

Modul 12: Regression og korrelation

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Module 9: Residualanalyse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Løsning eksamen d. 15. december 2008

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Statistik Lektion 4. Variansanalyse Modelkontrol

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Den lineære normale model

Statistik Lektion 16 Multipel Lineær Regression

Løsning til eksaminen d. 29. maj 2009

Eksempel , opg. 2

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Løsninger til kapitel 9

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Forelæsning 11: Kapitel 11: Regressionsanalyse

Den lineære normale model

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Kvantitative metoder 2

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Reeksamen i Statistik for Biokemikere 6. april 2009

Appendiks Økonometrisk teori... II

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Reeksamen i Statistik for biokemikere. Blok

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Konfidensintervaller og Hypotesetest

Modul 6: Regression og kalibrering

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Kvantitative Metoder 1 - Forår 2007

Simpel Lineær Regression: Model

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Transkript:

Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger.......... 18 12.3.2 Opsummering.................. 20 1

12.1 Parreded observationer Specialtilfælde af tosidig variansanalyse (uden gentagelser), hvor s = 2 : Y ij N ( µ ij, σ 2), i = 1,...,r, j = 1, 2 (s = 2). Så kan H 2 skrives: H 2 : µ ij = { αi for j = 1 α i + δ for j = 2 Test for ingen J-faktor effekt, dvs test H 3 : δ = 0. Benyt t-test, da ˆδ = Y +2 Y +1 N ) (δ, 2σ2, r 2

så t (Y) = Y +2 Y ) +1 s.e. (ˆδ H 3 t (r 1), hvor og ) s.e. (ˆδ = σ 2 2/r 3

σ 2 2 = 1 r 1 D I.J = 1 r { (Yi1 ) 2 ( ) 2 } Y i+ Y +1 + Y ++ + Yi2 Y i+ Y +2 + Y ++ r 1 i=1 { = 1 r [1 r 1 2 (Y i1 Y i2 ) 1 ( ) ] 2 [ 1 Y +1 Y +2 + 2 2 (Y i2 Y i1 ) 1 ( ) Y +2 Y +1 2 i=1 1 r [ = Yi2 Y i1 ( )] 2 Y +2 Y +1. 2 (r 1) i=1 12.2 Faktor med 2 niveauer (0-1 variabel) Lad I i = 1, 2 Faktor 4

Vektorer: 1,e 1,e 2 lineært afhængige, da e 1 + e 2 = 1: Konst. i = 1 i = 2 1 1 0 1 1 0 1 0 1 1 0 1 } Gruppe 1 } Gruppe 2 Tre mulige baser: 1. 2. (1,e 1 ) α1 + β 1 e 1 = (1,e 2 ) α1 + β 2 e 2 = { α i gruppe 2 α + β 1 i gruppe 1 { α i gruppe 1 α + β 2 i gruppe 2 5

3. (e 1,e 2 ) β 1 e 1 + β 2 e 2 = { β1 i gruppe 1 β 2 i gruppe 2 (3. er uheldig, fordi den mangler en konstant) Fortolkning af parametre: 1. α = niveau for gruppe 2, β 1 = forskel mellem gruppe 1 og gruppe 2. 2. α = niveau for gruppe 1, β 2 = forskel mellem gruppe 2 og gruppe 1. 3. β 1 = niveau for gruppe 1, β 2 = niveau for gruppe 2. Konklusion: Brug 0 1 variabel i stedet for faktor. (Mao, drop den ene vektor e i.) 6

Vælges e 1 er gruppe 2 referencegruppe. Vælges e 2 er gruppe 1 referencegruppe. Bemærk: Partielle residualplots giver ikke mening for 0 1 variable. Eksempler: Rask som referencegruppe og Syg som anden gruppe. 2004 som referencegruppe og 1994 som anden gruppe. Danmark som referencegruppe og Sverige som anden gruppe. Eksempel: Rottefodring 7

Gruppe1: meget protein, oksekød Gruppe2: lidt protein, oksekød Gruppe3: meget protein, vegetabilsk Gruppe4: lidt protein, vegetabilsk Vægt efter bestemt tid: oksekød vegetabilsk lidt protein 90 76 90... 107 95 97... meget protein 73 1 2 118... 98 74 56... Istedet for faktorer, definer to 0-1 variable: e type = e mængde = { 1 hvis vegetabilsk 0 hvis oksekød { 1 hvis meget protein 0 hvis lidt protein 8

Dvs, oksekødsdiæt er referencegruppen mht typevariablen og lidt protein er referencegruppen mht mængdevariablen. En regressionsanalyse med forklarende variable e type og e mændge giver flg ANOVA tabel: Variable df Estimate Error t P intercept 1 83.9 4.255 19.72 0.001 type 1-4.7 4.914-0.96 0.345 amount 1 11.4 4.914 2.32 0.026 Dvs, typefaktoren er ikke signifikant, men mængdefaktoren er, på niveau 5%. Den fittede model er: vægt = 83.9 4.7e type + 11.4e mængde. Estimater for middelværdierne i de fire grupper fås fra modellen: Gruppe1 (meget protein, oksekød): µ 1 = 83.9 4.7 0 + 11.4 1 = 95.3 9

Gruppe2 (lidt protein, oksekød): µ 2 = 83.9 4.7 0+11.4 0 = 83.9 Gruppe3 (meget protein, vegetabilsk): µ 3 = 83.9 4.7 1+11.4 1 = 90.6 Gruppe4 (lidt protein, vegetabilsk): µ 4 = 83.9 4.7 1 + 11.4 0 = 79.2. 12.3 Tosidig variansanalyse med tilfældig virkning Tilbage til generelle modeller: 10

H 1 : δ ij H 2 : Y ijk = α i + β j + δ ij + ε ijk Y ijk = α i + β j + ε ijk α i ւ ց β j Y ijk = β j + ε ijk H 3 H3 : β j ց ւ α i Y ijk = α i + ε ijk H 4 : Y ijk = α + ε ijk hvor ε ijk N ( 0, σ 2) uafhængige. Antag balanceret design, dvs Y ijk : i = 1,...,r j = 1,...,s k = 1,...,t. 11

Problem: H 2 forkastes! Dvs, for mindst et i,j, med i = 1,...,r og j = 1,...,s, er δ ij 0. I vores sædvanlige approach må vi stoppe her: vi kan ikke bestemme hovedvirkninger. (rs ligninger med rs + r + s ubestemte). i \ j 1 2 s 1 2. t replikationer r Løsning: Indfør random (tilfældig) effekt 12

Udgangspunkt: Y ijk = α i + β j + δ ij + ε ijk, ε ijk N ( 0, σ 2) Ny model: hvor Y ijk = α i + β j + d ij + ε ijk, ε ijk N ( 0,σ 2) } uafh. d ij N ( 0,τ 2) uafhængig uafh. Dette er en faktor random effekt model (varianskomponent model). Analysemetode: 13

Prøv de sædvanlige metoder på den nye model. Betragt hvor p 1 er projektion på Den ijk te koordinat af p 1 : Y = p 1 (Y) + Y p 1 (Y) L 1 = {µ R n µ ijk = α i + β j + d ij i,j,k}. p 1 (Y) ijk = Y ij+ = α i + β j + d ij + ε ij+ = α i + β j + e ij e ij = d ij + ε ij+ 14

Fordelingen af e ij er normal og E [e ij ] = E [d ij ] + E [ε ij+ ] = 0 idet Konklusion 1: Var [e ij ] = Var [d ij ] + Var [ε ij+ ] + Cov [d ij,ε ij+ ] }{{} =0 = τ 2 + σ2 t Var [ε ij+ ] = Var [ t k=1 ε ijk t ] = t k=1 σ 2 t 2 = σ2 t. Y ij+ opfylder betingelserne for den sædvanlige to-faktor ANOVA med 1 replikation Y ij+ er uafhængige. 15

Y ij+ er normalfordelt. Y ij+ har alle samme varians. Dvs. α i, β j, τ 2 = τ 2 + σ 2 /t (τ 2 R + ) kan estimeres fra Y ij+. Men mangler estimat for σ 2 (giver samtidig et estimat for τ 2 ). Betragt {Y p 1 (Y)} ijk = α i + β j + d ij + ε ijk (α i + β j + d ij + ε ij+ ) = ε ijk ε ij+ = ε ijk p 1 (ε) ijk = {ε p 1 (ε)} ijk. 16

Konklusion 2: Da ε ijk N ( 0, σ 2) i både ny og gammel model, har Y p 1 (Y) samme fordeling i den nye model Y ijk = α i + β j + d ij + ε ijk, som i den gamle to-faktormodel Y ijk = α i + β j + δ ij + ε ijk. Husk: I gammel model, estimat for variansen for ε, σ 2, er en funktion af Y gennem Y p 1 (Y). Da fordelingerne af Y p 1 (Y) er ens i ny og gammel, giver Y p 1 (Y) (ny model) også et estimat for σ 2, dvs σ 2 1 = 1 rs (t 1) r i=1 s j=1 t ( ) 2 Yijk Y ij+. k=1 17

Fordelingen (under H 1 ) er σ 2 σ2 χ 2 (rs (t 1)). rs (t 1) 1. Fra Konklusion 1: τ 2 = τ 2 + σ 2 /t kan estimeres 2. Fra Konklusion 2: σ 2 kan estimeres Dvs, τ 2 kan estimeres. Altså kan vi estimere alle parametre i den nye model Y ijk = α i + β j + d ij + ε ijk. via de marginale fordelinger af Y ij+ (estimation af α i, β j, τ 2 ) og Y p 1 (Y) (estimation af σ 2 ). 18

Men får vi gode estimater? Eller bliver varianserne af estimaterne større når vi estimerer i de marginale fordelinger fremfor den simultane fordeling? (dvs: mister vi efficiens?) 12.3.1 Uafhængighedsbetragtninger Vi ved, at p 1 (ε) uafhængig af ε p 1 (ε) (thm. 3 side 41 i BJ) og d ij uafh. ε ijk uafh. } indbyrdes uafhængige pr. antagelse Det følger at flg. alle er uafhængige: d ij, ε ij+, ε p 1 (ε). 19

Videre: p 1 (Y) afhænger kun af d ij og ε ij+ Y p 1 (Y) afhænger kun af ε p 1 (ε) dvs. p 1 (Y) og Y p 1 (Y) uafhængige p 1 (Y) har kun parametre α i,β j,τ 2 Y p 1 (Y) har kun parameter σ 2 τ 2 = τ 2 + σ 2 /t varierer uafhængigt at σ 2 Det følger at: α i,β j,τ 2 estimeres ligegodt marginalt fra p 1 (Y) som fra Y. 20

σ 2 estimeres ligegodt marginalt fra Y p 1 (Y) som fra Y. Da både τ 2 og σ 2 estimeres optimalt, og de varierer uafhængigt, estimeres τ 2 optimalt vha τ 2 = τ 2 + σ 2 /t. 12.3.2 Opsummering Modellen ) (α i + β j,τ 2 + σ2 M 1 : Y ij+ N t i = 1,...,r, j = 1,...s betragtes som en to-faktor ANOVA med 1 replikation. 21

Denne model (Y ijk = α i + β j + e ij ) tjekkes med residualanalyse. Accepteres den fortsættes som vanligt. Specielt er D I.J en estimator af tτ 2 + σ 2, da r s ( ) 2 D I.J = t Y ij+ Y i++ Y +j+ + Y +++ i=1 j=1 ( ) = t Y ij+ p 1 Y ij+ 2, hvor p 1 er projektionen på L 1 = {µ R n µ ij+ = α i + β j i,j}. ANOVA tabellen bliver: 22

Kilde D d.f. D F F tilf. I D I r 1 D I D I /D err D I /D I.J J D J s 1 D J D J /D err D J /D I.J I.J D I.J (r 1) (s 1) D I.J D I.J /D err Fejl D err rs (t 1) D err Total S y rst 1 F-testene er de sædvanlige. Specielt er testet D I.J /D err et test for hypotesen H 0 : τ 2 = 0. F tilf. er F-testene med tilfældig virkning. Eksempel: Investigation into whether the drugs levorphanol and epinephrine reduce stress. Each treatment was given to five animals, and the cortical sterone level (which reflects the stress-level) was measured. 23

Epinephrine: Yes No Levorph.: Yes 3.08, 1.42, 4.54, 1.25, 2.57 0.82, 3.36, 1.64, 1.74, 1.21 No 5.33, 4.84, 5.26, 4.92, 6.07 1.90, 1.80, 1.54, 4.10, 1.89 ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol 1 12.83 12.83 12.60 0.003 Epinephrine 1 18.59 18.59 18.25 0.001 Interaction 1 6.16 6.16 6.05 0.026 Error 16 16.30 1.02 Total 19 53.88 Dvs, interaktionen er signifikant (på niveau 5%). Også begge 24

hovedeffekter. Lad interaktionen være en tilfældig effekt. Ny ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol 1 12.83 12.83 2.083 0.386 Epinephrine 1 18.59 18.59 3.016 0.333 Interaction 1 6.16 6.16 Error 16 16.30 1.02 Total 19 53.88 Ingen af hovedeffekterne er signifikante! 25