Module 12: Mere om variansanalyse

Relaterede dokumenter
Module 12: Mere om variansanalyse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Module 4: Ensidig variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

To-sidet varians analyse

Kapitel 12 Variansanalyse

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kapitel 12 Variansanalyse

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Module 3: Statistiske modeller

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Multipel Lineær Regression

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Modul 11: Simpel lineær regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Eksamen i Statistik for biokemikere. Blok

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Generelle lineære modeller

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

1 Hb SS Hb Sβ Hb SC = , (s = )

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

To-sidet variansanalyse

Modul 12: Regression og korrelation

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Module 9: Residualanalyse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Løsning eksamen d. 15. december 2008

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 16 Multipel Lineær Regression

Løsning til eksaminen d. 29. maj 2009

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Løsninger til kapitel 9

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Forelæsning 11: Kapitel 11: Regressionsanalyse

Den lineære normale model

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Reeksamen i Statistik for Biokemikere 6. april 2009

Appendiks Økonometrisk teori... II

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Konfidensintervaller og Hypotesetest

Modul 6: Regression og kalibrering

Kvantitative Metoder 1 - Forår 2007

Simpel Lineær Regression: Model

Transkript:

Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger.......... 18 12.3.2 Opsummering.................. 20 1

12.1 Parreded observationer Specialtilfælde af tosidig variansanalyse (uden gentagelser), hvor s = 2 : Y ij N ( µ ij, σ 2), i = 1,...,r, j = 1, 2 (s = 2). Så kan H 2 skrives: H 2 : µ ij = { αi for j = 1 α i + δ for j = 2 Test for ingen J-faktor effekt, dvs test H 3 : δ = 0. Benyt t-test, da ˆδ = Y +2 Y +1 N ) (δ, 2σ2, r 2

så t (Y) = Y +2 Y ) +1 s.e. (ˆδ H 3 t (r 1), hvor og ) s.e. (ˆδ = σ 2 2/r 3

σ 2 2 = 1 r 1 D I.J = 1 r { (Yi1 ) 2 ( ) 2 } Y i+ Y +1 + Y ++ + Yi2 Y i+ Y +2 + Y ++ r 1 i=1 { = 1 r [1 r 1 2 (Y i1 Y i2 ) 1 ( ) ] 2 [ 1 Y +1 Y +2 + 2 2 (Y i2 Y i1 ) 1 ( ) Y +2 Y +1 2 i=1 1 r [ = Yi2 Y i1 ( )] 2 Y +2 Y +1. 2 (r 1) i=1 12.2 Faktor med 2 niveauer (0-1 variabel) Lad I i = 1, 2 Faktor 4

Vektorer: 1,e 1,e 2 lineært afhængige, da e 1 + e 2 = 1: Konst. i = 1 i = 2 1 1 0 1 1 0 1 0 1 1 0 1 } Gruppe 1 } Gruppe 2 Tre mulige baser: 1. 2. (1,e 1 ) α1 + β 1 e 1 = (1,e 2 ) α1 + β 2 e 2 = { α i gruppe 2 α + β 1 i gruppe 1 { α i gruppe 1 α + β 2 i gruppe 2 5

3. (e 1,e 2 ) β 1 e 1 + β 2 e 2 = { β1 i gruppe 1 β 2 i gruppe 2 (3. er uheldig, fordi den mangler en konstant) Fortolkning af parametre: 1. α = niveau for gruppe 2, β 1 = forskel mellem gruppe 1 og gruppe 2. 2. α = niveau for gruppe 1, β 2 = forskel mellem gruppe 2 og gruppe 1. 3. β 1 = niveau for gruppe 1, β 2 = niveau for gruppe 2. Konklusion: Brug 0 1 variabel i stedet for faktor. (Mao, drop den ene vektor e i.) 6

Vælges e 1 er gruppe 2 referencegruppe. Vælges e 2 er gruppe 1 referencegruppe. Bemærk: Partielle residualplots giver ikke mening for 0 1 variable. Eksempler: Rask som referencegruppe og Syg som anden gruppe. 2004 som referencegruppe og 1994 som anden gruppe. Danmark som referencegruppe og Sverige som anden gruppe. Eksempel: Rottefodring 7

Gruppe1: meget protein, oksekød Gruppe2: lidt protein, oksekød Gruppe3: meget protein, vegetabilsk Gruppe4: lidt protein, vegetabilsk Vægt efter bestemt tid: oksekød vegetabilsk lidt protein 90 76 90... 107 95 97... meget protein 73 1 2 118... 98 74 56... Istedet for faktorer, definer to 0-1 variable: e type = e mængde = { 1 hvis vegetabilsk 0 hvis oksekød { 1 hvis meget protein 0 hvis lidt protein 8

Dvs, oksekødsdiæt er referencegruppen mht typevariablen og lidt protein er referencegruppen mht mængdevariablen. En regressionsanalyse med forklarende variable e type og e mændge giver flg ANOVA tabel: Variable df Estimate Error t P intercept 1 83.9 4.255 19.72 0.001 type 1-4.7 4.914-0.96 0.345 amount 1 11.4 4.914 2.32 0.026 Dvs, typefaktoren er ikke signifikant, men mængdefaktoren er, på niveau 5%. Den fittede model er: vægt = 83.9 4.7e type + 11.4e mængde. Estimater for middelværdierne i de fire grupper fås fra modellen: Gruppe1 (meget protein, oksekød): µ 1 = 83.9 4.7 0 + 11.4 1 = 95.3 9

Gruppe2 (lidt protein, oksekød): µ 2 = 83.9 4.7 0+11.4 0 = 83.9 Gruppe3 (meget protein, vegetabilsk): µ 3 = 83.9 4.7 1+11.4 1 = 90.6 Gruppe4 (lidt protein, vegetabilsk): µ 4 = 83.9 4.7 1 + 11.4 0 = 79.2. 12.3 Tosidig variansanalyse med tilfældig virkning Tilbage til generelle modeller: 10

H 1 : δ ij H 2 : Y ijk = α i + β j + δ ij + ε ijk Y ijk = α i + β j + ε ijk α i ւ ց β j Y ijk = β j + ε ijk H 3 H3 : β j ց ւ α i Y ijk = α i + ε ijk H 4 : Y ijk = α + ε ijk hvor ε ijk N ( 0, σ 2) uafhængige. Antag balanceret design, dvs Y ijk : i = 1,...,r j = 1,...,s k = 1,...,t. 11

Problem: H 2 forkastes! Dvs, for mindst et i,j, med i = 1,...,r og j = 1,...,s, er δ ij 0. I vores sædvanlige approach må vi stoppe her: vi kan ikke bestemme hovedvirkninger. (rs ligninger med rs + r + s ubestemte). i \ j 1 2 s 1 2. t replikationer r Løsning: Indfør random (tilfældig) effekt 12

Udgangspunkt: Y ijk = α i + β j + δ ij + ε ijk, ε ijk N ( 0, σ 2) Ny model: hvor Y ijk = α i + β j + d ij + ε ijk, ε ijk N ( 0,σ 2) } uafh. d ij N ( 0,τ 2) uafhængig uafh. Dette er en faktor random effekt model (varianskomponent model). Analysemetode: 13

Prøv de sædvanlige metoder på den nye model. Betragt hvor p 1 er projektion på Den ijk te koordinat af p 1 : Y = p 1 (Y) + Y p 1 (Y) L 1 = {µ R n µ ijk = α i + β j + d ij i,j,k}. p 1 (Y) ijk = Y ij+ = α i + β j + d ij + ε ij+ = α i + β j + e ij e ij = d ij + ε ij+ 14

Fordelingen af e ij er normal og E [e ij ] = E [d ij ] + E [ε ij+ ] = 0 idet Konklusion 1: Var [e ij ] = Var [d ij ] + Var [ε ij+ ] + Cov [d ij,ε ij+ ] }{{} =0 = τ 2 + σ2 t Var [ε ij+ ] = Var [ t k=1 ε ijk t ] = t k=1 σ 2 t 2 = σ2 t. Y ij+ opfylder betingelserne for den sædvanlige to-faktor ANOVA med 1 replikation Y ij+ er uafhængige. 15

Y ij+ er normalfordelt. Y ij+ har alle samme varians. Dvs. α i, β j, τ 2 = τ 2 + σ 2 /t (τ 2 R + ) kan estimeres fra Y ij+. Men mangler estimat for σ 2 (giver samtidig et estimat for τ 2 ). Betragt {Y p 1 (Y)} ijk = α i + β j + d ij + ε ijk (α i + β j + d ij + ε ij+ ) = ε ijk ε ij+ = ε ijk p 1 (ε) ijk = {ε p 1 (ε)} ijk. 16

Konklusion 2: Da ε ijk N ( 0, σ 2) i både ny og gammel model, har Y p 1 (Y) samme fordeling i den nye model Y ijk = α i + β j + d ij + ε ijk, som i den gamle to-faktormodel Y ijk = α i + β j + δ ij + ε ijk. Husk: I gammel model, estimat for variansen for ε, σ 2, er en funktion af Y gennem Y p 1 (Y). Da fordelingerne af Y p 1 (Y) er ens i ny og gammel, giver Y p 1 (Y) (ny model) også et estimat for σ 2, dvs σ 2 1 = 1 rs (t 1) r i=1 s j=1 t ( ) 2 Yijk Y ij+. k=1 17

Fordelingen (under H 1 ) er σ 2 σ2 χ 2 (rs (t 1)). rs (t 1) 1. Fra Konklusion 1: τ 2 = τ 2 + σ 2 /t kan estimeres 2. Fra Konklusion 2: σ 2 kan estimeres Dvs, τ 2 kan estimeres. Altså kan vi estimere alle parametre i den nye model Y ijk = α i + β j + d ij + ε ijk. via de marginale fordelinger af Y ij+ (estimation af α i, β j, τ 2 ) og Y p 1 (Y) (estimation af σ 2 ). 18

Men får vi gode estimater? Eller bliver varianserne af estimaterne større når vi estimerer i de marginale fordelinger fremfor den simultane fordeling? (dvs: mister vi efficiens?) 12.3.1 Uafhængighedsbetragtninger Vi ved, at p 1 (ε) uafhængig af ε p 1 (ε) (thm. 3 side 41 i BJ) og d ij uafh. ε ijk uafh. } indbyrdes uafhængige pr. antagelse Det følger at flg. alle er uafhængige: d ij, ε ij+, ε p 1 (ε). 19

Videre: p 1 (Y) afhænger kun af d ij og ε ij+ Y p 1 (Y) afhænger kun af ε p 1 (ε) dvs. p 1 (Y) og Y p 1 (Y) uafhængige p 1 (Y) har kun parametre α i,β j,τ 2 Y p 1 (Y) har kun parameter σ 2 τ 2 = τ 2 + σ 2 /t varierer uafhængigt at σ 2 Det følger at: α i,β j,τ 2 estimeres ligegodt marginalt fra p 1 (Y) som fra Y. 20

σ 2 estimeres ligegodt marginalt fra Y p 1 (Y) som fra Y. Da både τ 2 og σ 2 estimeres optimalt, og de varierer uafhængigt, estimeres τ 2 optimalt vha τ 2 = τ 2 + σ 2 /t. 12.3.2 Opsummering Modellen ) (α i + β j,τ 2 + σ2 M 1 : Y ij+ N t i = 1,...,r, j = 1,...s betragtes som en to-faktor ANOVA med 1 replikation. 21

Denne model (Y ijk = α i + β j + e ij ) tjekkes med residualanalyse. Accepteres den fortsættes som vanligt. Specielt er D I.J en estimator af tτ 2 + σ 2, da r s ( ) 2 D I.J = t Y ij+ Y i++ Y +j+ + Y +++ i=1 j=1 ( ) = t Y ij+ p 1 Y ij+ 2, hvor p 1 er projektionen på L 1 = {µ R n µ ij+ = α i + β j i,j}. ANOVA tabellen bliver: 22

Kilde D d.f. D F F tilf. I D I r 1 D I D I /D err D I /D I.J J D J s 1 D J D J /D err D J /D I.J I.J D I.J (r 1) (s 1) D I.J D I.J /D err Fejl D err rs (t 1) D err Total S y rst 1 F-testene er de sædvanlige. Specielt er testet D I.J /D err et test for hypotesen H 0 : τ 2 = 0. F tilf. er F-testene med tilfældig virkning. Eksempel: Investigation into whether the drugs levorphanol and epinephrine reduce stress. Each treatment was given to five animals, and the cortical sterone level (which reflects the stress-level) was measured. 23

Epinephrine: Yes No Levorph.: Yes 3.08, 1.42, 4.54, 1.25, 2.57 0.82, 3.36, 1.64, 1.74, 1.21 No 5.33, 4.84, 5.26, 4.92, 6.07 1.90, 1.80, 1.54, 4.10, 1.89 ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol 1 12.83 12.83 12.60 0.003 Epinephrine 1 18.59 18.59 18.25 0.001 Interaction 1 6.16 6.16 6.05 0.026 Error 16 16.30 1.02 Total 19 53.88 Dvs, interaktionen er signifikant (på niveau 5%). Også begge 24

hovedeffekter. Lad interaktionen være en tilfældig effekt. Ny ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol 1 12.83 12.83 2.083 0.386 Epinephrine 1 18.59 18.59 3.016 0.333 Interaction 1 6.16 6.16 Error 16 16.30 1.02 Total 19 53.88 Ingen af hovedeffekterne er signifikante! 25