Module 12: Mere om variansanalyse

Relaterede dokumenter
Module 12: Mere om variansanalyse

Modul 5: Test for én stikprøve

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

To-sidet variansanalyse

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Konfidensinterval for µ (σ kendt)

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

To-sidet varians analyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Ensidet variansanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

02402 Løsning til testquiz02402f (Test VI)

Statistik Lektion 17 Multipel Lineær Regression

Module 4: Ensidig variansanalyse

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Module 3: Statistiske modeller

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

En Introduktion til SAS. Kapitel 6.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

To samhørende variable

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Modul 11: Simpel lineær regression

Generelle lineære modeller

Note til styrkefunktionen

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Statistik og Sandsynlighedsregning 2

Ligninger med reelle løsninger

Løsning af præmie- og ekstraopgave

Module 9: Residualanalyse

Kapitel 12 Variansanalyse

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Kapitel 12 Variansanalyse

Module 2: Beskrivende Statistik

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Multipel Lineær Regression

Reeksamen i Statistik for Biokemikere 6. april 2009

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Logistisk Regression - fortsat

Besvarelse af vitcap -opgaven

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Appendiks Økonometrisk teori... II

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Funktionalligninger - løsningsstrategier og opgaver

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kapitel 3 Centraltendens og spredning

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Eksamen i Statistik for biokemikere. Blok

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for Biokemikere, Blok januar 2009

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Transkript:

Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................ 2 2.3 Tosidig variansanalyse med tilfældig virkning................... 4 2.3. Uafhængighedsbetragtninger........................ 7 2.3.2 Opsummering................................. 8 2. Parreded observationer Specialtilfælde af tosidig variansanalyse (uden gentagelser), hvor s = 2 : Så kan H 2 skrives: Y ij N ( µ ij,σ 2), i =,...,r, j =,2 (s = 2). H 2 : µ ij = Test for ingen J-faktor effekt, dvs test { αi for j = α i + δ for j = 2 H 3 : δ = 0. Benyt t-test, da så ˆδ = Y +2 Y + N ) (δ, 2σ2, r t (Y) = Y +2 Y ) + H 3 t (r ), s.e.(ˆδ hvor og ) s.e. (ˆδ = σ 2 2/r

2.2 Faktor med 2 niveauer (0- variabel) 2 σ 2 2 = = = = r D I.J r { (Yi ) 2 ( ) } 2 Y i+ Y + + Y ++ + Yi2 Y i+ Y +2 + Y ++ r i= { r [ r 2 (Y i Y i2 ) ( ) ] 2 [ Y + Y +2 + 2 2 (Y i2 Y i ) ( ) ] } 2 Y +2 Y + 2 i= 2(r ) r [ Yi2 Y i ( )] 2 Y +2 Y +. i= 2.2 Faktor med 2 niveauer (0- variabel) Lad I i =,2 Faktor Vektorer:,e,e 2 lineært afhængige, da e + e 2 = : Konst. i = i = 2 0 0 0 0 } Gruppe } Gruppe 2 Tre mulige baser:. 2. 3. (,e ) α + β e = (,e 2 ) α + β 2 e 2 = (e,e 2 ) β e + β 2 e 2 = (3. er uheldig, fordi den mangler en konstant) { α i gruppe 2 α + β i gruppe { α i gruppe α + β 2 i gruppe 2 { β i gruppe β 2 i gruppe 2 Fortolkning af parametre:. α = niveau for gruppe 2, β = forskel mellem gruppe og gruppe 2. 2. α = niveau for gruppe, β 2 = forskel mellem gruppe 2 og gruppe.

2.2 Faktor med 2 niveauer (0- variabel) 3 3. β = niveau for gruppe, β 2 = niveau for gruppe 2. Konklusion: Brug 0 variabel i stedet for faktor. (Mao, drop den ene vektor e i.) Vælges e er gruppe 2 referencegruppe. Vælges e 2 er gruppe referencegruppe. Bemærk: Partielle residualplots giver ikke mening for 0 variable. Eksempler: Rask som referencegruppe og Syg som anden gruppe. 2004 som referencegruppe og 994 som anden gruppe. Danmark som referencegruppe og Sverige som anden gruppe. Eksempel: Rottefodring Gruppe: meget protein, oksekød Gruppe2: lidt protein, oksekød Gruppe3: meget protein, vegetabilsk Gruppe4: lidt protein, vegetabilsk Vægt efter bestemt tid: Istedet for faktorer, definer to 0- variable: oksekød vegetabilsk lidt protein 90 76 90... 07 95 97... meget protein 73 2 8... 98 74 56... e type = e mængde = { hvis vegetabilsk 0 hvis oksekød { hvis meget protein 0 hvis lidt protein Dvs, oksekødsdiæt er referencegruppen mht typevariablen og lidt protein er referencegruppen mht mængdevariablen.

2.3 Tosidig variansanalyse med tilfældig virkning 4 En regressionsanalyse med forklarende variable e type og e mændge giver flg ANOVA tabel: Variable df Estimate Error t P intercept 83.9 4.255 9.72 <0.00 type -4.7 4.94-0.96 0.345 amount.4 4.94 2.32 0.026 Dvs, typefaktoren er ikke signifikant, men mængdefaktoren er, på niveau 5%. Den fittede model er: vægt = 83.9 4.7e type +.4e mængde. Estimater for middelværdierne i de fire grupper fås fra modellen: Gruppe (meget protein, oksekød): µ = 83.9 4.7 0 +.4 = 95.3 Gruppe2 (lidt protein, oksekød): µ 2 = 83.9 4.7 0 +.4 0 = 83.9 Gruppe3 (meget protein, vegetabilsk): µ 3 = 83.9 4.7 +.4 = 90.6 Gruppe4 (lidt protein, vegetabilsk): µ 4 = 83.9 4.7 +.4 0 = 79.2. 2.3 Tosidig variansanalyse med tilfældig virkning Tilbage til generelle modeller: hvor H : δ ij H 2 : Y ijk = α i + β j + δ ij + ε ijk Y ijk = α i + β j + ε ijk α i ւ ց β j Y ijk = β j + ε ijk H 3 H3 : β j ց ւ α i Y ijk = α i + ε ijk H 4 : Y ijk = α + ε ijk Antag balanceret design, dvs ε ijk N ( 0,σ 2) uafhængige. Y ijk : i =,...,r j =,...,s k =,...,t. Problem: H 2 forkastes! Dvs, for mindst et i,j, med i =,...,r og j =,...,s, er δ ij 0.

2.3 Tosidig variansanalyse med tilfældig virkning 5 I vores sædvanlige approach må vi stoppe her: vi kan ikke bestemme hovedvirkninger. (rs ligninger med rs + r + s ubestemte). i \ j 2 s 2 Løsning: Indfør random (tilfældig) effekt. t replikationer r Udgangspunkt: Y ijk = α i + β j + δ ij + ε ijk, ε ijk N ( 0,σ 2) Ny model: hvor Y ijk = α i + β j + d ij + ε ijk, ε ijk N ( 0,σ 2) uafh. d ij N ( 0,τ 2) uafh. } uafhængig Dette er en faktor random effekt model (varianskomponent model). Analysemetode: Prøv de sædvanlige metoder på den nye model. Betragt hvor p er projektion på Y = p (Y) + Y p (Y) Den ijk te koordinat af p : L = {µ R n µ ijk = α i + β j + d ij i,j,k}. p (Y) ijk = Y ij+ = α i + β j + d ij + ε ij+ = α i + β j + e ij e ij = d ij + ε ij+

2.3 Tosidig variansanalyse med tilfældig virkning 6 Fordelingen af e ij er normal og E[e ij ] = E[d ij ] + E[ε ij+ ] = 0 idet Var [e ij ] = Var [d ij ] + Var [ε ij+ ] + Cov[d ij,ε ij+ ] } {{ } =0 = τ 2 + σ2 t Var [ε ij+ ] = Var [ t k= ε ijk t ] = t k= σ 2 t 2 = σ2 t. Konklusion : Y ij+ opfylder betingelserne for den sædvanlige to-faktor ANOVA med replikation Y ij+ er uafhængige. Y ij+ er normalfordelt. Y ij+ har alle samme varians. Dvs. α i, β j, τ 2 = τ 2 + σ 2 /t (τ 2 R + ) kan estimeres fra Y ij+. Men mangler estimat for σ 2 (giver samtidig et estimat for τ 2 ). Betragt {Y p (Y)} ijk = α i + β j + d ij + ε ijk (α i + β j + d ij + ε ij+ ) = ε ijk ε ij+ = ε ijk p (ε) ijk = {ε p (ε)} ijk. Konklusion 2: Da ε ijk N ( 0,σ 2) i både ny og gammel model, har Y p (Y) samme fordeling i den nye model Y ijk = α i + β j + d ij + ε ijk, som i den gamle to-faktormodel Y ijk = α i + β j + δ ij + ε ijk. Husk: I gammel model, estimat for variansen for ε, σ 2, er en funktion af Y gennem Y p (Y).

2.3 Tosidig variansanalyse med tilfældig virkning 7 Da fordelingerne af Y p (Y) er ens i ny og gammel, giver Y p (Y) (ny model) også et estimat for σ 2, dvs σ 2 = r s t ( ) 2 Yijk Y ij+. rs (t ) Fordelingen (under H ) er i= j= k= σ 2 σ2 χ 2 (rs (t )). rs (t ). Fra Konklusion : τ 2 = τ 2 + σ 2 /t kan estimeres 2. Fra Konklusion 2: σ 2 kan estimeres Dvs, τ 2 kan estimeres. Altså kan vi estimere alle parametre i den nye model Y ijk = α i + β j + d ij + ε ijk. via de marginale fordelinger af Y ij+ (estimation af α i, β j, τ 2 ) og Y p (Y) (estimation af σ 2 ). Men får vi gode estimater? Eller bliver varianserne af estimaterne større når vi estimerer i de marginale fordelinger fremfor den simultane fordeling? (dvs: mister vi efficiens?) 2.3. Uafhængighedsbetragtninger Vi ved, at p (ε) uafhængig af ε p (ε) (thm. 3 side 4 i BJ) og d ij ε ijk uafh. uafh. Det følger at flg. alle er uafhængige: Videre: } indbyrdes uafhængige pr. antagelse d ij, ε ij+, ε p (ε). p (Y) afhænger kun af d ij og ε ij+ Y p (Y) afhænger kun af ε p (ε)

2.3 Tosidig variansanalyse med tilfældig virkning 8 dvs. p (Y) og Y p (Y) uafhængige p (Y) har kun parametre α i,β j,τ 2 Y p (Y) har kun parameter σ 2 τ 2 = τ 2 + σ 2 /t varierer uafhængigt at σ 2 Det følger at: α i,β j,τ 2 estimeres ligegodt marginalt fra p (Y) som fra Y. σ 2 estimeres ligegodt marginalt fra Y p (Y) som fra Y. Da både τ 2 og σ 2 estimeres optimalt, og de varierer uafhængigt, estimeres τ 2 optimalt vha τ 2 = τ 2 + σ 2 /t. 2.3.2 Opsummering Modellen M : Y ij+ N ) (α i + β j,τ 2 + σ2 t betragtes som en to-faktor ANOVA med replikation. i =,...,r, j =,... s Denne model (Y ijk = α i + β j + e ij ) tjekkes med residualanalyse. Accepteres den fortsættes som vanligt. Specielt er D I.J en estimator af tτ 2 + σ 2, da D I.J r s ( ) 2 = t Y ij+ Y i++ Y +j+ + Y +++ i= j= = t Y ij+ p ( Y ij+ ) 2, hvor p er projektionen på L = {µ R n µ ij+ = α i + β j i,j}. ANOVA tabellen bliver:

2.3 Tosidig variansanalyse med tilfældig virkning 9 Kilde D d.f. D F F tilf. I D I r D I D I /D err D I /D I.J J D J s D J D J /D err D J /D I.J I.J D I.J (r ) (s ) D I.J D I.J /D err Fejl D err rs (t ) D err Total S y rst F-testene er de sædvanlige. Specielt er testet D I.J /D err et test for hypotesen H 0 : τ 2 = 0. F tilf. er F-testene med tilfældig virkning. Eksempel: Investigation into whether the drugs levorphanol and epinephrine reduce stress. Each treatment was given to five animals, and the cortical sterone level (which reflects the stress-level) was measured. ANOVA tabel: Epinephrine: Yes No Levorph.: Yes 3.08,.42, 4.54,.25, 2.57 0.82, 3.36,.64,.74,.2 No 5.33, 4.84, 5.26, 4.92, 6.07.90,.80,.54, 4.0,.89 Source d.f. Sum of squares Mean square F-value p-value Levorphanol 2.83 2.83 2.60 0.003 Epinephrine 8.59 8.59 8.25 0.00 Interaction 6.6 6.6 6.05 0.026 Error 6 6.30.02 Total 9 53.88 Dvs, interaktionen er signifikant (på niveau 5%). Også begge hovedeffekter. Lad interaktionen være en tilfældig effekt. Ny ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol 2.83 2.83 2.083 0.386 Epinephrine 8.59 8.59 3.06 0.333 Interaction 6.6 6.6 Error 6 6.30.02 Total 9 53.88 Ingen af hovedeffekterne er signifikante!