Module 12: Mere om variansanalyse

Relaterede dokumenter
Module 12: Mere om variansanalyse

Modul 5: Test for én stikprøve

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

To-sidet variansanalyse

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Forelæsning 8: Inferens for varianser (kap 9)

Konfidensinterval for µ (σ kendt)

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

To-sidet varians analyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Ensidet variansanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

02402 Løsning til testquiz02402f (Test VI)

Statistik Lektion 17 Multipel Lineær Regression

Module 4: Ensidig variansanalyse

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Module 3: Statistiske modeller

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

En Introduktion til SAS. Kapitel 6.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

To samhørende variable

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Modul 11: Simpel lineær regression

Generelle lineære modeller

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Note til styrkefunktionen

k normalfordelte observationsrækker (ensidet variansanalyse)

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Statistik og Sandsynlighedsregning 2

Ligninger med reelle løsninger

Løsning af præmie- og ekstraopgave

Module 9: Residualanalyse

Kapitel 12 Variansanalyse

Eksempel , opg. 2

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Kapitel 12 Variansanalyse

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Module 2: Beskrivende Statistik

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Multipel Lineær Regression

Reeksamen i Statistik for Biokemikere 6. april 2009

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Logistisk Regression - fortsat

Besvarelse af vitcap -opgaven

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Program. 1. Flersidet variansanalyse 1/11

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Appendiks Økonometrisk teori... II

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Nanostatistik: Middelværdi og varians

Funktionalligninger - løsningsstrategier og opgaver

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kapitel 3 Centraltendens og spredning

Reeksamen i Statistik for biokemikere. Blok

da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X X n ) N(µ, σ2

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Eksamen i Statistik for biokemikere. Blok

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for Biokemikere, Blok januar 2009

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Kvantitative Metoder 1 - Forår 2007

Analyse 1, Prøve juni r+1. Men vi har øjensynligt, at 2. r r+1

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Transkript:

Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................ 2 2.3 Tosidig variansanalyse med tilfældig virkning................... 4 2.3. Uafhængighedsbetragtninger........................ 7 2.3.2 Opsummering................................. 8 2. Parreded observationer Specialtilfælde af tosidig variansanalyse (uden gentagelser), hvor s = 2 : Så kan H 2 skrives: Y ij N ( µ ij,σ 2), i =,...,r, j =,2 (s = 2). H 2 : µ ij = Test for ingen J-faktor effekt, dvs test { αi for j = α i + δ for j = 2 H 3 : δ = 0. Benyt t-test, da så ˆδ = Y +2 Y + N ) (δ, 2σ2, r t (Y) = Y +2 Y ) + H 3 t (r ), s.e.(ˆδ hvor og ) s.e. (ˆδ = σ 2 2/r

2.2 Faktor med 2 niveauer (0- variabel) 2 σ 2 2 = = = = r D I.J r { (Yi ) 2 ( ) } 2 Y i+ Y + + Y ++ + Yi2 Y i+ Y +2 + Y ++ r i= { r [ r 2 (Y i Y i2 ) ( ) ] 2 [ Y + Y +2 + 2 2 (Y i2 Y i ) ( ) ] } 2 Y +2 Y + 2 i= 2(r ) r [ Yi2 Y i ( )] 2 Y +2 Y +. i= 2.2 Faktor med 2 niveauer (0- variabel) Lad I i =,2 Faktor Vektorer:,e,e 2 lineært afhængige, da e + e 2 = : Konst. i = i = 2 0 0 0 0 } Gruppe } Gruppe 2 Tre mulige baser:. 2. 3. (,e ) α + β e = (,e 2 ) α + β 2 e 2 = (e,e 2 ) β e + β 2 e 2 = (3. er uheldig, fordi den mangler en konstant) { α i gruppe 2 α + β i gruppe { α i gruppe α + β 2 i gruppe 2 { β i gruppe β 2 i gruppe 2 Fortolkning af parametre:. α = niveau for gruppe 2, β = forskel mellem gruppe og gruppe 2. 2. α = niveau for gruppe, β 2 = forskel mellem gruppe 2 og gruppe.

2.2 Faktor med 2 niveauer (0- variabel) 3 3. β = niveau for gruppe, β 2 = niveau for gruppe 2. Konklusion: Brug 0 variabel i stedet for faktor. (Mao, drop den ene vektor e i.) Vælges e er gruppe 2 referencegruppe. Vælges e 2 er gruppe referencegruppe. Bemærk: Partielle residualplots giver ikke mening for 0 variable. Eksempler: Rask som referencegruppe og Syg som anden gruppe. 2004 som referencegruppe og 994 som anden gruppe. Danmark som referencegruppe og Sverige som anden gruppe. Eksempel: Rottefodring Gruppe: meget protein, oksekød Gruppe2: lidt protein, oksekød Gruppe3: meget protein, vegetabilsk Gruppe4: lidt protein, vegetabilsk Vægt efter bestemt tid: Istedet for faktorer, definer to 0- variable: oksekød vegetabilsk lidt protein 90 76 90... 07 95 97... meget protein 73 2 8... 98 74 56... e type = e mængde = { hvis vegetabilsk 0 hvis oksekød { hvis meget protein 0 hvis lidt protein Dvs, oksekødsdiæt er referencegruppen mht typevariablen og lidt protein er referencegruppen mht mængdevariablen.

2.3 Tosidig variansanalyse med tilfældig virkning 4 En regressionsanalyse med forklarende variable e type og e mændge giver flg ANOVA tabel: Variable df Estimate Error t P intercept 83.9 4.255 9.72 <0.00 type -4.7 4.94-0.96 0.345 amount.4 4.94 2.32 0.026 Dvs, typefaktoren er ikke signifikant, men mængdefaktoren er, på niveau 5%. Den fittede model er: vægt = 83.9 4.7e type +.4e mængde. Estimater for middelværdierne i de fire grupper fås fra modellen: Gruppe (meget protein, oksekød): µ = 83.9 4.7 0 +.4 = 95.3 Gruppe2 (lidt protein, oksekød): µ 2 = 83.9 4.7 0 +.4 0 = 83.9 Gruppe3 (meget protein, vegetabilsk): µ 3 = 83.9 4.7 +.4 = 90.6 Gruppe4 (lidt protein, vegetabilsk): µ 4 = 83.9 4.7 +.4 0 = 79.2. 2.3 Tosidig variansanalyse med tilfældig virkning Tilbage til generelle modeller: hvor H : δ ij H 2 : Y ijk = α i + β j + δ ij + ε ijk Y ijk = α i + β j + ε ijk α i ւ ց β j Y ijk = β j + ε ijk H 3 H3 : β j ց ւ α i Y ijk = α i + ε ijk H 4 : Y ijk = α + ε ijk Antag balanceret design, dvs ε ijk N ( 0,σ 2) uafhængige. Y ijk : i =,...,r j =,...,s k =,...,t. Problem: H 2 forkastes! Dvs, for mindst et i,j, med i =,...,r og j =,...,s, er δ ij 0.

2.3 Tosidig variansanalyse med tilfældig virkning 5 I vores sædvanlige approach må vi stoppe her: vi kan ikke bestemme hovedvirkninger. (rs ligninger med rs + r + s ubestemte). i \ j 2 s 2 Løsning: Indfør random (tilfældig) effekt. t replikationer r Udgangspunkt: Y ijk = α i + β j + δ ij + ε ijk, ε ijk N ( 0,σ 2) Ny model: hvor Y ijk = α i + β j + d ij + ε ijk, ε ijk N ( 0,σ 2) uafh. d ij N ( 0,τ 2) uafh. } uafhængig Dette er en faktor random effekt model (varianskomponent model). Analysemetode: Prøv de sædvanlige metoder på den nye model. Betragt hvor p er projektion på Y = p (Y) + Y p (Y) Den ijk te koordinat af p : L = {µ R n µ ijk = α i + β j + d ij i,j,k}. p (Y) ijk = Y ij+ = α i + β j + d ij + ε ij+ = α i + β j + e ij e ij = d ij + ε ij+

2.3 Tosidig variansanalyse med tilfældig virkning 6 Fordelingen af e ij er normal og E[e ij ] = E[d ij ] + E[ε ij+ ] = 0 idet Var [e ij ] = Var [d ij ] + Var [ε ij+ ] + Cov[d ij,ε ij+ ] } {{ } =0 = τ 2 + σ2 t Var [ε ij+ ] = Var [ t k= ε ijk t ] = t k= σ 2 t 2 = σ2 t. Konklusion : Y ij+ opfylder betingelserne for den sædvanlige to-faktor ANOVA med replikation Y ij+ er uafhængige. Y ij+ er normalfordelt. Y ij+ har alle samme varians. Dvs. α i, β j, τ 2 = τ 2 + σ 2 /t (τ 2 R + ) kan estimeres fra Y ij+. Men mangler estimat for σ 2 (giver samtidig et estimat for τ 2 ). Betragt {Y p (Y)} ijk = α i + β j + d ij + ε ijk (α i + β j + d ij + ε ij+ ) = ε ijk ε ij+ = ε ijk p (ε) ijk = {ε p (ε)} ijk. Konklusion 2: Da ε ijk N ( 0,σ 2) i både ny og gammel model, har Y p (Y) samme fordeling i den nye model Y ijk = α i + β j + d ij + ε ijk, som i den gamle to-faktormodel Y ijk = α i + β j + δ ij + ε ijk. Husk: I gammel model, estimat for variansen for ε, σ 2, er en funktion af Y gennem Y p (Y).

2.3 Tosidig variansanalyse med tilfældig virkning 7 Da fordelingerne af Y p (Y) er ens i ny og gammel, giver Y p (Y) (ny model) også et estimat for σ 2, dvs σ 2 = r s t ( ) 2 Yijk Y ij+. rs (t ) Fordelingen (under H ) er i= j= k= σ 2 σ2 χ 2 (rs (t )). rs (t ). Fra Konklusion : τ 2 = τ 2 + σ 2 /t kan estimeres 2. Fra Konklusion 2: σ 2 kan estimeres Dvs, τ 2 kan estimeres. Altså kan vi estimere alle parametre i den nye model Y ijk = α i + β j + d ij + ε ijk. via de marginale fordelinger af Y ij+ (estimation af α i, β j, τ 2 ) og Y p (Y) (estimation af σ 2 ). Men får vi gode estimater? Eller bliver varianserne af estimaterne større når vi estimerer i de marginale fordelinger fremfor den simultane fordeling? (dvs: mister vi efficiens?) 2.3. Uafhængighedsbetragtninger Vi ved, at p (ε) uafhængig af ε p (ε) (thm. 3 side 4 i BJ) og d ij ε ijk uafh. uafh. Det følger at flg. alle er uafhængige: Videre: } indbyrdes uafhængige pr. antagelse d ij, ε ij+, ε p (ε). p (Y) afhænger kun af d ij og ε ij+ Y p (Y) afhænger kun af ε p (ε)

2.3 Tosidig variansanalyse med tilfældig virkning 8 dvs. p (Y) og Y p (Y) uafhængige p (Y) har kun parametre α i,β j,τ 2 Y p (Y) har kun parameter σ 2 τ 2 = τ 2 + σ 2 /t varierer uafhængigt at σ 2 Det følger at: α i,β j,τ 2 estimeres ligegodt marginalt fra p (Y) som fra Y. σ 2 estimeres ligegodt marginalt fra Y p (Y) som fra Y. Da både τ 2 og σ 2 estimeres optimalt, og de varierer uafhængigt, estimeres τ 2 optimalt vha τ 2 = τ 2 + σ 2 /t. 2.3.2 Opsummering Modellen M : Y ij+ N ) (α i + β j,τ 2 + σ2 t betragtes som en to-faktor ANOVA med replikation. i =,...,r, j =,... s Denne model (Y ijk = α i + β j + e ij ) tjekkes med residualanalyse. Accepteres den fortsættes som vanligt. Specielt er D I.J en estimator af tτ 2 + σ 2, da D I.J r s ( ) 2 = t Y ij+ Y i++ Y +j+ + Y +++ i= j= = t Y ij+ p ( Y ij+ ) 2, hvor p er projektionen på L = {µ R n µ ij+ = α i + β j i,j}. ANOVA tabellen bliver:

2.3 Tosidig variansanalyse med tilfældig virkning 9 Kilde D d.f. D F F tilf. I D I r D I D I /D err D I /D I.J J D J s D J D J /D err D J /D I.J I.J D I.J (r ) (s ) D I.J D I.J /D err Fejl D err rs (t ) D err Total S y rst F-testene er de sædvanlige. Specielt er testet D I.J /D err et test for hypotesen H 0 : τ 2 = 0. F tilf. er F-testene med tilfældig virkning. Eksempel: Investigation into whether the drugs levorphanol and epinephrine reduce stress. Each treatment was given to five animals, and the cortical sterone level (which reflects the stress-level) was measured. ANOVA tabel: Epinephrine: Yes No Levorph.: Yes 3.08,.42, 4.54,.25, 2.57 0.82, 3.36,.64,.74,.2 No 5.33, 4.84, 5.26, 4.92, 6.07.90,.80,.54, 4.0,.89 Source d.f. Sum of squares Mean square F-value p-value Levorphanol 2.83 2.83 2.60 0.003 Epinephrine 8.59 8.59 8.25 0.00 Interaction 6.6 6.6 6.05 0.026 Error 6 6.30.02 Total 9 53.88 Dvs, interaktionen er signifikant (på niveau 5%). Også begge hovedeffekter. Lad interaktionen være en tilfældig effekt. Ny ANOVA tabel: Source d.f. Sum of squares Mean square F-value p-value Levorphanol 2.83 2.83 2.083 0.386 Epinephrine 8.59 8.59 3.06 0.333 Interaction 6.6 6.6 Error 6 6.30.02 Total 9 53.88 Ingen af hovedeffekterne er signifikante!