Ensidet variansanalyse



Relaterede dokumenter
Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Konfidensinterval for µ (σ kendt)

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Forelæsning 8: Inferens for varianser (kap 9)

Modul 5: Test for én stikprøve

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

To-sidet varians analyse

Kapitel 12 Variansanalyse

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Kapitel 12 Variansanalyse

To-sidet variansanalyse

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Module 12: Mere om variansanalyse

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

En Introduktion til SAS. Kapitel 6.

Reeksamen i Statistik for Biokemikere 6. april 2009

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Modelkontrol i Faktor Modeller

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Note til styrkefunktionen

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

1 Hb SS Hb Sβ Hb SC = , (s = )

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Statistik og Sandsynlighedsregning 2

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Forelæsning 11: Envejs variansanalyse, ANOVA

Besvarelse af vitcap -opgaven

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Kapitel 3 Centraltendens og spredning

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Normalfordelingen. Statistik og Sandsynlighedsregning 2

k normalfordelte observationsrækker (ensidet variansanalyse)

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Modul 11: Simpel lineær regression

Eksamen i Statistik for biokemikere. Blok

Løsning til øvelsesopgaver dag 4 spg 5-9

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Module 4: Ensidig variansanalyse

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Valgkampens og valgets matematik

Signifikanstestet. usædvanlig godt godt

Module 3: Statistiske modeller

Program. 1. Flersidet variansanalyse 1/11

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X X n ) N(µ, σ2

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Statistik i basketball

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Matematisk Modellering 1 Hjælpeark

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

SENIORKURSUS STATA OG BIOSTATISTIK

Multipel Lineær Regression

Eksamen i Statistik for Biokemikere, Blok januar 2009

Statistik med GeoGebra

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

Klasseøvelser dag 2 Opgave 1

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Konfidensintervaller og Hypotesetest

Module 12: Mere om variansanalyse

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Læsevejledning til resultater på regionsplan

Epidemiologi og Biostatistik

Anvendt Statistik Lektion 7. Simpel Lineær Regression

En Introduktion til SAS. Kapitel 5.

Transkript:

Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: helle@math.ku.dk StatBK (Uge 47, mandag) Ensidet ANOVA 1 / 18

Program I dag: Sammenligning af middelværdier Sammenligning af spredninger Parvise sammenligninger To eksempler: Aldersfordeling i hjertestudie (Example 12.1) Collinge et al Torsdag: Tosidet variansanalyse StatBK (Uge 47, mandag) Ensidet ANOVA 2 / 18

Eksempel: Aldersfordeling i hjertestudie Data fra Tabel 12.1 (side 325), parallelle boxplot side 329: Tre behandlingsgrupper: surgery, control I, control II med hhv. 25, 25 og 18 observationer Er aldersfordelingen ens i de tre grupper? Kunne lave parvise test. Hvorfor er det ikke en god ide? Notation: y ij : observationen nummer j i den i te gruppe r grupper, her r = 3 n i observationer i gruppe i. Her: n 1 = 25, n 2 = 25 og n 3 = 18 n observationer i alt, n = n 1 +... + n r. Her n = 68 i = 1,2,...,r og j = 1,2,...n i. StatBK (Uge 47, mandag) Ensidet ANOVA 3 / 18

Statistisk model og hypotese Statistisk model, dvs. antagelser: y ij normalfordelt med middelværdi α i og spredning σ y ij erne er uafhængige Forskellige middelværdier i grupperne, α 1,α 2,...,α r Samme spredning σ i grupperne (kan testes vha. Bartlett s test) Hvad er den interessante hypotese? StatBK (Uge 47, mandag) Ensidet ANOVA 4 / 18

Variation mellem grupper og indenfor grupper Mere notation Gruppegennemsnit ȳ i. Totalgennemsnit ȳ.. Opdeling af total variation i variation mellem grupper (between) og variation indenfor grupper (within): hvor SST = SSB + SSW SST: afstand fra observationer til totalgennemnit (y ij ȳ..) SSB: afstand fra gruppegennems. til totalgennemsnit (y i. ȳ..) SSW: afstand fra observationer til gruppegennemsnit (y ij ȳ i.) Se formler for SST, SSB, SSW på side 325. StatBK (Uge 47, mandag) Ensidet ANOVA 5 / 18

Frihedsgrader og Mean Squares (MS) Frihedsgrader: antal uafhængige led i SS-størrelserne, DFT = n 1, DFB = r 1, DFW = n r Mean squares, MS = SS/DF: MST = SST DFT, SSB MSB = DFB, SSW MSW = DFW Størrelserne samles som regel i et variansanalyseskema (side 326). NB. Trykfejl side 326 i MSW: ȳ i. rettes til y ij. StatBK (Uge 47, mandag) Ensidet ANOVA 6 / 18

Eksempel Gruppegennemsnit, ȳ 1. = 26.08, ȳ 2. = 33.80, ȳ 3. = 27.22, Kvadratsummer, SST = 3503.7, SSB = 842.9, SSW = 2660.8 Variansanalyseskema side 328. Husk: SST = SSB + SSW og DFT = DFB + DFW. Men: MST MSB + MSW. StatBK (Uge 47, mandag) Ensidet ANOVA 7 / 18

Test af hypotesen om ens middelværdier MS-størrelserne er nyttige fordi de kan bruges til at teste hypotesen om ens middelværdier MSW er et estimat for σ 2 : ˆσ = MSW Husk H 0 : α 1 = α 2 = α r. F -teststørrelsen måler variation mellem grupper i forhold til variation indenfor grupper: F = MSB MSW = r n i=1 i j=1 (ȳ i. ȳ..) 2 /(r 1) r i=1 n i j=1 (y ij ȳ i.) 2 /(n r) Hvilke værdier af F passer godt med hypotesen? Hvilke værdier af F passer dårligt med hypotesen? Hvis H 0 sand: F er F -fordelt med r 1 og n r frihedsgrader, så p-værdien skal beregnes i denne fordeling: p = P(F F obs ) StatBK (Uge 47, mandag) Ensidet ANOVA 8 / 18

F -fordelingen og konklusion Tætheder for F (1,20) og F (5,20) på side 327. Density 0.0 0.2 0.4 0.6 0.8 1.0 F(2,65) 0 2 4 6 8 10 12 F Tabel B11 side 475 og 476 giver fraktilerne (cirka): F 2,65,0.95 = 3.15 F 2,65,0.95 = 4.98 Hvad fortæller det os om p-værdien? Hvad er konklusionen? Bør altså tage højde for alder i analysen af hjertedata det burde vi faktisk gøre under alle omstændigheder da det kan forklare dele af variationen. StatBK (Uge 47, mandag) Ensidet ANOVA 9 / 18

Sir R.A. Fisher Ifølge bogen er F -fordelingen opkaldt efter Ronald Aylmer Fisher, variansanalysens fader : StatBK (Uge 47, mandag) Ensidet ANOVA 10 / 18

Bartlett s test Bemærk: Disse slides er en del af pensum! En vigtig antagelser er at spredningerne er ens i grupperne. Man bør undersøge om denne antagelse er rimelig før man sammenligner middelværdierne Bartlett s test. Antagelser og hypotese: Antagelse: y ij N(α i,σ i ) Hypotese: H 0 : σ 1 = σ 2 = = σ r Stikprøvespredning i i te gruppe: s i Testet går ud på at sammenligne værdierne s 1,...,s r på passende måde. StatBK (Uge 47, mandag) Ensidet ANOVA 11 / 18

Bartlett s test Teststørrelse hvor B = 1 c ( (n r)log(msw) c = 1 + ( 1 r 3(r 1) i=1 r i=1 (n i 1)log(s 2 i ) ) 1 n i 1 1 n r Store værdier passer dårligt med H 0, så p-værdien er p = P(B B obs ). Hvis H 0 er sand så er B χ 2 -fordelt med r 1 frihedsgrader. Se tabel B7. SAS kan heldigvis nemt beregne dette for os... I eksemplet fås: Hvad er konklusionen? B = 0.187, p = 0.91 ) StatBK (Uge 47, mandag) Ensidet ANOVA 12 / 18

Sammenligning af to grupper Interesseret i at sammenligne gruppe 1 og 2, for eksempel. Forskel estimeres til ȳ 1. ȳ 2. med 95%-konfidensinterval ȳ 1. ȳ 2. ± t 0.975,n r MSW 1 + 1 n 1 n 2 Bemærk at konfidensintervallet er baseret på alle data: antal frihedsgrader er n r spredningsestimatet ˆσ = MSW er baseret på alle obs. Hvad giver dette i eksemplet? StatBK (Uge 47, mandag) Ensidet ANOVA 13 / 18

Parvise sammenligninger Konfidensintervallet fra før tager hensyn til the individual error rate, altså den usikkerhed der er associeret netop denne sammenligning. Hvis vi foretager mange parvise sammenligninger er der en sådan usikkerhed associeret med hver sammenligning. Den samlede usikkerhed the family error rate er større. Hvis vi vil tage højde for det skal vi gøre vores konfidensintervaller bredere. Skifter t-fraktilen ud med et større tal. Flere forskellige metoder, men lad os fokusere på Tukey-metoden. StatBK (Uge 47, mandag) Ensidet ANOVA 14 / 18

Tukey-konfidensintervaller Tukey-konfidensinterval for forskel mellem gruppe 1 og 2: ȳ 1. ȳ 2. ± q r,n r,0.95 MSW 1 + 1 2 n 1 n 2 q-størrelsen er givet i Tabel B12, side 478 479. I eksemplet er q 3,65,0.95 = 3.40 og konfidensintervallerne bliver: Hvad er konklusionen? surgery vs. control I : ( 12.06, 3.38) surgery vs. control II : ( 5.89, 3.60) control I vs. control II : (1.83, 11.32) StatBK (Uge 47, mandag) Ensidet ANOVA 15 / 18

SAS proc glm data=biost12_1; class group; model age = group / solution; means group / hovtest=bartlett tukey; run; StatBK (Uge 47, mandag) Ensidet ANOVA 16 / 18

Eksempel: data fra Collinge et al Flere muligheder for analyser Sædvanlig ensidet variansanalyse med fire grupper Sammenligning af spredninger Sammenligning af (alle fire) middelværdier Konfidensintervaller for interessante forskelle To trinsanalyse: først sammenligning af de tre kontrolgrupper, dernæst sammenligning af kontroller mod gruppe 4. (Den anden analyse er gennemført i Variansanalyse i SAS 1 ) StatBK (Uge 47, mandag) Ensidet ANOVA 17 / 18

Resumé Ensidet variansanalyse sammenligning af grupper Sammenligning af spredninger: Bartlett s test Sammenligning af middelværdier: F -test baseret på MSB og MSW Efterfølgende parvise sammenligninger hvor alle observationer inddrages til kontstruktion af konfidensintervaller (og evt. test) Tukey-korrektion for multiple sammenligninger Og lidt om fremtiden... Tosidet variansanalyse (to indelingskriterier) torsdag Flersidet variansanalyse mandag uge 50 Modelkontrol (residualanalyse) formentlig først mandag i uge 51 StatBK (Uge 47, mandag) Ensidet ANOVA 18 / 18