Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie



Relaterede dokumenter
Ensidet variansanalyse

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Konfidensinterval for µ (σ kendt)

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Forelæsning 8: Inferens for varianser (kap 9)

Modul 5: Test for én stikprøve

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

To-sidet varians analyse

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

To-sidet variansanalyse

Kapitel 12 Variansanalyse

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Kapitel 12 Variansanalyse

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Module 12: Mere om variansanalyse

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

En Introduktion til SAS. Kapitel 6.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Reeksamen i Statistik for Biokemikere 6. april 2009

Modelkontrol i Faktor Modeller

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

1 Hb SS Hb Sβ Hb SC = , (s = )

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Besvarelse af vitcap -opgaven

Note til styrkefunktionen

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Statistik og Sandsynlighedsregning 2

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

k normalfordelte observationsrækker (ensidet variansanalyse)

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Kapitel 3 Centraltendens og spredning

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Forelæsning 11: Envejs variansanalyse, ANOVA

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Eksamen i Statistik for biokemikere. Blok

Løsning til øvelsesopgaver dag 4 spg 5-9

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber.

Modul 11: Simpel lineær regression

Program. 1. Flersidet variansanalyse 1/11

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Module 4: Ensidig variansanalyse

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Valgkampens og valgets matematik

Signifikanstestet. usædvanlig godt godt

da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X X n ) N(µ, σ2

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Eksamen i Statistik for Biokemikere, Blok januar 2009

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Statistik i basketball

Matematisk Modellering 1 Hjælpeark

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

SENIORKURSUS STATA OG BIOSTATISTIK

En Introduktion til SAS. Kapitel 5.

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Multipel Lineær Regression

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Statistik med GeoGebra

Klasseøvelser dag 2 Opgave 1

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

To samhørende variable

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Module 3: Statistiske modeller

Konfidensintervaller og Hypotesetest

Module 12: Mere om variansanalyse

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Læsevejledning til resultater på regionsplan

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Nanostatistik: Middelværdi og varians

Epidemiologi og Biostatistik

Transkript:

Program Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: helle@math.ku.dk I dag: Sammenligning af middelværdier Sammenligning af spredninger Parvise sammenligninger To eksempler: Aldersfordeling i hjertestudie (Example 2.) Collinge et al Torsdag: Tosidet variansanalyse StatBK (Uge 49, mandag) Ensidet ANOVA / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 2 / 8 Eksempel: Aldersfordeling i hjertestudie Statistisk model og hypotese Data fra Tabel 2. (side 325), parallelle boxplot side 329: Tre behandlingsgrupper: surgery, control I, control II med hhv. 25, 25 og 8 observationer Er aldersfordelingen ens i de tre grupper? Kunne lave parvise test. Hvorfor er det ikke en god ide? Notation: y ij : observationen nummer j i den i te gruppe r grupper, her r = 3 n i observationer i gruppe i. Her: n = 25, n 2 = 25 og n 3 = 8 n observationer i alt, n = n +... + n r. Her n = 68 i =,2,...,r og j =,2,...n i. Statistisk model, dvs. antagelser: y ij normalfordelt med middelværdi α i og spredning σ y ij erne er uafhængige Forskellige middelværdier i grupperne, α,α 2,...,α r Samme spredning σ i grupperne (kan testes vha. Bartlett s test) Hvad er den interessante hypotese? StatBK (Uge 49, mandag) Ensidet ANOVA 3 / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 4 / 8

Variation mellem grupper og indenfor grupper Frihedsgrader og Mean Squares (MS) Mere notation Gruppegennemsnit ȳ i. Totalgennemsnit ȳ.. Opdeling af total variation i variation mellem grupper (between) og variation indenfor grupper (within): hvor SST = SSB + SSW SST: afstand fra observationer til totalgennemnit (y ij ȳ..) SSB: afstand fra gruppegennems. til totalgennemsnit (y i. ȳ..) SSW: afstand fra observationer til gruppegennemsnit (y ij ȳ i.) Se formler for SST, SSB, SSW på side 325. Frihedsgrader: antal uafhængige led i SS-størrelserne, Mean squares, MS = SS/DF: DFT = n, DFB = r, DFW = n r MST = SST DFT, SSB MSB = DFB, SSW MSW = DFW Størrelserne samles som regel i et variansanalyseskema (side 326). NB. Trykfejl side 326 i MSW: ȳ i. rettes til y ij. StatBK (Uge 49, mandag) Ensidet ANOVA 5 / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 6 / 8 Eksempel Test af hypotesen om ens middelværdier Gruppegennemsnit, ȳ. = 26.08, ȳ 2. = 33.80, ȳ 3. = 27.22, Kvadratsummer, SST = 3503.7, SSB = 842.9, SSW = 2660.8 Variansanalyseskema side 328. Husk: SST = SSB + SSW og DFT = DFB + DFW. Men: MST MSB + MSW. MS-størrelserne er nyttige fordi de kan bruges til at teste hypotesen om ens middelværdier MSW er et estimat for σ 2 : ˆσ = MSW Husk H 0 : α = α 2 = α r. F -teststørrelsen måler variation mellem grupper i forhold til variation indenfor grupper: F = MSB MSW = r n i= i j= (ȳ i. ȳ..) 2 /(r ) r i= n i j= (y ij ȳ i.) 2 /(n r) Hvilke værdier af F passer godt med hypotesen? Hvilke værdier af F passer dårligt med hypotesen? Hvis H 0 sand: F er F -fordelt med r og n r frihedsgrader, så p-værdien skal beregnes i denne fordeling: p = P(F F obs ) StatBK (Uge 49, mandag) Ensidet ANOVA 7 / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 8 / 8

F -fordelingen og konklusion Tætheder for F (,20) og F (5,20) på side 327. Sir R.A. Fisher Ifølge bogen er F -fordelingen opkaldt efter Ronald Aylmer Fisher, variansanalysens fader : Density 0.0 0.2 0.4 0.6 0.8.0 F(2,65) 0 2 4 6 8 0 2 F Tabel B side 475 og 476 giver fraktilerne (cirka): F 2,65,0.95 = 3.5 F 2,65,0.99 = 4.98 Hvad fortæller det os om p-værdien? Bør altså tage højde for alder i analysen af hjertedata det burde vi faktisk gøre under alle omstændigheder da det kan forklare dele af variationen. StatBK (Uge 49, mandag) Ensidet ANOVA 9 / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 0 / 8 Bartlett s test Bartlett s test Bemærk: Disse slides er en del af pensum! En vigtig antagelser er at spredningerne er ens i grupperne. Man bør undersøge om denne antagelse er rimelig før man sammenligner middelværdierne Bartlett s test. Antagelser og hypotese: Antagelse: y ij N(α i,σ i ) Hypotese: H 0 : σ = σ 2 = = σ r Stikprøvespredning i i te gruppe: s i Testet går ud på at sammenligne værdierne s,...,s r på passende måde. Teststørrelse hvor B = c ( (n r)log(msw) c = + ( r 3(r ) i= r i= (n i )log(s 2 i ) ) n i n r Store værdier passer dårligt med H 0, så p-værdien er p = P(B B obs ). Hvis H 0 er sand så er B χ 2 -fordelt med r frihedsgrader. Se tabel B7. SAS kan heldigvis nemt beregne dette for os... I eksemplet fås: B = 0.87, p = 0.9 ) StatBK (Uge 49, mandag) Ensidet ANOVA / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 2 / 8

Sammenligning af to grupper Parvise sammenligninger Interesseret i at sammenligne gruppe og 2, for eksempel. Forskel estimeres til ȳ. ȳ 2. med 95%-konfidensinterval ȳ. ȳ 2. ± t 0.975,n r MSW + n n 2 Bemærk at konfidensintervallet er baseret på alle data: antal frihedsgrader er n r spredningsestimatet ˆσ = MSW er baseret på alle obs. Konfidensintervallet fra før tager hensyn til the individual error rate, altså den usikkerhed der er associeret netop denne sammenligning. Hvis vi foretager mange parvise sammenligninger er der en sådan usikkerhed associeret med hver sammenligning. Den samlede usikkerhed the family error rate er større. Hvis vi vil tage højde for det skal vi gøre vores konfidensintervaller bredere. Skifter t-fraktilen ud med et større tal. Flere forskellige metoder, men lad os fokusere på Tukey-metoden. Hvad giver dette i eksemplet? StatBK (Uge 49, mandag) Ensidet ANOVA 3 / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 4 / 8 Tukey-konfidensintervaller SAS Tukey-konfidensinterval for forskel mellem gruppe og 2: ȳ. ȳ 2. ± q r,n r,0.95 MSW + 2 n n 2 q-størrelsen er givet i Tabel B2, side 478 479. I eksemplet er q 3,65,0.95 = 3.40 og konfidensintervallerne bliver: surgery vs. control I : ( 2.06, 3.38) surgery vs. control II : ( 5.89, 3.60) control I vs. control II : (.83,.32) proc glm data=biost2_; class group; model age = group / solution; means group / hovtest=bartlett tukey; run; StatBK (Uge 49, mandag) Ensidet ANOVA 5 / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 6 / 8

Eksempel: data fra Collinge et al Resumé Flere muligheder for analyser Sædvanlig ensidet variansanalyse med fire grupper Sammenligning af spredninger Sammenligning af (alle fire) middelværdier Konfidensintervaller for interessante forskelle To trinsanalyse: først sammenligning af de tre kontrolgrupper, dernæst sammenligning af kontroller mod gruppe 4. (Den anden analyse er gennemført i Variansanalyse i SAS ) Ensidet variansanalyse sammenligning af grupper Sammenligning af spredninger: Bartlett s test Sammenligning af middelværdier: F -test baseret på MSB og MSW Efterfølgende parvise sammenligninger hvor alle observationer inddrages til kontstruktion af konfidensintervaller (og evt. test) Tukey-korrektion for multiple sammenligninger Og lidt om fremtiden... Tosidet variansanalyse (to indelingskriterier) torsdag Flersidet variansanalyse mandag uge 50 Modelkontrol (residualanalyse) formentlig først mandag i uge 5 StatBK (Uge 49, mandag) Ensidet ANOVA 7 / 8 StatBK (Uge 49, mandag) Ensidet ANOVA 8 / 8