Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren



Relaterede dokumenter
Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Ensidet variansanalyse

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

To-sidet varians analyse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Tema. Dagens tema: Indfør centrale statistiske begreber.

Reeksamen i Statistik for Biokemikere 6. april 2009

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Konfidensintervaller og Hypotesetest

Forelæsning 11: Envejs variansanalyse, ANOVA

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Besvarelse af vitcap -opgaven

Module 4: Ensidig variansanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Eksamen i Statistik for biokemikere. Blok

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Modul 11: Simpel lineær regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Løsning til eksaminen d. 14. december 2009

Forsøgsplanlægning Stikprøvestørrelse

Multipel Lineær Regression

En Introduktion til SAS. Kapitel 5.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Epidemiologi og Biostatistik

Statistik II 4. Lektion. Logistisk regression

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Variansanalyse (ANOVA)

Løsning eksamen d. 15. december 2008

Opgavebesvarelse, brain weight

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Eksamen i Statistik for Biokemikere, Blok januar 2009

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Transkript:

Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet ANOVA Data: antibiotika og nedbrydning af organisk materiale Statistisk model Estimation og konfidensintervaller Sammenligning af grupperne (test) Parvise sammenligninger Slide 2 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Case 3, del I: A-vitamin i leveren A-vitamin tilført på to måder: i majsolie (corn): x 1,...,y 10 i amerikansk olie (am): y 1,...,y 10 Spørgsmål: er A-vitaminkonc. i leveren den samme uanset olietypen? Statistisk model: alle x er og y er er uafhængige og der er ens spredning i de to grupper (samme σ): x 1,...,x 10 N(µ x,σ 2 ), y 1,...,y 10 N(µ y,σ 2 ) Hypotesen H 0 : µ x = µ y testes med T = ˆµ x ˆµ y SE(ˆµ x ˆµ y ) = SE() = R: t.test(x,y, var.equal=t) s 1/10 + 1/10 t 20 2 Case 3, del II: Fiskesmag i lammekød 11 lam i to grupper: 5 lam fik standardfoder (x 1,...,x 5 ), og 6 lam fik standardfoder tilsat fisk (y 1,...,y 6 ). Spørgsmål: Er der afsmag af fisk i lammekødet? Statistisk model: alle x er og y er er uafhængige, men der er er forskellig spredning i de to grupper: x 1,...,x 5 N(µ x,σ 2 x ), y 1,...,y 6 N(µ y,σ 2 y ) Hypotesen H 0 : µ x = µ y testes med T = ˆµ x ˆµ y SE(ˆµ x ˆµ y ) = SE() = sx 2 /5 + sy 2 /6 approx. t df hvor frihedsgraderne beregnes udfra s x og s y : Se afsnit 5.4, p. 127! R: t.test(x,y, var.equal=f) eller bare t.test(x,y) Slide 3 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 4 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper

Opgave 6.3: Fertilitet af lucerne Sammenligning af to stikprøver: oversigt To klaser fra hver af 10 lucerneplanter: én klase bøjet ned (x 1,...,x 10 ), den anden klase eksponeret for sol og vind (y 1,...,y 10 ) Her er x erne og y erne ikke uafhængige de kommer parvis fra de samme planter! Vi taler om parvise observationer. Ser i stedet på differenserne, d i = x i y i. Statistisk model: d erne er uafhængige og d i N(µ,σ 2 ). Hypotesen H 0 : µ = 0 testes med et parret t-test: T = ˆµ SE(ˆµ) = d SE( d) = d s d / 10 t 10 1 R: t.test(x,y, paired=t) eller t.test(x-y) x, y uafh.? Samme sd.? R A-vitamin Ja Ja t.test(x,y, var.equal=t) Fiskesmag Ja Nej t.test(x,y) Lucerne Nej t.test(x,y, paired=t) Når vi skal sammenligne to stikprøver kan vi altså klare os med t-test i forskellige afskyninger. Hvad hvis vi vil sammenligne tre eller flere stikprøver samtidig? Ensidet ANOVA! Slide 5 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 6 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Antibiotika og nedbrydning af organisk materiale Data Fem typer antibiotika og en kontrolbehandling 36 kvier inddelt i seks grupper. Foder tilsat antibiotikum Gødning gravet ned i poser og mængden af organisk materiale målt efter 8 uger For spiramycin: kun fire brugbare målinger Formål Påvirker antibiotika nedbrydningen af organisk materiale? Hvis kontrolmålingerne ligger lavere end de andre, tyder det på at antibiotika hæmmer nedbrydningen. Ligger de signifikant lavere eller skyldes det bare tilfældigheder? Gruppegennemsnit og -spredninger Type n j ȳ j s j Control 6 2.603 0.119 α-cyperm. 6 2.895 0.117 Enrofloxacin 6 2.710 0.162 Fenbendaz. 6 2.833 0.124 Ivermectin 6 3.002 0.109 Spiramycin 4 2.855 0.054 Organic material 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 Sammenvejet (pooled) spredningsestimat: 1 ( ) s = 5 s 2 28 1 + + 3 s6 2 1 = 34 6 Con Alp Enr Fen Ive Spi n i=1 (y i ȳ g(i) ) 2 = 0.1217 Slide 7 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 8 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper

Statistisk model Statistisk model Husk at g(i) angiver gruppen for observation i. For eksempel g(1) = = g(6) = control, g(31) = = g(34) = Spiramycin g(1) = = g(6) = 1, g(31) = = g(34) = 6. Altså: y i = α g(i) + e i, e 1,...,e n N(0,σ 2 ) uafhængige Statistisk model: y 1,...,y 34 er uafhængige og y i N(α g(i),σ 2 ) Parametre: α 1,...,α 6 og σ. Ækvivalent formulering: Antagelserne er: Alle y i er normalfordelte Middelværdien af y i er α g(i) en middelværdi for hver gruppe Alle y i har samme spredning Uafhængighed y i = α g(i) + e i, e 1,...,e 34 N(0,σ 2 ) uafhængige Slide 9 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 10 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Estimation og konfidensintervaller Ensidet ANOVA i R Statistisk model: y i = α g(i) + e i, e 1,...,e n N(0,σ 2 ) uafhængige Fit af ensidet ANOVA model: Parametre: α 1,...,α k og σ. Især interesseret i forskelle, α j α l! Estimater og estimerede spredninger: ˆα j = ȳ j ; SE(ˆα j ) = s 1/n j = s/ n j ˆα j ˆα l = ȳ j ȳ l ; SE(ˆα j ˆα l ) = s 1/n j + 1/n l ˆσ = s Konfidensintervaller på sædvanlig vis: > model1 <- lm(org~factor(type)) > summary(model1) R vælger en referencegruppe den første efter alfabetisk rækkefølge og estimerer forskelle i forhold til denne gruppe. Vi vil hellere bruge kontrolgruppen som reference: > type <- relevel(type, ref="control") > model1 <- lm(org~factor(type)) > summary(model1) estimat ± t 0.975,n k SE(estimat) NB. s bruges også ved sammenligning af to af grupperne! Slide 11 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 12 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper

Ensidet ANOVA i R Output fra summary(model1): Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2.60333 0.04970 52.379 < 2e-16 *** factor(type)alfacyp 0.29167 0.07029 4.150 0.000281 *** factor(type)enroflox 0.10667 0.07029 1.518 0.140338 factor(type)fenbenda 0.23000 0.07029 3.272 0.002834 ** factor(type)ivermect 0.39833 0.07029 5.667 4.5e-06 *** factor(type)spiramyc 0.25167 0.07858 3.202 0.003384 ** Residual standard error: 0.1217 on 28 degrees of freedom Fortolkninger: Estimat og CI for α cont, α Fenb α cont og α Fenb? Estimat for σ? Hvorfor er der forskellige SE er? Ensidet ANOVA i R Hvis vi hellere vil have gruppegennemsnit isf. forskelle til kontrolgruppen: > model2 <- lm(org~factor(type)-1) > summary(model2) Coefficients: Estimate Std. Error t value Pr(> t ) factor(type)control 2.60333 0.04970 52.38 <2e-16 *** factor(type)alfacyp 2.89500 0.04970 58.25 <2e-16 *** factor(type)enroflox 2.71000 0.04970 54.53 <2e-16 *** factor(type)fenbenda 2.83333 0.04970 57.01 <2e-16 *** factor(type)ivermect 3.00167 0.04970 60.39 <2e-16 *** factor(type)spiramyc 2.85500 0.06087 46.90 <2e-16 *** Residual standard error: 0.1217 on 28 degrees of freedom De to specifikationer er gode til hver sit formål! Slide 13 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 14 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Organic material 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 Hypotese. Variation indenfor og mellem grupper Hypotese, H 0 : α 1 = = α k. Alternativ, H A : mindst to α er er forskellige. Con Alp Enr Fen Ive Spi Variation indenfor grupper punkter vs. fuldt optrukne liniestykker ( ) SS e = n 2 i=1 yi ȳ g(i) Variation mellem grupper Fuldt optrukne linieestykker vs. stiplet linie Teststørrelse SS grp = k j=1 n j (ȳ j ȳ) 2 F = MS grp MS e = SS grp/(k 1) SS e /(n k) Sammenligning af alle grupperne Kan kun bruge model1 til dette ikke model2 med -1! > anova(model1) Df Sum Sq Mean Sq F value Pr(>F) factor(type) 5 0.59082 0.11816 7.9726 8.953e-05 *** Residuals 28 0.41500 0.01482 Teststørrelse F = MS grp = SS grp/(k 1) MS e SS e /(n k) Store værdier af F er kritiske passer dårligt med hypotesen, så p = P(F F obs ) = P(F 7.97) = 0.00009 så der er med stor sikkerhed påvist en forskel på typerne. Hvordan kom vi frem til p-værdien? Slide 15 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 16 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper

Density 0.0 0.2 0.4 0.6 F -fordelingen Hvis hypotesen er sand er F -teststørrelsen F -fordelt med (k 1,n k) frihedsgrader. F(5,28) F 0.95,5,28 0 2 4 6 8 F p = P(F 7.97) = 0.00009 Vi afviser H 0 hvis F obs er større end 95%-fraktilen, her F 0.95,5,28 = 2.56. Sandsynligheder og fraktiler i R: > pf(7.97, df1=5, df2=28) [1] 0.9999102 > qf(0.95, df1=5, df2=28) [1] 2.558128 Parvise sammenligninger Antag at vi er specielt interesseret i forskel mellem kontrolgruppen (gruppe 1) og Fenbendazolegruppen (gruppe 4): α 4 α 1. Estimat og estimeret spredning: ˆα 4 ˆα 1 = 2.833; SE(ˆα 4 ˆα 1 ) = 0.07029 Konfidensinterval for α 4 α 1? Test for hypotesen H 0 : α 1 = α 4? Er alle grupperne signifikant forskellige fra kontrolgruppen? Slide 17 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 18 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper LSD-værdi: least significant difference Hvor stort skal estimatet for forskellen mellem to grupper være for at den bliver signifikant? Forskellen ˆα j ˆα l er signifikant hvis og kun hvis T = ˆα j ˆα l SE(ˆα j ˆα l ) > t 0.975,n k ˆα j ˆα l > t 0.975,n k SE(ˆα j ˆα l ) Altså er den mindste signifikante forskel: LSD j,l = t 0.975,n k SE(ˆα j ˆα l ) = t 0.975,n k s 1/n j + 1/n l LSD for kontrol og fenbend.: 2.048 0.1217 1/6 + 1/6 = 0.144 Hvis n obs. i alle grupper: samme LSD-værdi for alle par af grupper: Konklusion Vi har med stor sikkerhed påvist at der er forskel på antibiotikatyperne (p < 0.0001) For alle typer på nær Enrofloxacin er mængden af organisk materiale signifikant højere end for kontrolgruppen. Angiv desuden estimater og konfidensintervaller for α er og/eller for forskelle til kontrolgruppen. LSD = t 0.975,n k SE(ˆα j ˆα l ) = t 0.975,n k s 2/n Slide 19 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 20 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper

Resumé: ensidet variansanalyse Dagens hovedpunkter Statistisk model: normalfordeling, ens spredning i gruppernem uafhængighed Estimation: gruppegennemsnit og sammenvejet stikprøvespredning Konfidensinterval: estimat ± t 0.975,n k SE(estimat) Hypotesen om ens middelværdier testes med F = MS grp /MS e. Parvise sammenligninger foretages indenfor modellen, således at alle observationer bruges til at estimere spredningen. Hvis der kun er to grupper, så kan vi klare os med t-test. Forskellige versioner : Er stikprøverne uafhængige? Kan spredningerne antages at være ens? Ensidet variansanalyse Antagelser for ensidet variansanalyse Hypoteser for ensidet variansanalyse Teststørrelse og F -fordelingen På onsdag: Modelkontrol og prædiktion Sammenhængen mellem modellere: ligheder og forskelle Eksempler og hængepartier Uge 5: Multipel regression og tosidet ANOVA. Slide 21 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Slide 22 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper Ordliste Engelsk LSD one-way ANOVA pooled variation between groups variation within groups Dansk Mindste signifikante forskel (LSD) ensidet variansanalyse sammenvejet variation mellem grupper variation indenfor grupper Slide 23 Statistisk Dataanalyse 1 (Uge 4-1 2010) Sammenligning af grupper