Forelæsning 11: Tovejs variansanalyse, ANOVA

Transkript

1 Introduktion til Statistik Forelæsning 11: Tovejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark Efterår 2016 DTU Compute Introduktion til Statistik Efterår / 38

2 enote 8: Tovejs variansanalyse (tovejs ANOVA) k UAFHÆNGIGE grupper og blokdesign der giver to faktorer Test om middelværdi for om mindst en gruppe er forskellig de andre andres Model Y ij = µ + α i + β j + ε ij Specifikke metoder, tovejs variansanalyse: ANOVA-tabel: SST = SS(Tr) + SS(Bl) + SSE SST, SS(Tr) og SS(Bl) beregnes som ved envejs ANOVA SSE = SST SS(Tr) SS(Bl) F-test Post hoc test(s): Parvise t-test med poolet varians estimat Hvis planlagt på forhånd, så uden Bonferroni korrektion Hvis alle sammenligninger udføres, så med Bonferroni korrektion DTU Compute Introduktion til Statistik Efterår / 38

3 enote 8: Two-way Analysis of Variance k INDEPENDENT treatments and block design give two factors Test if mean for at least one group is different from the others Model Y ij = µ + α i + β j + ε ij Specific methods, two-way analysis of variance: ANOVA-table: SST = SS(Tr) + SS(Bl) + SSE SST, SS(Tr) and SS(Bl) calculated as in one-way ANOVA SSE = SST SS(Tr) SS(Bl) F-test Post hoc test(s): pairwise t-test with pooled variance estimate If planned on beforehand, then without Bonferroni correction If all samples are compared, then with Bonferroni correction DTU Compute Introduktion til Statistik Efterår / 38

4 Oversigt 1 Intro eksempel 2 Model 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) 5 Post hoc sammenligninger 6 Model kontrol DTU Compute Introduktion til Statistik Efterår / 38

5 Intro eksempel Tovejs variansanalyse - eksempel Samme data som for envejs, dog ved vi nu at forsøget var inddelt i blokke f.eks: Behandling A Behandling B Behandling C Blok Blok Blok Blok tre grupper på fire blokke eller tre behandlinger på fire personer eller tre afgrøder på fire marker (deraf blokke) eller anden lignende opdeling Envejs ANOVA: Completely randomized design Tovejs ANOVA: Randomized block design DTU Compute Introduktion til Statistik Efterår / 38

6 Intro eksempel Tovejs variansanalyse - eksempel Samme data som for envejs, dog ved vi nu at forsøget var udført på fire personer Behandling A Behandling B Behandling C Person Person Person Person Besvarer: Er der signifikant forskel på middelværdien af behandling A, B og C? Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe kan antages at være normalfordelte (dog med mange samples dækker CLT) DTU Compute Introduktion til Statistik Efterår / 38

7 Intro eksempel ## Observationer y <- c(2.8, 3.6, 3.4, 2.3, 5.5, 6.3, 6.1, 5.7, 5.8, 8.3, 6.9, 6.1) ## Behandlinger (grupper, afgrøder,...) treatm <- factor(c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3)) ## Blokke (personer, marker,...) block <- factor(c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4)) ## Til formler senere (k <- length(unique(treatm))) (l <- length(unique(block))) ## Plots par(mfrow=c(1,2)) ## Punkterne inddelt ved behandlinger plot(treatm, y, xlab="treatments", ylab="y") ## Punkterne inddelt ved blokke plot(block, y, xlab="blocks", ylab="y") ## Plot box-plots inddelt ved behandlinger plot(treatm, y, xlab="treatments", ylab="y") ## Plot box-plots inddelt ved blokke plot(block, y, xlab="blocks", ylab="y") DTU Compute Introduktion til Statistik Efterår / 38

8 Intro eksempel Spørgsmål signifikant effekt Socrative.com, room: PBAC y y Treatments Blocks Tror du at vi vil påvise en signifikant forskel på (mindst en af) behandlingerne? A: Ja B: Nej C: Ved ikke Svar A: Ja, der er en signifikant effekt af behandlingerne (ses tydeligt på plottet) DTU Compute Introduktion til Statistik Efterår / 38

9 Intro eksempel Spørgsmål signifikant effekt Socrative.com, room: PBAC y y Treatments Blocks Tror du at vi vil påvise en signifikant forskel på blokkene (personer)? A: Ja B: Nej C: Ved ikke Svar A: Ja, der er en signifikant effekt af personer (dette ses ikke på plottet, kan først ses efter blokkene har forklaret en del af variansen) DTU Compute Introduktion til Statistik Efterår / 38

10 Model Tovejs variansanalyse, model Opstil en model hvor afvigelsen Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) ε ij N(0,σ 2 ) og i.i.d. µ er middelværdi for alle målinger α i angiver effekt for behandling i β j angiver niveau for blok j der er k behandlinger og l blokke j tæller fra 1 til l (målinger for behandling i) DTU Compute Introduktion til Statistik Efterår / 38

11 Model Estimater af parametrene i modellen Vi kan beregne estimater af parametrene ( ˆµ og ˆα i, og ˆβ j ) ˆµ =ȳ = 1 k l ( l 1 ˆα i = l ˆβ j = ( 1 k j=1 k i=1 k l y ij i=1 j=1 y ij ) ˆµ y ij ) ˆµ ## Sample mean (muhat <- mean(y)) ## Sample mean for hver behandling (alphahat <- tapply(y, treatm, mean) - muhat) ## Sample mean for hver blok (betahat <- tapply(y, block, mean) - muhat) DTU Compute Introduktion til Statistik Efterår / 38

12 Beregning - variationsopspaltning og ANOVA tabellen Tovejs variansanalyse, opspaltning og ANOVA tabellen Med modellen Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) kan den totale variation i data opspaltes: SST = SS(Tr) + SS(Bl) + SSE Tovejs hentyder til, at der er to faktorer i forsøget Metoden kaldes variansanalyse, fordi testningen foregår ved at sammenligne varianser DTU Compute Introduktion til Statistik Efterår / 38

13 Beregning - variationsopspaltning og ANOVA tabellen Formler for kvadratafvigelsessummer Kvadratafvigelsessum ( den totale varians ) (samme som for envejs) SST = k l i=1 j=1 (y ij ˆµ) 2 Kvadratafvigelsessum for behandling ( Varians forklaret af behandlingdel af modellen ) SS(Tr) = l k ˆα i 2 i=1 DTU Compute Introduktion til Statistik Efterår / 38

14 Beregning - variationsopspaltning og ANOVA tabellen Formler for kvadratafvigelsessummer Kvadratafvigelsessum for blokke (personer) ( Varians forklaret af blokdel af modellen ) SS(Bl) = k Kvadratafvigelsessum af residualer ( Varians tilbage efter model ) SSE = k l i=1 j=1 l j=1 ˆβ 2 j (y ij ˆα i ˆβ j ˆµ) 2 DTU Compute Introduktion til Statistik Efterår / 38

15 Hypotesetest (F-test) Tovejs ANOVA: Hypotese om forskellig effekt af behandling Vi vil nu sammenligne (flere end to) middelværdier µ + α i i modellen Opstil hypotesen Under H 0,Tr følger Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) H 0,Tr : α i = 0 for alle i H 1,Tr : α i 0 for mindst et i F Tr = SS(Tr)/(k 1) SSE/((k 1)(l 1)) en F-distribution med k 1 og (k 1)(l 1) frihedsgrader DTU Compute Introduktion til Statistik Efterår / 38

16 Hypotesetest (F-test) Tovejs ANOVA: Hypotese om forskelligt niveau for personer (blokke) Vi vil nu sammenligne (flere end to) middelværdier µ + β i i modellen Opstil hypotesen Under H 0,Bl følger Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) H 0,Bl : β i = 0 for alle i H 1,Bl : β i 0 for mindst et i F Bl = SS(Bl)/(l 1) SSE/((k 1)(l 1)) en F-distribution med l 1 og (k 1)(l 1) frihedsgrader DTU Compute Introduktion til Statistik Efterår / 38

17 Hypotesetest (F-test) F-fordeling og hypotese for behandlinger ## Husk, dette er under H0 (altså vi regner som om H0 er sand): ## Sekvens til plot xseq <- seq(0, 10, by=0.01) ## Plot F fordelingens tæthedsfunktion plot(xseq, df(xseq, df1=k-1, df2=(k-1)*(l-1)), type="l") ## Kritisk værdi for signifikans niveau 5 pct. cr <- qf(0.95, df1=k-1, df2=(k-1)*(l-1)) ## Tegn den i plottet abline(v=cr, col="red") ## Test statistikkens værdi: ## Værdien (Ftr <- (SSTr/(k-1)) / (SSE/((k-1)*(l-1)))) ## p-værdien er da (1 - pf(ftr, df1=k-1, df2=(k-1)*(l-1))) df(xseq, df1 = k - 1, df2 = (k - 1) * (l - 1)) xseq DTU Compute Introduktion til Statistik Efterår / 38

18 Hypotesetest (F-test) F-fordeling og hypotese for blokke ## Husk, dette er under H0 (altså vi regner som om H0 er sand): ## Sekvens til plot xseq <- seq(0, 10, by=0.01) ## Plot F fordelingens tæthedsfunktion plot(xseq, df(xseq, df1=l-1, df2=(k-1)*(l-1)), type="l") ## Kritisk værdi for signifikans niveau 5 pct. cr <- qf(0.95, df1=l-1, df2=(k-1)*(l-1)) ## Tegn den i plottet abline(v=cr, col="red") ## Test statistikkens værdi: ## Værdien (Fbl <- (SSBl/(l-1)) / (SSE/((k-1)*(l-1)))) ## p-værdien er da (1 - pf(fbl, df1=l-1, df2=(k-1)*(l-1))) df(xseq, df1 = l - 1, df2 = (k - 1) * (l - 1)) xseq DTU Compute Introduktion til Statistik Efterår / 38

19 Variansanalysetabel Hypotesetest (F-test) Variations- Friheds- Kvadrat- Gns. kvadratafv. Test- p- kilde grader afvi. sum sum størrelse F værdi Source of Deg. of Sums of Mean sum of Test- p- variation freedom squares squares statistic F value Behandling k 1 SS(Tr) MS(Tr) = SS(Tr) k 1 Block l 1 SS(Bl) MS(Bl) = SS(Bl) l 1 Residual (k 1)(l 1) SSE MSE = SSE (k 1)(l 1) Total n 1 SST F Tr = MS(Tr) MSE F Bl = MS(Bl) MSE P(F > FTr) P(F > FBl) anova(lm(y ~ treatm + block)) ## Analysis of Variance Table ## ## Response: y ## Df Sum Sq Mean Sq F value Pr(>F) ## treatm e-05 *** ## block * ## Residuals ## --- ## Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 DTU Compute Introduktion til Statistik Efterår / 38

20 Hypotesetest (F-test) Prøv at se sammenhængen med blokke efter varians af behandlinger er forklaret ## Se sammenhængen mellem blokke og residualerne efter behandlingerne fit <- lm(y ~ treatm) plot(block, fit$residuals, xlab="blocks", ylab="residualer") Residualer Blocks DTU Compute Introduktion til Statistik Efterår / 38

21 Hypotesetest (F-test) QUIZ lidt om ANOVA og hypotesetest ## Simuler data fra to-vejs model (behandlinger og blokke) ## ## Sæt først behandlingernes middelværdier: ens alpha <- c(4, 4, 4) ## Sæt først blokkenes middelværdier: ens beta <- c(-1, -1, -1, -1) ## Antal behandlinger og antal blokke k <- length(alpha) l <- length(beta) ## Simuler med normalfordelte afvigelser y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Indsæt i dataframe D <- data.frame(y, treatm=factor(rep(1:k, each=l)), block=factor(rep(1:l, k))) D ## Plots par(mfrow=c(1,2)) ## Plot box-plots inddelt ved behandlinger plot(d$treatm, D$y, xlab="treatments", ylab="y", type='p') ## Plot box-plots inddelt ved blokke plot(d$block, D$y, xlab="blocks", ylab="y", type='p') DTU Compute Introduktion til Statistik Efterår / 38

22 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks Burde vi nu påvise en signifikant effekt her (α = 0.05)? A: Ja B: Nej C: Ved ikke Svar B: Nej, der er ikke forskel på middelværdierne, så vi burde ikke påvise en signifikant effekt DTU Compute Introduktion til Statistik Efterår / 38

23 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks Hver gang vi gentager eksperimentet og testen nu, hvad er da sandsynligheden for vi påviser en signifikant effekt ved signifikansniveau α = 0.05? A: 1% B: 5% C: 95% D: 99% E: Ved ikke Svar B: 5% = α er sandsynlighed for at påvise signifikant effekt, når der faktisk ikke er nogen effekt (Type I fejl) DTU Compute Introduktion til Statistik Efterår / 38

24 Hypotesetest (F-test) Undersøg hvor ofte man laver en Type I fejl ## Antal gentageleser nrep < signifeff <- logical(nrep) ## for(i in 1:nRep){ print(i) ## Simuler med normalfordelte afvigelser D$y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Er der påvist en signifikant effekt? ans <- anova(lm(y ~ treatm + block, data=d)) signifeff[i] <- ans[1,"pr(>f)"] < 0.05 } ## Ved hvor stor en andel blev der påvist signifikant effekt? sum(signifeff)/nrep ## Faktisk burde treatm fjernes når den er ikke-signifikant DTU Compute Introduktion til Statistik Efterår / 38

25 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks Vil vi sjældnere lave fejl hvis standardafvigelsen på afvigelserne (ε i N(0,σ 2 )) gøres mindre? A: Ja B: Nej C: Ved ikke Svar B: Nej, når der ikke er nogen effekt er det kun signifikansniveaut α, der bestemmer sandsynligheden for at tage fejl (Type I fejl) DTU Compute Introduktion til Statistik Efterår / 38

26 Hypotesetest (F-test) Ændre middelværdi for en blok, så der nu simuleres med en tydelig effekt ## Ændre middelværdi for en blok, så der nu simuleres med en tydelig effekt ## Sæt først behandlingernes middelværdier: ens alpha <- c(4, 4, 4) ## Sæt først blokkenes middelværdier: sæt en højere beta <- c(-1, -1, 5, -1) ## Simuler med normalfordelte afvigelser D$y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Plots par(mfrow=c(1,2)) ## Plot box-plots inddelt ved behandlinger plot(d$treatm, D$y, xlab="treatments", ylab="y", type='p') ## Plot box-plots inddelt ved blokke plot(d$block, D$y, xlab="blocks", ylab="y", type='p') DTU Compute Introduktion til Statistik Efterår / 38

27 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks En middelværdi i beta er sat til 5, bør vi da påvise en signifikant effekt? A: Ja B: Nej C: Ved ikke Svar A: Ja, nu er der forskel på middelværdier (der er en effekt) og derfor bør vi påvise en signifikant effekt DTU Compute Introduktion til Statistik Efterår / 38

28 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks Påvirker standardafvigelsen på fejlene nu hvor ofte vi ikke får påvist en signifikant effekt? A: Ja B: Nej C: Ved ikke Svar A: Ja, nu er der en effekt, derfor kan vi lave en Type II fejl (dvs. ikke påvise effekten, selvom den er der). Sandsynligheden for at lave en Type II fejl, er 1 β (hvor β er testens styrke: Sandsynligheden for at påvise en signifikant effekt, når den er der). FORDI, hvis σ bliver mindre, så detekteres effekten nemmere (tænk bare på, at spredningen i box-plottet bliver mindre, så ses effekten tydeligere). DTU Compute Introduktion til Statistik Efterår / 38

29 Post hoc sammenligninger Post hoc konfidensinterval Som ved envejs, skift (n k) frihedsgrader ud med (k 1)(l 1) (og brug MSE fra tovejs). Gøres med enten behandlinger eller blokke En enkelt forudplanlagt sammenligning af forskelle på behandling i og j findes ved ( 1 ȳ i ȳ j ± t 1 α/2 MSE + 1 ) n i n j hvor t 1 α/2 er fra t-fordelingen med (k 1)(l 1) frihedsgrader. Hvis alle kombinationer af parvise konfidensintervaller brug formlen M gange, men med α Bonferroni = α/m DTU Compute Introduktion til Statistik Efterår / 38

30 Post hoc sammenligninger Post hoc parvis hypotesetest In enkelt forudplanlagt hypotesetest på α signifikansniveau om forskel af behandling i og j H 0 : µ i = µ j, H 1 : µ i µ j udføres ved og ȳ i ȳ j t obs = ( ) (1) MSE 1ni + 1 nj p-value = 2P(t > t obs ) hvor t-fordelingen med (k 1)(l 1) frihedsgrader anvendes Hvis alle M = k(k 1)/2 kombinationer af hypotesetests: korrigeret signifikans niveau α Bonferroni = α/m DTU Compute Introduktion til Statistik Efterår / 38

31 Varians homogenitet Model kontrol Se på box-plot om spredning af residualer ser ud til at afhænge af gruppen ## Gem fittet fit <- lm(y ~ treatm + block) ## Box plot par(mfrow=c(1,2)) plot(treatm, fit$residuals, y, xlab="treatment") ## Box plot plot(block, fit$residuals, xlab="block") Treatment Block DTU Compute Introduktion til Statistik Efterår / 38

32 Model kontrol Normalfordelingsantagelse Se på qq-normal plot ## qq-normal plot af residualer qqnorm(fit$residuals) qqline(fit$residuals) ## Eller med et Wally plot require(mess) qqwrap <- function(x, y,...) {qqnorm(y, main="",...); qqline(y)} ## Kan vi se et afvigende qq-norm plot? wallyplot(fit$residuals, FUN = qqwrap) Sample Quantiles Theoretical Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Sample Quantiles Sample Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Sample Quantiles Sample Quantiles Sample Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles DTU Compute Introduktion til Statistik Efterår / 38