Forelæsning 11: Tovejs variansanalyse, ANOVA

Relaterede dokumenter
Forelæsning 11: Envejs variansanalyse, ANOVA

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus 02402/02323 Introducerende Statistik

Løsning eksamen d. 15. december 2008

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

To-sidet varians analyse

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Løsning til eksaminen d. 14. december 2009

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kapitel 12 Variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kapitel 12 Variansanalyse

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Eksamen i Statistik for biokemikere. Blok

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

En Introduktion til SAS. Kapitel 5.

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Modul 11: Simpel lineær regression

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

1 Hb SS Hb Sβ Hb SC = , (s = )

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Løsning til eksaminen d. 29. maj 2009

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Forsøgsplanlægning Stikprøvestørrelse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Opgaver til kapitel 3

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Module 4: Ensidig variansanalyse

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Multipel Lineær Regression

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Reeksamen i Statistik for Biokemikere 6. april 2009

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

(studienummer) (underskrift) (bord nr)

Besvarelse af vitcap -opgaven

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Lineær regression i SAS. Lineær regression i SAS p.1/20

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Transkript:

Introduktion til Statistik Forelæsning 11: Tovejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår 2016 DTU Compute Introduktion til Statistik Efterår 2016 1 / 38

enote 8: Tovejs variansanalyse (tovejs ANOVA) k UAFHÆNGIGE grupper og blokdesign der giver to faktorer Test om middelværdi for om mindst en gruppe er forskellig de andre andres Model Y ij = µ + α i + β j + ε ij Specifikke metoder, tovejs variansanalyse: ANOVA-tabel: SST = SS(Tr) + SS(Bl) + SSE SST, SS(Tr) og SS(Bl) beregnes som ved envejs ANOVA SSE = SST SS(Tr) SS(Bl) F-test Post hoc test(s): Parvise t-test med poolet varians estimat Hvis planlagt på forhånd, så uden Bonferroni korrektion Hvis alle sammenligninger udføres, så med Bonferroni korrektion DTU Compute Introduktion til Statistik Efterår 2016 2 / 38

enote 8: Two-way Analysis of Variance k INDEPENDENT treatments and block design give two factors Test if mean for at least one group is different from the others Model Y ij = µ + α i + β j + ε ij Specific methods, two-way analysis of variance: ANOVA-table: SST = SS(Tr) + SS(Bl) + SSE SST, SS(Tr) and SS(Bl) calculated as in one-way ANOVA SSE = SST SS(Tr) SS(Bl) F-test Post hoc test(s): pairwise t-test with pooled variance estimate If planned on beforehand, then without Bonferroni correction If all samples are compared, then with Bonferroni correction DTU Compute Introduktion til Statistik Efterår 2016 3 / 38

Oversigt 1 Intro eksempel 2 Model 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) 5 Post hoc sammenligninger 6 Model kontrol DTU Compute Introduktion til Statistik Efterår 2016 4 / 38

Intro eksempel Tovejs variansanalyse - eksempel Samme data som for envejs, dog ved vi nu at forsøget var inddelt i blokke f.eks: Behandling A Behandling B Behandling C Blok 1 2.8 5.5 5.8 Blok 2 3.6 6.3 8.3 Blok 3 3.4 6.1 6.9 Blok 4 2.3 5.7 6.1 tre grupper på fire blokke eller tre behandlinger på fire personer eller tre afgrøder på fire marker (deraf blokke) eller anden lignende opdeling Envejs ANOVA: Completely randomized design Tovejs ANOVA: Randomized block design DTU Compute Introduktion til Statistik Efterår 2016 6 / 38

Intro eksempel Tovejs variansanalyse - eksempel Samme data som for envejs, dog ved vi nu at forsøget var udført på fire personer Behandling A Behandling B Behandling C Person 1 2.8 5.5 5.8 Person 2 3.6 6.3 8.3 Person 3 3.4 6.1 6.9 Person 4 2.3 5.7 6.1 Besvarer: Er der signifikant forskel på middelværdien af behandling A, B og C? Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe kan antages at være normalfordelte (dog med mange samples dækker CLT) DTU Compute Introduktion til Statistik Efterår 2016 7 / 38

Intro eksempel ## Observationer y <- c(2.8, 3.6, 3.4, 2.3, 5.5, 6.3, 6.1, 5.7, 5.8, 8.3, 6.9, 6.1) ## Behandlinger (grupper, afgrøder,...) treatm <- factor(c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3)) ## Blokke (personer, marker,...) block <- factor(c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4)) ## Til formler senere (k <- length(unique(treatm))) (l <- length(unique(block))) ## Plots par(mfrow=c(1,2)) ## Punkterne inddelt ved behandlinger plot(treatm, y, xlab="treatments", ylab="y") ## Punkterne inddelt ved blokke plot(block, y, xlab="blocks", ylab="y") ## Plot box-plots inddelt ved behandlinger plot(treatm, y, xlab="treatments", ylab="y") ## Plot box-plots inddelt ved blokke plot(block, y, xlab="blocks", ylab="y") DTU Compute Introduktion til Statistik Efterår 2016 8 / 38

Intro eksempel Spørgsmål signifikant effekt Socrative.com, room: PBAC y 3 4 5 6 7 8 y 3 4 5 6 7 8 1 2 3 Treatments 1 2 3 4 Blocks Tror du at vi vil påvise en signifikant forskel på (mindst en af) behandlingerne? A: Ja B: Nej C: Ved ikke Svar A: Ja, der er en signifikant effekt af behandlingerne (ses tydeligt på plottet) DTU Compute Introduktion til Statistik Efterår 2016 9 / 38

Intro eksempel Spørgsmål signifikant effekt Socrative.com, room: PBAC y 3 4 5 6 7 8 y 3 4 5 6 7 8 1 2 3 Treatments 1 2 3 4 Blocks Tror du at vi vil påvise en signifikant forskel på blokkene (personer)? A: Ja B: Nej C: Ved ikke Svar A: Ja, der er en signifikant effekt af personer (dette ses ikke på plottet, kan først ses efter blokkene har forklaret en del af variansen) DTU Compute Introduktion til Statistik Efterår 2016 10 / 38

Model Tovejs variansanalyse, model Opstil en model hvor afvigelsen Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) ε ij N(0,σ 2 ) og i.i.d. µ er middelværdi for alle målinger α i angiver effekt for behandling i β j angiver niveau for blok j der er k behandlinger og l blokke j tæller fra 1 til l (målinger for behandling i) DTU Compute Introduktion til Statistik Efterår 2016 12 / 38

Model Estimater af parametrene i modellen Vi kan beregne estimater af parametrene ( ˆµ og ˆα i, og ˆβ j ) ˆµ =ȳ = 1 k l ( l 1 ˆα i = l ˆβ j = ( 1 k j=1 k i=1 k l y ij i=1 j=1 y ij ) ˆµ y ij ) ˆµ ## Sample mean (muhat <- mean(y)) ## Sample mean for hver behandling (alphahat <- tapply(y, treatm, mean) - muhat) ## Sample mean for hver blok (betahat <- tapply(y, block, mean) - muhat) DTU Compute Introduktion til Statistik Efterår 2016 13 / 38

Beregning - variationsopspaltning og ANOVA tabellen Tovejs variansanalyse, opspaltning og ANOVA tabellen Med modellen Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) kan den totale variation i data opspaltes: SST = SS(Tr) + SS(Bl) + SSE Tovejs hentyder til, at der er to faktorer i forsøget Metoden kaldes variansanalyse, fordi testningen foregår ved at sammenligne varianser DTU Compute Introduktion til Statistik Efterår 2016 15 / 38

Beregning - variationsopspaltning og ANOVA tabellen Formler for kvadratafvigelsessummer Kvadratafvigelsessum ( den totale varians ) (samme som for envejs) SST = k l i=1 j=1 (y ij ˆµ) 2 Kvadratafvigelsessum for behandling ( Varians forklaret af behandlingdel af modellen ) SS(Tr) = l k ˆα i 2 i=1 DTU Compute Introduktion til Statistik Efterår 2016 16 / 38

Beregning - variationsopspaltning og ANOVA tabellen Formler for kvadratafvigelsessummer Kvadratafvigelsessum for blokke (personer) ( Varians forklaret af blokdel af modellen ) SS(Bl) = k Kvadratafvigelsessum af residualer ( Varians tilbage efter model ) SSE = k l i=1 j=1 l j=1 ˆβ 2 j (y ij ˆα i ˆβ j ˆµ) 2 DTU Compute Introduktion til Statistik Efterår 2016 17 / 38

Hypotesetest (F-test) Tovejs ANOVA: Hypotese om forskellig effekt af behandling Vi vil nu sammenligne (flere end to) middelværdier µ + α i i modellen Opstil hypotesen Under H 0,Tr følger Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) H 0,Tr : α i = 0 for alle i H 1,Tr : α i 0 for mindst et i F Tr = SS(Tr)/(k 1) SSE/((k 1)(l 1)) en F-distribution med k 1 og (k 1)(l 1) frihedsgrader DTU Compute Introduktion til Statistik Efterår 2016 19 / 38

Hypotesetest (F-test) Tovejs ANOVA: Hypotese om forskelligt niveau for personer (blokke) Vi vil nu sammenligne (flere end to) middelværdier µ + β i i modellen Opstil hypotesen Under H 0,Bl følger Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) H 0,Bl : β i = 0 for alle i H 1,Bl : β i 0 for mindst et i F Bl = SS(Bl)/(l 1) SSE/((k 1)(l 1)) en F-distribution med l 1 og (k 1)(l 1) frihedsgrader DTU Compute Introduktion til Statistik Efterår 2016 20 / 38

Hypotesetest (F-test) F-fordeling og hypotese for behandlinger ## Husk, dette er under H0 (altså vi regner som om H0 er sand): ## Sekvens til plot xseq <- seq(0, 10, by=0.01) ## Plot F fordelingens tæthedsfunktion plot(xseq, df(xseq, df1=k-1, df2=(k-1)*(l-1)), type="l") ## Kritisk værdi for signifikans niveau 5 pct. cr <- qf(0.95, df1=k-1, df2=(k-1)*(l-1)) ## Tegn den i plottet abline(v=cr, col="red") ## Test statistikkens værdi: ## Værdien (Ftr <- (SSTr/(k-1)) / (SSE/((k-1)*(l-1)))) ## p-værdien er da (1 - pf(ftr, df1=k-1, df2=(k-1)*(l-1))) df(xseq, df1 = k - 1, df2 = (k - 1) * (l - 1)) 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 xseq DTU Compute Introduktion til Statistik Efterår 2016 21 / 38

Hypotesetest (F-test) F-fordeling og hypotese for blokke ## Husk, dette er under H0 (altså vi regner som om H0 er sand): ## Sekvens til plot xseq <- seq(0, 10, by=0.01) ## Plot F fordelingens tæthedsfunktion plot(xseq, df(xseq, df1=l-1, df2=(k-1)*(l-1)), type="l") ## Kritisk værdi for signifikans niveau 5 pct. cr <- qf(0.95, df1=l-1, df2=(k-1)*(l-1)) ## Tegn den i plottet abline(v=cr, col="red") ## Test statistikkens værdi: ## Værdien (Fbl <- (SSBl/(l-1)) / (SSE/((k-1)*(l-1)))) ## p-værdien er da (1 - pf(fbl, df1=l-1, df2=(k-1)*(l-1))) df(xseq, df1 = l - 1, df2 = (k - 1) * (l - 1)) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 2 4 6 8 10 xseq DTU Compute Introduktion til Statistik Efterår 2016 22 / 38

Variansanalysetabel Hypotesetest (F-test) Variations- Friheds- Kvadrat- Gns. kvadratafv. Test- p- kilde grader afvi. sum sum størrelse F værdi Source of Deg. of Sums of Mean sum of Test- p- variation freedom squares squares statistic F value Behandling k 1 SS(Tr) MS(Tr) = SS(Tr) k 1 Block l 1 SS(Bl) MS(Bl) = SS(Bl) l 1 Residual (k 1)(l 1) SSE MSE = SSE (k 1)(l 1) Total n 1 SST F Tr = MS(Tr) MSE F Bl = MS(Bl) MSE P(F > FTr) P(F > FBl) anova(lm(y ~ treatm + block)) ## Analysis of Variance Table ## ## Response: y ## Df Sum Sq Mean Sq F value Pr(>F) ## treatm 2 30.79 15.40 74.40 5.8e-05 *** ## block 3 3.95 1.32 6.37 0.027 * ## Residuals 6 1.24 0.21 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 DTU Compute Introduktion til Statistik Efterår 2016 23 / 38

Hypotesetest (F-test) Prøv at se sammenhængen med blokke efter varians af behandlinger er forklaret ## Se sammenhængen mellem blokke og residualerne efter behandlingerne fit <- lm(y ~ treatm) plot(block, fit$residuals, xlab="blocks", ylab="residualer") Residualer -1.0-0.5 0.0 0.5 1.0 1.5 1 2 3 4 Blocks DTU Compute Introduktion til Statistik Efterår 2016 24 / 38

Hypotesetest (F-test) QUIZ lidt om ANOVA og hypotesetest ## Simuler data fra to-vejs model (behandlinger og blokke) ## ## Sæt først behandlingernes middelværdier: ens alpha <- c(4, 4, 4) ## Sæt først blokkenes middelværdier: ens beta <- c(-1, -1, -1, -1) ## Antal behandlinger og antal blokke k <- length(alpha) l <- length(beta) ## Simuler med normalfordelte afvigelser y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Indsæt i dataframe D <- data.frame(y, treatm=factor(rep(1:k, each=l)), block=factor(rep(1:l, k))) D ## Plots par(mfrow=c(1,2)) ## Plot box-plots inddelt ved behandlinger plot(d$treatm, D$y, xlab="treatments", ylab="y", type='p') ## Plot box-plots inddelt ved blokke plot(d$block, D$y, xlab="blocks", ylab="y", type='p') DTU Compute Introduktion til Statistik Efterår 2016 25 / 38

Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y 1 2 3 4 5 6 y 1 2 3 4 5 6 1 2 3 Treatments 1 2 3 4 Blocks Burde vi nu påvise en signifikant effekt her (α = 0.05)? A: Ja B: Nej C: Ved ikke Svar B: Nej, der er ikke forskel på middelværdierne, så vi burde ikke påvise en signifikant effekt DTU Compute Introduktion til Statistik Efterår 2016 26 / 38

Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y 1 2 3 4 5 6 y 1 2 3 4 5 6 1 2 3 Treatments 1 2 3 4 Blocks Hver gang vi gentager eksperimentet og testen nu, hvad er da sandsynligheden for vi påviser en signifikant effekt ved signifikansniveau α = 0.05? A: 1% B: 5% C: 95% D: 99% E: Ved ikke Svar B: 5% = α er sandsynlighed for at påvise signifikant effekt, når der faktisk ikke er nogen effekt (Type I fejl) DTU Compute Introduktion til Statistik Efterår 2016 27 / 38

Hypotesetest (F-test) Undersøg hvor ofte man laver en Type I fejl ## Antal gentageleser nrep <- 10000 signifeff <- logical(nrep) ## for(i in 1:nRep){ print(i) ## Simuler med normalfordelte afvigelser D$y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Er der påvist en signifikant effekt? ans <- anova(lm(y ~ treatm + block, data=d)) signifeff[i] <- ans[1,"pr(>f)"] < 0.05 } ## Ved hvor stor en andel blev der påvist signifikant effekt? sum(signifeff)/nrep ## Faktisk burde treatm fjernes når den er ikke-signifikant DTU Compute Introduktion til Statistik Efterår 2016 28 / 38

Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y -2 0 2 4 y -2 0 2 4 1 2 3 Treatments 1 2 3 4 Blocks Vil vi sjældnere lave fejl hvis standardafvigelsen på afvigelserne (ε i N(0,σ 2 )) gøres mindre? A: Ja B: Nej C: Ved ikke Svar B: Nej, når der ikke er nogen effekt er det kun signifikansniveaut α, der bestemmer sandsynligheden for at tage fejl (Type I fejl) DTU Compute Introduktion til Statistik Efterår 2016 29 / 38

Hypotesetest (F-test) Ændre middelværdi for en blok, så der nu simuleres med en tydelig effekt ## Ændre middelværdi for en blok, så der nu simuleres med en tydelig effekt ## Sæt først behandlingernes middelværdier: ens alpha <- c(4, 4, 4) ## Sæt først blokkenes middelværdier: sæt en højere beta <- c(-1, -1, 5, -1) ## Simuler med normalfordelte afvigelser D$y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Plots par(mfrow=c(1,2)) ## Plot box-plots inddelt ved behandlinger plot(d$treatm, D$y, xlab="treatments", ylab="y", type='p') ## Plot box-plots inddelt ved blokke plot(d$block, D$y, xlab="blocks", ylab="y", type='p') DTU Compute Introduktion til Statistik Efterår 2016 30 / 38

Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y 2 4 6 8 y 2 4 6 8 1 2 3 Treatments 1 2 3 4 Blocks En middelværdi i beta er sat til 5, bør vi da påvise en signifikant effekt? A: Ja B: Nej C: Ved ikke Svar A: Ja, nu er der forskel på middelværdier (der er en effekt) og derfor bør vi påvise en signifikant effekt DTU Compute Introduktion til Statistik Efterår 2016 31 / 38

Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y 2 4 6 8 y 2 4 6 8 1 2 3 Treatments 1 2 3 4 Blocks Påvirker standardafvigelsen på fejlene nu hvor ofte vi ikke får påvist en signifikant effekt? A: Ja B: Nej C: Ved ikke Svar A: Ja, nu er der en effekt, derfor kan vi lave en Type II fejl (dvs. ikke påvise effekten, selvom den er der). Sandsynligheden for at lave en Type II fejl, er 1 β (hvor β er testens styrke: Sandsynligheden for at påvise en signifikant effekt, når den er der). FORDI, hvis σ bliver mindre, så detekteres effekten nemmere (tænk bare på, at spredningen i box-plottet bliver mindre, så ses effekten tydeligere). DTU Compute Introduktion til Statistik Efterår 2016 32 / 38

Post hoc sammenligninger Post hoc konfidensinterval Som ved envejs, skift (n k) frihedsgrader ud med (k 1)(l 1) (og brug MSE fra tovejs). Gøres med enten behandlinger eller blokke En enkelt forudplanlagt sammenligning af forskelle på behandling i og j findes ved ( 1 ȳ i ȳ j ± t 1 α/2 MSE + 1 ) n i n j hvor t 1 α/2 er fra t-fordelingen med (k 1)(l 1) frihedsgrader. Hvis alle kombinationer af parvise konfidensintervaller brug formlen M gange, men med α Bonferroni = α/m DTU Compute Introduktion til Statistik Efterår 2016 34 / 38

Post hoc sammenligninger Post hoc parvis hypotesetest In enkelt forudplanlagt hypotesetest på α signifikansniveau om forskel af behandling i og j H 0 : µ i = µ j, H 1 : µ i µ j udføres ved og ȳ i ȳ j t obs = ( ) (1) MSE 1ni + 1 nj p-value = 2P(t > t obs ) hvor t-fordelingen med (k 1)(l 1) frihedsgrader anvendes Hvis alle M = k(k 1)/2 kombinationer af hypotesetests: korrigeret signifikans niveau α Bonferroni = α/m DTU Compute Introduktion til Statistik Efterår 2016 35 / 38

Varians homogenitet Model kontrol Se på box-plot om spredning af residualer ser ud til at afhænge af gruppen ## Gem fittet fit <- lm(y ~ treatm + block) ## Box plot par(mfrow=c(1,2)) plot(treatm, fit$residuals, y, xlab="treatment") ## Box plot plot(block, fit$residuals, xlab="block") -2-1 0 1 2-2 -1 0 1 2 1 2 3 Treatment 1 2 3 4 Block DTU Compute Introduktion til Statistik Efterår 2016 37 / 38

Model kontrol Normalfordelingsantagelse Se på qq-normal plot ## qq-normal plot af residualer qqnorm(fit$residuals) qqline(fit$residuals) ## Eller med et Wally plot require(mess) qqwrap <- function(x, y,...) {qqnorm(y, main="",...); qqline(y)} ## Kan vi se et afvigende qq-norm plot? wallyplot(fit$residuals, FUN = qqwrap) Sample Quantiles -2-1 0 1 2-1.5-0.5 0.5 1.0 1.5 Theoretical Quantiles Sample Quantiles -2-1 0 1 2-1.5-0.5 0.5 1.0 1.5 Theoretical Quantiles -2-1 0 1 2-1.5-0.5 0.5 1.0 1.5 Theoretical Quantiles Sample Quantiles -2-1 0 1 2 Sample Quantiles -2-1 0 1 2 Sample Quantiles -2-1 0 1 2-1.5-0.5 0.5 1.0 1.5-1.5-0.5 0.5 1.0 1.5-1.5-0.5 0.5 1.0 1.5 Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Sample Quantiles -2-1 0 1 2 Sample Quantiles -2-1 0 1 2 Sample Quantiles -2-1 0 1 2 Sample Quantiles -1.5-0.5 0.5 1.0 1.5-1.5-0.5 0.5 1.0 1.5-1.5-0.5 0.5 1.0 1.5 Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles DTU Compute Introduktion til Statistik Efterår 2016 38 / 38