Forelæsning 11: Envejs variansanalyse, ANOVA

Relaterede dokumenter
Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Forelæsning 11: Tovejs variansanalyse, ANOVA

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Løsning eksamen d. 15. december 2008

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Løsning til eksaminen d. 14. december 2009

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

To-sidet varians analyse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Forelæsning 9: Inferens for andele (kapitel 10)

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Kursus 02402/02323 Introducerende Statistik

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Kapitel 12 Variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kapitel 12 Variansanalyse

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

En Introduktion til SAS. Kapitel 5.

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Opgaver til kapitel 3

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Reeksamen i Statistik for Biokemikere 6. april 2009

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Løsning til eksaminen d. 29. maj 2009

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Løsning til eksamen d.27 Maj 2010

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Modul 11: Simpel lineær regression

Ikke-parametriske tests

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

(studienummer) (underskrift) (bord nr)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Module 3: Statistiske modeller

Besvarelse af vitcap -opgaven

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Konfidensintervaller og Hypotesetest

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Skriftlig eksamen Science statistik- ST501

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Transkript:

Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Forår 2018 DTU Compute Introduktion til Statistik Forår 2018 1 / 28

Kapitel 8: Envejs variansanalyse (envejs ANOVA) k UAFHÆNGIGE grupper Test om middelværdi for mindst en gruppe er forskellig fra de andre gruppers middelværdi Model Y ij = µ + α i + ε ij Specifikke metoder, envejs variansanalyse: ANOVA-tabel: SST = SS(Tr) + SSE F-test Post hoc test(s): Parvise t-test med poolet varians estimat Hvis planlagt på forhånd, så uden Bonferroni korrektion Hvis alle sammenligninger udføres, så med Bonferroni korrektion DTU Compute Introduktion til Statistik Forår 2018 2 / 28

Chapter 8: One-way Analysis of Variance k INDEPENDENT samples (groups) Test if the mean of at least one of the groups is different from the mean of the other groups Model Y ij = µ + α i + ε ij Specific methods, one-way analysis of variance: ANOVA-table: SST = SS(Tr) + SSE F-test Post hoc test(s): pairwise t-test with pooled variance estimate If planned on beforehand, then without Bonferroni correction If all samples are compared, then with Bonferroni correction DTU Compute Introduktion til Statistik Forår 2018 3 / 28

Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) 5 Post hoc sammenligninger 6 Model kontrol DTU Compute Introduktion til Statistik Forår 2018 4 / 28

Intro eksempel Envejs variansanalyse - eksempel Gruppe A Gruppe B Gruppe C 2.8 5.5 5.8 3.6 6.3 8.3 3.4 6.1 6.9 2.3 5.7 6.1 Er der forskel (i middel) på grupperne A, B og C? Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe kan antages at være normalfordelte (vigtigt når man har få observationer, men jo flere man observationer man har des mindre vigtigt ifølge CLT) DTU Compute Introduktion til Statistik Forår 2018 6 / 28

Intro eksempel Envejs variansanalyse - eksempel ## Observationer y <- c(2.8, 3.6, 3.4, 2.3, 5.5, 6.3, 6.1, 5.7, 5.8, 8.3, 6.9, 6.1) ## Grupper (behandlinger) treatm <- factor(c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3)) ## Plot par(mfrow=c(1,2)) plot(as.numeric(treatm), y, xlab="treatment", ylab="y") ## plot(treatm, y, xlab="treatment", ylab="y") y 3 4 5 6 7 8 y 3 4 5 6 7 8 1.0 1.5 2.0 2.5 3.0 Treatment 1 2 3 Treatment DTU Compute Introduktion til Statistik Forår 2018 7 / 28

Model og hypotese Envejs variansanalyse, model og hypotese Opstil en model Y ij = µ + α i + ε ij hvor det antages, at ε ij N(0,σ 2 ) µ er samlet middelværdi α i angiver effekt af gruppe (behandling) i j tæller målinger i grupperne, fra 1 til n i i hver gruppe DTU Compute Introduktion til Statistik Forår 2018 9 / 28

Model og hypotese Envejs variansanalyse, model og hypotese Hypotese Vi vil nu sammenligne (flere end to) middelværdier µ + α i i modellen Y ij = µ + α i + ε ij, ε ij N(0,σ 2 ) så vi opsætter hypotesen H 0 : α i = 0 for alle i H 1 : α i 0 for mindst et i DTU Compute Introduktion til Statistik Forår 2018 10 / 28

Beregning - variationsopspaltning og ANOVA tabellen Envejs variansanalyse, opspaltning og ANOVA tabellen Med modellen Y ij = µ + α i + ε ij, ε ij N(0,σ 2 ) kan den totale variation i Y opspaltes SST = SS(Tr) + SSE hvor SST: Kvadratafvigelsessum ( den totale varians ) SSE: Kvadratafvigelsessum af residualer ( varians tilbage efter model ) SS(Tr): Kvadratafvigelsessum af gruppering ( varians forklaret af model ) Envejs hentyder til, at der kun er én faktor (én opdeling) i forsøget, på i alt k nivauer Metoden kaldes variansanalyse, fordi testningen foregår ved at sammenligne varianser DTU Compute Introduktion til Statistik Forår 2018 12 / 28

Beregning - variationsopspaltning og ANOVA tabellen Formler for kvadratafvigelsessummer Kvadratafvigelsessum ( den totale varians ) SST = k n i i=1 j=1 (y ij ȳ) 2 Kvadratafvigelsessum af residualer ( varians tilbage efter model ) SSE = k n i i=1 j=1 (y ij ȳ i ) 2 Kvadratafvigelsessum af gruppering ( varians forklaret af model ) SS(Tr) = k i=1 n i (ȳ i ȳ) 2 = SST SSE DTU Compute Introduktion til Statistik Forår 2018 13 / 28

Beregning - variationsopspaltning og ANOVA tabellen Spørgsmål den totale varians (SST) Socrative.com, room: PBAC DATA 1 DATA 2 ȳ y -6-4 -2 0 2 4 6 SST: 392.5 ȳ y -6-4 -2 0 2 4 6 SST: 57.99 1 2 3 1 2 3 group group For hvilken data er SST (totale variation) størst? A: DATA1 B: DATA2 C: Omtrent lige stor D: Ved ikke Svar A: Det er afstandene til ȳ (i anden og summeret) DTU Compute Introduktion til Statistik Forår 2018 14 / 28

Beregning - variationsopspaltning og ANOVA tabellen Spørgsmål: residual variansen (SSE) Socrative.com, room: PBAC DATA 1 DATA 2 y -6-4 -2 0 2 4 6 ȳ 1 ȳ 2 ȳ 3 SSE: 37.9 y -6-4 -2 0 2 4 6 ȳ 1 ȳ 2 ȳ 3 SSE: 38.12 1 2 3 1 2 3 group group For hvilken data er SSE (residual variationen) størst? A: DATA1 B: DATA2 C: Omtrent lige stor D: Ved ikke Svar C: Det er afstandene til ȳ i (i anden og summeret) DTU Compute Introduktion til Statistik Forår 2018 15 / 28

Hypotesetest (F-test) Envejs variansanalyse, F-test Vi har altså SST = SS(Tr) + SSE og under H 0 : α i = 0 for alle i (dvs. ingen forskel i middelværdi), da vil teststatistikken SS(Tr)/(k 1) F = SSE/(n k) følge en F-fordeling, hvor k er antal nivauer af faktoren (antal grupper) n er antal observationer Signifikansniveau α vælges og teststatistikken F obs beregnes Teststatistikken sammenlignes med en fraktil i F fordelingen F F α (k 1,n k) DTU Compute Introduktion til Statistik Forår 2018 17 / 28

Hypotesetest (F-test) F-fordeling ## Husk, dette er under H0 (altså vi regner som om H0 er sand): ## Antal grupper k <- 3 ## Antal punkter n <- 12 ## Sekvens til plot xseq <- seq(0, 10, by=0.1) ## Plot F fordelingens tæthedsfunktion plot(xseq, df(xseq, df1=k-1, df2=n-k), type="l", xlab="x", ylab="f(x)") ## Kritisk værdi for signifikans niveau 5 % cr <- qf(0.95, df1=k-1, df2=n-k) ## Tegn den i plottet abline(v=cr, col="red") ## Test statistikkens værdi (Fobs <- (SSTr/(k-1)) / (SSE/(n-k))) ## p-værdien er da (1 - pf(fobs, df1=k-1, df2=n-k)) 0 2 4 6 8 10 x DTU Compute Introduktion til Statistik Forår 2018 18 / 28 f (x) 0.0 0.2 0.4 0.6 0.8 1.0 Critical level for α = 0.05

Hypotesetest (F-test) Variansanalysetabel Variations- Friheds- Kvadrat- Gns. kvadratafv. Test- p- kilde grader afvig. sum sum størrelse F værdi Source of Deg. of Sums of Mean sum of Test- p- variation freedom squares squares statistic F value Gruppering k 1 SS(Tr) MS(Tr) = SS(Tr) k 1 Residual n k SSE MSE = n k SSE Total n 1 SST F obs = MS(Tr) MSE P(F > F obs ) ## Alt dette beregnes med lm() og anova() anova(lm(y ~ treatm)) ## Analysis of Variance Table ## ## Response: y ## Df Sum Sq Mean Sq F value Pr(>F) ## treatm 2 30.8 15.40 26.7 0.00017 *** ## Residuals 9 5.2 0.58 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 DTU Compute Introduktion til Statistik Forår 2018 19 / 28

Hypotesetest (F-test) Spørgsmål ANOVA table Socrative.com, room: PBAC anova(lm(y ~ treatm)) ## Analysis of Variance Table ## ## Response: y ## Df Sum Sq Mean Sq F value Pr(>F) ## treatm 3 37.6 12.54 4.51 0.024 * ## Residuals 12 33.3 2.78 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Hvad er den totale variation SST? A: 12.54 B: 37.6 C: 70.9 D: Ved ikke Svar C: 70.9. Det er summen af Sum Sq kolonnen DTU Compute Introduktion til Statistik Forår 2018 20 / 28

Hypotesetest (F-test) Spørgsmål ANOVA table Socrative.com, room: PBAC anova(lm(y ~ treatm)) ## Analysis of Variance Table ## ## Response: y ## Df Sum Sq Mean Sq F value Pr(>F) ## treatm 3 37.6 12.54 4.51 0.024 * ## Residuals 12 33.3 2.78 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Husk antagelsen om normalfordelte afvigelser ε ij N(0,σ 2 ) Hvad er ˆσ 2? A: 33.3 12 B: 37.6 3 C: 4.51 D: Ved ikke Svar A: ˆσ 2 = MSE = SSE n k = 33.3 12 = 2.78 DTU Compute Introduktion til Statistik Forår 2018 21 / 28

Hypotesetest (F-test) Spørgsmål ANOVA table Socrative.com, room: PBAC anova(lm(y ~ treatm)) ## Analysis of Variance Table ## ## Response: y ## Df Sum Sq Mean Sq F value Pr(>F) ## treatm 3 37.6 12.54 4.51 0.024 * ## Residuals 12 33.3 2.78 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Konklusionen på 5% signifikansniveau test af: H 0 : α i = 0 for alle i? A: H 0 accepteres B: H 0 afvises C: Ved ikke Svar B: H 0 afvises da p-value < α: P(F > F obs ) = 0.024 < α = 0.05 DTU Compute Introduktion til Statistik Forår 2018 22 / 28

Post hoc sammenligninger Post hoc konfidensinterval Enkelt forudplanlagt konfidensinterval for forskel på to grupper En enkelt forudplanlagt sammenligning af forskelle på gruppe i og j findes ved ( 1 ȳ i ȳ j ± t 1 α/2 MSE + 1 ) n i n j hvor t 1 α/2 er fra t-fordelingen med n k frihedsgrader Forskel fra Welch two-sample test: Alle observationer er anvendt i beregningen af MSE = SSE/(n k) = s 2 p (i.e. pooled varians estimat med alle observationer) Mange konfidensintervaller Hvis alle M = k(k 1)/2 kombinationer af parvise konfidensintervaller udføres, brug da formlen M gange, men hver gang med α Bonferroni = α/m DTU Compute Introduktion til Statistik Forår 2018 24 / 28

Post hoc sammenligninger Post hoc parvis hypotesetest Enkelt forudplanlagt t-test for forskel på grupper En enkelt forudplanlagt hypotesetest på α signifikansniveau om forskel af gruppe i og j H 0 : µ i = µ j, H 1 : µ i µ j udføres ved og ȳ i ȳ j t obs = ( ) MSE 1ni + 1 nj p-value = 2P(t > t obs ) hvor t-fordelingen med n k frihedsgrader anvendes Mange t-tests Hvis alle M = k(k 1)/2 kombinationer af hypotesetests udføres, da bruges det korrigerede signifikansniveau α Bonferroni = α/m DTU Compute Introduktion til Statistik Forår 2018 25 / 28

Model kontrol Varians homogenitet Se på box-plot om spredning ser meget forskellig ud for hver gruppe ## Box plot plot(treatm,y) 1 2 3 4 5 6 7 8 1 2 3 4 DTU Compute Introduktion til Statistik Forår 2018 27 / 28

Model kontrol -2-1 0 1 2-2 -1 0 1 2 Theoretical Quantiles -2-1 0 1 2 Theoretical Quantiles -2-1 0 1 2 Theoretical Quantiles -2-1 0 1 2 Theoretical Quantiles -2-1 0 1 2 Theoretical Quantiles -2-1 0 1 2 Theoretical Quantiles -2-1 0 1 2 Theoretical Quantiles -2-1 0 1 2 Theoretical Quantiles -2-1 0 1 2 Theoretical Quantiles Normalfordelingsantagelse Se på qq-normal plot ## qq-normal plot af residualer fit1 <- lm(y ~ treatm) qqnorm(fit1$residuals) qqline(fit1$residuals) ## Eller med et Wally plot require(mess) qqwrap <- function(x, y,...) {qqnorm(y, main="",...); qqline(y)} ## Kan vi se et afvigende qq-norm plot? wallyplot(fit1$residuals, FUN = qqwrap) Normal Q-Q Plot Sample Quantiles -2-1 0 1 2 3 Sample Quantiles Sample Quantiles Sample Quantiles -2-1 0 1 2 3-2 -1 0 1 2 3-2 -1 0 1 2 3 Sample Quantiles Sample Quantiles Sample Quantiles -2-1 0 1 2 3-2 -1 0 1 2 3-2 -1 0 1 2 3 Sample Quantiles Sample Quantiles Sample Quantiles -2-1 0 1 2 3-2 -1 0 1 2 3-2 -1 0 1 2 3 Theoretical Quantiles DTU Compute Introduktion til Statistik Forår 2018 28 / 28