k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Relaterede dokumenter
Forelæsning 11: Envejs variansanalyse, ANOVA

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Forelæsning 11: Tovejs variansanalyse, ANOVA

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Forelæsning 8: Inferens for varianser (kap 9)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Modul 5: Test for én stikprøve

Ensidet variansanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Konfidensinterval for µ (σ kendt)

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Oversigt. 1 Intro eksempel. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test) 5 Post hoc sammenligninger

To-sidet varians analyse

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Løsning eksamen d. 15. december 2008

Module 12: Mere om variansanalyse

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Løsning til eksaminen d. 14. december 2009

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Oversigt. 1 Intro eksempel. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test) 5 Post hoc sammenligninger

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Forelæsning 11: Kapitel 11: Regressionsanalyse

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Klasseøvelser dag 2 Opgave 1

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

En Introduktion til SAS. Kapitel 6.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Reeksamen i Statistik for Biokemikere 6. april 2009

(studienummer) (underskrift) (bord nr)

Kursus 02402/02323 Introducerende Statistik

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Besvarelse af vitcap -opgaven

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Kapitel 12 Variansanalyse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Module 3: Statistiske modeller

Kapitel 12 Variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Note til styrkefunktionen

Konfidensintervaller og Hypotesetest

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

En Introduktion til SAS. Kapitel 5.

Forelæsning 9: Inferens for andele (kapitel 10)

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X X n ) N(µ, σ2

To-sidet variansanalyse

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Modul 11: Simpel lineær regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Løsning til eksamen d.27 Maj 2010

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Løsning til eksaminen d. 29. maj 2009

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik Lektion 17 Multipel Lineær Regression

(studienummer) (underskrift) (bord nr)

Transkript:

Introduktion til Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk enote 8: Envejs variansanalyse (envejs ANOVA) k UAFHÆNGIGE grupper Test om middelværdi for mindst en gruppe er forskellig fra de andre gruppers middelværdi Model Y ij = µ + α i + ε ij Specifikke metoder, envejs variansanalyse: ANOVA-tabel: SST = SS(Tr) + SSE F-test Post hoc test(s): Parvise t-test med poolet varians estimat Hvis planlagt på forhånd, så uden Bonferroni korrektion Hvis alle sammenligninger udføres, så med Bonferroni korrektion DTU Compute Introduktion til Statistik Forår 2016 1 / 29 DTU Compute Introduktion til Statistik Forår 2016 2 / 29 enote 8: One-way Analysis of Variance Oversigt k INDEPENDENT samples (s) Test if the mean of at least one of the samples is different from the mean of the other s Model Y ij = µ + α i + ε ij Specific methods, one-way analysis of variance: ANOVA-table: SST = SS(Tr) + SSE F-test Post hoc test(s): pairwise t-test with pooled variance estimate If planned on beforehand, then without Bonferroni correction If all samples are compared, then with Bonferroni correction 1 Intro eksempel 2 Model og hypotese 3 4 5 Post hoc sammenligninger 6 Model kontrol DTU Compute Introduktion til Statistik Forår 2016 3 / 29 DTU Compute Introduktion til Statistik Forår 2016 4 / 29

Intro eksempel Envejs variansanalyse - eksempel Intro eksempel Envejs variansanalyse - eksempel Gruppe A Gruppe B Gruppe C 2.8 5.5 5.8 3.6 6.3 8.3 3.4 6.1 6.9 2.3 5.7 6.1 Er der forskel (i middel) på grupperne A, B og C? Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe kan antages at være normalfordelte (vigtigt når man har få observationer, men jo flere man observationer man har des mindre vigtigt med CLT) Observationer y <- c(2.8, 3.6, 3.4, 2.3, 5.5, 6.3, 6.1, 5.7, 5.8, 8.3, 6.9, 6.1) Grupper (behandlinger) treatm <- factor(c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3)) Plot par(mfrow=c(1,2)) plot(as.numeric(treatm), y, xlab="treatment", ylab="y") plot(treatm, y, xlab="treatment", ylab="y") DTU Compute Introduktion til Statistik Forår 2016 6 / 29 DTU Compute Introduktion til Statistik Forår 2016 7 / 29 Model og hypotese Envejs variansanalyse, model Model og hypotese Envejs variansanalyse, hypotese Opstil en model Y ij = µ + α i + ε ij hvor det antages, at ε ij N(0,σ 2 ) µ er samlet middelværdi α i angiver effekt af gruppe (behandling) i j tæller målinger i grupperne, fra 1 til n i i hver gruppe Vi vil nu sammenligne (flere end to) middelværdier µ + α i i modellen Y ij = µ + α i + ε ij, ε ij N(0,σ 2 ) dvs. vi kan specificere hypotesen H 0 : α i = 0 for alle i H 1 : α i 0 for mindst et i DTU Compute Introduktion til Statistik Forår 2016 9 / 29 DTU Compute Introduktion til Statistik Forår 2016 10 / 29

y y Envejs variansanalyse, opspaltning og ANOVA tabellen y Formler for kvadratafvigelsessummer Kvadratafvigelsessum ( den totale varians ) y Med modellen Y ij = µ + α i + ε ij, ε ij N(0,σ 2 ) kan den totale variation i data opspaltes SST = SS(Tr) + SSE Envejs hentyder til, at der kun er én faktor i forsøget, på i alt k nivauer Metoden kaldes variansanalyse, fordi testningen foregår ved at sammenligne varianser SST = k n i i=1 j=1 (y ij ȳ) 2 Kvadratafvigelsessum af residualer ( Varians tilbage efter model ) SSE = k n i i=1 j=1 (y ij ȳ i ) 2 Kvadratafvigelsessum af behandling ( Varians forklaret af model ) SS(Tr) = k i=1 n i (ȳ i ȳ) 2 = SST SSE DTU Compute Introduktion til Statistik Forår 2016 12 / 29 DTU Compute Introduktion til Statistik Forår 2016 13 / 29 Spørgsmål den totale varians (SST) Socrative.com, room: PBAC Spørgsmål: residual variansen (SSE) Socrative.com, room: PBAC DATA 1 DATA 2 DATA 1 DATA 2 ȳ SST: 392.5 ȳ SST: 57.99 ȳ 1 ȳ 2 SSE: 37.9 ȳ 3 ȳ 1 ȳ 2 ȳ 3 SSE: 38.12 For hvilken data er SST (totale variation) størst? A: DATA1 B: DATA2 C: Omtrent lige stor D: Ved ikke Svar A: Det er afstandene til ȳ (i anden og summeret) DTU Compute Introduktion til Statistik Forår 2016 14 / 29 For hvilken data er SSE (residual variationen) størst? A: DATA1 B: DATA2 C: Omtrent lige stor D: Ved ikke Svar C: Det er afstandene til ȳ i (i anden og summeret) DTU Compute Introduktion til Statistik Forår 2016 15 / 29

Envejs variansanalyse, F-test F-fordeling Vi har altså og kan finde teststørrelsen hvor SST = SS(Tr) + SSE F = k er antal nivauer af faktoren n er antal observationer SS(Tr)/(k 1) SSE/(n k) Signifikansniveau α vælges og teststørrelsen F beregnes Husk, dette er under H0 (altså vi regner som om H0 er sand): Antal grupper k <- 3 Antal punkter n <- 12 Sekvens til plot xseq <- seq(0, 10, by=0.1) Plot F fordelingens tæthedsfunktion plot(xseq, df(xseq, df1=k-1, df2=n-k), type="l", xlab='x', ylab='f(x)') Kritisk værdi for signifikans niveau 5 % cr <- qf(0.95, df1=k-1, df2=n-k) Tegn den i plottet abline(v=cr, col="red") Test statistikkens værdi: Værdien (Fobs <- (SSTr/(k-1)) / (SSE/(n-k))) p-værdien er da (1 - pf(fobs, df1=k-1, df2=n-k)) Teststørrelsen sammenlignes med en fraktil (percentile) i F fordelingen F F α (k 1,n k) DTU Compute Introduktion til Statistik Forår 2016 17 / 29 DTU Compute Introduktion til Statistik Forår 2016 18 / 29 F-fordeling Variansanalysetabel f (x) 0.0 0.2 0.4 0.6 0.8 1.0 Critical level for α = 0.05 0 2 4 6 8 10 Variations- Friheds- Kvadrat- Gns. kvadratafv. Test- p- kilde grader afvig. sum sum størrelse F værdi Source of Deg. of Sums of Mean sum of Test- p- variation freedom squares squares statistic F value Behandling k 1 SS(Tr) MS(Tr) = SS(Tr) k 1 Residual n k SSE MSE = n k SSE Total n 1 SST Alt dette beregnes med lm() og anova() Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treatm 2 30.8 15.40 26.7 0.00017 *** Residuals 9 5.2 0.58 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 F obs = MS(Tr) MSE P(F > F obs ) x DTU Compute Introduktion til Statistik Forår 2016 19 / 29 DTU Compute Introduktion til Statistik Forår 2016 20 / 29

Spørgsmål ANOVA table Socrative.com, room: PBAC Spørgsmål ANOVA table Socrative.com, room: PBAC Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treatm 3 37.6 12.54 4.51 0.024 * Residuals 12 33.3 2.78 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Hvad er den totale variation SST? A: 12.54 B: 37.6 C: 71 D: Ved ikke Svar C: 71. Det er summen af Sum Sq kolonnen Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treatm 3 37.6 12.54 4.51 0.024 * Residuals 12 33.3 2.78 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Husk antagelsen om normalfordelte afvigelser ε ij N(0,σ 2 ) Hvad er ˆσ 2? A: 33.3 12 B: 37.6 3 C: 4.51 D: Ved ikke Svar A: ˆσ 2 = MSE = n k SSE = 33.8 12 = 2.78 DTU Compute Introduktion til Statistik Forår 2016 21 / 29 DTU Compute Introduktion til Statistik Forår 2016 22 / 29 Spørgsmål ANOVA table Socrative.com, room: PBAC Post hoc sammenligninger Post hoc konfidensinterval Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treatm 3 37.6 12.54 4.51 0.024 * Residuals 12 33.3 2.78 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Hvad er konklusionen på testen af: H 0 : α i = 0 for alle i? A: H 0 accepteres B: H 0 afvises C: Ved ikke Svar B: H 0 afvises da p-value < α: P(F > F obs ) = 0.024 < α = 0.05 En enkelt forudplanlagt sammenligning af forskelle på behandling i og j findes ved ( 1 ȳ i ȳ j ± t 1 α/2 MSE + 1 ) n i n j hvor t 1 α/2 er fra t-fordelingen med n k frihedsgrader. Læg mærke til færre frihedsgrader, da der er estimeret flere parametre i beregningen af MSE = SSE/(n k) = s 2 p (i.e. pooled varians estimat) Hvis alle M = k(k 1)/2 kombinationer af parvise konfidensintervaller udregnes brug formlen M gange, men hver gang med α Bonferroni = α/m DTU Compute Introduktion til Statistik Forår 2016 23 / 29 DTU Compute Introduktion til Statistik Forår 2016 25 / 29

Post hoc sammenligninger Model kontrol Post hoc parvis hypotesetest Varians homogenitet En enkelt forudplanlagt hypotesetest på α signifikansniveau om forskel af behandling i og j H 0 : µ i = µ j, H 1 : µ i µ j udføres ved ȳ i ȳ j t obs = ( ) MSE 1ni + 1 nj Se på box-plot om spredning ser meget forskellig ud for hver gruppe Box plot plot(treatm,y) og p-value = 2P(t > t obs ) hvor t-fordelingen med n k frihedsgrader anvendes Hvis alle M = k(k 1)/2 kombinationer af hypotesetests, bruges det korrigerede signifikansniveau α Bonferroni = α/m DTU Compute Introduktion til Statistik Forår 2016 26 / 29 DTU Compute Introduktion til Statistik Forår 2016 28 / 29 Model kontrol Normalfordelingsantagelse Se på qq-normal plot qq-normal plot af residualer fit1 <- lm(y ~ treatm) qqnorm(fit1$residuals) qqline(fit1$residuals) Eller med et Wally plot require(mess) qqwrap <- function(x, y,...) {qqnorm(y, main="",...); qqline(y)} Kan vi se et afvigende qq-norm plot? wallyplot(fit1$residuals, FUN = qqwrap) DTU Compute Introduktion til Statistik Forår 2016 29 / 29