Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Relaterede dokumenter
Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Forelæsning 11: Envejs variansanalyse, ANOVA

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

1 Hb SS Hb Sβ Hb SC = , (s = )

Klasseøvelser dag 2 Opgave 1

Kapitel 12 Variansanalyse

To-sidet varians analyse

Kapitel 12 Variansanalyse

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Modul 11: Simpel lineær regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Reeksamen i Statistik for biokemikere. Blok

Økonometri: Lektion 6 Emne: Heteroskedasticitet

(studienummer) (underskrift) (bord nr)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Eksempel , opg. 2

Tema. Dagens tema: Indfør centrale statistiske begreber.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

(studienummer) (underskrift) (bord nr)

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Eksamen i Statistik for biokemikere. Blok

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Module 3: Statistiske modeller

Forelæsning 11: Tovejs variansanalyse, ANOVA

(studienummer) (underskrift) (bord nr)

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Løsning eksamen d. 15. december 2008

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Generelle lineære modeller

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

En Introduktion til SAS. Kapitel 5.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Module 4: Ensidig variansanalyse

(studienummer) (underskrift) (bord nr)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Module 12: Mere om variansanalyse

Forsøgsplanlægning Stikprøvestørrelse

(studienummer) (underskrift) (bord nr)

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Løsning til eksaminen d. 29. maj 2009

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

To-sidet variansanalyse

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Modelkontrol i Faktor Modeller

Multipel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Kursus 02402/02323 Introducerende Statistik

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Program. 1. Flersidet variansanalyse 1/11

Transkript:

Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1 + ǫ ij i = 1 Y ij = µ 2 + ǫ ij i = 2 µ 3 + ǫ ij i = 3 hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. 1 3 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 8 side 473) Sorption rate 1.06 0.95... 1.58 1.12... 0.29 0.43... Solvents A A... C C... E E... Boxplot af observationer for de tre grupper: Formulering af model som multipel regression Antag varianshomogenitet. Y ij = µ i + ǫ ij i = 1,2,3 hvor ǫ ij N(0,σ 2 ). 0.0 0.5 1.0 1.5 A C E 2 Ens middelværdi i grupper? (Ens varianser?) Model formuleret som multipel regression: y = α + β 2 x 2 + β 3 x 3 + ǫ hvor x 2 1 hvis gruppe 2 og nul eller og x 3 en hvis gruppe 3 og nul ellers. 4

F-test generelt Antag vi har 2 modeller 1 og 2, hvor Model 1 fremkommer ved at sætte nogle parametre i Model 2 lig nul. F = (SSE 1 SSE 2 )/d SSE 2 /(n p) hvor d forskel i antal parametre og p antal parametre i Model 2. > inde=as.numeric(solvents=="e") > indc=as.numeric(solvents=="c") > > sorp.fit=lm(sorption.rate~indc+inde) > summary(sorp.fit) Coefficients: (Intercept) 0.94222 0.08655 10.886 9.30e-12 *** indc 0.06403 0.12617 0.507 0.616 inde -0.61222 0.10948-5.592 4.91e-06 *** --- Residual standard error: 0.2597 on 29 degrees of freedom Multiple R-Squared: 0.6283,Adjusted R-squared: 0.6027 F-statistic: 24.51 on 2 and 29 DF, p-value: 5.855e-07 s 2 = 0.2597 2. 5 7 F-test for ens middelværdi H 0 µ 1 = µ 2 = = µ k = µ mod ikke alle µ i ens. Nogle kvadrat-summer: SSE = SST = k n i (y ij ȳ i ) 2 SSA = i=1 j=1 k n i (ȳ i ȳ ) 2 i=1 j=1 k n i (y ij ȳ ) 2 = SSE + SSA s 2 = SSE N k,n = n 1 + n 2 +...,n k i=1 j=1 NB: SSA svarer til SSR i kapitlet om multipel regression (ŷ i = ȳ i og ȳ = ȳ )). F = SSA/(k 1 s 2 som er F(k 1,N k) fordelt under forudsætning af varianshomogenitet (alle grupper lige præcist målt). Afvigelse fra varianshomogenitet mindre kritisk for F-test hvis grupper af ensartet størrelse (balanceret forsøg). 6 Grupperings variable/kategoriske variable/faktorer i R > summary(solvents) A C E 9 8 15 > levels(solvents) [1] "A" "C" "E" > x=c(1,1,2,3,3,4) > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 1.250 2.500 2.333 3.000 4.000 #danner faktor udfra den numeriske variabel x > xfact=factor(x) > summary(xfact) 1 2 3 4 2 1 2 1 > levels(xfact) [1] "1" "2" "3" "4" NB: i data sættet er Solvents værdier A, B, og C og derfor opfatter R automatisk Solvents som en faktor. 8

Bruges faktor i lm danner R automatisk de relevante indikator variable og kører multipel regression: > sorp.fit=lm(sorption.rate~solvents) > summary(sorp.fit) Coefficients: (Intercept) 0.94222 0.08655 10.886 9.30e-12 *** SolventsC 0.06403 0.12617 0.507 0.616 SolventsE -0.61222 0.10948-5.592 4.91e-06 ***. Residual standard error: 0.2597 on 29 degrees of freedom Multiple R-Squared: 0.6283,Adjusted R-squared: 0.6027 F-statistic: 24.51 on 2 and 29 DF, p-value: 5.855e-07 Bartlett test i R > boxplot(sorption.rate~solvents) > bartlett.test(sorption.rate~solvents) Bartlett test of homogeneity of variances data: Sorption.Rate by Solvents Bartlett s K-squared = 6.7779, df = 2, p-value = 0.03374 Residual analyse vha. studentiserede residualer analog med residual analyse for multipel regression. Boxplots af residualer indenfor hver gruppe er også relevante. Bartlett-test for varians-homogenitet. 9 Dvs. med signifikansniveau 5% forkastes varianshomogenitet. 11 Bartlett-test for ens varianser (varianshomogenitet) H 0 : σ 2 1 = σ 2 2 = = σ 2 k = σ2 mod ikke alle varianser ens. Lad s 2 i = 1 n i 1 være empirisk variansestimat for σ 2 i n i j=1 (y ij ȳ i ) 2 baseret på ite gruppe. Kombineret variansestimat for σ 2 (n = n 1 + n 2 + + n k ) Bartlett-teststørrelse: s 2 = 1 n k k (n i 1)s 2 i = SSE/(n k) i=1 B = hvor B 1 og = 1 hvis alle s 2 i = s2. k i=1 ( ) s 2 ni 1 i s 2 log B 0 er approximativt χ 2 (k 1) fordelt. 10 > rstud=rstudent(sorp.fit) > qqnorm(rstud) > qqline(rstud) > boxplot(rstud~solvents) Sample Quantiles Normal Q Q Plot Theoretical Quantiles A C E Igen: varians ikke homogen, så F-test måske ikke pålidelig (specielt da forsøg ikke balanceret: henhv. 9, 8 og 15 obs i de tre grupper). 12

Parametriseringer Man parametriserer ofte som µ i = α + β i Her er umiddelbart en parameter for mange! (k grupper og k + 1 parametre for de k middelværdier) Begrænsninger: β 1 = 0 (som i R) hvor gruppe 1 (α) er reference eller k β i = 0 i=1 (bruges i bogen) hvor α middelniveau. Begrænsninger på β i er sikrer entydig parametrisering. 13 Randomisering og Blocking Antag, vi har gentagne målinger på forskellige individer (batches, cellekulturer i petri-glas etc.) og at der er stor variation mellem individer. I et medicinsk forsøg kunne man da risikere f.eks. at give behandlingen til alle de stærke patienter og placebo til alle de svage hvormed man ville estimere en for stor behandlingseffekt. Løsninger: parret t-test (men max 2 målinger pr. individ) randomisering: behandlinger tildeles tilfældigt til personer. I snit vil vi da estimere den korrekte behandlingseffekt. eksplicit hensyn til variationen mellem individer vha. blocking 15 Parret t-test Parvise målinger med 30 minutters mellemrum af androgen på samme individ (Example 10.7 side 310) efter behandling med succinylcholine. Er der nogen ændring i androgen koncentration efter de 30 minutter? Individ 1 2 3 4 5... Første måling 2.76 5.18 2.68 3.05 4.10... Anden måling 7.02 3.10 5.44 3.99 5.21... Mulighed: almindelig ensidet variansanalyse med 2 grupper. Problem: potentielt set megen variation mellem dyr Y ij = µ i + B j + ǫ ij hvor B j individ specifik effekt. Løsning: t-test for µ = 0 baseret på differenser D j = Y 2j Y 1j som har middelværdi µ = µ 2 µ 1. 14 Randomized complete blockdesign Afprøvning af fire slags gødninger: marken inddeles i 3 blokke så hver blok har homogen fertilitet. Hver blok inddeles i 4 delplot og indenfor hver blok tildeles de 4 gødninger tilfældigt til hver delplot (opgave 3 side 499): Block 1 f1 f3 f4 f2 Block 2 f3 f1 f2 f4 Block 3 f4 f2 f1 f3 Complete: alle 4 gødninger optræder indenfor hver block. Randomized: tildeling indenfor block er tilfældig. Model: Y ijk = µ + α i + β j + ǫ ijk hvor α i effekt af gødning, β j effekt af block (fertilitet) og k er index for gentagelser indenfor delplot. Ved at estimere β j kan vi nu eksplicit korrigere for variationen i fertilitet. 16

RCB in R > fert.fit.block=lm(yield~factor(fertilizer)+factor(block)) > summary(fert.fit.block) (Intercept) 43.592 2.439 17.871 1.97e-06 *** factor(fertilizer)2-7.000 2.817-2.485 0.04747 * factor(fertilizer)3 2.767 2.817 0.982 0.36391 factor(fertilizer)4-6.833 2.817-2.426 0.05144. factor(block)2 3.950 2.439 1.619 0.15650 factor(block)3 9.875 2.439 4.048 0.00674 ** Residual standard error: 3.45 on 6 degrees of freedom Multiple R-Squared: 0.8535,Adjusted R-squared: 0.7313 F-statistic: 6.988 on 5 and 6 DF, p-value: 0.01735 Pas på fortolkning af F og t tests! 17 Model check vha. residualer Sample Quantiles 1 0 1 2 2 Fertilizer 1 2 3 4 Normal Q Q Plot 1.5 0.5 0.5 1.0 1.5 Theoretical Quantiles res[rank(yhat)] 1 0 1 2 2 blocks 1 2 3 res sorted according to yhat 2 4 6 8 10 12 Index NB: kun 3 obs pr. fertilizer og 4 obs pr. block. 19 Test for ingen gødningseffekt under hensyntagen til blockvariation > block.fit=lm(yield~factor(block)) > anova(block.fit,fert.fit.block) Analysis of Variance Table Model 1: yield ~ factor(block) Model 2: yield ~ factor(fertilizer) + factor(block) Res.Df RSS Df Sum of Sq F Pr(>F) 1 9 289.595 2 6 71.402 3 218.193 6.1117 0.02959 * F = (SSE block SSE block+fert )/(6 3) SSE block+fert /(12 6) (6-3: forskel i antal parametre, 12-6:antal obs-antal parametre for model med block og fertilizer) NB: SSE kaldes RSS i R. Uden at tage hensyn til blocks: > fert.fit=lm(yield~factor(fertilizer)) > summary(fert.fit) (Intercept) 48.200 3.348 14.396 5.3e-07 *** factor(fertilizer)2-7.000 4.735-1.478 0.178 factor(fertilizer)3 2.767 4.735 0.584 0.575 factor(fertilizer)4-6.833 4.735-1.443 0.187. Residual standard error: 5.799 on 8 degrees of freedom Multiple R-Squared: 0.4478,Adjusted R-squared: 0.2408 F-statistic: 2.163 on 3 and 8 DF, p-value: 0.1704 Hvad er årsagen til de forskellige konklusioner? Signifikant gødningseffekt. 18 20

Blocking ikke altid en fordel: reducerer residualvariation, men kan introducere mange ekstra parametre som skal deles om informationen i data. 21 Multiple sammenligninger k(k 1)/2 mulige sammenligner µ i vs. µ j når k grupper. Problem med at kontrollere sandsynlighed for Type I fejl. Afrapporter i stedet konfidensintervaller for µ i. 22