Module 4: Ensidig variansanalyse

Relaterede dokumenter
Module 9: Residualanalyse

1 Hb SS Hb Sβ Hb SC = , (s = )

Module 12: Mere om variansanalyse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kapitel 12 Variansanalyse

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Modul 11: Simpel lineær regression

Kapitel 12 Variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Eksamen i Statistik for biokemikere. Blok

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Tema. Dagens tema: Indfør centrale statistiske begreber.

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Modul 12: Regression og korrelation

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Module 3: Statistiske modeller

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Lineære normale modeller (4) udkast

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsninger til kapitel 9

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Modul 6: Regression og kalibrering

Løsning eksamen d. 15. december 2008

Kvantitative metoder 2

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Nanostatistik: Lineær regression

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Den lineære normale model

Note om Monte Carlo metoden

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Forelæsning 9: Inferens for andele (kapitel 10)

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Modelkontrol i Faktor Modeller

Module 12: Mere om variansanalyse

Simpel Lineær Regression

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Multipel Lineær Regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Forsøgsplanlægning Stikprøvestørrelse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Stastistik og Databehandling på en TI-83

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Module 1: Lineære modeller og lineær algebra

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Appendiks Økonometrisk teori... II

1 Multipel lineær regression

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Opgaver til kapitel 3

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Transkript:

Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2 Parrede data....................... 7 4.3 Énsidig variansanalyse.................. 11 4.3.1 Model....................... 12 4.3.2 Estimation.................... 13 1

4.3.3 Modelkontrol................... 18 4.3.4 Hypotesetest................... 21 4.3.5 Præsentation af resultater........... 24. 4.1 Analyse af én stikprøve Eksempel: Vægt af 15 pakker sukker Statistisk model: 16.1 15.8 15.8 15.9 16.1 16.2 16.0 15.9 16.0 15.7 15.7 15.8 16.0 16.0 15.8 Y 1,...,Y n er uafhængige, Y i N ( β,σ 2) i 2

β R og σ 2 > 0 er ukendte Er det en lineær model? Bemærk: Modellen er Y = µ + ε, med µ = EY = β. β = β1 3

4.1.1 Estimation Lad L 1 = span {1}. p 1 (Y) = YT 1 1 21 = Y +1 Altså finder vi estimatorerne: ˆβ (Y) = ˆβ = Y + σ 2 1 (Y) = σ 2 1 = 1 n 1 n i=1 ( Yi Y + ) 2 } uafhængige ˆβ (Y) N ( β,σ 2 /n ) σ 1 2 (Y) σ 2 χ 2 (n 1) / (n 1) Eksempel: Vægt af 15 pakker sukker ˆβ (y) = 15.92 og σ 1 2 (y) = 0.02314 4

Bemærk: Estimatorer er stokastiske variable, som har en fordeling. Estimater er kendte tal, som udregnes på grundlag af givne data. Fremover vil vi dog ikke skelne mellem estimater ( f.eks. ˆβ (y)) og estimatorer ( f.eks. ˆβ (Y)) i notationen. Vi skriver i stedet ˆβ uden argument, og det bør fremgå af sammenhængen om der menes estimat eller estimator. 4.1.2 Modelkontrol Før vi kan gå videre skal modellen kontrolleres. 1. Uafhængighed: følger af måden data er indsamlet på. Da der er tale om et homogent sample, er det rimeligt at antage, at 5

Y i -erne er ens fordelt. 2. Normalitet: undersøges ved et normalfordelingplot ( ) i 1/2 Normal score = Φ 1 n Figure 4.1: Normal plot for the sugar data (BJ Fig 1.1 i Kap. 3.) De lodrette søjler af data må skyldes den kraftige afrunding. Ellers ser forløbet pænt lineært ud. (Resume om normalfordelingsplot i 6

BJ s. 15 16.) 4.1.3 Hypotesetest Eksempel: Vægt af 15 pakker sukker Test H 2 : β = β 0 = 16 (Affin hypotese. Kun en parameter indgår, så brug t-test.) Vi benytter Da t 0.975 (14) = 2.145 accepteres H 2 0.06. t(y) = ˆβ β ( 0 ) = ˆβ 16 s.e. ˆβ σ/ 15 = 2.037 t(y) H 2 t (n 1) på niveau 5% med en p-værdi på 7

Data tyder ikke på, at den gennemsnitslige vægt afviger fra 16. Altså kan vi ikke forkaste H 2 på baggrund af de givne data. 4.2 Parrede data Eksempel: Stivelse i kartofler Data: BJ Tabel 2.1. s. 73: Potato no. Method 1 Method 2 Difference 1 21.7 21.5-0.2 2. 18.7. 18.7. 0.0. 16 15.6 15.5-0.1 Lad Y i = U i2 U i1, 8

Figure 4.2: Scatterplot for the starch data (BJ figur 2.1, kap. 3) hvor U i1 refererer til indholdet målt ved metode 1 og U i2 refererer til metode 2. Antag Y i N ( β, σ 2) for i = 1,...,16 = n 9

β = Systematisk forskel på metoder. σ 2 = Variansen på differensen. Så model samme som før. Modelcheck: Figure 4.3: Normal plot of differences, starch data (BJ figur 2.2, kap. 3) 10

Test hypotese: H 2 : β = 0 (ingen forskel) Estimater: ˆβ = 0.075, σ 2 1 = 0.0287 t-test: t (y) = ˆβ 0 σ/ n = 1.77 Så det to-sidede test for H 2 har p-værdi = 0.097. Altså tyder data ikke på, at de to metoder er forskellige. 11

4.3 Énsidig variansanalyse Sammenligning af flere stikprøver. Eksempel: Bilirubin data Data: BJ Tabel 3.3. s. 83: Individual Concentration 1 0.14 0.20 0.66 2 0.20 0.27 0.55 3 0.32 0.41 0.91 12

Figure 4.4: A scatterplot of the bilirubin data (BJ figur 3.4, kap. 3) 4.3.1 Model hvor Y ij N ( β i,σ 2) 13

i = 1, 2,...,k individ (k=3) j = 1,...,n i gentagelser (n 1 = 11, n 2 = 10 og n 3 = 8) Interessant hypotese om der er samme gennemsnitskoncentration for alle k individer. Dvs, test H 2 : β 1 = = β k. 4.3.2 Estimation hvor Y = µ + ε, 14

µ = β 1. β 1 β 2. β 2 β 3. β 3 n 1 n 2 n 3 15

Lad e i = 0. 0 1. 1 0. 0 gruppe i, Så er Y = β 1 e 1 + β 2 e 2 + + β k e k + ε, dvs, hvor β i -erne er ukendte. µ = k e i β i, i=1 16

Så modellen er lineær. Vektorerne e 1,...,e k er ortogonale, altså en ortogonal basis. ˆµ 1 = p 1 (Y) = k i=1 Y e i e i 2 e i = k Y i+ e i. i=1 Ved at aflæse koefficienterne i linearkombinationen fås ˆβ i = Y i+ for i = 1,...,k. Så ˆβ 1,..., ˆβ k er uafhængige (da Y erne er uafhængige), og ˆβ i = Y i+ N ( β i, σ 2 /n i ) 17

Variansestimat hvor D 1 = σ 2 1 = 1 n k Y ˆµ 1 2 = 1 n k D 1, k i=1 n i j=1 D 1 = samlet variation indenfor grupper. ( Yij Y i+ ) 2 H1 σ 2 χ 2 (n k) Bemærk: Der gælder altid i ensidig variansanalyse at alle parameter estimatorerne ˆβ 1,..., ˆβ k og σ 1 2 er uafhængige. 18

4.3.3 Modelkontrol Residualer: Fittede værdier R ij = Y ij Y i+ ˆµ ij = Y i+ i,j. Figure 4.5: Residual plot for bilirubin data (BJ figur 3.6, kap. 3) 19

Figure 4.6: Normal plot of residuals for bilirubin data (BJ figur 3.7, kap. 3) Lad nu y ij =log(koncentrationen). Så modellen er log (Y) = µ + ε, 20

Figure 4.7: Residual plot for the bilirubin data (logarithms) (BJ figur 3.9, kap. 3) 21

Figure 4.8: Normal plot of residuals, bilirubin data (logarithms) (BJ figur 3.10, kap. 3) 4.3.4 Hypotesetest Test hypotesen at der ikke er forskel på de k grupper. (Fx, ingen forskel på bilirubinkoncentrationen for de tre mænd.) 22

Hypotesen er: H 2 : β 1 = = β k = β, hvor β er fælles, men ukendt. Under H 2 er modellen µ = β1 samme som før Så estimaterne er og ˆβ = Y ++ = 1 n k i=1 n i j=1 σ 2 2 = 1 n 1 D 2, Y ij 23

hvor D 2 = k i=1 n i j=1 ( Yij Y ++ ) 2 = den totale variation Tæller i F-test: D 2 D 1 = ˆµ 1 ˆµ 2 2 = = = k i=1 n i j=1 ( Yij Y ++ ) 2 k n k i ( ) 2 Y i+ Y ++ i=1 j=1 k ( ) 2 n i Y i+ Y ++ i=1 i=1 n i j=1 = variation mellem grupper. ( Yij Y i+ ) 2 24

F-test: F (Y) = (D 2 D 1 )/(k 1) σ 2 1 H 2 F (k 1,n k) 4.3.5 Præsentation af resultater Klassisk AVOVA tabel: Så p-værdi: 0.0387. Kilde D d.f. D F Mellem grp (D 2 D 1 ) 1.11 2 0.55 3.67 Indenfor grp (D 1 ) 3.95 26 0.15 Total 5.06 28 De tre β i -er er forskellige, altså tyder data på, at middel log-koncentratione af bilirubin er forskellig fra individ til individ. 25

Brug derfor estimater fra H 1 : Parameter Estimat s.e. β 1 1.09 0.12 β 2 1.03 0.12 β 3 0.63 0.14 Middel koncentrationen estimeres ved ( ) exp ˆβi : Hvilke individer er forskellige? 1 0.3362 2 0.3570 3 0.5325 Test for H 2 : β 1 = β 2 (f.eks.) 26

Hypotesen H 2 kan skrives som Test for H 2 : β = β 1 β 2 = 0, hvor ˆβ ( ) N 0,σ 2 ( 1 n 1 + 1 n 2 ) under H 2. (Da ˆβ i er uafhængige og fordelt N ( β, σ 2 /n 1 ) under H2.) Brug t-test t (Y) = ˆβ 1 ˆβ 2 σ 1 n 1 1 + n 1 2 H 2 t (n k) Tilsvarende for β 2 = β 3 etc. Eksempel: Bilirubin data β 1 = β 2 : t (y) = 0.376 β 2 = β 3 : t (y) = 2.164 t 0.975 (26) = 2.056 27

Konklusion: Der er ikke signifikant forskel på bilirubinkoncentrationen for Individ 1 og 2. Der er signifikant forskel på bilirubinkoncentrationen for Individ 2 og 3. Bemærk: Hvis k = 2 kan t-testet (tosidet) erstatte F-testet, som test for sammenligning af β-er. 28