To-sidet varians analyse

Relaterede dokumenter

Konfidensintervaller og Hypotesetest

To-sidet variansanalyse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsning eksamen d. 15. december 2008

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Forelæsning 11: Envejs variansanalyse, ANOVA

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Reeksamen i Statistik for Biokemikere 6. april 2009

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Module 12: Mere om variansanalyse

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Eksamen i Statistik for biokemikere. Blok

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Logistisk Regression - fortsat

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Ensidet variansanalyse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Modul 11: Simpel lineær regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Løsning til eksaminen d. 14. december 2009

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Module 12: Mere om variansanalyse

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Løsning til eksaminen d. 29. maj 2009

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Besvarelse af vitcap -opgaven

Kapitel 7 Forskelle mellem centraltendenser

Forelæsning 9: Inferens for andele (kapitel 10)

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Normalfordelingen og Stikprøvefordelinger

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Generelle lineære modeller

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Module 3: Statistiske modeller

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Løsninger til kapitel 9

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Multipel Lineær Regression

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Økonometri Lektion 1 Simpel Lineær Regression 1/31

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Vejledende besvarelser til opgaver i kapitel 14

1 Hb SS Hb Sβ Hb SC = , (s = )

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Tema. Dagens tema: Indfør centrale statistiske begreber.

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Transkript:

To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS

ANOVA - definition ANOVA (ANalysis Of VAriance), også kaldet variansanalyse er en statistisk metode til at bestemme, om der er forskel på middelværdierne i flere (end to) populationer. Grunden til at det hedder variansanalyse, er at man analysere forskellige varianser for at bestemme om, der er forskel på middelværdierne. SÅ HUSK - variansanalyse faktisk handler om at finde forskelle mellem middelværdier og det gør man ved at analysere varianserne! Hypoteserne er givet som: H 0 : 1 2 3 r H 1 : Ikke alle middelværdier er ens Simpel stikprøve fra hver af de r populationer. Stikprøvestørrelsen er givet som: n n 1 +n 2 +n 3 + +n r

Antagelser for at bruge ANOVA Vi antager uafhængige stikprøver fra hver af de r populationer Vi antager, at de r populations: er normal fordelte, med middelværdier i som er ens eller forskellige, men med ens varianser, σ i2. σ 1 2 3 Population 1 Population 2 Population 3

Ideen i ANOVA Total variation variationen indenfor grupperne + variationen mellem grupperne Variationen indenfor grupperne: Variationen af observationerne i hver gruppe omkring gruppens gennemsnit (dvs. variansen i en gruppe, som vi jo har antaget er ens for alle grupperne!) Variationen mellem grupperne: Variationen af gruppernes gennemsnit omkring det totale gennemsnit Hvis variationen indenfor grupperne er lille i forhold til variationen mellem grupperne, så er middelværdierne i de forskellige grupper ikke ens.

SÅ alt i alt H H 0 1 : L 1 Kritisk værdi : Beslutningsregel : P - værdi : 2 : Ikke alle 'erne er ens Teststørrelse : r MSTR F MSE F (r -1,n - r) α Forkast H F > F α 0 hvis (r -1, n - r) Eller beregn p - værdi. Hvis p < α forkastes H 0 Variations kilde Sum of Squares Frihedsgrader Mean Square F Ratio Behandling SSTR (r - 1) MSTR Fejl SSE (n - r) MSE Total SST (n -1) MST MSTR/MSE

Videre analyse Data ANOVA Forkast ikke H 0 Stop Forkast H 0 Stikrøve middelværdierne er centrale estimatorer af populations middelværdierne. MSE er en central estimator af den fælles populations varians. ANOVA Diagram Videre Analyse Konfidens intervaller for Populations Middelværdier Tukey s Parvise Sammenlignings Test

Tukey s test for parvise sammenligninger En måde at sammenligne populations middelværdier på simultant, på et givet signifikansniveau, er Tukey s test. middelværdier at sammenligne. populations par af 2)! 2!(! 2 r Der er r r For flytyper, kan vi sammenligne A - B, A - C og B C. 3 2 : 1 H 3 1 : 1 H 2 1 : 1 H 3 2 : 0 H 3 1 : 0 H 2 1 : 0 H 3: hvis For eksempel, r

Tukey s test for parvise sammenligninger Test størrelsen er den absolutte difference Vi har at : T x i hvor q α x j q α ( r, n r) MSE n i ( r, n r) er den "studentiserede range"fordeling med frihedsgrader r og n - r, på signifikansniveau α. x i x j : Kritiske værdier er, når den absolutte difference bliver for stor, så et højre - halet test. det er Hvis der ikke er lige mange observationer i hver gruppe, vælges n mindste af de r forskellige stikprøve størrelser. i til den

Eksempel - flytyper B A B A B A B A H x x H > så, 106 forkastes H Da 177 : 177. T : så : fly eksemplet blev T beregnet til106, I 0 1 0 y 10 4407,00 10 4230,00 10 4135,00 30 4257,33 1 2 3 Total N Mean S C B C B C B C B C A C A C A C A H x x H H x x H < > så ikke, 106 forkastes H Da 95 : 95. T : så, 106 forkastes H 272 Da : 272. T : 0 1 0 0 1 0

Modelbegrebet En statistisk model er en mængde af ligninger og antagelser, der beskriver en situation i den virkelige verden. En-sidet ANOVA kan vi skrive på modelform som: x ij i + ε ij + α i + ε ij hvor ε ij er fejlen for det j te datapunkt i den i te population. Fejl leddene antages at være normalfordelte med middelværdi 0 og varians σ 2.

To-sidet ANOVA Model x ijk + α i + β j + (αβ) ij + ε ijk α i er effekten af niveau i(i1,...,a) af faktor A; hvor er den overordnede middelværdi; β j er effekten af niveau j(j1,...,b) af faktor B; (αβ) ij er interaktions effekten af niveau i og j; ε ijk er fejlen associeret med det k te data punkt fra niveau i af faktor A og niveau j af faktor B. ε ijk antages at følge en normalfordeling med middelværdi nul og varians σ 2 for alle i, j, og k.

Hypoteserne i to-sidet ANOVA Faktor A hoved effekter: H 0 : α i 0 for alle i1,2,...,a H 1 : Ikke alle α i er 0 Faktor B hoved effekter: H 0 : β j 0 for alle j1,2,...,b H 1 : Ikke alle β j er 0 Test for (AB) interaktioner: H 0 : (αβ) ij 0 for alle i1,2,...,a og j1,2,...,b H 1 : Ikke alle (αβ) ij er 0

I ord ;-) I en to-sidet varians analyse kan vi teste effekten af to faktorer samtidig. Man kan teste Hver faktor alene kaldes hoved effekter (main effects) De to faktorer sammen kaldes interaktion Dvs. vi har 3 spørgsmål: Er der faktor A hovedeffekter? Er der faktor B hovedeffekter? Er der en interaktion mellem faktor A og faktor B? Antagelser Fordelingen af responsen er normal Variansen for hver behandling er ens Stikprøverne er uafhængige

Sums of Squares I en to-sidet ANOVA: x ijk +α i + β j + (αβ) ij + ε ijk SST SSTR +SSE SST SSA + SSB +SS(AB)+SSE SST SSTR + SSE ( x x) 2 ( x x) 2 + ( x x) 2 SSTR SSA + SSB + SS( AB) ( x x) 2 + ( x x) 2 + ( x + x + x x) 2 i j ij i j

ANOVA tabellen Variations kilde Sum of Squares Faktor A SSA a-1 Faktor B SSB b-1 Interaktion SS(AB) (a-1)(b-1) Error SSE ab(n-1) Total SST abn-1 Frihedsgrader Mean Square F Ratio MSA SSA a 1 F MSB SSB b 1 F SS( AB) MS( AB) ( a 1)( b 1) F MSE SSE ab( n 1) MSA MSE MSB MSE MS( AB) MSE A Hoved effekt Test: F (a-1,ab(n-1)) B Hoved effekt Test: F (b-1,ab(n-1)) (AB) Interaktions Effekt Test: F ((a-1)(b-1),ab(n-1))

Faktor A hoved effekt, faktor B hoved effekt, ingen interaktion

Faktor A hoved effekt, ingen faktor B hoved effekt og ingen interaktion

Faktor B hoved effekt, ingen faktor A hoved effekt og ingen interaktion

Faktor A hoved effekt, faktor B hoved effekt og interaktion mellem A og B

Eksempel 9-4 Koster kunst i gennemsnit det samme i London, New York og Tokyo? Koster kunstværker af Picasso, Chagall og Dali i gennemsnit det samme? Er der en interaktionseffekt, således at eksempelvis Picasso gennemsnitlig set sælges dyrere i New York end i London og Tokyo? Picasso Chagall Dali

Eksempel 9-4 Data: Priser på 10 malerier af hver kunstner solgt i hver af de 3 byer, så N90 Variations kilde Sum of Squares Frihedsgrader Mean Square F Ratio Sted 1824 2 912 8.94 Kunstner 2230 2 1115 10.93 Interaktion 804 4 201 1.97 Error 8262 81 102 Total 13120 89 α 0.01, F (2,81) 4.88 Både sted og kunstner er signifikante. α0.05, F (2,81) 2.48 Ingen interaktions effekt.

Hypotese test eksempel 9-4 FDistributionwith2 and 81 Degrees of Freedom F Distribution with 4 and 81 Degrees of Freedom 0.7 0.6 0.5 Test størrelse for sted8.94 Test størrelse for kunstner10.93 0.7 0.6 0.5 Interaktion test størrelse1.97 f(f) 0.4 0.3 0.2 α0.01 f(f) 0.4 0.3 0.2 α0.05 0.1 0.1 0.0 0 1 2 3 4 5 6 F 0.0 F 0 1 2 3 4 5 6 F 0.01 4.88 F 0.05 2.48

Overordnet signifikans niveau og Tukey s test for to-sidet ANOVA Kimballs ulighed giver en øvre grænse for den sande sandsynlighed af mindst en Type I fejl i de tre test i en to-sidet analyse: α 1- (1-α 1 ) (1-α 2 ) (1-α 3 ) Tukey s Test for faktor A: T q α MSE bn hvor frihedsgraderne i q fordelingen er a og ab(n-1). Bemærk at MSE divideres med bn. (Tilsvarende for faktor B, med a og b byttet om).

Udvidelse af ANOVA til tre faktorer Variations kilde Sum of Squares Faktor A SSA a-1 Faktor B SSB b-1 Faktor C SSC c-1 Interaktion SS(AB) (a-1)(b-1) (AB) Interaktion (AC) Interaktion (BC) SS(AC) SS(BC) (a-1)(c-1) (b-1)(c-1) Interaktion SS(ABC) (a-1)(b-1)(c-1) (ABC) Error SSE abc(n-1) Total SST abcn-1 Frihedsgrader Mean Square F Ratio MSA SSA MSA a 1 F MSE MSB SSB MSB F b 1 MSE MSC SSC MSC F c 1 MSE SS ( AB ) MS ( AB ) MS ( AB ) F ( a 1)( b 1) MSE SS( AC) MS( AC) F MS( AC) ( a 1)( c 1) MSE SS( BC) MS( BC) F MS( BC) ( b 1)( c 1) MSE SS( ABC) MS( ABC) ( a 1)( b 1)( c 1) MSE SSE abc( n 1) F MS( ABC) MSE

Fixed-effects vs. Random-effects En fixed-effekt model, er en model, hvor niveauerne af faktorerne er valgt på forhånd. Inferens i modellen gælder kun for disse niveauer. Eksempel: Vi har valgt at sammenligne fly af prototype A, B og C. Dvs. vi kan ikke sige noget om differencer mellem middelværdier af andre end disse flytyper. En random-effekt model er en model, hvor niveauerne af faktorerne er valgt tilfældigt. Inferens i modellen gælder derfor for hele populationen. Eksempel: Hvis prototype A, B og C havde været valgt tilfældig mellem alle flytyper, havde vi på baggrund af resultater for disse 3 typer, kunnet sige noget om alle flytyper.

Design af forsøg Fuldstændig randomiseret design: Ethvert element i forsøget tildeles tilfældigt en behandling Randomiseret blok design: Gruppér elementerne i blokke, så elementerne ligner hinanden og randomiser behandlingerne indenfor blokken. Gøres for at reducere variation fra andre faktorer, der ikke er med i forsøget, for eksempel alder. Repeated measurement design: Det samme element bruges i alle behandlinger (ala parret t-test). Analyseres på samme måde som blok design.

Blok design

Model for blok design x ij + α i + β j + ε ij hvor er den overordnede middelværdi; α i er effekten af niveau i(i1,...,a) af faktor A; β j er blok effekten j(j1,...,b); ε ij er fejlen, der hører til x ij ε ij antages at følge en normalfordeling med middelværdi 0 og varians σ 2 for alle i og j. Der antages ingen interaktion mellem A og B. SSESS(AB), da df(sse)ab(n-1)ab(1-1)0

ANOVA tabel for blok design: Eksempel 9-5 Variations kilde Sum of Square Frihedsgrader Mean Square F Ratio Blokke SSBL n - 1 MSBL SSBL/(n-1) F MSBL/MSE Grupper SSTR r - 1 MSTR SSTR/(r-1) F MSTR/MSE Error SSE (n -1)(r - 1) MSE SSE/(n-1)(r-1) Total SST nr - 1 Variations kilde Sum of Squares df Mean Square F Ratio Blokke 2750 39 70.51 0.69 Grupper 2640 2 1320 12.93 Error 7960 78 102.05 Total 13350 119 α 0.01, F(2, 78) 4.88

SPSS

SPSS Full factorial betyder at vi tager alle hoved effekter og interaktioner med

SPSS I blok design skal I ikke have interaktioner med! Det jeg har lavet her, svarer bare til at have valgt Full factorial.

ANOVA tabel Dependent Variable: Speed Source Corrected Model Intercept Clerk Scan Clerk * Scan Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 125,600 a 14 8,971 3,670,000 14978,400 1 14978,400 6127,527,000 20,767 4 5,192 2,124,093 90,700 2 45,350 18,552,000 14,133 8 1,767,723,671 110,000 45 2,444 15214,000 60 235,600 59 a. R Squared,533 (Adjusted R Squared,388)

ANOVA tabel uden interaktions leddet Dependent Variable: Speed Source Corrected Model Intercept Clerk Scan Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 111,467 a 6 18,578 7,932,000 14978,400 1 14978,400 6395,182,000 20,767 4 5,192 2,217,080 90,700 2 45,350 19,363,000 124,133 53 2,342 15214,000 60 235,600 59 a. R Squared,473 (Adjusted R Squared,413)

Opgaver Kapitel 9: 41, 42, 43, 45, 57, 61