Basal statistik. 30. september 2008

Relaterede dokumenter
Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol

Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal Statistik Variansanalyse. 24 september 2013

Dagens Tekst. Sammenligning Flere Grupper F Basal Statistik Variansanalyse. Basal Statistik - Variansanalyse 1

Variansanalyse. Variansanalyse. Basal Statistik Variansanalyse

Opgavebesvarelse, Basalkursus, uge 2

Besvarelse af opgave om Vital Capacity

Besvarelse af vitcap -opgaven

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Opgavebesvarelse, brain weight

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Opgavebesvarelse, korrelerede målinger

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 10. september / 116

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Reeksamen i Statistik for Biokemikere 6. april 2009

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Generelle lineære modeller

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Regressionsanalyse i SAS

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Phd-kursus i Basal Statistik, Opgaver til 2. uge

k normalfordelte observationsrækker (ensidet variansanalyse)

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

1 Hb SS Hb Sβ Hb SC = , (s = )

Besvarelse af opgave om Vital Capacity

Forelæsning 11: Envejs variansanalyse, ANOVA

En Introduktion til SAS. Kapitel 5.

Basal statistik. 25. september 2007

Lineær regression i SAS. Lineær regression i SAS p.1/20

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Vejledende besvarelse af hjemmeopgave, efterår 2018

Eksamen i Statistik for Biokemikere, Blok januar 2009

Basal statistik. 21. oktober 2008

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Vejledende besvarelse af hjemmeopgave, efterår 2017

Kapitel 12 Variansanalyse

Reeksamen i Statistik for biokemikere. Blok

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Modelkontrol i Faktor Modeller

Kapitel 12 Variansanalyse

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Opgavebesvarelse, brain weight

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

To-sidet varians analyse

Eksamen i Statistik for biokemikere. Blok

Modul 11: Simpel lineær regression

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Vejledende besvarelse af hjemmeopgave, forår 2016

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Basal statistik. 16. september 2008

Forsøgsplanlægning Stikprøvestørrelse

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Besvarelse af juul2 -opgaven

Løsning eksamen d. 15. december 2008

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 12.

Ikke-parametriske tests

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Vejledende besvarelse af hjemmeopgave

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Løsning til øvelsesopgaver dag 4 spg 5-9

Basal statistik. 18. september 2007

Multipel Lineær Regression

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Statistiske Modeller 1: Kontingenstabeller i SAS

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Eksempel , opg. 2

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 1.

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Basal statistik. 18. september 2007

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Transkript:

Basal statistik 30. september 2008

Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol

Peter Dalgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet Slides af Lene T. Skovgaard findes på http://staff.pubhealth.ku.dk/~ebj/basal08_2

variansanalyse, september 2008 1 ANOVA (variansanalyse) i relation til t-test antal grupper, behandlinger, forskellige individer (units) samme individ (unit) situationer el.lign. 2 uparret t-test parret t-test 3 ensidet anova tosidet anova Tosidet variansanalyse forekommer dog oftest i anden sammenhæng: Personerne kan inddeles efter flere forskellige inddelingskriterier (f.eks. rygestatus og aktivitetsniveau)

variansanalyse, september 2008 2 Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium? Er der forskel på effektiviteten af diverse præparater til nedsættelse af blodtrykket? Afhænger lungefunktionen af rygestatus? Og af aktivitetsniveau? Datastruktur: Et antal personer (n) fordelt i et antal veldefinerede grupper (k) Analyseform er ensidet variansanalyse Personerne er inddelt efter flere forskellige inddelingskriterier (f.eks. rygestatus og aktivitetsniveau) Analyseform er tosidet (flersidet) variansanalyse

variansanalyse, september 2008 3 Sammenligning af mere end 2 grupper Eksempel: 22 ptt. bypass-operationer, randomiseret til 3 slags ventilering Outcome: Red cell foliate (noget med folinsyre) Gruppe I Gruppe II 50% N 2 O, 50% O 2 i 24 timer 50% N 2 O, 50% O 2 under op. Gruppe III 30 50% O 2 (ingen N 2 O) i 24 timer Gr.I Gr.II Gr.III n 8 9 5 Mean 316.6 256.4 278.0 SD 58.7 37.1 33.8 Er der forskel på fordelingerne af responset i de enkelte grupper? Er der forskel på niveauerne i de enkelte grupper?

variansanalyse, september 2008 4 Pas på massesignifikans: sammenlign ikke alle grupper to og to! med mindre... (se senere)

variansanalyse, september 2008 5 Ensidet variansanalyse, ANOVA (one-way analysis of variance) ensidet: fordi der kun er et inddelingskriterium, f.eks. som her ventileringsmetode variansanalyse: fordi man sammenligner variansen mellem grupper med variansen indenfor grupper Antagelser: Alle observationer er uafhængige (personerne går ikke igen flere gange, er ikke tvillinger o.l.) Der er samme varians (samme spredning, dvs. biologisk variation) i alle grupper Inden for hver gruppe er observationerne normalfordelt

variansanalyse, september 2008 6 Model: Y gi = µ g + ε gi i te observation i gruppe nr. g individuel afvigelse middelværdi for gruppe nr. g Observationerne antages at følge en normalfordeling (inden for hver gruppe) med samme spredning σ. ε gi N(0, σ 2 ), Y gi N(µ g, σ 2 )

variansanalyse, september 2008 7 Ensidet variansanalyse går ud på at undersøge, om alle k grupper kan tænkes at have samme middelværdi, altså at teste hypotesen: H 0 : µ 1 = µ 2 = = µ k Fremgangsmåde ved ensidet variansanalyse: Variansestimater for hver gruppe pooles til et fælles estimat, s 2, som er et skøn over (den fælles) varians indenfor grupper. Hypotesen om ens middelværdier for alle grupper (H 0 : µ g = µ) testes ved et F-test på forholdet mellem variation mellem grupper og variation indenfor grupper.

variansanalyse, september 2008 8 Kvadratsummer Opspaltning af observationer: y gi ȳ = (y gi ȳ g ) + (ȳ g ȳ ) y gi ȳ g ȳ. i-te observation i g-te gruppe gennemsnit i g-te gruppe totalgennemsnit Opspaltning af variation (kvadratsum, sum of squares, SS): (y gi ȳ ) 2 = (y gi ȳ g ) 2 + (ȳ g ȳ ) 2 i,j i,j i,j }{{}}{{} indenfor grupper mellem grupper SS tot = SS w + SS b (n 1) = (n k) + (k 1)

variansanalyse, september 2008 9 Middelkvadratsummer (Mean Squares, MS): MS w = SS w /(N k): Poolet varians indenfor de 3 grupper MS b = SS b /(k 1): Varians mellem gruppegennemsnit Teststørrelse: F = MS b MS w Vi forkaster nulhypotesen hvis F er stor, dvs. hvis variationen mellem grupper er for stor i forhold til variationen indenfor grupper. Variansanalyseskema df SS MS F P Between 2 15515.88 7757.9 3.71 0.04 Within 19 39716.09 2090.3 Total 21 55231.97

variansanalyse, september 2008 10 Ensidet ANOVA i SAS: OBS: Data sættes op i 2 kolonner, en med outcome (redcell) og en med klassifikationsvariablen (grp). I Analyst: Statistics ANOVA One-Way ANOVA... hvor redcell er Dependent og grp er Class : The ANOVA Procedure Class Level Information Class Levels Values grp 3 1 2 3 Number of observations 22

variansanalyse, september 2008 11 Dependent Variable: redcell Sum of Source DF Squares Mean Square F Value Pr > F Model 2 15515.76641 7757.88321 3.71 0.0436 Error 19 39716.09722 2090.32091 Corrected Total 21 55231.86364 R-Square Coeff Var Root MSE redcell Mean 0.280921 16.14252 45.72003 283.2273 Source DF Anova SS Mean Square F Value Pr > F grp 2 15515.76641 7757.88321 3.71 0.0436

variansanalyse, september 2008 12 Hvis man også vil have estimater og konfidensgrænser...og det vil man vel som regel: Statistics ANOVA Linear Models, afkryds Parameter Estimates klik Statistics og Gå endvidere ud i koden og tilføje clparm i model-linien: model redcell=grp / solution clparm; hvorved man vil få Standard Parameter Estimate Error t Value Pr > t 95% Confidence Limits Intercept 278.0000000 B 20.44661784 13.60 <.0001 235.2047370 320.7952630 grp 1 38.6250000 B 26.06442584 1.48 0.1548-15.9284703 93.1784703 grp 2-21.5555556 B 25.50141290-0.85 0.4085-74.9306262 31.8195151 grp 3 0.0000000 B.....

variansanalyse, september 2008 13 Normalfordelingsantagelsen Det er antaget, at observationerne følger en normalfordeling inden for hver gruppe. Dette bør checkes, f.eks.: ved at tegne histogrammer eller fraktildiagrammer for hver gruppe ved at tegne histogram eller fraktildiagram for residualerne r gi = Y gi ˆµ g = Y gi Ȳg ved at lave normalfordelingstest, enten for hver gruppe for sig, eller samlet for residualerne

variansanalyse, september 2008 14 Histogram af residualer, med overlejret normalfordeling: Flot er det jo ikke men hvad kan man forvente med kun 22 observationer...

variansanalyse, september 2008 15 Fraktildiagram: Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.965996 Pr < W 0.6188 Kolmogorov-Smirnov D 0.107925 Pr > D >0.1500 Cramer-von Mises W-Sq 0.043461 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.263301 Pr > A-Sq >0.2500 Her vurderes normalfordelingsantagelsen at være OK

variansanalyse, september 2008 16 Test for identiske varianser/spredninger i de 3 grupper (en af forudsætningerne for den ensidede variansanalyse) Dette testes ved at klikke Test og afkrydse i Levenes test : Levene s Test for Homogeneity of redcell Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr > F grp 2 18765720 9382860 4.14 0.0321 Error 19 43019786 2264199 Ved sammenligning af de k = 3 variansestimater fås en teststørrelse på 4.14, som er F(2,19)-fordelt, svarende til P=0.03, og altså signifikans!

variansanalyse, september 2008 17 Antagelsen om varianshomogenitet kan også checkes grafisk med residualplot: Residualer tegnes op mod predikterede (=forventede=fittede) værdier Det giver dog ikke så meget ny information...

variansanalyse, september 2008 18 Multiple sammenligninger Problem: F-test viser, at der nok er forskel men hvor? Parvise t-test ikke godt pga. massesignifikans Der er m = k(k 1)/2 mulige test, reelt signifikansniveau: 1 (1 α) m, f.eks. for k=5: 0.40

variansanalyse, september 2008 19 Hvad gør man så i praksis? Der findes ikke nogen helt tilfredsstillende løsning, men 1. Prøv at undgå problemet (fokuser problemstillingen) 2. Udvælg et (lille) antal relevante sammenligninger på forhånd, dvs. skriv dem ind i protokollen! 3. Tegn gennemsnit ±2 SEM og brug øjemålet (!?), evt. suppleret med F-tests på delsæt af grupper. 4. Modificer t-test ved at gange P med antallet af tests, den såkaldte Bonferroni korrektion (konservativ) eller anden form for korrektion (Dunnett, Tukey).

variansanalyse, september 2008 20 Statistics ANOVA One-Way ANOVA... Tryk Plots og videre i Means Plot Her med Bars på 2 s.e., dvs. konfidensintervaller for middelværdierne I direkte programmering ændres i symbol-sætningen: symbol1 v=circle i=std1jt l=1 h=3 w=2;

variansanalyse, september 2008 21 Korrektion for multiple sammenligninger Bonferroni benytter signifikansniveau α m stærkt konservativ, dvs. for høje P-værdier (lav styrke) Sidak benytter signifikansniveau 1 (1 α) 1 m α m for små m lidt mindre konservativ, men stadig ret lav styrke Tukey baseres på fordeling af størst blandt mange giver større styrke Dunnett korrigerer kun for test mod referencegruppe (typisk en kontrolgruppe eller tid 0 )

variansanalyse, september 2008 22 Multiple sammenligninger i SAS Analyst: Vælg Statistics/Anova/Linear Models og herunder Means/LS Means, vælg grp og compute p s for pairwise differences samt Bonferroni eller Tukey som Adjustment Method: For også at få konfidensintervaller, skal man ud i koden og tilføje cl i lsmeans-sætningen: lsmeans grp / pdiff adjust=bonferroni cl; lsmeans grp / pdiff adjust=tukey cl;

variansanalyse, september 2008 23 Eksempel på SAS output for Bonferroni korrektionen: Adjustment for Multiple Comparisons: Bonferroni Least Squares Means for effect grp Pr > t for H0: LSMean(i)=LSMean(j) Dependent Variable: redcell i/j 1 2 3 1 0.0418 0.4643 2 0.0418 1.0000 3 0.4643 1.0000 Adjustment for Multiple Comparisons: Bonferroni Difference Simultaneous 95% Between Confidence Limits for i j Means LSMean(i)-LSMean(j) 1 2 60.180556 1.861360 118.499751 1 3 38.625000-29.796878 107.046878 2 3-21.555556-88.499465 45.388354

variansanalyse, september 2008 24 Eksempel på SAS output for Tukey korrektionen: Adjustment for Multiple Comparisons: Tukey-Kramer Least Squares Means for effect grp Pr > t for H0: LSMean(i)=LSMean(j) Dependent Variable: redcell i/j 1 2 3 1 0.0355 0.3215 2 0.0355 0.6802 3 0.3215 0.6802 Adjustment for Multiple Comparisons: Tukey-Kramer Difference Simultaneous 95% Between Confidence Limits for i j Means LSMean(i)-LSMean(j) 1 2 60.180556 3.742064 116.619047 1 3 38.625000-27.590379 104.840379 2 3-21.555556-86.340628 43.229517

variansanalyse, september 2008 25 Hvis antagelserne ikke holder: Transformation (ofte logaritmer) kan afhjælpe såvel variansinhomogenitet som dårlig normalfordelingstilpasning Man kan lave vægtet analyse (Welch s test), ligesom ved T-test Statistics ANOVA One-Way ANOVA... Klik Tests og afkryds Welch s variance-weighted test Welch s ANOVA for redcell Source DF F Value Pr > F grp 2.0000 2.97 0.0928 Error 11.0646 Vi er altså ikke alt for sikre på den fundne forskel...

variansanalyse, september 2008 26 Analyse af logaritmerede data: Dependent Variable: logredcell Sum of Source DF Squares Mean Square F Value Pr > F Model 2 0.03365613 0.01682807 3.54 0.0494 Error 19 0.09034142 0.00475481 Corrected Total 21 0.12399755 R-Square Coeff Var Root MSE logredcell Mean 0.271426 2.819603 0.068955 2.445562 Source DF Anova SS Mean Square F Value Pr > F grp 2 0.03365613 0.01682807 3.54 0.0494 Levene s Test for Homogeneity of logredcell Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr > F grp 2 0.000046 0.000023 2.01 0.1621 Error 19 0.000218 0.000011

variansanalyse, september 2008 27 Standard Parameter Estimate Error t Value Pr > t Intercept 2.441548395 B 0.03083768 79.17 <.0001 grp 1 0.052315114 B 0.03931048 1.33 0.1990 grp 2-0.036690342 B 0.03846134-0.95 0.3521 grp 3 0.000000000 B... Parameter 95% Confidence Limits Intercept 2.377004395 2.506092396 grp 1-0.029962665 0.134592894 grp 2-0.117190853 0.043810170 grp 3..

variansanalyse, september 2008 28 Fortolkning af logaritmeret analyse Eksempelvis forskel mellem gruppe 1 og gruppe 3: Estimatet var 0.05232 med konfidensgrænser ( 0.02996, 0.13459) Det skal tilbagetransformeres: 10 0.05232 = 1.128 med konfidensgrænser (10 0.02996, 10 0.13459 ) = (0.933, 1.363) Det betyder, at gruppe 1 estimeres til at ligge 12.8% højere end gruppe 3, med 95% grænser fra 6.7% under til 36.3% over.

variansanalyse, september 2008 29 Non-parametrisk Kruskal-Wallis test: Statistics ANOVA Nonparametric One-Way ANOVA... hvor redcell sættes som Dependent og grp som Independent (dårlig betegnelse): Kruskal-Wallis Test Chi-Square 4.1852 DF 2 Asymptotic Pr > Chi-Square 0.1234 Exact Pr >= Chi-Square 0.1233 Bemærk: Man kan også få en eksakt vurdering af teststørrelsen, men pas på i tilfælde af store materialer!

variansanalyse, september 2008 30 Direkte programmering: /* indlæsning af data og dannelse af sasuser.redcell */ data sasuser.redcell; input grp redcell; datalines; 1 243 1 251 1 275 1 291 1 347 1 354 3 241 3 258 3 270 3 293 3 328 ; run;

variansanalyse, september 2008 31 /* scatter plot, s. 4 */ proc gplot data=a1; plot redcell*grp / haxis=axis1 vaxis=axis2 frame; axis1 order=(1 to 3 by 1) offset=(8,8) label=(h=3 gruppe nr. ) value=(h=3) minor=none; axis2 offset=(1,1) value=(h=3) minor=none label=(a=90 R=0 H=3 red cell foliate ); symbol1 v=circle i=none l=1 h=3 w=2; run; /* analyse s. 10-11,16,25 */ proc anova data=sasuser.redcell; class grp; model redcell=grp; /* s. 10 */ means grp / hovtest=levene welch; /* s. 16 + 25 */ output out=ny p=predikt r=resid; run;

variansanalyse, september 2008 32 /* analyse s. 12,16,24 */ proc glm data=sasuser.redcell; class grp; model redcell=grp / solution clparm; /* s. 12 */ means grp / hovtest=levene; /* s. 16 */ lsmeans grp / pdiff adjust=tukey cl; /* s. 24 */ run; /* figurer s. 14,15 */ proc univariate normal data=ny; var resid; histogram / cfill=gray height=3 normal; /* s. 14 */ probplot / height=3 normal(mu=est sigma=est l=33); /* s. 15 */ inset mean std skewness / header= descriptive ; run; /* nonparametrisk sammenligning, s. 29 */ proc npar1way data=a1 anova wilcoxon; exact wilcoxon; class grp; var redcell; run;

variansanalyse, september 2008 33 ANOVA (variansanalyse) i relation til t-test antal grupper, behandlinger, forskellige individer (units) samme individ (unit) situationer el.lign. 2 uparret t-test parret t-test 3 ensidet anova tosidet anova Tosidet variansanalyse forekommer dog oftest i anden sammenhæng: Personerne kan inddeles efter flere forskellige inddelingskriterier (f.eks. rygestatus og aktivitetsniveau)

variansanalyse, september 2008 34 Korttidseffekt af enalaprilat på puls, gentagne målinger Tid Person 0 30 60 120 mean 1 96 92 86 92 91.50 2 110 106 108 114 109.50 3 89 86 85 83 85.75 4 95 78 78 83 83.50 5 128 124 118 118 122.00 6 100 98 100 94 98.00 7 72 68 67 71 69.50 8 79 75 74 74 75.50 9 100 106 104 102 103.00 mean 96.56 92.56 91.11 92.33 93.14 Ved sammenligning af tidspunkter skal man eliminere variation mellem personer, ganske som i et parret t-test

variansanalyse, september 2008 35 Linieplot ( Spaghettiogram ) Puls vs. tid, observationer hørende til samme person forbundet. Ideelt er forløbene parallelle (additivitet).

variansanalyse, september 2008 36 Additiv model: Der er effekt af person (p) og tid (t): Y pt = µ + α p + β t + ε pt og disse virker additivt (de skal lægges sammen). (Nødvendigt med passende bånd på parametrene, i SAS f.eks. α 9 = β 4 = 0). ε pt uafhængige, middelværdi 0, samme spredning, normalfordelte, dvs. ε pt N(0, σ 2 ). Variationsopspaltning: SS tot = SS person + SS tid + SS res

variansanalyse, september 2008 37 Forsøg på grafisk illustration af modellen: Ideelt set parallelle forløb, overlejret med normalfordelt variation giver mere irregulære forløb. Person 1 Person 1 Person 2 Person 2 Time point Time point

variansanalyse, september 2008 38 Variansanalyseskema df SS MS F P Personer 8 8966.6 1120.8 90.60 <0.0001 Tid 3 151.0 50.3 4.07 0.0180 Resid. 24 296.8 12.4 Total 35 9414.3 Højsignifikant forskel på personer (forventeligt, men ikke så interessant) Signifikant tidsforskel, P=0.018, men vi mangler estimater!

variansanalyse, september 2008 39 Man kan igen med fordel anvende: Statistics/Anova/Linear Models med puls som Dependent og både person og tid som Class-variable. I Statistics vælges Parameter Estimates: Class Level Information Class Levels Values person 9 1 2 3 4 5 6 7 8 9 tid 4 0 30 60 120 Number of observations 36 Dependent Variable: puls Sum of Source DF Squares Mean Square F Value Pr > F Model 11 9117.527778 828.866162 67.03 <.0001 Error 24 296.777778 12.365741 Corrected Total 35 9414.305556 R-Square Coeff Var Root MSE puls Mean 0.968476 3.775539 3.516496 93.13889

variansanalyse, september 2008 40 Source DF Type III SS Mean Square F Value Pr > F tid 3 150.972222 50.324074 4.07 0.0180 person 8 8966.555556 1120.819444 90.64 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 102.1944444 B 2.03024963 50.34 <.0001 tid 0 4.2222222 B 1.65769189 2.55 0.0177 tid 30 0.2222222 B 1.65769189 0.13 0.8945 tid 60-1.2222222 B 1.65769189-0.74 0.4681 tid 120 0.0000000 B... person 1-11.5000000 B 2.48653783-4.62 0.0001 person 2 6.5000000 B 2.48653783 2.61 0.0152 person 3-17.2500000 B 2.48653783-6.94 <.0001 person 4-19.5000000 B 2.48653783-7.84 <.0001 person 5 19.0000000 B 2.48653783 7.64 <.0001 person 6-5.0000000 B 2.48653783-2.01 0.0557 person 7-33.5000000 B 2.48653783-13.47 <.0001 person 8-27.5000000 B 2.48653783-11.06 <.0001 person 9 0.0000000 B... Bemærk, at de sidste niveauer af hver faktor (Class-variabel) bliver sat til 0 De kaldes referenceniveauer

variansanalyse, september 2008 41 Forventede værdier for person=3, tid=30: ŷ pt = ˆµ + ˆα p + ˆβ t = 102.19 17.25 + 0.22 = 85.16 Residualer r pt = y pt ŷ pt = y pt ȳ p. ȳ.t + ȳ.. Altså f.eks. ŷ 32 = 85.16 r 32 = 86 85.16 = 0.84

variansanalyse, september 2008 42 Modelkontrol Se efter: Varianshomogenitet (systematik, trompet?) Normalfordelingstilpasning (tunge haler?, skæv fordeling?) Mangel på additivitet (vekselvirkning):. kan kun undersøges hvis der er flere observationer pr. celle Seriel korrelation? (Naboobservationer hænger tættere sammen)

variansanalyse, september 2008 43 Residualer vs. forventede værdier Der bør ikke ses nogen systematik.

variansanalyse, september 2008 44 Check af normalfordelingsantagelsen: Det ser rimeligt ud

variansanalyse, september 2008 45 Check af uafhængighed er rimeligt her, da der er flere observationer for hver person Vi har godt nok et personniveau, men der kunne være ekstra seriel korrelation, dvs. at naboresidualer kunne ligne hinanden Modeller, der inkluderer sådanne korrelationer, går under navnet Repeated measurements

variansanalyse, september 2008 46 Der ser ikke ud til at være seriel korrelation her

variansanalyse, september 2008 47 Direkte programmering af den tosidede variansanlyse: data sasuser.puls; infile puls.tal firstobs=2; input person tid0 tid30 tid60 tid120; /* udfoldning af data til 4 linier pr. person */ tid=0; puls=tid0; output; tid=30; puls=tid30; output; tid=60; puls=tid60; output; tid=120; puls=tid120; output; run; /* figur s. 35 */ proc gplot data=sasuser.puls; plot puls*tid=person / nolegend haxis=axis1 vaxis=axis2 frame; axis1 value=(h=3) minor=none label=(h=3); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3); symbol1 v=circle i=join c=black l=2 h=3 w=2 r=9; run;

variansanalyse, september 2008 48 /* analyse s. 39-40 */ proc glm data=sasuser.puls; class person tid; model puls=tid person / solution; output out=ny p=predikt r=resid; run; /* figur s. 43 */ proc gplot gout=plotud data=ny; plot resid*yhat / vref=0 lv=33 haxis=axis1 vaxis=axis2 frame; axis1 value=(h=3) minor=none label=(h=3 Expected ); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3 Residual ); symbol1 v=circle i=none c=black h=3 l=2 w=2 r=9; run; /* figurer s. 44 */ proc univariate normal data=ny gout=plotud; var resid; histogram / cfill=gray height=3 normal; probplot / height=3 normal(mu=est sigma=est l=33); inset mean std skewness / header= descriptive ; run;

variansanalyse, september 2008 49 data b1; set ny; lagresid=lag(resid); run; /* figur s. 46 */ proc gplot gout=plotud data=b1; where tid>0; plot resid*lagresid / href=0 lh=33 vref=0 lv=33 haxis=axis1 vaxis=axis2 frame; axis1 value=(h=3) minor=none label=(h=3 forrige residual ); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3 residual ); symbol1 v=circle i=none c=black h=3 l=2 w=2 r=9; run;

variansanalyse, september 2008 50 Eksempel på vekselvirkning (interaktion): To inddelingskriterier: køn og rygestatus Outcome: FEV 1 Effekten af rygning afhænger af køn Forskellen på kønnene afhænger af rygestatus

variansanalyse, september 2008 51 Mulige forklaringer: biologisk forskel på effekt af rygning holder vist ikke i praksis, men eksemplet er jo også blot tænkt måske ryger kvinderne ikke helt så meget antal pakkeår confounder for køn måske virker rygningen som en relativ (%-vis) nedsættelse af FEV 1 kunne undersøges ved en longitudinel undersøgelse

variansanalyse, september 2008 52 Eksempel: Rygnings effekt på fødselsvægt

variansanalyse, september 2008 53 Interaktion/vekselvirkning mellem mængden og varigheden af rygningen Der er effekt af mængden, men kun hvis man har røget længe. Der er effekt af varigheden, og denne effekt øges med mængden. Effekten af mængden afhænger af... og effekten af varigheden afhænger af...

variansanalyse, september 2008 54 Eksempel: Fibrinogen efter miltoperation 34 rotter randomiseres, på 2 måder 17 får fjernet milten (splenectomy=yes) 8/17 i hver gruppe opholder sig i stor højde (place=altitude) Outcome: Fibrinogen niveau i mg% ved dag 21

variansanalyse, september 2008 55

variansanalyse, september 2008 56 Den sædvanlige additive model: Y spr = µ + α s + β p + ε spr splenectomy (s=yes/no) og place (p=altitude/control) virker additivt. Model med interaktion (vekselvirkning) Y spr = µ + α s + β p + γ sp + ε spr Her specificeres en interaktion mellem splenectomy og place, dvs. effekten af ophold i stor højde tænkes at afhænge af, hvorvidt man har fået fjernet milten eller ej. og omvendt...

variansanalyse, september 2008 57 Tosidet variansanalyse med vekselvirkning: Statistics ANOVA Linear Models hvor fibrinogen sættes som Dependent og såvel splenectomy som place som Class. For at få interaktionsleddet med, klikkes nu Model, hvorefter man udvælger begge variable og trykker Cross/Add: The GLM Procedure Class Level Information Class Levels Values splenectomy 2 no yes place 2 altitude control Number of observations 34

variansanalyse, september 2008 58 Dependent Variable: fibrinogen Sum of Source DF Squares Mean Square F Value Pr > F Model 3 138402.2949 46134.0983 7.51 0.0007 Error 30 184321.2639 6144.0421 Corrected Total 33 322723.5588 R-Square Coeff Var Root MSE fibrinogen Mean 0.428857 22.21804 78.38394 352.7941 Source DF Type I SS Mean Square F Value Pr > F place 1 57895.84355 57895.84355 9.42 0.0045 splenectomy 1 79976.50000 79976.50000 13.02 0.0011 splenectomy*place 1 529.95139 529.95139 0.09 0.7710 Source DF Type III SS Mean Square F Value Pr > F place 1 57895.84355 57895.84355 9.42 0.0045 splenectomy 1 78937.01021 78937.01021 12.85 0.0012 splenectomy*place 1 529.95139 529.95139 0.09 0.7710

variansanalyse, september 2008 59 Standard Parameter Estimate Error t Value Intercept 261.6666667 B 26.12798017 10.01 place altitude 90.5833333 B 38.08774887 2.38 place control 0.0000000 B.. splenectomy no 104.4444444 B 36.95054391 2.83 splenectomy yes 0.0000000 B.. splenectomy*place no altitude -15.8194444 B 53.86421101-0.29 splenectomy*place no control 0.0000000 B.. splenectomy*place yes altitude 0.0000000 B.. splenectomy*place yes control 0.0000000 B.. Parameter Pr > t Intercept <.0001 place altitude 0.0240 place control. splenectomy no 0.0083 splenectomy yes. splenectomy*place no altitude 0.7710 splenectomy*place no control. splenectomy*place yes altitude. splenectomy*place yes control.

variansanalyse, september 2008 60 Estimater Referenceniveauerne er: place=control, splenectomy=yes (de sidste i den alfabetiske rækkefølge) Denne gruppe har et forventet fibrinogenniveau på intercept=261.67 For de andre niveauer skal der adderes et eller flere korrektionsled, således: place splenectomy control altitude 261.67 261.67 yes + 90.58 = 352.25 261.67 261.67 + 104.44 + 104.44 no + 90.58-15.82 = 366.11 = 440.87

variansanalyse, september 2008 61 Vi kan godt få SAS til at udregne disse niveauer explicit: I Model under Linear Models fjernes hovedvirkningerne, og der afkrydses i No intercept Source DF Type III SS Mean Square F Value Pr > F splenectomy*place 4 4370167.736 1092541.934 177.82 <.0001 Standard Parameter Estimate Error t Value splenectomy*place no altitude 440.8750000 27.71290793 15.91 splenectomy*place no control 366.1111111 26.12798017 14.01 splenectomy*place yes altitude 352.2500000 27.71290793 12.71 splenectomy*place yes control 261.6666667 26.12798017 10.01 Parameter Pr > t splenectomy*place no altitude <.0001 splenectomy*place no control <.0001 splenectomy*place yes altitude <.0001 splenectomy*place yes control <.0001 men så mister vi muligheden for at teste

variansanalyse, september 2008 62 Vekselvirkningen er ikke signifikant (P=0.77), så vi simplificerer til en tosidet variansanalyse uden vekselvirkning: The GLM Procedure Dependent Variable: fibrinogen Sum of Source DF Squares Mean Square F Value Pr > F Model 2 137872.3435 68936.1718 11.56 0.0002 Error 31 184851.2153 5962.9424 Corrected Total 33 322723.5588 R-Square Coeff Var Root MSE fibrinogen Mean 0.427215 21.88815 77.22009 352.7941 Source DF Type III SS Mean Square F Value Pr > F place 1 57895.84355 57895.84355 9.71 0.0039 splenectomy 1 79976.50000 79976.50000 13.41 0.0009

variansanalyse, september 2008 63 Standard Parameter Estimate Error t Value Pr > t Intercept 265.3888889 B 22.50900351 11.79 <.0001 place altitude 82.6736111 B 26.53221591 3.12 0.0039 place control 0.0000000 B... splenectomy no 97.0000000 B 26.48627265 3.66 0.0009 splenectomy yes 0.0000000 B... Parameter 95% Confidence Limits Intercept 219.4814736 311.2963042 place altitude 28.5608000 136.7864222 place control.. splenectomy no 42.9808908 151.0191092 splenectomy yes..

variansanalyse, september 2008 64 Modelkontrolplots:

variansanalyse, september 2008 65 Test for normalitet: Goodness-of-Fit Tests for Normal Distribution Test ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.12781780 Pr > D >0.150 Cramer-von Mises W-Sq 0.10652540 Pr > W-Sq 0.091 Anderson-Darling A-Sq 0.53922199 Pr > A-Sq 0.160

variansanalyse, september 2008 66 Direkte programmering af interaktion: data a1; input place $ splenectomy $ fibrinogen; datalines; a y 528 a y 444 a y 228 c n 388 c n 425 c n 344 c n 425 ; run;

variansanalyse, september 2008 67 data sasuser.fibrinogen; set a1; if place= a then place= altitude ; if place= c then place= control ; if splenectomy= y then splenectomy= yes ; if splenectomy= n then splenectomy= no ; if place= a and splenectomy= y then group= yes_altitude ; if place= c and splenectomy= y then group= yes_control ; if place= a and splenectomy= n then group= no_altitude ; if place= c and splenectomy= n then group= no_control ; run; /* figur s. 55 */ proc gplot data=sasuser.fibronogen; plot fibrinogen*group / nolegend haxis=axis1 vaxis=axis2 frame; axis1 offset=(3,3) value=(h=2) minor=none label=(h=3); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3); symbol1 v=circle i=none c=black h=3; run;

variansanalyse, september 2008 68 /* analyse s. 57-59 */ proc glm data=sasuser.fibronogen; class splenectomy place; model fibrinogen=place splenectomy place*splenectomy / solution; *output out=ny p=yhat r=resid; run; /* analyse s. 61 */ proc glm data=sasuser.fibronogen; class splenectomy place; model fibrinogen=place*splenectomy / noint solution; run; /* analyse s. 62-63 */ proc glm data=sasuser.fibronogen; class splenectomy place; model fibrinogen=place splenectomy / solution clparm; output out=ny p=yhat r=resid; run;

variansanalyse, september 2008 69 /* figur s. 64 */ proc gplot data=ny; plot resid*yhat / haxis=axis1 vaxis=axis2 frame; axis1 value=(h=3) minor=none label=(h=3 Expected ); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3 Residual ); symbol1 v=circle i=none c=black h=3 l=2 w=2 r=9; run; /* figur og test s. 64,65 */ proc univariate normal data=ny; var resid; probplot / height=3 normal(mu=est sigma=est l=33); histogram / cfill=gray height=3 normal; inset mean std skewness / header= descriptive ; run;