Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Relaterede dokumenter
Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Regressionsanalyse i SAS

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for biokemikere. Blok

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

k normalfordelte observationsrækker (ensidet variansanalyse)

Modelkontrol i Faktor Modeller

Eksamen i Statistik for biokemikere. Blok

Lineær regression i SAS. Lineær regression i SAS p.1/20

Eksamen i Statistik for Biokemikere, Blok januar 2009

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Besvarelse af opgave om Vital Capacity

En Introduktion til SAS. Kapitel 5.

Reeksamen i Statistik for biokemikere. Blok

Besvarelse af vitcap -opgaven

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Opgavebesvarelse, Basalkursus, uge 2

Besvarelse af juul2 -opgaven

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Basal Statistik Variansanalyse. 24 september 2013

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Vejledende besvarelse af hjemmeopgave, efterår 2018

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Eksamen i Statistik for biokemikere. Blok

Generelle lineære modeller

To-sidet varians analyse

Besvarelse af opgave om Vital Capacity

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

MPH specialmodul Epidemiologi og Biostatistik

En Introduktion til SAS. Kapitel 6.

To-sidet variansanalyse

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Supplerende opgaver. 2. Beregn gennemsnit og median for variablen Serum Creatinine. 3. Beregn gennemsnit og varians for BMI delt op efter Sex.

Eksempel , opg. 2

Vejledende besvarelse af hjemmeopgave

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Opgavebesvarelse, korrelerede målinger

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Vejledende besvarelse af hjemmeopgave, efterår 2016

Restsaltmængdernes afhængighed af trafikken,

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Løsning til øvelsesopgaver dag 4 spg 5-9

Program. 1. Flersidet variansanalyse 1/11

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Klasseøvelser dag 2 Opgave 1

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Opgavebesvarelse, brain weight

Vejledende besvarelse af hjemmeopgave, forår 2015

Opgavebesvarelse, brain weight

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Vejledende besvarelse af hjemmeopgave, efterår 2017

Modul 11: Simpel lineær regression

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Multipel Lineær Regression

Eksamen i Statistik for biokemikere. Blok

Vejledende besvarelse af hjemmeopgave, efterår 2015

Basal statistik. 30. september 2008

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Vejledende besvarelse af hjemmeopgave, forår 2016

Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol

Afdeling for Anvendt Matematik og Statistik December 2006

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Vejledende besvarelse af hjemmeopgave, forår 2017

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Forelæsning 11: Envejs variansanalyse, ANOVA

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Ensidet variansanalyse

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 10. september / 116

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Dagens Tekst. Sammenligning Flere Grupper F Basal Statistik Variansanalyse. Basal Statistik - Variansanalyse 1

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116

Vejledende besvarelse af hjemmeopgave, forår 2018

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Module 12: Mere om variansanalyse

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Transkript:

Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot

Tosidet variansanalyse i SAS Eksempel 2.1: Dette er eksempel 12.7 fra Biostatistics regnet ved hjælp af SAS. (Normalfordelte data. Brug af PROC GLM.) /*Indlæsning af data*/ DATA eks12_7; INPUT program site weight @@; CARDS; 1 1 6 1 1 2 1 1 10 1 1-1 1 2 8 1 2 3 1 2 15 1 2 4 1 2 8 1 2 6 2 1 3 2 1 4 2 1-2 2 1 6 2 1-2 2 2-4 2 2 6 2 2 8 2 2-2 2 2 3 3 1 8 3 1 12 3 1 7 3 1 10 3 1 5 3 2 15 3 2 8 3 2 10 3 2 16 3 2 3 ; /*Her analyseres model for weight uden vekselvirkning*/ CLASS program site; MODEL weight=program site; RUN ; QUIT; UDSKRIFT Class Level Information Class Levels Values program 3 1 2 3 site 2 1 2 Number of Observations Read 30 Number of Observations Used 30 Dependent Variable: weight Sum of Source DF Squares Mean Square F Value Pr > F Model 3 292.5000000 97.5000000 5.33 0.0054 Error 26 475.6666667 18.2948718 Corrected Total 29 768.1666667 R-Square Coeff Var Root MSE weight Mean 0.380777 73.32429 4.277250 5.833333 Source DF Type I SS Mean Square F Value Pr > F program 2 274.8666667 137.4333333 7.51 0.0027 site 1 17.6333333 17.6333333 0.96 0.3353 Source DF Type III SS Mean Square F Value Pr > F program 2 274.1166506 137.0583253 7.60 0.0025 site 1 24.2648649 24.2648649 1.35 0.2567

Eksempel 2.2: Dette er eksempel 12.8 fra Biostatistics regnet ved hjælp af SAS. (Normalfordelte data. Brug af PROC GLM. Bartletts test. Residualplot.) /*Indlæsning af data*/ DATA eks12_8; DO text=1 TO 3; DO instruct=1 TO 2; DO gentag=1 TO 6; INPUT test @@; OUTPUT; END; END; END; CARDS; 30 43 12 18 22 16 36 34 15 18 40 45 21 26 10 14 17 16 33 31 28 15 29 26 42 30 18 10 21 18 41 46 19 23 38 48 ; /*Her udføres Bartletts test på de 6 grupper. De skal være defineret ved kun en klassevariabel, så den laves ud fra text og instruct*/ DATA bartlett; SET eks12_8; gruppe=10*text+instruct; CLASS gruppe; MODEL test=gruppe; MEANS gruppe/hovtest=bartlett; /*Bartletts test*/ /*Her analyseres fuld model for test*/ CLASS instruct text; MODEL test=instruct text; /*Her dannes datasæt med residualer og forventede værdier*/ OUTPUT OUT=plot1 PREDICTED=forventet STUDENT=stdres; /*Residual plot*/ SYMBOL1 V=dot; PROC GPLOT DATA=plot1; PLOT stdres*forventet=1/vref=0 vref=1.96 vref=-1.96; QUIT;

UDSKRIFT 1 Bartlett's Test for Homogeneity of test Variance Source DF Chi-Square Pr > ChiSq gruppe 5 4.7254 0.4503 T Level of -------------test------------ gruppe N Mean Std Dev 11 6 23.5000000 11.3446022 12 6 31.3333333 12.1271046 21 6 17.3333333 5.5737480 22 6 27.0000000 6.3560994 31 6 23.1666667 11.2501852 32 6 35.8333333 12.0899407 UDSKRIFT 2 Class Level Information Class Levels Values instruct 2 1 2 text 3 1 2 3 Number of Observations Read 36 Number of Observations Used 36 Dependent Variable: test Sum of Source DF Squares Mean Square F Value Pr > F Model 5 1288.472222 257.694444 2.49 0.0529 Error 30 3099.833333 103.327778 Corrected Total 35 4388.305556 R-Square Coeff Var Root MSE test Mean 0.293615 38.56069 10.16503 26.36111 Source DF Type I SS Mean Square F Value Pr > F instruct 1 910.0277778 910.0277778 8.81 0.0058 text 2 342.7222222 171.3611111 1.66 0.2074 instruct*text 2 35.7222222 17.8611111 0.17 0.8421 Source DF Type III SS Mean Square F Value Pr > F instruct 1 910.0277778 910.0277778 8.81 0.0058 text 2 342.7222222 171.3611111 1.66 0.2074 instruct*text 2 35.7222222 17.8611111 0.17 0.8421

RESIDUALPLOT

Eksempel 2.3: Dette er eksempel 12.9 fra Biostatistics regnet ved hjælp af SAS. (Normalfordelte data. Brug af PROC GLM. Ikke-balanceret. Type 1 og Type 3 SS.) DATA dig40; INPUT id trtmt age race sex bmi creat sysbp; CARDS; 2289 0 76 1 1 30.586 1.7 130 6745 0 45 1 1 22.85 1.398 130 1322 1 45 1 2 43.269 0.9 115 538 1 31 1 1 27.025 1.159 120 999 1 47 1 2 30.506 1.386 120 3103 0 60 1 1 29.867 1.091 140 1954 1 77 1 1 26.545 1.307 140 5750 1 76 1 1 39.837 1.455 140 1109 0 68 1 2 27.532 1.534 144 4787 1 46 1 1 28.662 1.307 140 666 0 65 1 1 28.058 2 120 6396 0 83 1 1 26.156 1.489 116 5753 1 75 1 1 37.59 1.3 138 1882 0 50 1 1 25.712 1.034 140 5663 0 59 2 1 27.406 1.705 152 6719 1 34 1 1 20.426 1.886 116 4995 0 55 1 1 19.435 1.6 150 4055 0 71 1 1 22.229 1.261 100 4554 1 58 1 2 28.192 1.352 130 2217 1 65 1 1 23.739 1.614 170 896 0 50 1 1 27.406 1.3 140 5368 1 38 1 1 30.853 0.9 134 3403 0 55 1 2 21.79 1.17 130 1426 0 70 1 1 19.04 1.25 150 764 1 63 2 2 28.731 0.9 122 5668 0 74 1 1 29.024 1.227 116 1653 1 63 1 1 28.399 1.1 105 1254 1 73 1 1 26.545 1.3 144 2312 0 78 2 1 22.503 2.682 104 2705 1 66 1 2 28.762 0.9 150 4181 0 44 2 2 26.37 1.148 124 3641 0 64 1 1 21.228 0.9 130 2439 1 49 1 1 15.204 1.307 140 3640 0 79 1 1 18.957 2.239 150 6646 0 61 1 1 27.718 1.659 128 787 0 58 2 2 27.369 0.909 100 5407 1 50 1 2 24.176 1 130 5001 1 70 1 1 19.044 1.2 110 4375 0 61 1 1 32.079 1.273 128 4326 0 65 1 1 29.34 1.2 170 ; DATA eks12_9; SET dig40; IF AGE LT 56 THEN AGE=1; ELSE AGE=2; CLASS sex age; MODEL creat=sex age; CLASS sex age; MODEL creat=sex age;

Class Level Information Class Levels Values sex 2 1 2 age 2 1 2 Number of Observations Read 40 Number of Observations Used 40 Dependent Variable: creat Sum of Source DF Squares Mean Square F Value Pr > F Model 3 0.85927773 0.28642591 2.18 0.1070 Error 36 4.72465617 0.13124045 Corrected Total 39 5.58393390 R-Square Coeff Var Root MSE creat Mean 0.153884 26.81405 0.362271 1.351050 Source DF Type I SS Mean Square F Value Pr > F sex 1 0.71240430 0.71240430 5.43 0.0255 age 1 0.10416077 0.10416077 0.79 0.3789 sex*age 1 0.04271267 0.04271267 0.33 0.5719 Source DF Type III SS Mean Square F Value Pr > F sex 1 0.55194454 0.55194454 4.21 0.0476 age 1 0.04074514 0.04074514 0.31 0.5808 sex*age 1 0.04271267 0.04271267 0.33 0.5719 Dependent Variable: creat Sum of Source DF Squares Mean Square F Value Pr > F Model 2 0.81656507 0.40828253 3.17 0.0537 Error 37 4.76736883 0.12884781 Corrected Total 39 5.58393390 R-Square Coeff Var Root MSE creat Mean 0.146235 26.56850 0.358954 1.351050 Source DF Type I SS Mean Square F Value Pr > F sex 1 0.71240430 0.71240430 5.53 0.0241 age 1 0.10416077 0.10416077 0.81 0.3744 Source DF Type III SS Mean Square F Value Pr > F sex 1 0.59507627 0.59507627 4.62 0.0382 age 1 0.10416077 0.10416077 0.81 0.3744

Huskeliste for ANOVA Kontrol af normalfordelingsantagelse: Tegning af histogram og QQ-plot for hver gruppe med PROC UNIVARIATE (hvis observationsantal er store nok) Hvis mange grupper kan suppleres med PROC BOXPLOT Kontrol af ens varianser: Bartletts test (hvis observationsantal er store nok) Analyse af middelværdier: Variansanalyse (ANOVA): PROC GLM Videre kontrol af normalfordelingsantagelse og antagelse om ens varianser: Residualplot Videre modelkontrol og kontrol af normalfordelingsantagelse Tegning af samlet histogram og QQ-plot for residualer Sammenligning af to eller flere grupper: Hvis hypotese om ens middelværdier forkastes kan man supplere med t-test (kontrol af individuelle type 1-fejl) eller Tukeys test (kontrol af multiple type 1-fejl). Hvis modelantagelserne forkastes: Hvis normalfordelingsantagelse og/eller antagelse om ens varianser ikke holder, kan man forsøge at transformere observationerne. Hvis observationerne ikke er nomalfordelte kan man evt. anvende Kruskal-Wallis test til sammenligning af middelværdier.