Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot
Tosidet variansanalyse i SAS Eksempel 2.1: Dette er eksempel 12.7 fra Biostatistics regnet ved hjælp af SAS. (Normalfordelte data. Brug af PROC GLM.) /*Indlæsning af data*/ DATA eks12_7; INPUT program site weight @@; CARDS; 1 1 6 1 1 2 1 1 10 1 1-1 1 2 8 1 2 3 1 2 15 1 2 4 1 2 8 1 2 6 2 1 3 2 1 4 2 1-2 2 1 6 2 1-2 2 2-4 2 2 6 2 2 8 2 2-2 2 2 3 3 1 8 3 1 12 3 1 7 3 1 10 3 1 5 3 2 15 3 2 8 3 2 10 3 2 16 3 2 3 ; /*Her analyseres model for weight uden vekselvirkning*/ CLASS program site; MODEL weight=program site; RUN ; QUIT; UDSKRIFT Class Level Information Class Levels Values program 3 1 2 3 site 2 1 2 Number of Observations Read 30 Number of Observations Used 30 Dependent Variable: weight Sum of Source DF Squares Mean Square F Value Pr > F Model 3 292.5000000 97.5000000 5.33 0.0054 Error 26 475.6666667 18.2948718 Corrected Total 29 768.1666667 R-Square Coeff Var Root MSE weight Mean 0.380777 73.32429 4.277250 5.833333 Source DF Type I SS Mean Square F Value Pr > F program 2 274.8666667 137.4333333 7.51 0.0027 site 1 17.6333333 17.6333333 0.96 0.3353 Source DF Type III SS Mean Square F Value Pr > F program 2 274.1166506 137.0583253 7.60 0.0025 site 1 24.2648649 24.2648649 1.35 0.2567
Eksempel 2.2: Dette er eksempel 12.8 fra Biostatistics regnet ved hjælp af SAS. (Normalfordelte data. Brug af PROC GLM. Bartletts test. Residualplot.) /*Indlæsning af data*/ DATA eks12_8; DO text=1 TO 3; DO instruct=1 TO 2; DO gentag=1 TO 6; INPUT test @@; OUTPUT; END; END; END; CARDS; 30 43 12 18 22 16 36 34 15 18 40 45 21 26 10 14 17 16 33 31 28 15 29 26 42 30 18 10 21 18 41 46 19 23 38 48 ; /*Her udføres Bartletts test på de 6 grupper. De skal være defineret ved kun en klassevariabel, så den laves ud fra text og instruct*/ DATA bartlett; SET eks12_8; gruppe=10*text+instruct; CLASS gruppe; MODEL test=gruppe; MEANS gruppe/hovtest=bartlett; /*Bartletts test*/ /*Her analyseres fuld model for test*/ CLASS instruct text; MODEL test=instruct text; /*Her dannes datasæt med residualer og forventede værdier*/ OUTPUT OUT=plot1 PREDICTED=forventet STUDENT=stdres; /*Residual plot*/ SYMBOL1 V=dot; PROC GPLOT DATA=plot1; PLOT stdres*forventet=1/vref=0 vref=1.96 vref=-1.96; QUIT;
UDSKRIFT 1 Bartlett's Test for Homogeneity of test Variance Source DF Chi-Square Pr > ChiSq gruppe 5 4.7254 0.4503 T Level of -------------test------------ gruppe N Mean Std Dev 11 6 23.5000000 11.3446022 12 6 31.3333333 12.1271046 21 6 17.3333333 5.5737480 22 6 27.0000000 6.3560994 31 6 23.1666667 11.2501852 32 6 35.8333333 12.0899407 UDSKRIFT 2 Class Level Information Class Levels Values instruct 2 1 2 text 3 1 2 3 Number of Observations Read 36 Number of Observations Used 36 Dependent Variable: test Sum of Source DF Squares Mean Square F Value Pr > F Model 5 1288.472222 257.694444 2.49 0.0529 Error 30 3099.833333 103.327778 Corrected Total 35 4388.305556 R-Square Coeff Var Root MSE test Mean 0.293615 38.56069 10.16503 26.36111 Source DF Type I SS Mean Square F Value Pr > F instruct 1 910.0277778 910.0277778 8.81 0.0058 text 2 342.7222222 171.3611111 1.66 0.2074 instruct*text 2 35.7222222 17.8611111 0.17 0.8421 Source DF Type III SS Mean Square F Value Pr > F instruct 1 910.0277778 910.0277778 8.81 0.0058 text 2 342.7222222 171.3611111 1.66 0.2074 instruct*text 2 35.7222222 17.8611111 0.17 0.8421
RESIDUALPLOT
Eksempel 2.3: Dette er eksempel 12.9 fra Biostatistics regnet ved hjælp af SAS. (Normalfordelte data. Brug af PROC GLM. Ikke-balanceret. Type 1 og Type 3 SS.) DATA dig40; INPUT id trtmt age race sex bmi creat sysbp; CARDS; 2289 0 76 1 1 30.586 1.7 130 6745 0 45 1 1 22.85 1.398 130 1322 1 45 1 2 43.269 0.9 115 538 1 31 1 1 27.025 1.159 120 999 1 47 1 2 30.506 1.386 120 3103 0 60 1 1 29.867 1.091 140 1954 1 77 1 1 26.545 1.307 140 5750 1 76 1 1 39.837 1.455 140 1109 0 68 1 2 27.532 1.534 144 4787 1 46 1 1 28.662 1.307 140 666 0 65 1 1 28.058 2 120 6396 0 83 1 1 26.156 1.489 116 5753 1 75 1 1 37.59 1.3 138 1882 0 50 1 1 25.712 1.034 140 5663 0 59 2 1 27.406 1.705 152 6719 1 34 1 1 20.426 1.886 116 4995 0 55 1 1 19.435 1.6 150 4055 0 71 1 1 22.229 1.261 100 4554 1 58 1 2 28.192 1.352 130 2217 1 65 1 1 23.739 1.614 170 896 0 50 1 1 27.406 1.3 140 5368 1 38 1 1 30.853 0.9 134 3403 0 55 1 2 21.79 1.17 130 1426 0 70 1 1 19.04 1.25 150 764 1 63 2 2 28.731 0.9 122 5668 0 74 1 1 29.024 1.227 116 1653 1 63 1 1 28.399 1.1 105 1254 1 73 1 1 26.545 1.3 144 2312 0 78 2 1 22.503 2.682 104 2705 1 66 1 2 28.762 0.9 150 4181 0 44 2 2 26.37 1.148 124 3641 0 64 1 1 21.228 0.9 130 2439 1 49 1 1 15.204 1.307 140 3640 0 79 1 1 18.957 2.239 150 6646 0 61 1 1 27.718 1.659 128 787 0 58 2 2 27.369 0.909 100 5407 1 50 1 2 24.176 1 130 5001 1 70 1 1 19.044 1.2 110 4375 0 61 1 1 32.079 1.273 128 4326 0 65 1 1 29.34 1.2 170 ; DATA eks12_9; SET dig40; IF AGE LT 56 THEN AGE=1; ELSE AGE=2; CLASS sex age; MODEL creat=sex age; CLASS sex age; MODEL creat=sex age;
Class Level Information Class Levels Values sex 2 1 2 age 2 1 2 Number of Observations Read 40 Number of Observations Used 40 Dependent Variable: creat Sum of Source DF Squares Mean Square F Value Pr > F Model 3 0.85927773 0.28642591 2.18 0.1070 Error 36 4.72465617 0.13124045 Corrected Total 39 5.58393390 R-Square Coeff Var Root MSE creat Mean 0.153884 26.81405 0.362271 1.351050 Source DF Type I SS Mean Square F Value Pr > F sex 1 0.71240430 0.71240430 5.43 0.0255 age 1 0.10416077 0.10416077 0.79 0.3789 sex*age 1 0.04271267 0.04271267 0.33 0.5719 Source DF Type III SS Mean Square F Value Pr > F sex 1 0.55194454 0.55194454 4.21 0.0476 age 1 0.04074514 0.04074514 0.31 0.5808 sex*age 1 0.04271267 0.04271267 0.33 0.5719 Dependent Variable: creat Sum of Source DF Squares Mean Square F Value Pr > F Model 2 0.81656507 0.40828253 3.17 0.0537 Error 37 4.76736883 0.12884781 Corrected Total 39 5.58393390 R-Square Coeff Var Root MSE creat Mean 0.146235 26.56850 0.358954 1.351050 Source DF Type I SS Mean Square F Value Pr > F sex 1 0.71240430 0.71240430 5.53 0.0241 age 1 0.10416077 0.10416077 0.81 0.3744 Source DF Type III SS Mean Square F Value Pr > F sex 1 0.59507627 0.59507627 4.62 0.0382 age 1 0.10416077 0.10416077 0.81 0.3744
Huskeliste for ANOVA Kontrol af normalfordelingsantagelse: Tegning af histogram og QQ-plot for hver gruppe med PROC UNIVARIATE (hvis observationsantal er store nok) Hvis mange grupper kan suppleres med PROC BOXPLOT Kontrol af ens varianser: Bartletts test (hvis observationsantal er store nok) Analyse af middelværdier: Variansanalyse (ANOVA): PROC GLM Videre kontrol af normalfordelingsantagelse og antagelse om ens varianser: Residualplot Videre modelkontrol og kontrol af normalfordelingsantagelse Tegning af samlet histogram og QQ-plot for residualer Sammenligning af to eller flere grupper: Hvis hypotese om ens middelværdier forkastes kan man supplere med t-test (kontrol af individuelle type 1-fejl) eller Tukeys test (kontrol af multiple type 1-fejl). Hvis modelantagelserne forkastes: Hvis normalfordelingsantagelse og/eller antagelse om ens varianser ikke holder, kan man forsøge at transformere observationerne. Hvis observationerne ikke er nomalfordelte kan man evt. anvende Kruskal-Wallis test til sammenligning af middelværdier.