Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer. En hypotese om, at observationerne har middelværdi 2, er undersøgt ved et t-test. SAS-program og udskrift er angivet nedenfor.. a) Gøre rede for forudsætningerne for testet. b) Hvilke konklusioner kan man drage på grundlag af udskriften? c) Angiv på grundlag af udskriften et estimat for middelværdi og varians i observationernes fordeling. d) Angiv et skøn for middelværdiestimatets varians og angiv et 95% kondensinterval for middelværdien. Observationerne antages at ligge i SAS-datasættet opg1.data med en variabel x, der angiver målingsvariablen. PROGRAM: PROC TTEST ALPHA=.05 H0=2 DATA=opg1.data; VAR x; UDSKRIFT: The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err x 20-1.873-0.59 0.6919 2.0838 2.7401 4.0021 0.6127 T-Tests Variable DF t Value Pr > t x 19-4.23 0.0005 1

Opgave 2 Et datasæt består af 20 observationer fra en gruppe og 30 observationer fra en anden gruppe. En hypotese om, at observationerne har samme middelværdi, er undersøgt ved et t-test. SAS-program og udskrift er angivet nedenfor. Gøre rede for forudsætningerne for testet. Hvilke konklusioner kan man drage på grundlag af udskriften? Angiv på grundlag af udskriften et estimat for middelværdi og varians i observationernes fordeling. Angiv et skøn for middelværdiestimatets varians og angiv et 95% kondensinterval for middelværdien. Observationerne antages at ligge i SAS-datasættet opg2.data med de to variable gruppe der angiver gruppen og x der angiver målingsvariablen. PROGRAM: PROC TTEST ALPHA=.05 DATA=opg2.data; VAR x; UDSKRIFT: The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable gruppe N Mean Mean Mean Std Dev Std Dev Std Dev Std Err x 1 20-1.077 0.8571 2.7908 3.1422 4.1318 6.0348 0.9239 x 2 30 0.3006 1.7938 3.287 3.1848 3.999 5.3759 0.7301 x Diff (1-2) -3.289-0.937 1.4152 3.3791 4.0521 5.0623 1.1697 T-Tests Variable Method Variances DF t Value Pr > t x Pooled Equal 48-0.80 0.4272 x Satterthwaite Unequal 39.9-0.80 0.4310 Equality of Variances Variable Method Num DF Den DF F Value Pr > F x Folded F 19 29 1.07 0.8537 2

Opgave 3 Et datasæt består af observationer fra tre grupper med henholdsvis 20, 30 og 30 observationer. En hypotese om, at alle observationerne har samme middelværdi, er undersøgt ved en ensidet variansanalyse. SAS-program og (let redigeret) udskrift er angivet nedenfor. Gøre rede for forudsætningerne for analysen. Hvilke konklusioner kan man drage på grundlag af udskriften? Observationerne antages at ligge i SAS-datasættet opg4.data med de to variable gruppe der angiver gruppen og x der angiver målingsvariablen. PROGRAM: PROC GLM ALPHA=.05; MODEL x=gruppe/ss1 SOLUTION; MEANS gruppe/hovtest=bartlett; UDSKRIFT: The GLM Procedure Class Level Information Class Levels Values gruppe 3 1 2 3 Number of observations 80 Dependent Variable: x Sum of Source DF Squares Mean Square F Value Pr > F Model 2 786.498602 393.249301 22.72 <.0001 Error 77 1332.514561 17.305384 Corrected Total 79 2119.013163 R-Square Coeff Var Root MSE x Mean 0.371163 632.5615 4.159974 0.657639 Standard Parameter Estimate Error t Value Pr > t Intercept -2.941610620 B 0.75950387-3.87 0.0002 gruppe 1 3.536114169 B 1.20088106 2.94 0.0043 gruppe 2 7.240590699 B 1.07410068 6.74 <.0001 gruppe 3 0.000000000 B... 3

Bartlett's Test for Homogeneity of x Variance Source DF Chi-Square Pr > ChiSq gruppe 2 0.3355 0.8455 Level of --------------x-------------- gruppe N Mean Std Dev 1 20 0.59450355 4.49830571 2 30 4.29898008 4.01895295 3 30-2.94161062 4.06688361 Opgave 4 Til sammenligning af to metoder til bestemmelse af en egenskab ved blod udførtes følgende forsøg. 20 blodprøver blev hver delt i to dele, og det blev ved lodtrækning bestemt, hvilken del der skulle have henholdvis behandling 1 og behandling 2. En hypotese om, at behandlingerne virkede ens, er undersøgt ved et t-test. SASprogram og udskrift er angivet nedenfor. Gøre rede for forudsætningerne for analysen. Angiv på grundlag af udskriften et estimat for middelværdi og varians i fordelingen af dierenserne. Angiv et skøn for middelværdiestimatets varians og angiv et 95% kondensinterval for middelværdien. Hvilke konklusioner kan man drage på grundlag af udskriften. Observationerne antages at ligge i SAS-datasættet opg3.data med de to variable x og y der angiver måling for henholdsvis behandling 1 og behandling 2. PROGRAM: UDSKRIFT: PROC TTEST ALPHA=.05 DATA=opg3.data; PAIRED x*y; The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Difference N Mean Mean Mean Std Dev Std Dev Std Dev Std Err x - y 20-1.069 0.8421 2.7534 3.1056 4.0837 5.9646 0.9132 T-Tests Difference DF t Value Pr > t X - y 19 0.92 0.3680 4

Opgave 5 Et datasæt består af observationer fra tre grupper med henholdsvis 20, 30 og 30 observationer,hvor man ønsker at undersøge, om alle observationerne har samme middelværdi. Nedenstående udskriftsbid stammer fra MEANS i det angivne SASprogram. Hvad vil du foreslå at man prøver at gøre for eventuelt at kunne gennemføre en ensidet variansanalyse. Observationerne antages at ligge i SAS-datasættet opg5.data med de to variable gruppe der angiver gruppen og x der angiver målingsvariablen. PROGRAM: PROC GLM ALPHA=.05 DATA=opg5.data; MODEL x=gruppe/ss1 SOLUTION; MEANS gruppe/hovtest=bartlett; UDSKRIFT (delvis) The GLM Procedure Bartlett's Test for Homogeneity of x Variance Source DF Chi-Square Pr > ChiSq gruppe 2 12.6149 0.0018 Level of --------------x-------------- gruppe N Mean Std Dev 1 20 14.7481848 14.6889305 2 30 10.4555991 9.9500455 3 30 7.8700064 7.0322188 Opgave 6 Et datasæt består af 20 observationer fra en gruppe og 30 observationer fra en anden gruppe. En hypotese om, at observationerne har samme middelværdi, er undersøgt ved et t-test. SAS-program og udskrift er angivet nedenfor. Diskuter analysen. Observationerne antages at ligge i SAS-datasættet opg6.data med de to variable gruppe der angiver gruppen og x der angiver målingsvariablen. 5

PROGRAM: PROC TTEST ALPHA=.05 DATA=opg6.data; VAR x; UDSKRIFT: The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable gruppe N Mean Mean Mean Std Dev Std Dev Std Dev Std Err x 1 20-0.073 0.4097 0.8927 0.7849 1.0322 1.5075 0.2308 x 2 30 0.0424 1.6366 3.2308 3.4001 4.2693 5.7393 0.7795 x Diff (1-2) -3.19-1.227 0.7357 2.8198 3.3814 4.2244 0.9761 T-Tests Variable Method Variances DF t Value Pr > t x Pooled Equal 48-1.26 0.2149 x Satterthwaite Unequal 33.9-1.51 0.1405 Equality of Variances Variable Method Num DF Den DF F Value Pr > F x Folded F 29 19 17.11 <.0001 Opgave 7 Et datasæt består af observationer fra tre grupper med henholdsvis 20, 30 og 30 observationer. Observationerne kan ikke natages at være normalfordelte. En hypotese om, at alle observationerne har samme middelværdi, er undersøgt ved Kruskal-Wallis-test. SAS-program og udskrift er angivet nedenfor. Gøre rede for forudsætningerne for analysen. Hvilke konklusioner kan man drage på grundlag af udskriften? Observationerne antages at ligge i SAS-datasættet opg7.data med de to variable gruppe der angiver gruppen og x der angiver målingsvariablen. PROGRAM: PROC NPAR1WAY WILCOXON; VAR x; 6

UDSKRIFT: The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable x Classified by Variable gruppe Sum of Expected Std Dev Mean gruppe N Scores Under H0 Under H0 Score 1 20 335.0 810.0 90.000000 16.750000 2 30 1772.0 1215.0 100.623059 59.066667 3 30 1133.0 1215.0 100.623059 37.766667 Kruskal-Wallis Test Chi-Square 40.4574 DF 2 Pr > Chi-Square <.0001 Opgave 8 Et datasæt består af 20 observationer fra en gruppe og 30 observationer fra en anden gruppe. En hypotese om, at observationerne har samme middelværdi, er undersøgt ved henholdsvis et t-test og et Wilcoxon test. SAS-program og udskrift er angivet nedenfor. Diskuter de to analyser i forhold til hinanden. Hvad bliver konklusionen på analysen. Observationerne antages at ligge i SAS-datasættet opg8.data med de to variable gruppe der angiver gruppen og x der angiver målingsvariablen. PROGRAM: PROC TTEST ALPHA=.05; VAR x; PROC NPAR1WAY WILCOXON; VAR x; UDSKRIFT: The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable gruppe N Mean Mean Mean Std Dev Std Dev Std Dev Std Err x 1 20 1.6629 2.1239 2.585 0.7492 0.9851 1.4388 0.2203 x 2 30-0.299 1.2555 2.81 3.3156 4.1632 5.5966 0.7601 x Diff (1-2) -1.044 0.8685 2.7808 2.7476 3.2948 4.1161 0.9511 7

T-Tests Variable Method Variances DF t Value Pr > t x Pooled Equal 48 0.91 0.3657 x Satterthwaite Unequal 33.7 1.10 0.2802 Equality of Variances Variable Method Num DF Den DF F Value Pr > F x Folded F 29 19 17.86 <.0001 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable x Classified by Variable gruppe Sum of Expected Std Dev Mean gruppe N Scores Under H0 Under H0 Score 1 20 570.0 510.0 50.497525 28.50 2 30 705.0 765.0 50.497525 23.50 Wilcoxon Two-Sample Test Statistic 570.0000 Normal Approximation Z 1.1783 One-Sided Pr > Z 0.1193 Two-Sided Pr > Z 0.2387 t Approximation One-Sided Pr > Z 0.1222 Two-Sided Pr > Z 0.2444 Z includes a continuity correction of 0.5. Opgave 9 Et datasæt består af observationer fra tre grupper med henholdsvis 20, 30 og 30 observationer. En hypotese om, at alle observationerne har samme middelværdi, er undersøgt ved en ensidet variansanalyse. Parvise sammenligninger er foretaget med Tukeys og Schees test. SAS-program og (let redigeret) udskrift er angivet nedenfor. Gøre rede for forudsætningerne for analysen. Hvilke konklusioner kan man drage på grundlag af udskriften? 8

Observationerne antages at ligge i SAS-datasættet opg9.data med de to variable gruppe der angiver gruppen og x der angiver målingsvariablen. PROGRAM: PROC GLM ALPHA=.05; MODEL x=gruppe/ss1 SOLUTION; MEANS gruppe/tukey SCHEFFE CLDIFF; UDSKRIFT: The GLM Procedure Class Level Information Class Levels Values gruppe 3 1 2 3 Number of observations 80 Dependent Variable: x Sum of Source DF Squares Mean Square F Value Pr > F Model 2 310.183316 155.091658 10.21 0.0001 Error 77 1170.099289 15.196095 Corrected Total 79 1480.282604 R-Square Coeff Var Root MSE x Mean 0.209543 221.2329 3.898217 1.762042 Standard Parameter Estimate Error t Value Pr > t Intercept 0.110643132 B 0.71171377 0.16 0.8769 gruppe 1 0.323089334 B 1.12531828 0.29 0.7748 gruppe 2 4.188336947 B 1.00651526 4.16 <.0001 gruppe 3 0.000000000 B... Tukey's Studentized Range (HSD) Test for x NOTE: This test controls the Type I experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 77 Error Mean Square 15.19609 Critical Value of Studentized Range 3.37979 Comparisons significant at the 0.05 level are indicated by ***. Difference Simultaneous gruppe Between 95\% Confidence Comparison Means Limits 2-1 3.865 1.176 6.555 *** 2-3 4.188 1.783 6.594 *** 1-2 -3.865-6.555-1.176 *** 1-3 0.323-2.366 3.012 9

3-2 -4.188-6.594-1.783 *** 3-1 -0.323-3.012 2.366 Scheffe's Test for x NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than Tukey's for all pairwise comparisons. Alpha 0.05 Error Degrees of Freedom 77 Error Mean Square 15.19609 Critical Value of F 3.11537 Comparisons significant at the 0.05 level are indicated by ***. Difference Simultaneous gruppe Between 95\% Confidence Comparison Means Limits 2-1 3.865 1.056 6.674 *** 2-3 4.188 1.676 6.701 *** 1-2 -3.865-6.674-1.056 *** 1-3 0.323-2.486 3.132 3-2 -4.188-6.701-1.676 *** 3-1 -0.323-3.132 2.486 Opgave 10 Et datasæt består af 120 observationer fra 20 grupper stammende fra en tosidet inddeling med henholdsvis 5 og 4 kategorier og 6 gentagelser i hver gruppe. Hypoteser om forsvindende vekselvirkning, forsvindende rækkevirkning og forsvindende søjlevirkning er undersøgt ved tosidet variansanalyse. SAS-programmer og (let redigerede) udskrifter er angivet nedenfor. Gøre rede for forudsætningerne for den tosidede variansanalyse. Inddrag relevante testresultater. Hvilke konklusioner kan man drage på grundlag af udskriften? Observationerne antages at ligge i SAS-datasættet opg10.data med de tre variable r=1,2,3,4,5 og s=1,2,3,4, der angiver de to inddelingsvariable og x der angiver målingsvariablen. PROGRAM1: DATA bartlett; /*Her dannes ensidet inddeling til Bartletts test*/ SET opg10.data; gruppe=10*r+s; PROC GLM; /*Bartletts test*/ 10

MODEL x=gruppe; MEANS gruppe/hovtest=bartlett; PROGRAM2: PROC GLM; /*Test for vekselvirkning*/ CLASS r s; MODEL x=r s/ss1; PROGRAM3: PROC GLM; /*Estimation af parameter*/ CLASS r s; MODEL x=r s/ss1 SOLUTION; UDSKRIFT1 (delvis) The GLM Procedure Class Level Information Class Levels Values gruppe 20 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 51 52 53 54 Number of observations 120 Dependent Variable: x Bartlett's Test for Homogeneity of x Variance Source DF Chi-Square Pr > ChiSq gruppe 19 16.6272 0.6151 UDSKRIFT2 The GLM Procedure Class Level Information Class Levels Values r 5 1 2 3 4 5 s 4 1 2 3 4 Number of observations 120 Dependent Variable: x Sum of Source DF Squares Mean Square F Value Pr > F Model 19 381.6012416 20.0842759 119.97 <.0001 Error 100 16.7405824 0.1674058 Corrected Total 119 398.3418240 R-Square Coeff Var Root MSE x Mean 0.957974 6.292469 0.409153 6.502258 Source DF Type I SS Mean Square F Value Pr > F r 4 233.1331804 58.2832951 348.16 <.0001 s 3 146.2766067 48.7588689 291.26 <.0001 r*s 12 2.1914545 0.1826212 1.09 0.3761 11

UDSKRIFT3 (delvis) The GLM Procedure Dependent Variable: x Sum of Source DF Squares Mean Square F Value Pr > F Model 7 379.4097871 54.2013982 320.65 <.0001 Error 112 18.9320369 0.1690360 Corrected Total 119 398.3418240 R-Square Coeff Var Root MSE x Mean 0.952473 6.323034 0.411140 6.502258 Source DF Type I SS Mean Square F Value Pr > F r 4 233.1331804 58.2832951 344.80 <.0001 s 3 146.2766067 48.7588689 288.45 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 9.934704841 B 0.10615587 93.59 <.0001 r 1-3.925374592 B 0.11868588-33.07 <.0001 r 2-3.045021916 B 0.11868588-25.66 <.0001 r 3-1.918754001 B 0.11868588-16.17 <.0001 r 4-1.046601318 B 0.11868588-8.82 <.0001 r 5 0.000000000 B... s 1-2.968886253 B 0.10615587-27.97 <.0001 s 2-1.887094661 B 0.10615587-17.78 <.0001 s 3-0.925206541 B 0.10615587-8.72 <.0001 s 4 0.000000000 B... Opgave 11 Et datasæt består af 20 observationer stammende fra en tosidet inddeling med henholdsvis 5 og 4 kategorier. Hypoteser om forsvindende rækkevirkning og forsvindende søjlevirkning er undersøgt ved tosidet variansanalyse. SAS-programmer og (let redigerede) udskrifter er angivet nedenfor. Gøre rede for forudsætningerne for den tosidede variansanalyse. Hvilke konklusioner kan man drage på grundlag af udskriften? Hvilke modelkontroller kan man foretage? Observationerne antages at ligge i SAS-datasættet opg11.data med de tre variable r=1,2,3,4,5 og s=1,2,3,4, der angiver de to inddelingsvariable og x der angiver målingsvariablen. 12

PROGRAM1: PROC GLM DATA=opg11.data; CLASS r s; MODEL x=r s/ss1; PROGRAM2: PROC GLM DATA=opg11.data; CLASS r s; MODEL x=r s/ss1 SOLUTION; MEANS r/hovtest=bartlett; UDSKRIFT1: The GLM Procedure Class Level Information Class Levels Values r 5 1 2 3 4 5 s 4 1 2 3 4 Number of observations 20 Dependent Variable: x Sum of Source DF Squares Mean Square F Value Pr > F Model 7 39.84303646 5.69186235 46.71 <.0001 Error 12 1.46228633 0.12185719 Corrected Total 19 41.30532279 R-Square Coeff Var Root MSE x Mean 0.964598 5.816583 0.349080 6.001470 Source DF Type I SS Mean Square F Value Pr > F r 4 39.72047482 9.93011870 81.49 <.0001 s 3 0.12256164 0.04085388 0.34 0.8002 UDSKRIFT2: The GLM Procedure Dependent Variable: x Sum of Source DF Squares Mean Square F Value Pr > F Model 4 39.72047482 9.93011870 93.98 <.0001 Error 15 1.58484797 0.10565653 Corrected Total 19 41.30532279 R-Square Coeff Var Root MSE x Mean 0.961631 5.416148 0.325049 6.001470 Source DF Type I SS Mean Square F Value Pr > F r 4 39.72047482 9.93011870 93.98 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 8.156580308 B 0.16252425 50.19 <.0001 13

r 1-3.988974376 B 0.22984400-17.36 <.0001 r 2-3.122507465 B 0.22984400-13.59 <.0001 r 3-2.455712350 B 0.22984400-10.68 <.0001 r 4-1.208356910 B 0.22984400-5.26 <.0001 r 5 0.000000000 B... Bartlett's Test for Homogeneity of x Variance Source DF Chi-Square Pr > ChiSq r 4 4.6877 0.3209 Level of --------------x-------------- r N Mean Std Dev 1 4 4.16760593 0.32292020 2 4 5.03407284 0.15342861 3 4 5.70086796 0.39598174 4 4 6.94822340 0.16386122 5 4 8.15658031 0.46563164 Opgave 12 Betragt datasættet i nedenstående tabel. Observationerne antages at være uafhængige og normalfordelte med samme varians. Patient Dag 1 2 3 4 1 x 11 x 12 x 13 x 14 2 x 21 x 22 x 23 x 24 3 x 31 x 32 x 33 x 34 4 x 41 x 42 x 43 x 44 a) Kan man test for vekselvirkning mellem dag og patient? Begrund svaret. b) Gør rede for hvilke modeller man kan opstille, hvis man ønsker at teste om dagene har nogen indydelse på målingen. Opgave 13 Betragt datasættet i nedenstående tabel. Observationerne antages at være uafhængige og normalfordelte. 14

Metode Dag 1 2 3 4 5 6 7 8 1 x 111 x 121 x 131 x 141 x 151 x 161 x 171 x 181 x 112 x 122 x 132 x 142 x 152 x 162 x 172 x 182 2 x 211 x 221 x 231 x 241 x 251 x 261 x 271 x 281 x 212 x 222 x 232 x 242 x 252 x 262 x 272 x 282 3 x 311 x 321 x 331 x 341 x 351 x 361 x 371 x 381 x 312 x 322 x 332 x 342 x 352 x 362 x 372 x 382 4 x 411 x 421 x 431 x 441 x 451 x 461 x 471 x 481 x 412 x 422 x 432 x 442 x 452 x 462 x 472 x 482 a) Giv et forslag til hvordan man kan undersøge om de 32 grupper har samme varians. b) Kan man i en variansanalysemodel teste for vekselvirkning mellem metode og dag? Begrund svaret. c) Hvis middelværdien af målingerne antages at afhænge lineært af antal dage har man observationer svarende til en model med 4 regressionslinier (1 for hver metode). Hvordan kan en hypotese om forsvindende vekselvirkning mellem metode og dag formuleres i denne model? Opgave 14 Betragt datasættet i nedenstående tabeller. Observationerne antages at være uafhængige og normalfordelte med samme varians, og det antages at der ikke er vekselvirkning mellem patient og dag. Tabel 1 Tabel 2 Metode Dag Metode Dag A B C D A B C D A x 13 x 14 A x 13 x 14 B x 23 x 24 B x 21 x 22 x 23 x 24 C x 31 x 32 C x 31 x 32 D x 41 x 42 C x 41 x 42 a) Betragt data i tabel 1. Kan man opstille en model i hvilken man kan teste om dagene har nogen indydelse på målingen. b) Samme spørgsmål for tabel 2. 15

Opgave 15 Betragt datasættet i nedenstående tabel. Observationerne antages at være uafhængige og normalfordelte med samme varians og middelværdien af målingerne antages at afhænge lineært af antal dage. Metode Dag 1 2 3 4 5 6 7 8 1 x 141 x 151 x 161 x 171 x 181 x 142 x 152 x 162 x 172 x 182 2 x 211 x 221 x 231 x 212 x 222 x 232 a) Kan man på grundlag af disse data undersøge, om de to regressionslinier har samme hældning. Kommenter testet. b) Sammenlign med opgave 14a. Hvad er forskellen på de to modeller? 16