Reeksamen i Statistik for Biokemikere 6. april 2009

Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på 7 sider. Det består af tre opgaver med i alt 12 delspørgsmål. Opgave 1 (3 delspørgsmål) Data til denne og den følgende opgave stammer fra en større undersøgelse af bevægelsesmønsteret hos heste. I første del af forsøget indgik 13 ikke-halte heste. For hver hest blev der målt en symmetriscore, dvs. en størrelse som er udtryk for hvor symmetrisk hesten bevæger sig. Symmetriscoren for de 13 heste er givet i tabellen nedenfor. 1.56957-1.01019-0.29092-0.61036-1.55288-0.43225 0.86431 1.07870 1.56946-0.01039 0.39910-0.09013-1.20462 Gennemsnit og stikprøvespredning for de 13 observationer er ȳ = 0.02149 og s = 1.02168. 1. Bestem et estimat og et 95% konfidensinterval for middelværdien af symmetriscoren i populationen af ikke-halte heste. 2. Symmetriscoren er konstrueret således at man vil forvente at middelværdien i populationen af ikke-halte heste er nul. Tyder de 13 målinger på at middelværdien afviger fra nul? Antag nu at et større studie har vist at symmetriscoren for ikke-halte heste kan antages at være normalfordelt med middelværdi nul og spredning 1.10. 3. Bestem sandsynligheden for at en tilfældig ikke-halt hest har en symmetriscore der er numerisk større end 2.75? Data er venligst stillet til rådighed af Maj Halling Thomsen, Institut for Produktionsdyr og Heste, KU-LIFE.

Opgave 2 (4 delspørgsmål) Data til denne opgave stammer fra den samme undersøgelse af bevægelsesmønsteret hos heste som data fra opgave 1. I anden del af forsøget indgik otte ikke-halte heste, og en symmetriscore blev målt tre gange på hver hest: en gang hvor hesten blev gjort kunstigt halt på venstre forben, en gang hvor hesten blev gjort kunstigt halt på højre forben, og en gang hvor hesten ikke blev gjort halt (kontrol). Den kunstige halthed blev i øvrigt genereret vha. en speciel hestesko med en skrue som hesten fik skruet op i hoven. Symmetriscoren for hver kombination af hest og halthedsstatus er givet i tabellen nedenfor. Halthed Ikke-halt Venstre forben Højre forben Hest b1-0.9914 4.3541-5.4932 Hest b2 1.4710 4.7865-2.7390 Hest b3 1.2459 6.1945-7.3439 Hest b4 0.4024 10.7383-8.7999 Hest b5 0.0325 3.3007-2.8662 Hest b6-0.6396 4.8678-4.9875 Hest b7 0.7246 7.8965-8.3610 Hest b8 0.0604 3.9338-2.4780 Data er indlæst i datasættet heste2, se nedenfor. Datasættet indeholder variablen hest med værdierne b1, b2,..., b8, variablen status med værdierne no (normal, dvs. ikke-halt), vf (venstre forben) og hf (højre forben), samt variablen y med værdierne af symmetriscoren. Datasættet indeholder desuden variablen z som er en transformation af y. Værdierne i z er kvadratroden af den numeriske værdi af y, men med samme fortegn som værdien af y, dvs. { y, y 0 z = y, y < 0 For hest b1 er værdien af z således 4.3541 = 2.08665 for venstre forben og 5.4932 = 2.34376 for højre forben. Data kan naturligt analyseres som et blokforsøg, dvs. som en tosidet variansanalyse uden vekselvirkning. To sådanne analyser er gennemført i SAS nedenfor: I program 1 er y er brugt som responsvariabel, i program 2 er z brugt som responsvariabel. Residualplottene for de to modeller er vist i figuren. 2

Standardiseret residual 2 1 0 1 2 Model for y 6 4 2 0 2 4 6 Forventet værdi Standardiseret residual 1.5 0.5 0.5 1.0 1.5 Model for z 3 2 1 0 1 2 3 Forventet værdi 1. Gør ved hjælp af residualplottene rede for hvilken af modellerne der efter din mening er bedst egnet til at beskrive data. I det følgende skal du kun bruge den model du valgte i spørgsmål 1, dvs. bruge enten y eller z som responsvariabel. 2. Tyder data på at der er forskel på det forventede niveau af responsvariablen i de tre grupper givet ved variablen status? 3. Man er specielt interesseret i om responsvariablen adskiller sig fra ikke-halte heste til heste der er gjort forbenshalte. Giver data anledning til at tro at dette er tilfældet? 4. Modellerne ovenfor indeholder ikke en vekselvirkning mellem variablene hest og status. Forklar hvordan man med de givne data kunne undersøge om dette er en rimelig antagelse. Print af SAS-datasættet heste2 Obs hest status y z 1 b1 no -0.9914-0.99570 2 b1 vf 4.3541 2.08665 3 b1 hf -5.4932-2.34376 4 b2 no 1.4710 1.21284.. [Flere datalinier her]. 24 b8 hf -2.4780-1.57416 3

SAS-program 1 med output (en smule redigeret): y som responsvariabel proc glm data = heste2; class hest status; model y = hest status; means status / tukey cldiff; Sum of Source DF Squares Mean Square F Value Pr > F Model 9 504.0335105 56.0037234 9.04 0.0002 Error 14 86.7482941 6.1963067 Corrected Total 23 590.7818046 R-Square Coeff Var Root MSE y Mean 0.853164 1125.232 2.489238 0.221220 Source DF Type I SS Mean Square F Value Pr > F hest 7 7.3487146 1.0498164 0.17 0.9876 status 2 496.6847959 248.3423980 40.08 <.0001 Source DF Type III SS Mean Square F Value Pr > F hest 7 7.3487146 1.0498164 0.17 0.9876 status 2 496.6847959 248.3423980 40.08 <.0001 Tukey s Studentized Range (HSD) Test for y NOTE: This test controls the Type I experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 14 Error Mean Square 6.196307 Critical Value of Studentized Range 3.70139 Minimum Significant Difference 3.2575 Comparisons significant at the 0.05 level are indicated by ***. Difference status Between Simultaneous 95% Comparison Means Confidence Limits vf - no 5.471 2.213 8.728 *** vf - hf 11.143 7.885 14.400 *** no - vf -5.471-8.728-2.213 *** no - hf 5.672 2.414 8.929 *** hf - vf -11.143-14.400-7.885 *** hf - no -5.672-8.929-2.414 *** 4

SAS-program 2 med output (en smule redigeret): z som responsvariabel proc glm data = heste2; class hest status; model z = hest status; means status / tukey cldiff; Sum of Source DF Squares Mean Square F Value Pr > F Model 9 87.82816469 9.75868497 21.20 <.0001 Error 14 6.44451681 0.46032263 Corrected Total 23 94.27268150 R-Square Coeff Var Root MSE z Mean 0.931640 503.3709 0.678471 0.134785 Source DF Type I SS Mean Square F Value Pr > F hest 7 2.26676946 0.32382421 0.70 0.6698 status 2 85.56139524 42.78069762 92.94 <.0001 Source DF Type III SS Mean Square F Value Pr > F hest 7 2.26676946 0.32382421 0.70 0.6698 status 2 85.56139524 42.78069762 92.94 <.0001 Tukey s Studentized Range (HSD) Test for z NOTE: This test controls the Type I experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 14 Error Mean Square 0.460323 Critical Value of Studentized Range 3.70139 Minimum Significant Difference 0.8879 Comparisons significant at the 0.05 level are indicated by ***. Difference status Between Simultaneous 95% Comparison Means Confidence Limits vf - no 2.0515 1.1636 2.9393 *** vf - hf 4.6155 3.7276 5.5034 *** no - vf -2.0515-2.9393-1.1636 *** no - hf 2.5640 1.6762 3.4519 *** hf - vf -4.6155-5.5034-3.7276 *** hf - no -2.5640-3.4519-1.6762 *** 5

Opgave 3 (5 delspørgsmål) Data til denne opgave stammer fra en undersøgelse om effekten af et bestemt medikament på blodtrykket. Der er data fra syv personer, og hver person fik målt sit blodtryk både før og efter behandling med medikamentet. Data er indlæst i SAS-datasættet blodtryk med variablene person, foer og efter, se nedenfor. 1. Opskriv en statistisk model hvor blodtrykket efter behandling afhænger lineært af blodtrykket før behandling, jævnfør tegning nedenfor. 2. Bestem estimater for alle parametrene i modellen. Bestem desuden et 95%-konfidensinterval for hældningsparameteren. 3. Bestem et estimat og et 95%-konfidensinterval for det forventede blodtryk efter behandling for personer der før behandlingen har blodtryk på 120. 4. En gammel behandlingsmetode menes at nedsætte blodtrykket til 100 for personer der før behandlingen har et blodtryk på 120. Tyder data på at den nye behandling virker bedre end den gamle for personer med blodtryk på 120? 5. En ny forsøgsperson får målt blodtrykket til 120 før behandling og 100 efter behandling. Er det usædvanligt? Blodtryk efter behandling 90 95 100 105 110 95 100 105 110 115 120 125 Blodtryk før behandling 6

Print af SAS-datasættet blodtryk Obs person foer efter 1 1 95 89 2 2 119 103 3 3 119 108 4 4 108 93 5 5 126 110 6 6 128 109 7 7 110 98 SAS-program 1 med output (en smule redigeret) proc reg data = blodtryk; model efter = foer; The REG Procedure Model: MODEL1 Dependent Variable: efter Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 380.02513 380.02513 56.40 0.0007 Error 5 33.68916 6.73783 Corrected Total 6 413.71429 Root MSE 2.59573 R-Square 0.9186 Dependent Mean 101.42857 Adj R-Sq 0.9023 Coeff Var 2.55917 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 21.96877 10.62577 2.07 0.0935 foer 1 0.69095 0.09200 7.51 0.0007 SAS-program 2 med output (en smule redigeret) proc means data=blodtryk n mean css; var foer efter; The MEANS Procedure Variable N Mean Corrected SS foer 7 115.0000000 796.0000000 efter 7 101.4285714 413.7142857 7