Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider. Opgave 1 I denne opgave betragtes et forsøg, hvor man undersøger nikkelallergiske reaktioner. Lymfocytter fra 6 allergikere og 8 ikke-allergikere blev dyrket og stimuleret med allergenet NiSO 4 i to forskellige koncentrationer. På basis af dyrkningen kan man bestemme et stimulationsindex (SI), der viser, hvor meget lymfocytterne prolifererer. Dette er et mål for den allergiske reaktion. Koncentration Gruppe Person Lav Høj 1 10.1 14.9 2 2.0 8.2 Nikkel 3 2.7 3.6 allergiker 4 2.1 3.2 5 2.0 2.8 6 2.2 1.9 7 1.0 1.5 8 0.9 3.2 9 0.9 2.0 Kontrol 10 0.7 0.9 11 1.1 0.9 12 0.2 0.8 13 0.1 0.7 14 0.1 0.3 Simulationsindex inddelt efter gruppe, person og koncentration. Data foreligger i et datasæt med den numeriske variabel SI samt tre faktorer, konc, gruppe og person. Som udgangspunkt antages det at logaritmen til stimulationsindexet kan beskrives ved modellen konc gruppe +person. 1
a) Undersøg hvorvidt stimulationsindexet afhænger af koncentrationen af allergenet og hvorvidt effekten er forskellig for allergikere og ikke-allergikere. b) Afgør om den allergiske reaktion målt ved stimulationsindexet afhænger af faktoren person. c) Diskuter, med udgangspunkt i vedlagte residual- og QQ-plot (normalfordelingsplot) for udgangsmodellen, forudsætningerne for ovenstående analyser. Bilag: Plot, SAS-programmer og udskrifter Data antages at ligge i et SAS-datasæt med de fire variable gruppe, konc, person og logsi, der angiver logaritmen til stimulationsindex. SAS-PROGRAM SAS-UDSKRIFT PROC GLM CLASS gruppe person konc; MODEL logsi=konc gruppe konc*gruppe person; Class Level Information Class Levels Values gruppe 2 allergi kontrol person 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 konc 2 hoj lav Number of Observations Read 28 Number of Observations Used 28 Dependent Variable: logsi Sum of Source DF Squares Mean Square F Value Pr > F Model 15 36.58464033 2.43897602 12.43 <.0001 Error 12 2.35423106 0.19618592 Corr. Tot. 27 38.93887139 2
R-Square Coeff Var Root MSE logsi Mean 0.939540 142.1582 0.442929 0.311575 Source DF Type I SS Mean Square F Value Pr > F konc 1 3.32754199 3.32754199 16.96 0.0014 gruppe 1 18.96791581 18.96791581 96.68 <.0001 gruppe*konc 1 0.30165201 0.30165201 1.54 0.2387 person 12 13.98753053 1.16562754 5.94 0.0021 Opgave 2 HIV virus er en hurtigt muterende virus, og den forefindes i mange forskellige genotyper. Genotypen kan influere på replikationskapaciteten for den pågældende virus. Det kan så videre influere på, hvordan virus udvikler sig, smitter og spredes. I denne opgave betragtes et forsøg, hvor man undersøger replikationskapaciteten for HIV-1 subtype C virus fra 96 kvinder fra Malawi. Kvinderne er udvalgt bl.a. fordi de lige har født, og de inddeles i to grupper; transmittere og ikke-transmittere. Transmitternes børn er enten ved fødslen eller efter 6-8 uger smittet med HIV, hvorimod børn af ikke-transmittere er raske i de første 6-8 uger efter fødslen. Replikationskapaciteten for virus fra hver kvinde blev målt relativt til medianen i en subtype B (wild-type) virus population. Tabellen nedenfor angiver gennemsnit og estimeret standardafvigelse for replikationskapaciteten i % for de to grupper. Transmittere Ikke-transmittere n 1 = 49 n 2 = 47 37.2% (19.3%) 27.5% (18.3%) Gennemsnit (estimeret standardafvigelse) for HIV-1 subtype C replikationskapaciteten. a) Beregn et 95% konfidensinterval for middelværdien af den relative replikationskapacitet for gruppen af transmittere. b) Undersøg om replikationskapaciteten for de to grupper, transmittere og ikketransmittere, er ens. Hvad er forudsætningerne for analysen? c) Undersøg om variansen af den relative replikationskapacitet kan antages at være ens i de to grupper af transmittere og ikke-transmittere. Data stammer fra: Eshleman, S. H. et al. The Journal of Infectious Diseases 2006, 193, 1512-1515. 3
Opgave 3 I et immunologisk forsøg undersøger man immunresponset 60 dage efter fire forskelle behandlinger. Immunresponset måles ved en titerværdi. Forsøget udføres på mus, og hver af de fire behandlinger gives til 5 mus. Tre af behandlingerne, her betegnet A, B og C, er vacciner og den fjerde, PBS, er en kontrol, hvor musene kun behandles med en saltopløsning. Behandling A B C PBS 4323.26 1537.55 495.28 240.44 5837.27 4560.84 1820.00 65.28 1142.53 3796.90 3135.92 123.40 5348.29 1238.37 717.23 164.02 772.17 549.80 1697.96 166.71 Titerværdier for de 20 mus inddelt efter behandling. a) Vis at variansen af titerværdierne ikke kan antages at være ens for de fire grupper. Vis dernæst, at vi ikke kan afvise at variansen af logaritmen til titerværdierne er ens i de fire grupper. b) Undersøg ved hjælp af en ensidet variansanalyse hvorvidt titerværdierne kan antages at være ens i alle fire grupper. Afgør dernæst hvorvidt titerværdierne for alle tre vacciner er signifikant forskellige fra kontrollen. c) Afgør om der er signifikant forskel på de to behandlinger A og B. Bilag: SAS-programmer og udskrifter Data antages at ligge i et SAS-datasæt med de tre variable behand, der angiver behandling, titer, der angiver titerværdi og logtiter, der angiver logaritmen til titerværdien. SAS-PROGRAM 1 SAS-UDSKRIFT 1 (redigeret) PROC GLM; CLASS behand; MODEL titer=behand; MEANS behand/hovtest=bartlett; Bartlett s Test for Homogeneity of titer Variance Source DF Chi-Square Pr > ChiSq behand 3 22.1974 <.0001 4
SAS-PROGRAM 2 SAS-UDSKRIFT 2 PROC GLM; CLASS behand; MODEL logtiter=behand; MEANS behand/hovtest=bartlett; Dependent Variable: logtiter Class Level Information Class Levels Values behand 4 A B C PBS Number of Observations Read 20 Number of Observations Used 20 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 25.89894795 8.63298265 14.15 <.0001 Error 16 9.76509122 0.61031820 Corr. Tot. 19 35.66403917 R-Square Coeff Var Root MSE logtiter Mean 0.726192 11.38630 0.781229 6.861129 Source DF Type I SS Mean Square F Value Pr > F behand 3 25.89894795 8.63298265 14.15 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 4.938566310 B 0.34937607 14.14 <.0001 behand A 2.925137851 B 0.49409238 5.92 <.0001 behand B 2.548684429 B 0.49409238 5.16 <.0001 behand C 2.216428148 B 0.49409238 4.49 0.0004 behand PBS 0.000000000 B... Bartlett s Test for Homogeneity of logtiter Variance Source DF Chi-Square Pr > ChiSq behand 3 1.6126 0.6565 5
Opgave 4 For type I diabetes patienter betragter vi i denne opgave sammenhængen mellem glykosekoncentrationen i blodet og ventriklernes sammentrækningshastighed. Glykosen måles i mmol/l og sammentrækningshastighed er målt som en gennemsnitlig hastighed for forkortningen af omkredsen. Man kan i det følgende antage at de samhørende værdier, (x i, y i ), i = 1,...,23, af glykosekoncentration, x i, og sammentrækningshastighed, y i, kan beskrives ved den linære regressionsmodel: y i = β 0 + β 1 x i + ɛ i hvor ɛ i for i = 1,...,23 er uafhængige og identisk normalfordelte med middelværdi 0 og standardafvigelse σ. Glykose Hastighed 15.3 1.76 10.8 1.34 8.1 1.27 19.5 1.47 7.2 1.27 5.3 1.49 9.3 1.31 11.1 1.09 7.5 1.18 12.2 1.22 6.7 1.25 5.2 1.19 19.0 1.95 15.1 1.28 6.7 1.52 4.2 1.12 10.3 1.37 12.5 1.19 16.1 1.05 13.3 1.32 4.9 1.03 8.8 1.12 9.5 1.70 Samhørende værdier af glykosekoncentration og sammentrækningshastighed. a) Angiv estimatet for regressionslinjen. Beregn et 95% konfidensinterval for interceptet β 0. 6
I det følgende antages det, at vi for personer uden diabetes ved, at den lineære regressionslinje har hældning β 1 = 0.012 og intercept β 0 = 0.9. Disse størrelser kan altså i det følgende anses for kendte. b) Afgør hvorvidt interceptet for patienterne med type I diabetes er signifikant forskellig fra interceptet for personer uden diabetes. Afgør derefter hvorvidt hældningen for patienterne med type I diabetes er signifikant forskellig fra hældningen for personer uden diabetes. c) Beregn et 95% konfidensinterval for regressionslinjen hvis glykosekoncentrationen er 10.0. Afgør hvorvidt sammentrækningshastigheden for patienter med type I diabetes er signifikant forskellig fra sammentrækningshastigheden for personer uden diabetes hvis glykosekoncentrationen er 10.0. Data stammer fra D.G. Altman (1991), Practical Statistics for Medical Research, Table 11.6, Chapman & Hall Bilag: SAS-programmer og udskrifter Data antages at ligge i et SAS-datasæt med de to variable gly, der angiver glykosekoncentrationen i blodet og has, der angiver ventriklernes sammentrækningshastighed. SAS-PROGRAM 1 PROC REG; MODEL has=gly; SAS-UDSKRIFT 1 The REG Procedure Model: MODEL1 Dependent Variable: has Number of Observations Read 23 Number of Observations Used 23 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 0.20727 0.20727 4.41 0.0479 Error 21 0.98610 0.04696 Corr. Tot. 22 1.19337 Root MSE 0.21670 R-Square 0.1737 Dependent Mean 1.32565 Adj R-Sq 0.1343 Coeff Var 16.34634 7
Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 1.09781 0.11748 9.34 <.0001 gly 1 0.02196 0.01045 2.10 0.0479 PROGRAM 2 UDSKRIFT 2 PROC MEANS N MEAN CSS; VAR gly has; The MEANS Procedure Variable N Mean Corrected SS gly 23 10.3739130 429.7043478 has 23 1.3256522 1.1933652 8