Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider. Opgave 1 Mange amerikanske Vietnamveteraner, der har været udsat for afløvningsmidlet Agent Orange, har høje værdier af TCDD (2,3,7,8 tetrachlorodibenzo-p-dioxin) i blod og fedtvæv. Nedenstående data repræsenterer målinger af TCDD i blodplasma fra 20 veteraner. Det kan antages at logaritmen til dioxinniveauet er normalfordelt. Ved besvarelsen af opgaven kan resultater fra SAS-udskriften benyttes. Målinger af TCDD i blodplasma fra 20 veteraner. Veteran TCDD niveau Veteran TCDD niveau 1 2.5 11 6.9 2 3.1 12 3.3 3 2.1 13 4.6 4 3.5 14 1.6 5 3.1 15 7.2 6 1.8 16 1.8 7 6.0 17 20.0 8 3.0 18 2.0 9 36.0 19 2.5 10 4.7 20 4.1 a) Angiv et 95% konfidensinterval for middelværdien af logaritmen til dioxinniveauet. b) Angiv et et 99% konfidensinterval for middelværdien af logaritmen til dioxinniveauet. c) Ville en hypotese om et niveau på 1.1 for logaritmen til dioxinniveauet blive godkendt ved et test på 5%-niveau? 1
Kilde: Schecter, A. et al Partitioning of 2,3,7,8-chlorinated dibenzo-p-dioxins and dibenzofurans between adipose tissue and plasma lipid of 20 Massachusetts Vietnam veterans. Chemosphere, Vol. 20. Nos 7-9 pp. 954-955. Bilag: SAS-programmer og udskrifter Data antages at ligge i datasættet dioxin med variablen logdiox, der angiver logaritmen til dioxinniveauet i plasma. SAS-PROGRAM SAS-UDSKRIFT PROC TTEST DATA=dioxin H0=1.1 ALPHA=0.05; VAR logdiox; The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err logdiox 20 1.0024 1.3741 1.7459 0.6041 0.7943 1.1602 0.1776 T-Tests Variable DF t Value Pr > t logdiox 19 1.54 0.1392 Opgave 2 Man kan måle genekspression vha. microarray chips, hvor hvert enkelt gen er repræsenteret af en eller flere prober. På E. coli Affymetrix GeneChip microarrays er 7312 gener repræsenteret, og hvert af generne er endvidere repræsenteret af et antal prober. Hver probe består i dette tilfælde af korte oligonukleotider fra DNA-sekvensen, der koder for genet, og proberne fungerer ved, at mrna binder sig til proberne for det pågældende gen. De forskellige prober svarer til forskellige positioner på mrna-molekylet. I denne opgave betragter vi data fra et forsøg, der går ud på at undersøge effekten af et regulatorisk protein (Lrp) på de øvrige gener. Til det formål betragtets to E. coli stammer, som i det følgende betegnes lrp+ og lrp. Stammen, som vi betegner lrp, er en knock-out stamme, hvor Lrp genet er fjernet. Endvidere betragter vi kun ekspressionsmålingerne for et enkelt gen, nemlig genet SerA, der er involveret i serine biosyntese. Data består af ekspressionsmålinger fra 8 arrays, 4 lrp+ og 4 lrp, og for hvert array er der 12 prober, der repræsenterer genet SerA. 2
Array lrp lrp+ Probe 1 2 3 4 5 6 7 8 1 1954.0 2722.3 2091.3 4636.5 15763.3 14785.8 6491.8 28630.3 2 6793.3 7105.8 5531.0 7845.0 41636.8 33743.3 17662 38626.0 3 5767.5 5026.8 4322.5 9343.5 36610.3 21674.8 10866.3 43791.8 4 833.3 1214.5 2434.3 2533.0 4095.5 3020.0 8463.8 9257.0 5 6460.3 5138.0 5072.8 8885.5 23029.0 17997.3 10760.5 39317.5 6 2118.5 2352.3 2619.5 4167.8 14067.0 11841.5 8033.3 21504.5 7 2249.3 3530.3 5631.3 5997.8 11795.0 17849.3 15711.0 29508.3 8 1783.8 2090.0 2419.3 4189.8 10185.8 8374.0 4968.3 21313.3 9 1956.0 2403.3 2080.3 5325.3 11255.3 10159.5 4116.3 30799.8 10 2838.8 3395.8 3603.0 7222.0 22163.5 21146.5 11622.5 41685.5 11 3512.8 4247.3 3835.8 4828.0 19289.3 23308.8 12239.8 23385.8 12 5698.8 8491.3 3528.5 8073.3 20134.0 19844.8 9067.0 33781.3 I analyserne nedenfor benyttes logaritmen til expressionsmålingerne, og ved besvarelsen af spørgsmålene inddrages resultater fra SAS-udskrifterne. a) Vi betragter i første omgang en to-sidet variansanalyse med faktorerne probe og lrp. Gør rede for, at sådan en analyse viser, at der forskel på ekspressionen af SerA i de to stammer lrp+ og lrp. Det er en generel erfaring, at der er en betydelig variation mellem arrays. Derfor burde man formodentlig inddrage array som en blokfaktor. b) Tegn et faktorstrukturdiagram med de tre faktorer probe, lrp og array og vis derefter, at man ikke kan set bort fra variationen mellem arrays. c) Afgør i lyset af spørgsmål b) hvorvidt konklusionen i a) kan opretholdes på baggrund af analyserne ovenfor. Man forventer en effekt af probe bla. grundet forskelle i bindingsaffiniteten. d) Undersøg hvorvidt effekten af probe afhænger af hvilken stamme, lrp+ eller lrp, vi ser på. e) Afgør hvorvidt der er en effekt af probe. f) Gør rede for forudsætningerne for analyserne i spørgsmål b), d) og e). Datamaterialet stammer fra S. Hung, P. Baldi and G. W. Hatfield, The Journal of Biological Chemistry, 277(43), 40309-40323, 2002 Bilag: SAS-programmer og udskrifter Data antages at ligge i SAS-datasættet ekspres med de 4 variable probe, der angiver probe, lrp, der angiver stamme, array, der angiver array og logekspres, der angiver logaritmen til expressionsmålingerne. 3
SAS-PROGRAM 1 PROC GLM; CLASS probe lrp; MODEL logekspres=probe lrp/ss1; SAS-UDSKRIFT 1 Class Level Information Class Levels Values probe 12 1 2 3 4 5 6 7 8 9 10 11 12 lrp 2 + - Number of Observations Read 96 Number of Observations Used 96 Dependent Variable: logekspres Sum of Source DF Squares Mean Square F Value Pr > F Model 23 68.65714147 2.98509311 13.84 <.0001 Error 72 15.52714626 0.21565481 Corrected Total 95 84.18428773 R-Square Coeff Var Root MSE logekspres Mean 0.815558 5.189937 0.464386 8.947825 Source DF Type I SS Mean Square F Value Pr > F probe 11 18.11040282 1.64640026 7.63 <.0001 lrp 1 49.81795779 49.81795779 231.01 <.0001 probe*lrp 11 0.72878086 0.06625281 0.31 0.9822 SAS-PROGRAM 2 SAS-UDSKRIFT 2 PROC GLM; CLASS probe array lrp; MODEL logekspres=probe lrp array/ss1; Class Level Information Class Levels Values probe 12 1 2 3 4 5 6 7 8 9 10 11 12 array 8 1 2 3 4 5 6 7 8 lrp 2 + - Number of Observations Read 96 Number of Observations Used 96 4
Dependent Variable: logekspres Sum of Source DF Squares Mean Square F Value Pr > F Model 29 79.25171296 2.73281769 36.57 <.0001 Error 66 4.93257477 0.07473598 Corrected Total 95 84.18428773 R-Square Coeff Var Root MSE logekspres Mean 0.941407 3.055254 0.273379 8.947825 Source DF Type I SS Mean Square F Value Pr > F probe 11 18.11040282 1.64640026 22.03 <.0001 lrp 1 49.81795779 49.81795779 666.59 <.0001 probe*lrp 11 0.72878086 0.06625281 0.89 0.5577 array 6 10.59457149 1.76576192 23.63 <.0001 Opgave 3 Nedenstående tabel viser sammenhængen mellem CO målt i en persons lunger og tiden siden personen sidst røg en cigaret. Det kan i det følgende antages, at CO-målingerne er normalfordelte med samme varians og at middelværdien for CO-niveauet i det betragtede interval kan beskrives ved en lineær funktion af tiden siden sidste cigaret. Ved besvarelsen af opgaven kan resultater fra SASudskrifterne benyttes. Sammenhørende værdier af målt CO og tid siden sidste cigaret Timer 0.50 1.50 2.00 6.00 2.25 1.50 1.25 0.75 0.15 2.00 3.15 1.50 CO 53 22 38 17 28 32 35 40 61 22 28 31 a) Angiv et estimat for regressionslinjen, og beregn et 95% konfidensinterval for hældningen β 1. b) Giv et estimat for CO-niveauet 1 time efter personen sidste gang røg en cigaret og beregn et 95% konfidensinterval for den estimerede værdi af regressionslinjen i dette punkt. c) Kan linjen antages at have hældningen 0? Kilde: T. Vogt, S.B. Hulley, S. Selvin and G. Widdowson Expired air carbon monoxide and serum thiocyanate as objective measures of cigarette exposure. American Journal of Public Health, 67:545-549 (1977). 5
Bilag: SAS-programmer og udskrifter Data antages at ligge i datasættet COniveau med de to variable COniveau, der angiver CO-niveau i lunger og timer der angiver antal timer siden den sidste cigaret. SAS-PROGRAM 1 PROC REG; MODEL COniveau=timer; SAS-UDSKRIFT 1 The REG Procedure Model: MODEL1 Dependent Variable: COniveau Number of Observations Read 12 Number of Observations Used 12 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 929.38872 929.38872 10.62 0.0086 Error 10 875.52795 87.55279 Corrected Total 11 1804.91667 Root MSE 9.35697 R-Square 0.5149 Dependent Mean 33.91667 Adj R-Sq 0.4664 Coeff Var 27.58810 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 45.20459 4.39310 10.29 <.0001 timer 1-6.00688 1.84368-3.26 0.0086 PROGRAM 2 UDSKRIFT 2 PROC MEANS N MEAN CSS; VAR timer COniveau; The MEANS Procedure Variable N Mean Corrected SS timer 12 1.8791667 25.7572917 COniveau 12 33.9166667 1804.92 6
Opgave 4 Nedenstående målinger stammer fra en undersøgelse af svampe i hedejord. Fra et stykke hede med homogen variation blev der på hver af 4 tidspunkter, A, B, C og D udtaget 5 prøver. Fra disse prøver blev lyngrødderne vasket ud. Svampebelastningen på rødderne (mykorrhiza) blev undersøgt ved mikroskopi, og procentdelen af rodceller med svampe blev gjort op. Resultaterne er angivet nedenfor. Det kan antages, at observationerne er stokastisk uafhængige og normalfordelte. Ved besvarelsen af opgaven kan resultater fra SAS-udskriften benyttes. Procentdel af rodceller med svampe på 4 høsttidspunkter Tid Procent rodceller med svampe A 37.00 44.50 47.25 47.50 45.75 B 42.00 31.00 43.25 46.75 37.25 C 46.75 43.50 37.50 50.50 47.50 D 38.00 47.50 28.25 35.50 39.75 a) Vis, at observationerne i de fire grupper kan antages at have samme varians. b) Vis, at det kan antages at procentdelen af rodceller med svampe ikke varierer med tiden. c) Undersøg om data er forenelige med en hypotese om, at procentdelen af rodceller med svampe er 32. Data er stillet til rådighed af Torben Riis-Nielsen, Botanisk Institut, Københavns Universitet. Bilag: SAS-programmer og udskrifter Data antages at ligge i datasættet svampe med de to variable tid, der angiver tidspunkt, og procent, der angiver procentdelen af rodceller med svampe. SAS-PROGRAM PROC GLM DATA=svampe; CLASS tid; MODEL procent=tid; MEANS tid/hovtest=bartlett; 7
SAS-UDSKRIFT Class Level Information Class Levels Values tid 4 A B C D Number of Observations Read 20 Number of Observations Used 20 Dependent Variable: procent Sum of Source DF Squares Mean Square F Value Pr > F Model 3 185.1750000 61.7250000 1.92 0.1677 Error 16 515.3750000 32.2109375 Corrected Total 19 700.5500000 R-Square Coeff Var Root MSE procent Mean 0.264328 13.56145 5.675468 41.85000 Bartlett s Test for Homogeneity of procent Variance Source DF Chi-Square Pr > ChiSq tid 3 0.9770 0.8068 Level of -----------procent----------- tid N Mean Std Dev A 5 44.4000000 4.31059741 B 5 40.0500000 6.09661791 C 5 45.1500000 4.94848462 D 5 37.8000000 6.97181827 8