Eksamen i Statistik for biokemikere. Blok

Relaterede dokumenter
Eksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for Biokemikere, Blok januar 2009

Reeksamen i Statistik for Biokemikere 6. april 2009

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Reeksamen i Statistik for biokemikere. Blok

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Eksamen i Statistik for biokemikere. Blok

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Besvarelse af vitcap -opgaven

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

k normalfordelte observationsrækker (ensidet variansanalyse)

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Regressionsanalyse i SAS

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Lineær regression i SAS. Lineær regression i SAS p.1/20

Besvarelse af juul2 -opgaven

En Introduktion til SAS. Kapitel 5.

Skriftlig eksamen Science statistik- ST501

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Vejledende besvarelse af hjemmeopgave, efterår 2018

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Opgavebesvarelse, brain weight

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Generelle lineære modeller

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

En Introduktion til SAS. Kapitel 6.

Restsaltmængdernes afhængighed af trafikken,

Besvarelse af opgave om Vital Capacity

Modul 11: Simpel lineær regression

Multipel Lineær Regression

Opgavebesvarelse, brain weight

Vejledende besvarelse af hjemmeopgave

Opgavebesvarelse, Basalkursus, uge 2

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Besvarelse af opgave om Vital Capacity

Statistiske Modeller 1: Kontingenstabeller i SAS

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

To-sidet varians analyse

Supplerende opgaver. 2. Beregn gennemsnit og median for variablen Serum Creatinine. 3. Beregn gennemsnit og varians for BMI delt op efter Sex.

Afdeling for Anvendt Matematik og Statistik December 2006

Forelæsning 11: Kapitel 11: Regressionsanalyse

Basal statistik. 21. oktober 2008

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Vejledende besvarelse af hjemmeopgave, efterår 2016

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Vejledende besvarelse af hjemmeopgave, forår 2018

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik for Biokemikere Projekt

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2016

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Vejledende besvarelse af hjemmeopgave, efterår 2017

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Module 12: Mere om variansanalyse

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Konfidensintervaller og Hypotesetest

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Eksempel , opg. 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Løsning eksamen d. 15. december 2008

Klasseøvelser dag 2 Opgave 1

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Postoperative komplikationer

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

2. januar 2015 Proj.nr Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Phd-kursus i Basal Statistik, Opgaver til 2. uge

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsning til opgave i logistisk regression

Opgavebesvarelse, korrelerede målinger

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Modelkontrol i Faktor Modeller

Transkript:

Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider. Opgave 1 Mange amerikanske Vietnamveteraner, der har været udsat for afløvningsmidlet Agent Orange, har høje værdier af TCDD (2,3,7,8 tetrachlorodibenzo-p-dioxin) i blod og fedtvæv. Nedenstående data repræsenterer målinger af TCDD i blodplasma fra 20 veteraner. Det kan antages at logaritmen til dioxinniveauet er normalfordelt. Ved besvarelsen af opgaven kan resultater fra SAS-udskriften benyttes. Målinger af TCDD i blodplasma fra 20 veteraner. Veteran TCDD niveau Veteran TCDD niveau 1 2.5 11 6.9 2 3.1 12 3.3 3 2.1 13 4.6 4 3.5 14 1.6 5 3.1 15 7.2 6 1.8 16 1.8 7 6.0 17 20.0 8 3.0 18 2.0 9 36.0 19 2.5 10 4.7 20 4.1 a) Angiv et 95% konfidensinterval for middelværdien af logaritmen til dioxinniveauet. b) Angiv et et 99% konfidensinterval for middelværdien af logaritmen til dioxinniveauet. c) Ville en hypotese om et niveau på 1.1 for logaritmen til dioxinniveauet blive godkendt ved et test på 5%-niveau? 1

Kilde: Schecter, A. et al Partitioning of 2,3,7,8-chlorinated dibenzo-p-dioxins and dibenzofurans between adipose tissue and plasma lipid of 20 Massachusetts Vietnam veterans. Chemosphere, Vol. 20. Nos 7-9 pp. 954-955. Bilag: SAS-programmer og udskrifter Data antages at ligge i datasættet dioxin med variablen logdiox, der angiver logaritmen til dioxinniveauet i plasma. SAS-PROGRAM SAS-UDSKRIFT PROC TTEST DATA=dioxin H0=1.1 ALPHA=0.05; VAR logdiox; The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err logdiox 20 1.0024 1.3741 1.7459 0.6041 0.7943 1.1602 0.1776 T-Tests Variable DF t Value Pr > t logdiox 19 1.54 0.1392 Opgave 2 Man kan måle genekspression vha. microarray chips, hvor hvert enkelt gen er repræsenteret af en eller flere prober. På E. coli Affymetrix GeneChip microarrays er 7312 gener repræsenteret, og hvert af generne er endvidere repræsenteret af et antal prober. Hver probe består i dette tilfælde af korte oligonukleotider fra DNA-sekvensen, der koder for genet, og proberne fungerer ved, at mrna binder sig til proberne for det pågældende gen. De forskellige prober svarer til forskellige positioner på mrna-molekylet. I denne opgave betragter vi data fra et forsøg, der går ud på at undersøge effekten af et regulatorisk protein (Lrp) på de øvrige gener. Til det formål betragtets to E. coli stammer, som i det følgende betegnes lrp+ og lrp. Stammen, som vi betegner lrp, er en knock-out stamme, hvor Lrp genet er fjernet. Endvidere betragter vi kun ekspressionsmålingerne for et enkelt gen, nemlig genet SerA, der er involveret i serine biosyntese. Data består af ekspressionsmålinger fra 8 arrays, 4 lrp+ og 4 lrp, og for hvert array er der 12 prober, der repræsenterer genet SerA. 2

Array lrp lrp+ Probe 1 2 3 4 5 6 7 8 1 1954.0 2722.3 2091.3 4636.5 15763.3 14785.8 6491.8 28630.3 2 6793.3 7105.8 5531.0 7845.0 41636.8 33743.3 17662 38626.0 3 5767.5 5026.8 4322.5 9343.5 36610.3 21674.8 10866.3 43791.8 4 833.3 1214.5 2434.3 2533.0 4095.5 3020.0 8463.8 9257.0 5 6460.3 5138.0 5072.8 8885.5 23029.0 17997.3 10760.5 39317.5 6 2118.5 2352.3 2619.5 4167.8 14067.0 11841.5 8033.3 21504.5 7 2249.3 3530.3 5631.3 5997.8 11795.0 17849.3 15711.0 29508.3 8 1783.8 2090.0 2419.3 4189.8 10185.8 8374.0 4968.3 21313.3 9 1956.0 2403.3 2080.3 5325.3 11255.3 10159.5 4116.3 30799.8 10 2838.8 3395.8 3603.0 7222.0 22163.5 21146.5 11622.5 41685.5 11 3512.8 4247.3 3835.8 4828.0 19289.3 23308.8 12239.8 23385.8 12 5698.8 8491.3 3528.5 8073.3 20134.0 19844.8 9067.0 33781.3 I analyserne nedenfor benyttes logaritmen til expressionsmålingerne, og ved besvarelsen af spørgsmålene inddrages resultater fra SAS-udskrifterne. a) Vi betragter i første omgang en to-sidet variansanalyse med faktorerne probe og lrp. Gør rede for, at sådan en analyse viser, at der forskel på ekspressionen af SerA i de to stammer lrp+ og lrp. Det er en generel erfaring, at der er en betydelig variation mellem arrays. Derfor burde man formodentlig inddrage array som en blokfaktor. b) Tegn et faktorstrukturdiagram med de tre faktorer probe, lrp og array og vis derefter, at man ikke kan set bort fra variationen mellem arrays. c) Afgør i lyset af spørgsmål b) hvorvidt konklusionen i a) kan opretholdes på baggrund af analyserne ovenfor. Man forventer en effekt af probe bla. grundet forskelle i bindingsaffiniteten. d) Undersøg hvorvidt effekten af probe afhænger af hvilken stamme, lrp+ eller lrp, vi ser på. e) Afgør hvorvidt der er en effekt af probe. f) Gør rede for forudsætningerne for analyserne i spørgsmål b), d) og e). Datamaterialet stammer fra S. Hung, P. Baldi and G. W. Hatfield, The Journal of Biological Chemistry, 277(43), 40309-40323, 2002 Bilag: SAS-programmer og udskrifter Data antages at ligge i SAS-datasættet ekspres med de 4 variable probe, der angiver probe, lrp, der angiver stamme, array, der angiver array og logekspres, der angiver logaritmen til expressionsmålingerne. 3

SAS-PROGRAM 1 PROC GLM; CLASS probe lrp; MODEL logekspres=probe lrp/ss1; SAS-UDSKRIFT 1 Class Level Information Class Levels Values probe 12 1 2 3 4 5 6 7 8 9 10 11 12 lrp 2 + - Number of Observations Read 96 Number of Observations Used 96 Dependent Variable: logekspres Sum of Source DF Squares Mean Square F Value Pr > F Model 23 68.65714147 2.98509311 13.84 <.0001 Error 72 15.52714626 0.21565481 Corrected Total 95 84.18428773 R-Square Coeff Var Root MSE logekspres Mean 0.815558 5.189937 0.464386 8.947825 Source DF Type I SS Mean Square F Value Pr > F probe 11 18.11040282 1.64640026 7.63 <.0001 lrp 1 49.81795779 49.81795779 231.01 <.0001 probe*lrp 11 0.72878086 0.06625281 0.31 0.9822 SAS-PROGRAM 2 SAS-UDSKRIFT 2 PROC GLM; CLASS probe array lrp; MODEL logekspres=probe lrp array/ss1; Class Level Information Class Levels Values probe 12 1 2 3 4 5 6 7 8 9 10 11 12 array 8 1 2 3 4 5 6 7 8 lrp 2 + - Number of Observations Read 96 Number of Observations Used 96 4

Dependent Variable: logekspres Sum of Source DF Squares Mean Square F Value Pr > F Model 29 79.25171296 2.73281769 36.57 <.0001 Error 66 4.93257477 0.07473598 Corrected Total 95 84.18428773 R-Square Coeff Var Root MSE logekspres Mean 0.941407 3.055254 0.273379 8.947825 Source DF Type I SS Mean Square F Value Pr > F probe 11 18.11040282 1.64640026 22.03 <.0001 lrp 1 49.81795779 49.81795779 666.59 <.0001 probe*lrp 11 0.72878086 0.06625281 0.89 0.5577 array 6 10.59457149 1.76576192 23.63 <.0001 Opgave 3 Nedenstående tabel viser sammenhængen mellem CO målt i en persons lunger og tiden siden personen sidst røg en cigaret. Det kan i det følgende antages, at CO-målingerne er normalfordelte med samme varians og at middelværdien for CO-niveauet i det betragtede interval kan beskrives ved en lineær funktion af tiden siden sidste cigaret. Ved besvarelsen af opgaven kan resultater fra SASudskrifterne benyttes. Sammenhørende værdier af målt CO og tid siden sidste cigaret Timer 0.50 1.50 2.00 6.00 2.25 1.50 1.25 0.75 0.15 2.00 3.15 1.50 CO 53 22 38 17 28 32 35 40 61 22 28 31 a) Angiv et estimat for regressionslinjen, og beregn et 95% konfidensinterval for hældningen β 1. b) Giv et estimat for CO-niveauet 1 time efter personen sidste gang røg en cigaret og beregn et 95% konfidensinterval for den estimerede værdi af regressionslinjen i dette punkt. c) Kan linjen antages at have hældningen 0? Kilde: T. Vogt, S.B. Hulley, S. Selvin and G. Widdowson Expired air carbon monoxide and serum thiocyanate as objective measures of cigarette exposure. American Journal of Public Health, 67:545-549 (1977). 5

Bilag: SAS-programmer og udskrifter Data antages at ligge i datasættet COniveau med de to variable COniveau, der angiver CO-niveau i lunger og timer der angiver antal timer siden den sidste cigaret. SAS-PROGRAM 1 PROC REG; MODEL COniveau=timer; SAS-UDSKRIFT 1 The REG Procedure Model: MODEL1 Dependent Variable: COniveau Number of Observations Read 12 Number of Observations Used 12 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 929.38872 929.38872 10.62 0.0086 Error 10 875.52795 87.55279 Corrected Total 11 1804.91667 Root MSE 9.35697 R-Square 0.5149 Dependent Mean 33.91667 Adj R-Sq 0.4664 Coeff Var 27.58810 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 45.20459 4.39310 10.29 <.0001 timer 1-6.00688 1.84368-3.26 0.0086 PROGRAM 2 UDSKRIFT 2 PROC MEANS N MEAN CSS; VAR timer COniveau; The MEANS Procedure Variable N Mean Corrected SS timer 12 1.8791667 25.7572917 COniveau 12 33.9166667 1804.92 6

Opgave 4 Nedenstående målinger stammer fra en undersøgelse af svampe i hedejord. Fra et stykke hede med homogen variation blev der på hver af 4 tidspunkter, A, B, C og D udtaget 5 prøver. Fra disse prøver blev lyngrødderne vasket ud. Svampebelastningen på rødderne (mykorrhiza) blev undersøgt ved mikroskopi, og procentdelen af rodceller med svampe blev gjort op. Resultaterne er angivet nedenfor. Det kan antages, at observationerne er stokastisk uafhængige og normalfordelte. Ved besvarelsen af opgaven kan resultater fra SAS-udskriften benyttes. Procentdel af rodceller med svampe på 4 høsttidspunkter Tid Procent rodceller med svampe A 37.00 44.50 47.25 47.50 45.75 B 42.00 31.00 43.25 46.75 37.25 C 46.75 43.50 37.50 50.50 47.50 D 38.00 47.50 28.25 35.50 39.75 a) Vis, at observationerne i de fire grupper kan antages at have samme varians. b) Vis, at det kan antages at procentdelen af rodceller med svampe ikke varierer med tiden. c) Undersøg om data er forenelige med en hypotese om, at procentdelen af rodceller med svampe er 32. Data er stillet til rådighed af Torben Riis-Nielsen, Botanisk Institut, Københavns Universitet. Bilag: SAS-programmer og udskrifter Data antages at ligge i datasættet svampe med de to variable tid, der angiver tidspunkt, og procent, der angiver procentdelen af rodceller med svampe. SAS-PROGRAM PROC GLM DATA=svampe; CLASS tid; MODEL procent=tid; MEANS tid/hovtest=bartlett; 7

SAS-UDSKRIFT Class Level Information Class Levels Values tid 4 A B C D Number of Observations Read 20 Number of Observations Used 20 Dependent Variable: procent Sum of Source DF Squares Mean Square F Value Pr > F Model 3 185.1750000 61.7250000 1.92 0.1677 Error 16 515.3750000 32.2109375 Corrected Total 19 700.5500000 R-Square Coeff Var Root MSE procent Mean 0.264328 13.56145 5.675468 41.85000 Bartlett s Test for Homogeneity of procent Variance Source DF Chi-Square Pr > ChiSq tid 3 0.9770 0.8068 Level of -----------procent----------- tid N Mean Std Dev A 5 44.4000000 4.31059741 B 5 40.0500000 6.09661791 C 5 45.1500000 4.94848462 D 5 37.8000000 6.97181827 8