Statistik for Biokemikere Projekt

Relaterede dokumenter
Eksempel , opg. 2

Eksamen i Statistik for biokemikere. Blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Modelkontrol i Faktor Modeller

Opgaver til kapitel 3

Reeksamen i Statistik for Biokemikere 6. april 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Eksamen i Statistik for biokemikere. Blok

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november)

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Hjemmeopgave, efterår 2009

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Følgende tabel (fra Fisher) giver forøgelsen af sovetiden i timer fra et eksperiment med 10 patienter vedrørende 2 sovemidler A og B.

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik i GeoGebra

Statistik II 1. Lektion. Analyse af kontingenstabeller

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Regressionsanalyse i SAS

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Statistik Obligatorisk opgave

Basal Statistik - SPSS

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber.

Matematik B. Højere handelseksamen. Mandag den 17. august 2015 kl hhx152-mat/b

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet.

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Basal Statistik - SPSS

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

LUP Fødende læsevejledning til afdelingsrapporter

Økonometri 1 Efterår 2006 Ugeseddel 11

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.

Lineær og logistisk regression

Project in Statistics MB

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Stokastiske processer og køteori

Skriftlig eksamen Science statistik- ST501

Matematik A. Højere handelseksamen

ISCC. IMM Statistical Consulting Center. Brugervejledning til beregningsmodul til robust estimation af nugget effect. Technical University of Denmark

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Danmarks Statistik. Retningslinjerne for brug af Forskermaskiner Institut for Folkesundhed Aarhus Universitet

Matematik A. Højere handelseksamen. Vejledende opgave 2

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Forvaltning / Politik og Administration / Socialvidenskab

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Matematik A. Højere handelseksamen. Mandag den 15. december 2014 kl hhx143-mat/a

Produkt og marked - matematiske og statistiske metoder

LUP læsevejledning til afdelingsrapporter

Matematik B. Studentereksamen. Sygeterminsprøve. Sorø Akademis Skole. Tirsdag den 15. august 2017 kl stx172-mat/b

Reeksamen i Statistik for biokemikere. Blok

Matematik B. Højere handelseksamen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Reeksamen i Statistik for biokemikere. Blok

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Epidemiologi og Biostatistik

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Estimation og konfidensintervaller

Øvelser til basalkursus, 2. uge

Samfundsfagslærerens lille manual vol. II

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

FAQ - Ofte stillede spørgsmål om synopsis og eksamen i faget Analyse af regnskabsdata

LUP læsevejledning til afdelingsrapporter

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Bilag 5: Økonometriske analyser af energispareindsatsens. (Cointegration) Energistyrelsen. Marts 2015

Transkript:

Statistik for Biokemikere Projekt Institut for Matematiske Fag Inge Henningsen og Helle Sørensen Københavns Universitet November 2008 Formalia Dette projekt udgør en del af evalueringen i kurset Statistik BK på blok 2, 2008 09. Projektet består af to dele. Det er en forudsætning for at gå til den skriftlige eksamen at begge delprojekter godkendes før eksamen. Hvis det ikke kan godkendes i første omgang er der mulighed for en genaflevering (en uges frist). Projektet skal laves i grupper på 3-5 studerende. Hver gruppe afleverer én besvarelse af hvert delprojekt. Grupperne behøver ikke være de samme for de to delprojekter. SAS-programmer og SASudskrifter hører ikke hjemme i selve rapporten, men relevante SAS-programmer og relevante SASudskrifter kan vedlægges som bilag. En officiel forside til hvert delprojekt kan hentes fra kursets webside. Første delprojekt afleveres senest mandag den 8. december 2008 til forelæsningerne, anden del senest torsdag den 8. januar 2009 til forelæsningerne. Projektet to dele er lidt forskelligt formuleret. Første del er udspecificeret i ret præcise delspørgsmål og har først og fremmest til hensigt at få jer i gang med projektet og få lavet nogle indledende analyser. Den seriøse analyse kommer i anden del af projektet. Denne del er mere løst formuleret, således at I selv skal tænke mere over analysens delelementer, herunder valget af statistisk model. Problemstilling og data Datamaterialet til projektet stammer fra et forsøg der er rapporteret i Peart et al. (2005). Det er et designet microarrayforsøg med 36 microarrays og 4 faktorer der skal bruges som forklarende variable. Forsøget omhandler såkaldte histon deacetylace hæmmere som kan hæmme tumorcellers vækst eller overlevelse. Formålet med forsøget var at opnå en øget forståelse for hvordan to forskellige hæmmere SAHA og depsipeptide påvirker den genetiske ekspressionsprofil for tumorcellerne over tid. I eksperimentet blev en cellekutur acute T cell leukemia CEM cell line behandlet med enten SAHA eller depsipeptide, og cellerne blev høstet til tidspunkterne 0 (før behandling) 1, 2, 4, 8 og 16 timer. Efter høst blev genekspression målt for samtlige gener vha. microarrays. For at besvare projektet er det ikke nødvendigt at forstå detaljerne i et microarrayforsøg. Efter en omfattede præprocessering foreligger data fra forsøget som en stor tabel med ekspressionsmålinger, udtrykt ved såkaldte M-værdier. Antallet af rækker i tabellen er mange tusinde, en for hvert gen i analysen. Antallet af søjler er i dette forsøg 36 svarende til de forskellige kombinationer af de fire faktorer. En fuld analyse af det fulde datamateriale vil typisk gå ud på at analysere rækkerne en ad gangen, dvs. et gen ad gangen. På grund af det store antal rækker er der er nogle specielle problemer, 1

som man så bliver nødt til at tage med i analysen, men vi skal ikke komme nærmere ind på dette aspekt. Essensen er at man gen for gen spørger om de samme ting altså formulerer de samme nulhypoteser der vedrører hvordan de to forskellige behandlinger påvirker ekspressionsprofilen for genet over tid. I dette projekt bliver I bedt om at fokusere på to gener, kaldet gen 15 og 1747. Data foreligger som tekstfiler, en for hvert gen. De kan hentes fra kursets webside og er desuden vist til slut i dette dokument. Hver fil indeholder 36 rækker med data samt en række med variabelnavne øverst. Variablene kan beskrives således: M indeholder selve M-værdierne, dvs. ekspressionsmålingerne. Time angiver tidspunktet i timer efter behandling (tid 0 er før behandling). Treatment angiver hvilken af de to behandlinger som er givet. Dye er en teknisk størrelse med værdierne 1 og -1. I forsøget har man benyttet en farvning med to farver, som kan byttes om, således at M-værdien måler rød minus grøn når Dye er 1, og grøn minus rød når Dye er -1. For at kunne sammenligne M-værdierne for de to værdier af Dye skal man således skifte fortegnet på M for den ene værdi af Dye, se spørgsmål 2 i delprojekt 1. Der er foretaget målinger på fire biologiske replikationer, givet ved variablen Block. Bemærk at der er foretaget 12 målinger på replikationerne 1 og 4, men kun 6 målinger på replikationerne 2 og 3. Det skyldes at man kun har lavet en farveombytning for to af replikationerne. Det overordnede formål med projektet er for hvert af de to gener at undersøge hvordan genekspression påvirkes af de de behandlingstyper over tid. Delprojekt 1 For hvert af generne 1747 og 15 skal følgende delspørgsmål besvares/udføres: 1. Indlæs data til et SAS-datasæt. 2. Konstruer en variabel M1 der vender fortegnet på M hvis Dye har værdien -1. Altså { M hvis Dye = 1 M1 = M hvis Dye = 1 Konstruer desuden en variabel serie der har forskellige værdier afhængig af hvilken af de seks kombinationer af Block og Dye der er tale om. Vink: Hvordan ser variablen Block*Dye ud? 3. Lav et plot af M1 mod Time, dvs. Time på x-aksen og M1 på y-aksen, således at punkter hørende til samme måleserie bliver forbundet. Hvilken information får I fra figuren? Vink: Kommandoen symbol1 i=join v=dot; før proc gplot specificerer symbolerne i plottet ( dots ), og at punkterne skal forbindes (i for interpolation ). 2

4. Beregn gennemsnittet af M1 for hver kombination af Treatment og Time. Tegn gennemsnittet mod Time, således at SAHA-gennemsnittene bliver forbundet og Depsi-gennemsnittene bliver forbundet. Hvilken information får I fra figuren? 5. Betragt data som to uafhængige stikprøver, en svarende til SAHA og en svarende til Depsi, med 18 observationer per stikprøve. Undersøg om der er forskel på niveauet af M1 mellem de to behandlinger. Angiv også et estimat og et konfidensinterval for forskellen. I denne analyse tages ikke hensyn til at målingerne er foretaget til forskellige tidspunkter eller fra forskellige blokke. Diskutér, bla. udfra graferne fra spørgsmål 3 og 4, om dette er rimelige antagelser. 6. Konstruér et SAS-datasæt med kun seks observationer, en for hver måleserie. Datasættet skal indeholde variablen Treatment samt forskellen mellem M1-værdien til tid 16 og tid 0 for den pågældende serie. Vink: Dette kan gøres på mange forskellige måder. Én måde er følgende: Lav et datasæt der kun indeholder observationerne svarende til tid 0. Lav desuden en ny variabel i datasættet der blot er en kopi af M1. Lav et andet datasæt der kun indeholder observationerne svarende til tid 16. Sæt de to datasæt sammen og konstruér den ønskede differens. 7. Undersøg om ændringen i M1 fra tid 0 til tid 16 kan antages at være den samme for de to behandlinger. Angiv også et estimat og et konfidensinterval for forskellen i ændring mellem de to behandlinger. Delprojekt 2 Som i første del skal de to gener analyseres hver for sig. 1. Analysér data. Hovedformålet med analysen er at undersøge effekten af behandling på genekspression (målt vha. M1), herunder om behandlingeffekten er forskellig over tid. Desuden skal det undersøges om kodningen af grøn/rød angivet ved variablen Dye har en effekt. Husk at en sådan analyse har flere trin: Specifikation af en statistisk model der gør det muligt at svare på de interessante biologiske/videnskabelige spørgsmål. Modellen skal (så vidt muligt) svare på alle de interessante spørgsmål. I denne sammenhæng betyder det at alle relevante faktorer skal inddrages i en og samme model. Opgaven består således i at lægge sig fast på hvilke faktorer, herunder produktfaktorer, der er relevante og derfor skal indgå i modellen. Tegn også et faktordiagram for at få overblik over sammenhænge mellem de enkelte faktorer i modellen. Modelkontrol. Reduktion af modellen, dvs. test af hypoteser indtil alle effekter er signifikante. Husk at p- værdier for testene skal rapporteres, og at give fortolkninger af de enkelte hypoteser/konklusioner. 3

Konklusion, herunder angivelser af relevante estimater og konfidensintervaller i slutmodellen. Husk også at SAS-programmer og SAS-udskrifter ikke hører hjemme i selve rapporten, men kan vedlægges som bilag. Vedlæg kun relevante bilag! Referencer Peart, M. J., Smyth, G. K., van Laar, R. K., Richon, V. M., Holloway, A. J., Johnstone, R. W. (2005). Identification and functional significance of genes regulated by structurally diverse histone deacetylase inhibitors. Proceedings of the National Academy of Sciences of the United States of America, 102, 3697 3702. 4

Data for gen 15 Treatment Time Dye Block M SAHA 0 1 1 0.0708 SAHA 1 1 1 0.0902 SAHA 2 1 1 0.0799 SAHA 4 1 1-0.0284 SAHA 8 1 1-0.119 SAHA 16 1 1 0.2283 SAHA 0-1 1 0.0263 SAHA 1-1 1 0.1135 SAHA 2-1 1-0.0144 SAHA 4-1 1-0.051 SAHA 8-1 1-0.2335 SAHA 16-1 1-0.1426 SAHA 0 1 2 0.0339 SAHA 1 1 2 0.1949 SAHA 2 1 2 0.3084 SAHA 4 1 2 0.1339 SAHA 8 1 2 0.1225 SAHA 16 1 2 0.2543 Depsi 0 1 3-0.1711 Depsi 1 1 3 0.154 Depsi 2 1 3-0.0353 Depsi 4 1 3-0.1718 Depsi 8 1 3-0.2381 Depsi 16 1 3 0.0695 Depsi 0 1 4-0.0292 Depsi 1 1 4-0.1164 Depsi 2 1 4 0.1452 Depsi 4 1 4 0.0878 Depsi 8 1 4-0.0848 Depsi 16 1 4-0.1454 Depsi 0-1 4 0.0622 Depsi 1-1 4 0.0336 Depsi 2-1 4 0.0408 Depsi 4-1 4 0.0853 Depsi 8-1 4 0.2182 Depsi 16-1 4 0.2811 5

Data for gen 1747 Treatment Time Dye Block M SAHA 0 1 1-0.0317 SAHA 1 1 1 0.2537 SAHA 2 1 1 0.6262 SAHA 4 1 1 1.0347 SAHA 8 1 1 1.2256 SAHA 16 1 1 0.539 SAHA 0-1 1 0.3079 SAHA 1-1 1 0.0032 SAHA 2-1 1-0.4905 SAHA 4-1 1-1.0375 SAHA 8-1 1-1.2926 SAHA 16-1 1-0.5118 SAHA 0 1 2-0.019 SAHA 1 1 2 0.3152 SAHA 2 1 2 0.6257 SAHA 4 1 2 1.0037 SAHA 8 1 2 1.5618 SAHA 16 1 2 0.3634 Depsi 0 1 3 0.0571 Depsi 1 1 3 0.0025 Depsi 2 1 3 0.4165 Depsi 4 1 3 1.1867 Depsi 8 1 3 2.1869 Depsi 16 1 3 3.0534 Depsi 0 1 4-0.0038 Depsi 1 1 4 0.183 Depsi 2 1 4 0.7257 Depsi 4 1 4 1.6919 Depsi 8 1 4 2.3138 Depsi 16 1 4 3.1992 Depsi 0-1 4 0.0361 Depsi 1-1 4 0.0185 Depsi 2-1 4-0.3874 Depsi 4-1 4-1.1277 Depsi 8-1 4-2.3317 Depsi 16-1 4-2.9122 6