Statistik for Biokemikere Projekt Institut for Matematiske Fag Inge Henningsen og Helle Sørensen Københavns Universitet November 2008 Formalia Dette projekt udgør en del af evalueringen i kurset Statistik BK på blok 2, 2008 09. Projektet består af to dele. Det er en forudsætning for at gå til den skriftlige eksamen at begge delprojekter godkendes før eksamen. Hvis det ikke kan godkendes i første omgang er der mulighed for en genaflevering (en uges frist). Projektet skal laves i grupper på 3-5 studerende. Hver gruppe afleverer én besvarelse af hvert delprojekt. Grupperne behøver ikke være de samme for de to delprojekter. SAS-programmer og SASudskrifter hører ikke hjemme i selve rapporten, men relevante SAS-programmer og relevante SASudskrifter kan vedlægges som bilag. En officiel forside til hvert delprojekt kan hentes fra kursets webside. Første delprojekt afleveres senest mandag den 8. december 2008 til forelæsningerne, anden del senest torsdag den 8. januar 2009 til forelæsningerne. Projektet to dele er lidt forskelligt formuleret. Første del er udspecificeret i ret præcise delspørgsmål og har først og fremmest til hensigt at få jer i gang med projektet og få lavet nogle indledende analyser. Den seriøse analyse kommer i anden del af projektet. Denne del er mere løst formuleret, således at I selv skal tænke mere over analysens delelementer, herunder valget af statistisk model. Problemstilling og data Datamaterialet til projektet stammer fra et forsøg der er rapporteret i Peart et al. (2005). Det er et designet microarrayforsøg med 36 microarrays og 4 faktorer der skal bruges som forklarende variable. Forsøget omhandler såkaldte histon deacetylace hæmmere som kan hæmme tumorcellers vækst eller overlevelse. Formålet med forsøget var at opnå en øget forståelse for hvordan to forskellige hæmmere SAHA og depsipeptide påvirker den genetiske ekspressionsprofil for tumorcellerne over tid. I eksperimentet blev en cellekutur acute T cell leukemia CEM cell line behandlet med enten SAHA eller depsipeptide, og cellerne blev høstet til tidspunkterne 0 (før behandling) 1, 2, 4, 8 og 16 timer. Efter høst blev genekspression målt for samtlige gener vha. microarrays. For at besvare projektet er det ikke nødvendigt at forstå detaljerne i et microarrayforsøg. Efter en omfattede præprocessering foreligger data fra forsøget som en stor tabel med ekspressionsmålinger, udtrykt ved såkaldte M-værdier. Antallet af rækker i tabellen er mange tusinde, en for hvert gen i analysen. Antallet af søjler er i dette forsøg 36 svarende til de forskellige kombinationer af de fire faktorer. En fuld analyse af det fulde datamateriale vil typisk gå ud på at analysere rækkerne en ad gangen, dvs. et gen ad gangen. På grund af det store antal rækker er der er nogle specielle problemer, 1
som man så bliver nødt til at tage med i analysen, men vi skal ikke komme nærmere ind på dette aspekt. Essensen er at man gen for gen spørger om de samme ting altså formulerer de samme nulhypoteser der vedrører hvordan de to forskellige behandlinger påvirker ekspressionsprofilen for genet over tid. I dette projekt bliver I bedt om at fokusere på to gener, kaldet gen 15 og 1747. Data foreligger som tekstfiler, en for hvert gen. De kan hentes fra kursets webside og er desuden vist til slut i dette dokument. Hver fil indeholder 36 rækker med data samt en række med variabelnavne øverst. Variablene kan beskrives således: M indeholder selve M-værdierne, dvs. ekspressionsmålingerne. Time angiver tidspunktet i timer efter behandling (tid 0 er før behandling). Treatment angiver hvilken af de to behandlinger som er givet. Dye er en teknisk størrelse med værdierne 1 og -1. I forsøget har man benyttet en farvning med to farver, som kan byttes om, således at M-værdien måler rød minus grøn når Dye er 1, og grøn minus rød når Dye er -1. For at kunne sammenligne M-værdierne for de to værdier af Dye skal man således skifte fortegnet på M for den ene værdi af Dye, se spørgsmål 2 i delprojekt 1. Der er foretaget målinger på fire biologiske replikationer, givet ved variablen Block. Bemærk at der er foretaget 12 målinger på replikationerne 1 og 4, men kun 6 målinger på replikationerne 2 og 3. Det skyldes at man kun har lavet en farveombytning for to af replikationerne. Det overordnede formål med projektet er for hvert af de to gener at undersøge hvordan genekspression påvirkes af de de behandlingstyper over tid. Delprojekt 1 For hvert af generne 1747 og 15 skal følgende delspørgsmål besvares/udføres: 1. Indlæs data til et SAS-datasæt. 2. Konstruer en variabel M1 der vender fortegnet på M hvis Dye har værdien -1. Altså { M hvis Dye = 1 M1 = M hvis Dye = 1 Konstruer desuden en variabel serie der har forskellige værdier afhængig af hvilken af de seks kombinationer af Block og Dye der er tale om. Vink: Hvordan ser variablen Block*Dye ud? 3. Lav et plot af M1 mod Time, dvs. Time på x-aksen og M1 på y-aksen, således at punkter hørende til samme måleserie bliver forbundet. Hvilken information får I fra figuren? Vink: Kommandoen symbol1 i=join v=dot; før proc gplot specificerer symbolerne i plottet ( dots ), og at punkterne skal forbindes (i for interpolation ). 2
4. Beregn gennemsnittet af M1 for hver kombination af Treatment og Time. Tegn gennemsnittet mod Time, således at SAHA-gennemsnittene bliver forbundet og Depsi-gennemsnittene bliver forbundet. Hvilken information får I fra figuren? 5. Betragt data som to uafhængige stikprøver, en svarende til SAHA og en svarende til Depsi, med 18 observationer per stikprøve. Undersøg om der er forskel på niveauet af M1 mellem de to behandlinger. Angiv også et estimat og et konfidensinterval for forskellen. I denne analyse tages ikke hensyn til at målingerne er foretaget til forskellige tidspunkter eller fra forskellige blokke. Diskutér, bla. udfra graferne fra spørgsmål 3 og 4, om dette er rimelige antagelser. 6. Konstruér et SAS-datasæt med kun seks observationer, en for hver måleserie. Datasættet skal indeholde variablen Treatment samt forskellen mellem M1-værdien til tid 16 og tid 0 for den pågældende serie. Vink: Dette kan gøres på mange forskellige måder. Én måde er følgende: Lav et datasæt der kun indeholder observationerne svarende til tid 0. Lav desuden en ny variabel i datasættet der blot er en kopi af M1. Lav et andet datasæt der kun indeholder observationerne svarende til tid 16. Sæt de to datasæt sammen og konstruér den ønskede differens. 7. Undersøg om ændringen i M1 fra tid 0 til tid 16 kan antages at være den samme for de to behandlinger. Angiv også et estimat og et konfidensinterval for forskellen i ændring mellem de to behandlinger. Delprojekt 2 Som i første del skal de to gener analyseres hver for sig. 1. Analysér data. Hovedformålet med analysen er at undersøge effekten af behandling på genekspression (målt vha. M1), herunder om behandlingeffekten er forskellig over tid. Desuden skal det undersøges om kodningen af grøn/rød angivet ved variablen Dye har en effekt. Husk at en sådan analyse har flere trin: Specifikation af en statistisk model der gør det muligt at svare på de interessante biologiske/videnskabelige spørgsmål. Modellen skal (så vidt muligt) svare på alle de interessante spørgsmål. I denne sammenhæng betyder det at alle relevante faktorer skal inddrages i en og samme model. Opgaven består således i at lægge sig fast på hvilke faktorer, herunder produktfaktorer, der er relevante og derfor skal indgå i modellen. Tegn også et faktordiagram for at få overblik over sammenhænge mellem de enkelte faktorer i modellen. Modelkontrol. Reduktion af modellen, dvs. test af hypoteser indtil alle effekter er signifikante. Husk at p- værdier for testene skal rapporteres, og at give fortolkninger af de enkelte hypoteser/konklusioner. 3
Konklusion, herunder angivelser af relevante estimater og konfidensintervaller i slutmodellen. Husk også at SAS-programmer og SAS-udskrifter ikke hører hjemme i selve rapporten, men kan vedlægges som bilag. Vedlæg kun relevante bilag! Referencer Peart, M. J., Smyth, G. K., van Laar, R. K., Richon, V. M., Holloway, A. J., Johnstone, R. W. (2005). Identification and functional significance of genes regulated by structurally diverse histone deacetylase inhibitors. Proceedings of the National Academy of Sciences of the United States of America, 102, 3697 3702. 4
Data for gen 15 Treatment Time Dye Block M SAHA 0 1 1 0.0708 SAHA 1 1 1 0.0902 SAHA 2 1 1 0.0799 SAHA 4 1 1-0.0284 SAHA 8 1 1-0.119 SAHA 16 1 1 0.2283 SAHA 0-1 1 0.0263 SAHA 1-1 1 0.1135 SAHA 2-1 1-0.0144 SAHA 4-1 1-0.051 SAHA 8-1 1-0.2335 SAHA 16-1 1-0.1426 SAHA 0 1 2 0.0339 SAHA 1 1 2 0.1949 SAHA 2 1 2 0.3084 SAHA 4 1 2 0.1339 SAHA 8 1 2 0.1225 SAHA 16 1 2 0.2543 Depsi 0 1 3-0.1711 Depsi 1 1 3 0.154 Depsi 2 1 3-0.0353 Depsi 4 1 3-0.1718 Depsi 8 1 3-0.2381 Depsi 16 1 3 0.0695 Depsi 0 1 4-0.0292 Depsi 1 1 4-0.1164 Depsi 2 1 4 0.1452 Depsi 4 1 4 0.0878 Depsi 8 1 4-0.0848 Depsi 16 1 4-0.1454 Depsi 0-1 4 0.0622 Depsi 1-1 4 0.0336 Depsi 2-1 4 0.0408 Depsi 4-1 4 0.0853 Depsi 8-1 4 0.2182 Depsi 16-1 4 0.2811 5
Data for gen 1747 Treatment Time Dye Block M SAHA 0 1 1-0.0317 SAHA 1 1 1 0.2537 SAHA 2 1 1 0.6262 SAHA 4 1 1 1.0347 SAHA 8 1 1 1.2256 SAHA 16 1 1 0.539 SAHA 0-1 1 0.3079 SAHA 1-1 1 0.0032 SAHA 2-1 1-0.4905 SAHA 4-1 1-1.0375 SAHA 8-1 1-1.2926 SAHA 16-1 1-0.5118 SAHA 0 1 2-0.019 SAHA 1 1 2 0.3152 SAHA 2 1 2 0.6257 SAHA 4 1 2 1.0037 SAHA 8 1 2 1.5618 SAHA 16 1 2 0.3634 Depsi 0 1 3 0.0571 Depsi 1 1 3 0.0025 Depsi 2 1 3 0.4165 Depsi 4 1 3 1.1867 Depsi 8 1 3 2.1869 Depsi 16 1 3 3.0534 Depsi 0 1 4-0.0038 Depsi 1 1 4 0.183 Depsi 2 1 4 0.7257 Depsi 4 1 4 1.6919 Depsi 8 1 4 2.3138 Depsi 16 1 4 3.1992 Depsi 0-1 4 0.0361 Depsi 1-1 4 0.0185 Depsi 2-1 4-0.3874 Depsi 4-1 4-1.1277 Depsi 8-1 4-2.3317 Depsi 16-1 4-2.9122 6