Side 1 of 13 Danmarks Tekniske Universitet Skriftlig prøve, den 22/2-2013 Kursus navn: Introduktion til SystemBiologi Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle opgaver. Kursusansvarlig ------------------------------------------- Thomas Nordahl Petersen
Side 2 of 13 Eksamen Feb 2013 Dette sæt indeholder 5 opgaver (side 1-13) check at du har alle sider. Opgave 1 DNA, gener og cellen (25%) Opgave 2 Boolean netværk (20%) Opgave 3 Gene expression microarray (20%) Opgave 4 Transcription factor (15%) Opgave 5 SNP, genotype og fænotype (20%) En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan http://wiki.bio.dtu.dk/teaching/index.php/introduktiontilsystembiologi2013 - Friday_Feburary_22_-_written_exam Svaret skal uploades på CampusNet (https://www.campusnet.dtu.dk/cnnet/afleveringsportal/opgaveaflevering.aspx?elementi D=395557 under "Opgaver". Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor. VIGTIGT: Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717") Udfyld denne forside og aflever den til eksamensvagten. Navn: Studienummer: Afleveringskode:
Side 3 of 13 Ang. brug af Internettet Trådløst internet: Du skal koble dig på det helt normale DTU Wireless system. Online materialer: Linksamlingen til bioinformatik serverne findes via kursets lektionsplan. BEMÆRK: I er ikke begrænset til kun de links der findes her det er tilladt at søge information andetsteds. Det er IKKE tilladt at kommunikere med andre over nettet under eksamen. Sluk telefonen. Der vil blive taget stikprøver af netværkstrafikken for at sikre dette. Hvad gør man hvis en web-server ikke virker: 1) Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet. 2) Prøv evt. at finde en alternativ server med samme funktion (Google). 3) Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt. HUSK altid: Don t panic Held og lykke med eksamenen. -Thomas
Side 4 of 13 Opgave 1 DNA, gener og cellen (25 %) a) Hvad hedder den kemiske gruppe, der sidder på 3 carbonatomet af deoxyribose i et DNA nukleotid? b) TATA boksen i eukaryote promotorer er det område, hvor DNA stregen først denaturerer, så transkriptionsmaskineriet kan få adgang. TATA boksen består hovedsageligt af A-T basepar. Hvorfor er det en fordel i forhold til at DNA strengen skal denaturere? I spørgsmål c) skal du kun vælge en af svarmulighederne 1)-5) c) Hvad er forskellen på såkaldte frie og vedhæftede (eng. attached) ribosomer? 1) Frie ribosomer forefindes frit i cytoplasma, mens vedhæftede ribosomer er forankret til det endoplasmatiske retikulum. 2) Frie ribosomer producerer proteiner i cytosolet, mens vedhæftede ribosomer producerer proteiner der bliver indført i det endoplasmatiske retikulum. 3) Frie ribosomer producerer proteiner der bliver eksporteret ud af cellen, mens vedhæftede ribosomer danner proteiner til mitochondrier og chloroplaster. 4) Både a og b er sandt. 5) Både a og c er sandt.
Side 5 of 13 d) DNA isoleret fra en nyligt opdaget virus med enkeltstrenget DNA genom viser sig at indeholde 32% A, 18% C, 18% G og 32% T. Hvad er basekompositionen af den komplementære DNA streng, d.v.s. hvor mange procent A, C, G og T indeholder den komplementære DNA streng? e) DNA fra en nyopdaget organisme indeholder 17% C (cytosin) og 33% A (adenin). Hvor mange procent G (guanin) indeholder DNA et? f) Hvilke(t) af følgende udsagn er korrekte både for bakterier og planteceller? (NB: Der kan være mere end et korrekt svar). 1 Arvematerialet er DNA. 2 Cellen er som regel omgivet af en cellevæg. 3 Cellen indeholder kloroplaster. 4 Cellen indeholder ribosomer. 5 En del af DNAen forefindes på plasmider.
Side 6 of 13 Opgave 2 Boolean netværk (20%) Et Boolean netværk er beskrevet med et sæt af betingelser, som vi kalder NC (Network Conditions) NC: S A (t+1) = input S B (t+1) = S A (t) S C (t+1) = NOT(S A (t)) S D (t+1) = S B (t) S E (t+1) = S D (t) AND S C (t) a) Hvilket af de retningsorienteret netværk herunder (eng: directed network) 1-3 svarer til de betingelser (NC) som er angivet? 1) 2) 3) A A A B C B B D C D C E E D E
Side 7 of 13 b) Benyt de samme betingelser NC til at beregne stien (eng: trajectories) for 3 forskellige start-tilstande som vist i tabel A, B og C. Udfyld tabellerne indtil der opnås en stabil tilstand (Eng: Steady state) NC: S A (t+1) = input S B (t+1) = S A (t) S C (t+1) = NOT(S A (t)) S D (t+1) = S B (t) S E (t+1) = S D (t) AND S C (t) Hjælp: Der er lavet plads i tabellerne til 5 rækker, men det betyder ikke nødvendigvis at alle rækker skal udfyldes. Tabel A A B C D E Initial State t 1 0 0 0 0 Tabel B A B C D E Initial State t 1 0 1 1 0 Tabel C A B C D E Initial State t 0 0 1 1 0 c) Hvor mange forskellige stabile tilstande (eng: steady state) ender du op med for det netværk du nu har undersøgt med 3 forskellige start tilstande?
Side 8 of 13 Opgave 3 Gene expression microarray (20%) a) Gene expression microarray er en teknik som er designet til at kvantifisere dvs bestemme mængden af hvilken type molekyle? b) Hvad er den primære fordel ved gene expression microarray sammenlignet med teknikken kvantitativ RT-PCR? Programmet R benyttes ofte til at lave beregninger når man arbejder med gene expression microarray data. Når man har startet en session i R er det muligt at lave både simple, men også meget kompliceret beregninger. c) Hvilke af følgende pakker (1-4) i R giver mulighed for at analysere microarray data? 1) GEO 2) Affymetrix 3) Bioconductor 4) Huntintin
Side 9 of 13 For at undersøge hvilke gener som er relateret til lunge-cancer, har man undersøgt 2 grupper at mennesker ved hjælp af microarray genekspression. Gruppen N (N1, N2, N3) er kontrolgruppen uden lungecancer, mens gruppen T (T1, T2, T3) har lungecancer. N står for Normal, men T står for Tumor. I Tabel 1 herunder har vi allerede beregnet signifikansen i form af en p- værdi (P value) for de gener (TNN, EFGR, ABCA1 og PLD1) som vi undersøger for om de er relateret til lungecancer. d) Udfylde de manglende felter for kolonnerne Fold change og log2(fold change) i Tabel 1. Hint: Fold change = middel(eksperiment)/middel(kontrol) Tabel 1 gene N1 N2 N3 T1 T2 T3 Fold log 2 (Fold P value change change) TTN 128 87 101 288 277 301 0.0007 EFGR 1754 8767 2588 8792 3771 2717 0.82 ABCA1 674 887 901 201 207 377 0.004 PLD1 9875 8379 8371 7138 301 225 0.10 e) Baseret på den viden i Tabel 1 du nu har om de 4 gener, hvilket gen ser mest lovende ud hvis man fremadrettet skal udvikle et middel (drug target) mod lungecancer (begrund dit svar)?
Side 10 of 13 Opgave 4 Transcription facor (15%) En Transkriptionsfaktor kaldes på engelsk en Transcription Factor ofte forkortet TF. a) Hvad er en transcriptionsfaktor (TF) svar ved at skive hvilken type molekyle en TF er og hvilket molekyle den binder til? b) Hvad er funktionen af en transkriptionsfaktor? c) Beskriv de væsentlige funktionelle forskelle imellem Yeast-1- Hybrid (Y1H) og Bacterial-1-Hybrid (B1H)? I et mirco array gene chip eksperiment med gær (yeast) har man undersøgt hvor meget de 4 gener A, B, C og D er differentielt udtrykt efter man fjernet henholdsvis transkriptionsfaktor 1 og 2, her kaldet TF1 og TF2. De målte log2(fold change) værdier er vist i Tabel A for de 4 gener, når hhv TF1 og TF2 er fjernet (også kaldet et knockout eksperiment). Tabel A Gennavn TF1 TF2 Gen A 1.65-0.88 Gen B 3.21-2.71 Gen C 1.78-2.34 Gen D 1.98-4.67 d) Hvilken konklusion kan man lave om henholdsvis TF1 og TF2 (begrund dit svar)? e) Hvilket gen er mest differentielt reguleret udfra de ekspressionsdata du ser i Tabel A?
Side 11 of 13 Opgave 5 SNP, genotype og fænotype (20%) Man kan bestemme rækkefølgen af nukleotiderne i et stykke DNA ved at sekventere alt eller udvalgte områder af arvemassen. Dette kan være en ukendt organisme f.eks. en plante, et dyr eller en interessandt mikroorganisme. Teknikken som benyttes kaldes Next Generation Sequencing som forkortet skrives NGS, hvor man sekventere korte stykker af DNA kaldet reads og man har oftest en masse overlappende reads og stor redundans (ofte millioner af reads). Når man behandler data i computeren er der flere kvalitets-check, hvoraf en af dem på engelsk kaldes trimming. a) Hvad er formålet med at trimme reads og i hvilken ende (5 eller 3 ) vil man typisk foretage en trimming? Når man har sekventeret et read får man både rækkefølgen af nukleotiderne i hver read, men også en kvalitetsscore for hver nukleotid som fortæller hvor god bestemmelsen er. Man kan udregne en middle score som udtryk for hvor nøjagtigt man har sekventeret sine reads. Denne kvalitetsscore (eng: Quality score) er givet ved formlen herunder, hvor man givet en kvalitetsscore kan beregne en fejl-rate (eng: error rate), som fortæller hvor mange nukleotiden man i middle må forvente er fejlbestemt. Quality score = -10*log(Error rate) b) Hvad er Error rate hvis man har en Quality score på 15 og hvor mange fejl må man forvente hvis længden på et read er 100bp? Når man har alignet alle reads til en referencesekvens f.eks. det menneskelige genom, er der muligt at lave en analyse af de variationerne man observer. Dette kaldes en SNP analyse. Herunder er 3 billeder, hvor de grå vandrette bjælker er reads og under hvert billede vises referencesekvensen som de enkelte reads er alignet til. De steder hvor der på et read står et bogstav, er der hvor man finder en uoverensstemmelse mellem read-sekvens og referencesekvens. Dette kan skrives som en C/G SNP hvis referencesekvensen har et G, mens der i read-sekvensen er et C.
Side 12 of 13 c) Herunder er vist 3 billeder (1-3) af mulige SNP. Skriv hvilke SNP du ser og om du tror på det faktisk er en SNP eller om der er årsager til at du ikke tror på rigtigheden/troværdigheden af en eller flere af disse SNP s? Billed 1) Billed 2) Billed 3)
Side 13 of 13 d) Hvilken fænotype (phenotype) kan vi forvente at se hos en person, givet den genotype for hver SNP som er vist herunder i Table A? (Svar ved at udfylde tabellen) Tabel A SNP (rsid) rs4988235 rs5400 rs12913832 rs1805007 Genotype på + strengen GG GG GG CC Fænotype e) Hvilken en af de 4 personer herunder stemmer overens med dine fænotypebestemmelser fra Tabel A. Person 1, 2, 3 eller 4? 1) 2) 3) 4)