Side 1 af 8 Danmarks Tekniske Universitet Side 1 af 8 sider Skriftlig prøve, den 29/5-2009 Kursus navn: Kursus nr. 27611 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle opgaver. Kursusansvarlig ------------------------------------------- Rasmus Wernersson
Side 2 af 8 27611 Eksamen Sommer 2009 Dette sæt indeholder 6 opgaver. En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan under selve eksamen (29. maj 2009 klokken 15:00-19:00). DNA/Protein sekvenser kan kopieres direkte herfra - det er ikke meningen at sekvenserne skal tastes ind i hånden. Lektionsplan: http://www.cbs.dtu.dk/dtucourse/27611spring2009/lektionsplan.php Svar til opgavesættet skal skrives enten i rå tekst (fx i jedit/notepad) eller i et tekstbehandlingprogram såsom Microsoft Word. Gyldige formater er.doc,.rtf og Apple Pages. Svaret skal uploades på CampusNet under kursus 27611 (under "Opgaver -> Sommereksamen 2009"). Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor. Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717") Udfyld denne forside og aflever den til eksamensvagten. Navn: Studienummer: Afleveringskode:
Side 3 af 8 Ang. brug af Internettet Som vi har afprøvet det under øvelserne i faget, skal I forbinde jeres bærbare til nettet via et trådløst net sat op til formålet. I hvert rum vil der står navnet på det accesspoint I skal bruge samt kodeord til opkobling. Efter at I har koblet jer på access-point et, skal I logge ind på DTU wireless for at få adgang videre: https://auth.wireless.dtu.dk/ Linksamlingen til bioinformatik serverne findes via kursets lektionsplan. BEMÆRK: I er ikke begrænset til kun de links der findes her det er tilladt at søge information andetsteds. Det er IKKE tilladt at kommunikere med andre over nettet under eksamen. Der vil blive taget stikprøver af netværkstrafikken for at sikre dette. Hvad gør man hvis en web-server ikke virker: 1) Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet. 2) Prøv evt. at finde en alternativ server med samme funktion (Google). 3) Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt.
Side 4 af 8 Opgave 1 (20%) Efter et computer-crash på en sekventeringscomputer hos en større biotech virksomhed er der gået kludder i alle de sekventerede DNA sekvenser. Efter meget arbejde er en del af filerne blevet genskabt, men de hedder nu alle KLON_1, KLON_2 osv. Som bioinformatiker er du nu blevet sat til at kategorisere sekvenserne virksomheden vil helst undgå at sammenblande deres produkter til behandling af skaldethed med deres produkter til vaskepulverindustrien. Der er ialt 23744 sekvensfiler, men her skal vi nøjes med at kigge på KLON_18: LOCUS KLON18.DNA 519 BP DS-DNA UPDATED 06/14/98 DEFINITION UWGCG file capture ACCESSION - KEYWORDS - SOURCE - COMMENT Non-sequence data from original file: BASE COUNT 105 A 135 C 177 G 102 T 0 OTHER ORIGIN? klon18.dna Length: 519 Jun 13, 1998-12:56 PM Check: 7285.. 1 AATGGGCACG GGACGCATGT TGCCGGAACG ATTGTTGCGA TGCGCAATGA TGTGGGTGCG 61 ACTGGAGTCG CCTATCGAGC CGATGTGATG CCCGTGCGCG TGTTGGATGC GGATGGCGCT 121 GGCACCGATT ACGCGGTGGC GCAAGGGATC CGCTATGCGG TGGACAATGG TGCCGATATC 181 GTCAACTTGA GCCTTGGTAG TTCGGGCTAT AGCACGTCGT TATCTTCGGC ACTGGACTAT 241 GCCGCCAAGC ACAATGTGTT GATCGTATCG GCGGCCGGCA ACGAGGGCGC GAGCACGCCG 301 GCCTATCCGG CGCGGCTCAG TAGTCGCTGG GAAAACGTGA TTTCGGTGGG AGCCCACGAT 361 CGAGCGAACA AGACACCCAG TTTCAGTAAC GATGTAGGAA ACGTCGGCGC GGTGCAAGTT 421 TCCGCGCCGG GTGTGGACGT CTATAGTACG CTGCCGAACG ATCGTTACGG GAAATTGAGT 481 GGAACAAGCA TGGCAACCCC ACACGTCGCC GGCGCCGCC // (1) Hvad er den sandsynlige funktion af dette stykke DNA? Gør detaljeret rede for dit valg af værktøjer / databaser osv. Dokumenter og kommenter dine resultater. (2) Hvilken slags organisme kommer det fra: eukaryot / prokaryot? hvor mange taksonomiske detaljer kan der med rimelighed fyldes på? (3) Efterfølgende er du blevet bedt om at sammenligne KLON_18 med konkurrentens produkt, som kan findes i GenBank med ID: S48754. a. Hvilke metoder er relevante at benytte? b. Hvis kriteriet for om de to produkter virker ens er max 10% gaps og mindst 40% ens sekvens vil KLON_18 kunne bruges som erstatning for konkurrentens produkt? c. Din virksomhed vil gerne udtage patent på en del af sekvensen. Er følgende aminosyremotiv unikt i forhold til konkurrentens produket: RLSS?
Side 5 af 8 Opgave 2 (15%): Du har fået følgende protein fra en kollega, der ikke er stærk i bioinformatik, og du har lovet at hjælpe med en analyse. >QUERY HYEKRSFNIVHCNTDLTDSELEIVVVRGISYNVANPKDVDTYVRVEFPLLNDESFKTKTN VIRDTSSPDYDERFKVDIQRTNRQFQRIFKRHGVKFEIYSRGGFLRSDTLIGTVNVKLQP LETKCEIHDTYDLMDGRKQVGGKLEVKIRVRNPILTKQMEHITEKWLVLDA 1. Hvad er funktionen af dette protein? 2. Hvad er den mest brugte sekundære struktur i dette protein? Linket nedenfor giver outputtet af en Blast2logo kørsel for denne sekvens (brug online versionen af eksamenssættet): http://www.cbs.dtu.dk/biotools/blast2logo/teaching/45522804/blast2logo,4a1 3DA9B02B78A34.job.html 3. Hvis du klikker på Link to Blastprofile output file kommer du til den sekvensprofil Blast har beregnet for din query sekvens. Hvis du kigger på rest nummer 13 vil du se at denne er en N. I logoet fra Blast2logo er det højest bogstav på denne position F. Kan du forklare, hvordan det kan forekomme? 4. Vælg ud fra Blast2logo-outputtet fire ud af følgende otte aminosyrer, der sandsynligvis er vigtige for dette proteins funktion: 38D, 40D, 80R, 84Q, 102G, 105L, 108D, og 156T (38D refererer til aminosyre D på position 38). Bemærk, at hvis du ikke kan se logo-billedet i din browser, kan du downloade billedfilen ved at klikke på Download logo file-linket og åbne filen fra din desktop. 5. Benyt PyMOL til at identificere hvilken type sekundær struktur de fire funktionelt vigtige aminosyrer befinder sig i. Angiv typen for hver af de fire rester. Hvordan passer deres placering med proteinets funktion? Tip: Find en 3D struktur med signifikant e-værdi til din query sekvens, og find placeringen af de fire aminosyrer i denne struktur. Opgave 3 (20%): Professor NN har fundet en række peptider, der alle binder til en biologisk receptor X. IEV SEV TEV TEW ADW
Side 6 af 8 1. Hvis du ser bort fra sekvens-vægtning og pseudocounts (i.e sætter β=0 i formlen for udregning af frekvenser vha. pseudocounts), skal du ud fra disse peptider afgøre, hvilken af følgende peptider, der sandsynligvis ikke vil binde til receptoren og hvilken der sandsynligvis vil binde stærkest. Tip: udregn vægtmatrix-scoren for den/de position(er) og aminosyrer, hvor de tre peptider er forskellige 1. SDV 2. SDW 3. SDI 2. Nu har du jo læst pensum og ved at man ikke skal beregne et bindings motif uden brug af pseudocounts. Udregn ud fra de 5 peptider vægtmatrix-scoren for aminosyrerne V, W og I på position 3 i bindingsmotivet ved brug af pseudocounts med en vægt på pseudocount (weight on prior) β=20 og uden bruge af sekvensvægtning. I besvarelsen skal du angive dine delberegninger dvs. værdierne for de observerede frekvenser (f), pseudofrekvenserne (g), de kombinerede frekvenser (p) samt de endelige log-odds værdier (w). 3. Du får nu at vide, at værdierne i vægtmatricen for aminosyre S på position 1 W 1 (S) = 2.1 og aminosyre D på position 2 er W 2 (D)= 3.1, henholdsvis. Udregn ud fra disse tal og resultatet fra spørgsmål 3.2 vægtmatrixscoren for de tre peptider SDV, SDW, SDI fra spørgsmål 3.1. 4. Professor NN har lavet en række forsøg i laboratoriet, der viser, at aminosyren I på position 3 i bindingsmotivet ikke har nogen hverken positiv eller negativ betydning for bindingen. Hvilken værdi af β (vægt på pseudocount/weight on prior) skal du benytte for at reproducere denne observation i vægtmatricen beregnet ud fra de 5 peptider uden brug af sekvensvægtning? Opgave 4 (5%) Du har ved en BLAST analyse af et ukendt protein fået følgende signifikante resultater: UniProt ID E-value B6NLQ5 1e-59 Q4SNG9 1e-52 B0XQL0 1e-42 B3RQ31 1e-29 Det er dit ønske at bestemme proteinets funktion hvilke(t) af de viste BLAST hits vil du baseret din konklusion på (argumenter for valget) og hvilken slags protein er der tale om?
Side 7 af 8 Opgave 5 (20%) Du er som nyuddannet bioinformatiker blevet ansat på en medicinalvirksomhed, der arbejder med udvikling af et nyt diabetes medikament. For bedst at kunne evaluere medikamentets effektivitet, er du blevet sat til at undersøge hvilket dyr, der bedst kan bruges til af afprøve præparatet. Efter et hurtigt besøg i virksomhedens dyrestalde kan du konstatere at følgende dyr er til rådighed: Mus, Mus musculus. Gris, Sus scrofa. Elefant, Elephas maximus. Kamel, Camelus dromedarius. Gås, Anser anser anser. (Særlig underart). Torsk, Gadus callarias. 1) Din overordnede opgave er finde den organisme der er tættest beslægtet med mennesket, ud fra en analyse af Insulin proteinsekvenser (a+b kæde). a. Konstruer et datasæt med proteinsekvenserne af Insulin (a+b kæde) fra de relevante organismer i FASTA format. Navngiv sekvenserne med UniProt ID + organisme, fx: >P01322_rat for rotte-insulin (hvis rotte havde været en mulighed). b. Rapportér din FASTA fil i dit svar. c. Konstruér et fylogenetisk træ på baggrund af sekvenserne nævn hvilke trin der er i denne proces, og hvilke værktøjer du vælger at bruge. BEMÆRK: til trækonstrutionen er det vigtigt IKKE at evaluere gaps (Option: Exclude Positions with Gaps ). d. Hvilken organisme vil være bedst egnet? Hvad er afstanden på træet mellem denne organisme og mennesket? e. Du ønsker nu at rodfæste træet ( rooted tree) hvilken organisme vælger du som outgroup? Hvorfor? f. På dit rodfæstede træ, hvilken organisme spalter først fra? (Grener fra tættest på roden).
Side 8 af 8 Opgave 6 (20%) I et forsøg på at forstå immunsystemet har du besluttet at kigge nærmere på MHC-I molekyler. Disse molekyler består af tre proteinkæder: En peptidbindende α-kæde, en strukturel subunit kaldet β 2 -mikroglobulin (β 2 m) og et peptid på 8-10 aminosyrer. Peptidet kan stamme fra patogenproteiner såvel som kroppens egne proteiner og hjælper immunsystemet med at identificere syge celler. 1) Det viser sig, at PDB indeholder en masse strukturer af såvel hele MHCkomplekser som et mindre antal β 2 m-strukturer. Du beslutter at starte med β 2 m og efter nøje granskning af de tilgængelige strukturer vælges følgende fire β 2 m-strukturer ud: 1bmg, 1lds, 2vb5 og 2z9t. Hvilken struktur er bedst og hvilken værst? Begrund dit svar. 2) Beskriv væsentlige forskelle mellem de fire strukturer. Hint: Overlejr de fire strukturer i PyMOL og vis dem med en simpel repræsentation. Kommandoen til at overlejre strukturer er: align struct1, struct2 Kommandoen flytter struct1 over på struct2. 3) Det vides, at β 2 m spiller en vigtig rolle for peptidbinding til MHC-I molekyler. For at kunne sammenligne strukturerne af fri β 2 m med den bundne form overlejres en hel MHC-I struktur på resten af β 2 m-strukturerne (tag f.eks. 1x7q). Hvilken af de fleksible dele af β 2 m ser ud til at kunne have den største indvirkning på peptidbinding? Begrund dit svar. (Hint: peptidet er kæde C i 1x7q.) 4) MHC-komplekser indeholder flere disulfidbroer. a. Identificér disse i 1x7q og angiv dem som par af restnumre samt hvilken proteinkæde, de befinder sig i. Hint: Aminosyrerester kan vælges ud efter type med kommandoen: select resn XXX XXX er trebogstavforkortelsen for aminosyren. Sørg for at selektionen er tændt (klik evt. på den i objektlisten til højre i viewer-vinduet) og at de valgte rester bliver vist med sidekæde. b. Hvilke af disse disulfidbroer kunne tænkes at have en direkte betydning for peptidbinding? Begrund dit svar.