Side 1 of 14 Danmarks Tekniske Universitet Skriftlig prøve, den 26/1-2012 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle opgaver. Kursusansvarlig ------------------------------------------- Thomas Nordahl Petersen
Side 2 of 14 27633 Eksamen Januar 2012 Dette sæt indeholder 5 opgaver (side 1-14) check at du har alle sider. Opgave 1 UniProt og genbank (15%) Opgave 2 DNA, læseramme og intron/exon (20%) Opgave 3 Bedste alignment (15%) Opgave 4 Parvis alignment (25%) Opgave 5 Genotype og fænotype (25%) En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan http://wiki.bio.dtu.dk/teaching/index.php/course27633autumn2011#thursday_january_2 6. Svar til opgavesættet kan skrives enten i rå tekst (fx i JEdit) eller i et tekstbehandlingprogram såsom Microsoft Word. Gyldige formater er.txt,.doc,.docx og.rtf. Vi foretrækker dog at du benytter Microsoft Word. Svaret skal uploades på CampusNet under kursus 27633 (under "Opgaver -> bioinformatik-eksamen2012"). Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor. VIGTIGT: Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717") Udfyld denne forside og aflever den til eksamensvagten. Navn: Studienummer: Afleveringskode:
Side 3 of 14 Ang. brug af Internettet Trådløst internet: Du skal koble dig på det helt normale DTU Wireless system. Online materialer: Linksamlingen til bioinformatik serverne findes via kursets lektionsplan. BEMÆRK: I er ikke begrænset til kun de links der findes her det er tilladt at søge information andetsteds. Det er IKKE tilladt at kommunikere med andre over nettet under eksamen. Sluk telefonen. Der vil blive taget stikprøver af netværkstrafikken for at sikre dette. Hvad gør man hvis en web-server ikke virker: 1) Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet. 2) Prøv evt. at finde en alternativ server med samme funktion (Google). 3) Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt. HUSK altid: Don t panic Held og lykke med eksamenen. -Thomas
Side 4 of 14 Opgave 1 UniProt og genbank (15%) Uniprot er en database som indeholder informationer om proteinsekvenser fra mange forskellige organismer. I det følgende skal du kun finde informationer for proteiner fra menneske (Kaldet: Human eller Homo sapiens ). 1. Find vha Uniprot databasen og søgemetoden Advanced Search ud af hvor mange proteiner som kommer fra organismen Homo sapiens (Taxonomy = 9606) og som har status som reviewed? 2. For det sæt af sekvenser du fandt i spørgsmål 1, dvs dem med status reviewed skal du skrive Entry name og sekvenslængde for henholdsvis det længste og korteste protein? 3. Fortsæt med de samme sekvenser fra spørgsmål 1 og benyt igen Advanced search til af finde ud af hvor mange proteinsekvenser der er annoteret med et signalpeptid? 4. Find nu sekvensen med Entry name AFAM_HUMAN og skriv 3- bogstavskoderne for de første fire aminosyrer i det modne protein (Engelsk: mature protein) dvs efter signalpeptidet er klippet fra? 5. Når man søger information om et protein benytter man uniprot databasen som i de foregående spørgsmål, mens man benytter databasen genbank for at få information om bla. DNA/mRNA nukleotidsekvenser. Genet under navnet NM_001133 koder for proteinsekvensen fra det foregående spørgsmål. Hvor mange exons er der i genet NM_001133?
Side 5 of 14 Opgave 2 DNA, læseramme og intron/exon (20%) 1. Både DNA og RNA består af hver 4 forskellige kernebaser. Tre af kernebaserne findes i både DNA og RNA. Skriv 1-bogstavskoderne for disse tre kernebaser. 2. En åben læseramme kaldes på engelsk Open Reading Frame (ORF), som er et genomisk stykke DNA som starter med et startkodon og slutter med et stopkodon, begge i samme læseramme. Skriv standard genetiske koder for startkodon og alle stopkodons. 3. Herunder er et hypotetisk stykke genomisk DNA som starter på position 1 og slutter på position 70. Indenfor disse grænser findes et enkelt hypotetisk gen. Du skal lede efter en åben læseramme kaldet en ORF og du skal kun kigge i positive læserammer. a. Hvad er den første position i ORF en og hvad er kodon? b. Hvad er den sidste position i ORF en og hvad er kodon? c. Hvilken læseramme findes genet i? NB! Som hjælp er positionen angivet oven over sekvensen således at position 10 er et A, 20 et G osv. 10 20 30 40 50 60 70 GTATGGTGGATACCCAGCTGGTTTGTGTGGAGAGGCGCCCAGGGGAATATACAGCGGAAATAGAGGTCGT
Side 6 of 14 4. Der findes et enkelt intron indenfor den ORF du fandt i spørgsmål 3a og 3b. De første 2 nukleotider i et intron er næsten altid GT og kaldes et donor site (Figur 1) og de sidste to nukleotider i et intron er AG og kaldes et acceptor site (Figur 2). Sekvensen fra spørgsmål 3 er vist igen herunder. Figur 1 og 2 er vist på næste side. 10 20 30 40 50 60 70 GTATGGTGGATACCCAGCTGGTTTGTGTGGAGAGGCGCCCAGGGGAATATACAGCGGAAATAGAGGTCGT Man har fundet ud af at donor site er GT på positionerne 21 og 22. a. Hvor mange nukleotider er der i den kodende del af det første exon? Der er mange mulige positioner som starter med AG og dermed et potentielt acceptor site. Tre af dem (AC1, AC2 og AC3) er vist herunder: AC1: Acceptor site AG position 31 og 32 AC2: Acceptor site AG position 33 og 34 AC3: Acceptor site AG position 41 og 42 b. Hvilket ene acceptor site: AC1, AC2 eller AC3 kan være korrekt og hvorfor?
Side 7 of 14 Figur 1. Exon slutter på position -1 og intron starter fra position 0. Figur 2. Intron slutter på position -1 og exon starter fra position 0.
Side 8 of 14 Opgave 3 Bedste alignment (15%) Herunder er givet 2 alignments og du skal beregne alignmentscoren ved hjælp af en BLOSUM50 scoringsmatrix og værdierne herunder for første gap (Engelsk: Gap opening) og næste gap (Engelsk: Gap extension). Husk at skrive mellemregninger og ikke bare et enkelt tal. BLOSUM50 substitution matrix: A 5 R -2 7 N -1-1 7 D -2-2 2 8 C -1-4 -2-4 13 Q -1 1 0 0-3 7 E -1 0 0 2-3 2 6 G 0-3 0-1 -3-2 -3 8 H -2 0 1-1 -3 1 0-2 10 I -1-4 -3-4 -2-3 -4-4 -4 5 L -2-3 -4-4 -2-2 -3-4 -3 2 5 K -1 3 0-1 -3 2 1-2 0-3 -3 6 M -1-2 -2-4 -2 0-2 -3-1 2 3-2 7 F -3-3 -4-5 -2-4 -3-4 -1 0 1-4 0 8 P -1-3 -2-1 -4-1 -1-2 -2-3 -4-1 -3-4 10 S 1-1 1 0-1 0-1 0-1 -3-3 0-2 -3-1 5 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 2 5 W -3-3 -4-5 -5-1 -3-3 -3-3 -2-3 -1 1-4 -4-3 15 Y -2-1 -2-3 -3-1 -2-3 2-1 -1-2 0 4-3 -2-2 2 8 V 0-3 -3-4 -1-3 -3-4 -4 4 1-3 1-1 -3-2 0-3 -1 5 A R N D C Q E G H I L K M F P S T W Y V Første gap: -10 Næste gap: -1 Alignment A: CTTHIKLMAAILLVY :: :: : :: CTSHI---KLML-VY 1. Hvad er alignmentscoren for Alignment A? Alignment B: CTTHIKLMAAILLVY :: ::::: ::: CTSHIKLM----LVY 2. Hvad er alignmentscoren for Alignment B? 3. Hvilken af de 2 alignments er bedst A eller B (begrund svaret)?
Side 9 of 14 Opgave 4 Parvis alignment (25%) Herunder er to proteinsekvenser sekvensa og sekvensb. >sekvensa RAYN >sekvensb KSWDP 1. Hvad kaldes det format ovenfor som sekvensa og sekvensb er skrevet i? Der findes overordnet 2 typer af alignment: lokal alignment og global alignment. I det følgende skal du benytte Blosum50 substitutionmatricen herunder og Figur 3 som er vist på næste side til at aligne de to sekvenser sekvensa og sekvensb. Alle gaps har en værdi på -2. BLOSUM50 substitution matrix: A 5 R -2 7 N -1-1 7 D -2-2 2 8 C -1-4 -2-4 13 Q -1 1 0 0-3 7 E -1 0 0 2-3 2 6 G 0-3 0-1 -3-2 -3 8 H -2 0 1-1 -3 1 0-2 10 I -1-4 -3-4 -2-3 -4-4 -4 5 L -2-3 -4-4 -2-2 -3-4 -3 2 5 K -1 3 0-1 -3 2 1-2 0-3 -3 6 M -1-2 -2-4 -2 0-2 -3-1 2 3-2 7 F -3-3 -4-5 -2-4 -3-4 -1 0 1-4 0 8 P -1-3 -2-1 -4-1 -1-2 -2-3 -4-1 -3-4 10 S 1-1 1 0-1 0-1 0-1 -3-3 0-2 -3-1 5 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 2 5 W -3-3 -4-5 -5-1 -3-3 -3-3 -2-3 -1 1-4 -4-3 15 Y -2-1 -2-3 -3-1 -2-3 2-1 -1-2 0 4-3 -2-2 2 8 V 0-3 -3-4 -1-3 -3-4 -4 4 1-3 1-1 -3-2 0-3 -1 5 A R N D C Q E G H I L K M F P S T W Y V 2. Lav en global alignment to sekvenser ved at udfylde tabellen i Figur 3 (findes på næste side). Hvis du har word: Hvis du har åbnet dette dokument i word er det nemmest bare at udfylde tabellen som er vist i Figur 3.
Side 10 of 14 Hvis du ikke har word: Skrive alignmentscorerne i en lang liste med angivelse af hvilken celle i Figur 3 du udregner, hvor celle er (række,kolonne) f.eks. på denne måde: K R celle (1,1) = Alignmentscore K A celle (1,2) = Alignmentscore K Y celle (1,3) = Alignmentscore... P N celle (5,4) = Alignmentscore 3. Skriv det globale alignment samt alignmentscoren
Side 11 of 14 Figur 3 R A Y N O -2-4 -6-8 K -2 S -4 W -6 D -8 P -10
Side 12 of 14 Opgave 5 Genotype og fænotype (25%) I fremtiden bliver det måske almindeligt for et kommende forældrepar at genteste embryoer og benytte informationen til at udvælge drømmebarnet. Lad os i denne opgave se bort fra de etiske aspekter og forestille os, at vi for to embryoer har fået 3 korte diploide dna-sekvenser med tilhørende position- og kromosom-angivelse. De viste sekvenser er alle givet på plus-strengen. Den midterste kernebase i sekvensen repræsenterer en SNP (vist med fed skrift). I de tre nederste rækker er der lavet plads til at udfylde SNP-position og genotype (orienteret i forhold til hhv. plus- og minus-strengen) ud fra de to kopier af kromosomerne, der kommer fra hhv. moderen og faderen. For Embryo 1 s første SNP er position og genotype allerede udfyldt og sorteret alfabetisk (i forhold til genotypen er det ikke relevant, hvilken forælder kernebasen kommer fra) for at matche genotyperne i fænotypetabel 1-3. 1. Udfyld SNP-position, genotype (på plus-streng) og genotype (på minus-streng) i skemaerne nedenfor. Embryo 1: kromosom: 2 11 15 position: 136608641-136608651 66328090-66328100 72638641-72638651 kopi fra mor: 5 -CAGGGGCTACA-3 5 -CTGACTGAGAG-3 5 -CACCACAGCCT-3 kopi fra far: 5 -CAGGGACTACA-3 5 -CTGACCGAGAG-3 5 -CACCACAGCCT-3 SNP-position: 136608646 genotype (på plus-streng): Genotype (på minus-streng): A;G C;T Embryo 2: kromosom: 2 11 15 position: 136608641-136608651 66328090-66328100 72638641-72638651 kopi fra mor: 5 -CAGGGGCTACA-3 5 -CTGACCGAGAG-3 5 -CACCAGAGCCT-3 kopi fra far: 5 -CAGGGACTACA-3 5 -CTGACCGAGAG-3 5 -CACCAGAGCCT-3
Side 13 of 14 SNP-position: genotype (på plus-streng): genotype (på minus-streng): Du skal nu sammenholde de to embryoers genotyper med de tre fænotyper vist i fænotypetabel 1, 2 og 3 og svare på spørgsmål 2 og 3. Du bedes forholde dig til alle tre fænotyper for begge embryoer. Hint: Vær opmærksom på at genotyperne i fænotypetabellerne er angivet på den streng, der står ud for Streng (dbsnp). Position er altid givet i forhold til plus-strengen. 2. Hvilke mulige fænotyper har embryo 1? Forklar. 3. Hvilke mulige fænotyper har embryo 2? Forklar. 4. Begge forældre vurderes til at være normalt begavede og raske, men kunne en eller begge tænkes at være bærer af rs28940871- variationen, der er kædet sammen med Tay-Sachs sygdom?
Side 14 of 14 Fænotypetabel 1. Evne til at nedbryde laktose. Kromosom 2 Streng (dbsnp) minus Position 136608646 Genotype Effekt rs4988235(c;c) Muligvis laktose-intolerant rs4988235(c;t) Kan fordøje mælk rs4988235(t;t) Kan fordøje mælk Fænotypetabel 2. Muskler optimeret til eskplosiv udfoldelse eller udholdende Kromosom 11 Streng (dbsnp) plus Position 66328095 Genotype Effekt rs1815739(c;c) Muligvis øget sprinter-præstationsevne rs1815739 (C;T) Blanding af sprint- og udholdenhedsmuskler rs1815739 (T;T) Muligvis øget udholdenhed Fænotypetabel 3. Tay-Sachs sygdom: Udviklingshæmmelse, paralyse, blindhed og død i alderen 2-4 år. Kromosom 15 Streng (dbsnp) minus Position 72638646 Genotype Effekt rs28940871(c;c) Normal rs28940871(c;g) Bærer af varianten relateret til Tay-Sachs sygdom rs28940871(g;g) Lider sandsynligvis af Tay-Sachs sygdom