Danmarks Tekniske Universitet

Side 1 of 14 Danmarks Tekniske Universitet Skriftlig prøve, den 21/1-2013 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle opgaver. Kursusansvarlig ------------------------------------------- Thomas Nordahl Petersen

Side 2 of 14 27633 Eksamen Januar 2013 Dette sæt indeholder 5 opgaver (side 1-14) check at du har alle sider. Opgave 1 DNA og aminosyrer (10%) Opgave 2 Uniprot, Blast og UCSC blat (25%) Opgave 3 Parvis alignment (20%) Opgave 4 α-helix og informationsinhold (25%) Opgave 5 phylogenetisk træ og afstandsmatrice (20%) En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan. Svar til opgavesættet kan skrives enten i rå tekst (fx i JEdit) eller i et tekstbehandlingprogram såsom Microsoft Word. Gyldige formater er.txt,.doc,.docx og.rtf. Vi foretrækker dog at du benytter Microsoft Word. Svaret skal uploades på CampusNet under kursus 27633 (under "Opgaver -> bioinformatik-eksamen2013"). Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor. VIGTIGT: Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717") Udfyld denne forside og aflever den til eksamensvagten. Navn: Studienummer: Afleveringskode:

Side 3 of 14 Ang. brug af Internettet Trådløst internet: Du kan koble dig på det Wireless system du normalt bruger. Online materialer: Linksamlingen til bioinformatik serverne findes via kursets lektionsplan. BEMÆRK: I er ikke begrænset til kun de links der findes her det er tilladt at søge information andetsteds. Det er IKKE tilladt at kommunikere med andre over nettet under eksamen. Sluk telefonen. Der vil blive taget stikprøver af netværkstrafikken for at sikre dette. Hvad gør man hvis en web-server ikke virker: 1) Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet. 2) Prøv evt. at finde en alternativ server med samme funktion (Google). 3) Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt. HUSK altid: Don t panic Held og lykke med eksamenen. -Thomas

Side 4 of 14 Opgave 1 DNA og aminosyrer (10%) Herunder er vist et Enkelt-strenget DNA molekyle. Enkelt-strenget DNA molekyle: 5 CCGTGTGCAA 3 a) Hvilke af de 5 DNA strenge herunder (1-5), er den komplimentære DNA streng til: 5 CCGTGTGCAA 3? 1) 5 GGCACAGGTT 3 2) 3 GGCACAGGUU 5 3) 3 CCGTGTCCAA 5 4) 5 AACCTCTCCC 3 5) 5 TTGCACACGG 3 b) Oversæt sekvensen 5 CCGTGTCCAA 3 i læseramme +2 og skriv hvilken aminosyresekvensens der fås ved hjælp af 1-bogstavskoder? De aromatiske aminosyrer har alle en sidekæde hvor en del af denne er plan dvs flad på grund af et konjugeret system hvor elektroner befinder sig i en sky over og under denne flade gruppe af sidekæden. Disse aromatiske aminosyrer er: Phe, Tyr, Trp og His. c) Hvilke af disse aminosyrer er udelukkende hydrophobe dvs ingen polære grupper i sidekæden? d) Hvilke af disse aminosyrer kan have en sidekæde som er positivt ladet? Enzymer er en klasse af proteiner som katalyserer en kemisk proces således at dennne kan foregå meget hurtigt. Det sted på proteinet hvor den katalytiske process foregår kaldes det aktive site og det er normalt 1-3 aminosyrer som benyttes til at udføre den katalytiske funktion i et protein. Af de 20 naturligt forekommende aminosyrer er det kun et fåtal som man ser i det aktive site som del af den katalytiske mekanisme. e) Hvilke af disse aminosyrer nævnt herunder 1)-5) kan være blandt de katalytiske aminosyrer? 1) Asp 2) Ala 3) Arg 4) Phe 5) Ser

Side 5 of 14 f) Når man taler om den naturlige læseretning for en proteinsekvens er der kun en af de udsagn herunder 1)-4) som er korrekt. Hvilken? 1) C-terminal -> N-terminal 2) 5 -> 3 3) N-terminal -> C-terminal 4) 3 -> 5

Side 6 of 14 Opgave 2 UniProt, Blast og UCSC blat (25%) Benyt uniprot til at finde humane sekvenser (Taxonomy 9606) som har følgende: Et eksperimentelt signalpeptid med en længde på 20-30 aminosyrer, samt et eksperimentelt bestemt propeptid. a) Hvor mange hits finder du (skriv gerne søgestrengen)? b) Vil du forvente af de proteiner du finder er aktive indeni cellen eller udenfor? (begrund dit svar) Proteinet Elafin (accession id: P19957) opfylder kriterierne fra spørgsmål a) og det benyttes herefter som vores søgesekvens. Brug Blast http://blast.ncbi.nlm.nih.gov/til at finde homologe (lignende) sekvenser som findes ved at blaste mod databasen Protein data Bank proteins(pdb). c) Hvor mange signifikante hits finder du og forklar hvorfor du mener det er signifikante hits? d) Hvad er accession-id for det bedste hit du finder og hvad er e- værdien? Alignment fra det bedste hit benyttes i de næste 2 spørgsmål du må gerne paste alignment ind herunder før du svarer på spørgsmål e) og f). e) Hvor stor en del (i procent) af hele din søgesekvens er dækket af det alignment du fandt? f) Hvor stor en del (i procent) udgør alignment i forhold til den modne del (eng: mature) af din søgesekvens? I det følgende skal du stadig benytte samme fasta sekvens med UniProt accession-id P19957. Benyt UCSC Blat genom browseren http://genome.ucsc.edu/cgi-bin/hgblat g) På hvilken kromosom findes genet som koder for dette protein og hvad er de genomiske positioner Start og End for genet? h) Hvor mange kodende exons består genet af?

Side 7 of 14 Kig på intron/exon overgangene dvs donor site og acceptor site og benyt Figur 1 og 2 som hjælp til at vurdere om Blat finder de korrekte intron/exon overgange. Skriv de donor og acceptor sites i spørgsmål j) og k) som du mener er korrekte og gør det ved at skrive de sidste 3 nukleotider i exon for donor site og de første 3 nukleotider i exon for acceptor site. Figur 1. Exon slutter på position -1 og intron starter fra position 0. Figur 2. Intron slutter på position -1 og exon starter fra position 0. i) Donor site (sidste 3 nukleotider i exon delen)? j) Acceptor site (første 3 nukleotider i exon delen)?

Side 8 of 14 Opgave 3 Parvis alignment (20%) Herunder er to proteinsekvenser sekvensa og sekvensb. >sekvensa CEGS >sekvensb MDGCI Der findes overordnet 2 typer af alignment: lokal alignment og global alignment. I det følgende skal du benytte Blosum50 substitutionmatricen herunder og Figur 3 som er vist på næste side til at aligne de to sekvenser sekvensa og sekvensb. Alle gaps har en værdi på -2. BLOSUM50 substitution matrix: A 5 R -2 7 N -1-1 7 D -2-2 2 8 C -1-4 -2-4 13 Q -1 1 0 0-3 7 E -1 0 0 2-3 2 6 G 0-3 0-1 -3-2 -3 8 H -2 0 1-1 -3 1 0-2 10 I -1-4 -3-4 -2-3 -4-4 -4 5 L -2-3 -4-4 -2-2 -3-4 -3 2 5 K -1 3 0-1 -3 2 1-2 0-3 -3 6 M -1-2 -2-4 -2 0-2 -3-1 2 3-2 7 F -3-3 -4-5 -2-4 -3-4 -1 0 1-4 0 8 P -1-3 -2-1 -4-1 -1-2 -2-3 -4-1 -3-4 10 S 1-1 1 0-1 0-1 0-1 -3-3 0-2 -3-1 5 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 2 5 W -3-3 -4-5 -5-1 -3-3 -3-3 -2-3 -1 1-4 -4-3 15 Y -2-1 -2-3 -3-1 -2-3 2-1 -1-2 0 4-3 -2-2 2 8 V 0-3 -3-4 -1-3 -3-4 -4 4 1-3 1-1 -3-2 0-3 -1 5 A R N D C Q E G H I L K M F P S T W Y V Hvis du har word: Hvis du har åbnet dette dokument i word er det nemmest bare at udfylde tabellen som er vist i Figur 3. Hvis du ikke har word: Skrive alignmentscorerne i en lang liste med angivelse af hvilken celle i Figur 3 du udregner, hvor celle er (række,kolonne) f.eks. på denne måde: M C celle (1,1) = Alignmentscore

Side 9 of 14 M E celle (1,2) = Alignmentscore M G celle (1,3) = Alignmentscore... I S celle (5,4) = Alignmentscore a) Lav en lokal alignment de to sekvenser ved at udfylde tabellen i Figur 3 og skriv hvilken alignment score du får? b) Skriv det lokale alignment du har fundet ved at udfylde tabellen i Figur 3

Side 10 of 14 Figur 3 C E G S 0-2 -4-6 -8 M -2 D -4 G -6 C -8 I -10

Side 11 of 14 Opgave 4 α-helix og informationsindhold (25%) Man har 3 typer af α-helix som hver især er karakteriser med deres hydrogenbindingsmønster. De 3 typer kaldes 310-helix, normal α-helix (oftest forekommende og den type man mener når man bare siger α- helix) og π-helix. Det som holder hver af de 3 typer af α-helix sammen er hydrogenbindingerne mellem backbone-atomerne N(i) og O(i+n), hvor i er en aminosyre på position i og i+n er den aminosyre hvortil der laves en hydrogenbinding og n er det heltal som beskriver hydrogenbindingsmønstret mellem positionerne i -> i+n a) Hvad er hydrogenbindingsmønstret for en normal α-helix, dvs hvad er værdien af n? Der er nogle aminosyrer som man oftere finder i en α-helix end andre og der kan også være en præference for hvilke aminosyrer som sidder lige før starten af en α-helix. For at undersøge dette kan man aligne et stort antal α-helixer og beregne aminosyrer-frekvenserne for udvalgte positioner som det er gjort i Tabel 2. Aminosyrefrekvenserne er givet for hvor ofte en specifik aminosyre sidder lige før starten af en α-helix (position -1), mens kolonnen position 1 viser aminosyrefrekvenserne på den første position i en α-helix. Kun de 5 oftest forekommende aminosyretyper på hver position er angivet i Tabel 2, mens frekvensen for de andre er sat til 0 (af beregningsmessige årsager). Informationsinholdet på position i er givet ved følgende formel: Ι(i)= Σa fa * log2 (fa) + log2(n), hvor N=20, antallet af standard aminosyrer og fa er frekvensen af en given aminosyre. Log2(x) = log(x)/log(2) b) Benyt frekvenserne i Tabel 2 at beregne informationsindholdet på position -1 og på position 1 Tabel 2 Aminosyre Frekvenser på position -1 Frekvenser på position 1 A 0 0.198 C 0 0 D 0.262 0 E 0 0.190 F 0 0

Side 12 of 14 G 0 0 H 0 0 I 0 0 K 0 0 L 0 0.214 M 0 0 N 0.164 0 P 0.113 0.257 Q 0 0 R 0 0 S 0.260 0 T 0.201 0 V 0 0.141 W 0 0 Y 0 0 Informationsindhold c) Hvad betyder det hvis man får et informationsindhold på 0 (nul)? d) Hvis der på en position kun observeres en bestemt type aminosyre dvs en frekvens er 1, mens de andre 19 frekvenser er 0 (nul). Hvilket informationsindhold får man så? e) Skriv 3-bogstavskoderne for de 3 oftest forekommende aminosyrer på den position i Tabel 2 du bestemte med det højeste informationsindhold? Det er kendt at den 3-dimensionells struktur er mere bevaret end funktionen og at funktionen er mere bevaret end sekvensen. Dette kan skrives som: Struktur > Funktion > Sekvens. Hvis man laver et multipelt alignment af en familie af enzymer, alle med samme funktion, er det muligt at bestemme hvilke aminosyrer der er vigtige for netop den familie af enzymer og for hver position i sekvensen kan man beregne informationsindholdet. f) Beskriv hvilke positioner i et protein hvor man vil forvente et forholdsvis højt informationsindhold?

Side 13 of 14 Opgave 5 Phylogenetisk træ og afstandsmatrice (20%) For at bestemme hvor nært beslægtet forskellige organismer er, må man lave et multipelt alignment af deres arvemateriale. Herunder er vist fire korte stykker genomisk materiale fra organismerne vi kalder A, B, C og D og sekvenserne er alignet således: A: TAGGAATA B: TAAGCAAA C: CTAGCATG D: TTACCATG Udfyld afstandsmatricen herunder med alle parvise forskelle. A B C D A B C D Benyt herefter afstandsmatricen til at lave det phylogenetiske træ og skriv hvor i træet du vil placere organismerne A-D (organisme A er allerede placeret øverst til venstre i træet) og hvilket afstande d1-d5 som opfylder kriterierne fra afstandsmatricen.

Side 14 of 14 Organisme øverst til venstre = A Organisme nederst til venstre = Organisme øverst til højre = Organisme nederst til højre = Afstand d1= Afstand d2= Afstand d3= Afstand d4= Afstand d5=