Danmarks Tekniske Universitet

Side 1 of 17 Danmarks Tekniske Universitet Skriftlig prøve, den 21/1-2013 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle opgaver. Kursusansvarlig ------------------------------------------- Thomas Nordahl Petersen

Side 2 of 17 27633 Eksamen Januar 2013 Dette sæt indeholder x opgaver (side 1-x) check at du har alle sider. Opgave 1 DNA og aminosyrer (10%) Opgave 2 Uniprot, Blast og UCSC blat (25%) Opgave 3 Parvis alignment (20%) Opgave 4 α-helix og informationsinhold (25%) Opgave 5 phylogenetisk træ og afstandsmatrice (20%) En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan http://wiki.bio.dtu.dk/teaching/index.php/course27633autumn2012 - Monday_January_21_exam Svar til opgavesættet kan skrives enten i rå tekst (fx i JEdit) eller i et tekstbehandlingprogram såsom Microsoft Word. Gyldige formater er.txt,.doc,.docx og.rtf. Vi foretrækker dog at du benytter Microsoft Word. Svaret skal uploades på CampusNet under kursus 27633 (under "Opgaver -> bioinformatik-eksamen2013"). Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor. VIGTIGT: Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717") Udfyld denne forside og aflever den til eksamensvagten. Navn: Studienummer: Afleveringskode:

Side 3 of 17 Ang. brug af Internettet Trådløst internet: Du kan koble dig på det Wireless system du normalt bruger. Online materialer: Linksamlingen til bioinformatik serverne findes via kursets lektionsplan. BEMÆRK: I er ikke begrænset til kun de links der findes her det er tilladt at søge information andetsteds. Det er IKKE tilladt at kommunikere med andre over nettet under eksamen. Sluk telefonen. Der vil blive taget stikprøver af netværkstrafikken for at sikre dette. Hvad gør man hvis en web-server ikke virker: 1) Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet. 2) Prøv evt. at finde en alternativ server med samme funktion (Google). 3) Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt. HUSK altid: Don t panic Held og lykke med eksamenen. -Thomas

Side 4 of 17 Opgave 1 DNA og aminosyrer (10%) Herunder er vist et Enkelt-strenget DNA molekyle. Enkelt-strenget DNA molekyle: 5 CCGTGTGCAA 3 a) Hvilke af de 5 DNA strenge herunder (1-5), er den komplimentære DNA streng til: 5 CCGTGTGCAA 3? 1) 5 GGCACAGGTT 3 2) 3 GGCACAGGUU 5 3) 3 CCGTGTCCAA 5 4) 5 AACCTCTCCC 3 5) 5 TTGCACACGG 3 Answer: 5) 5 -TTGCACACGG-3 b) Oversæt sekvensen 5 CCGTGTCCAA 3 i læseramme +2 og skriv hvilken aminosyresekvensens der fås ved hjælp af 1-bogstavskoder? CGT-GTC-CAA => RVQ De aromatiske aminosyrer har alle en sidekæde hvor en del af denne er plan dvs flad på grund af et konjugeret system hvor elektroner befinder sig i en sky over og under denne flade gruppe af sidekæden. Disse aromatiske aminosyrer er: Phe, Tyr, Trp og His. c) Hvilke af disse aminosyrer er udelukkende hydrophobe dvs ingen polære grupper i sidekæden? Phe d) Hvilke af disse aminosyrer kan have en sidekæde som er positivt ladet? His Enzymer er en klasse af proteiner som katalyserer en kemisk proces således at dennne kan foregå meget hurtigt. Det sted på proteinet hvor den katalytiske process foregår kaldes det aktive site og det er normalt 1-3 aminosyrer som benyttes til at udføre den katalytiske funktion i et protein. Af de 20 naturligt forekommende aminosyrer er det kun et fåtal som man ser i det aktive site som del af den katalytiske mekanisme. e) Hvilke af disse aminosyrer nævnt herunder 1)-5) kan være blandt de katalytiske aminosyrer? 1) Asp, 3) Arg, 5) Ser 1) Asp 2) Ala 3) Arg 4) Phe

Side 5 of 17 5) Ser e) Når man taler om den naturlige læseretning for en proteinsekvens er der kun en af de udsagn herunder 1)-4) som er korrekt. Hvilken? 3) N-terminal -> C-terminal 1) C-terminal -> N-terminal 2) 5 -> 3 3) N-terminal -> C-terminal 4) 3 -> 5

Side 6 of 17 Opgave 2 UniProt, Blast og UCSC blat (25%) Benyt uniprot til at finde humane sekvenser (Taxonomy 9606) som har følgende: Et eksperimentelt signalpeptid med en længde på 20-30 aminosyrer, samt et eksperimentelt bestemt propeptid. a) Hvor mange hits finder du (skriv gerne søgestrengen)? 53 hits taxonomy:9606 AND annotation:(type:signal length:[20 TO 30] confidence:experimental) AND annotation:(type:propep confidence:experimental) b) Vil du forvente af de proteiner du finder er aktive indeni cellen eller udenfor? (begrund dit svar) Udenfor cellen da det er secreted proteiner Proteinet Elafin (accession id: P19957) opfylder kriterierne fra spørgsmål a) og det benyttes herefter som vores søgesekvens. Brug Blast http://blast.ncbi.nlm.nih.gov/til at finde homologe (lignende) sekvenser som findes ved at blaste mod databasen Protein data Bank proteins(pdb). c) Hvor mange signifikante hits finder du og forklar hvorfor du mener det er signifikante hits? Der er 2 hits med en e-værdi lavere end 1e- 05 d) Hvad er accession-id for det bedste hit du finder og hvad er e- værdien? Bedste hit 1FLE.I med en e-værdi på 3e-35 Alignment fra det bedste hit benyttes i de næste 2 spørgsmål du må gerne paste alignment ind herunder før du svarer på spørgsmål e) og f). Alignment: Score Expect Method Identities Positives Gaps 118 bits(296) 3e-35 Compositional matrix adjust. 57/57(100%) 57/57(100%) 0/57(0%) Query 61 AQEPVKGPVSTKPGSCPIILIRCAMLNPPNRCLKDTDCPGIKKCCEGSCGMACFVPQ 117 AQEPVKGPVSTKPGSCPIILIRCAMLNPPNRCLKDTDCPGIKKCCEGSCGMACFVPQ Sbjct 1 AQEPVKGPVSTKPGSCPIILIRCAMLNPPNRCLKDTDCPGIKKCCEGSCGMACFVPQ 57 e) Hvor stor en del (i procent) af din søgesekvens er dækket af det alignment du fandt? Query sekvensen er 117aa lang, men alignment dækker kun 117-61+1 = 57, 57*100/117=48.7%

Side 7 of 17 f) Hvor stor en del (i procent) udgør alignment i forhold til den modne del (eng: mature) af din søgesekvens? Den mature sekvens går iffølge uniprot fra 61-117, dvs 100% af den mature sekvens er dækket af alignment. I det følgende skal du stadig benytte samme fasta sekvens med UniProt accession-id P19957. Benyt UCSC Blat genom browseren http://genome.ucsc.edu/cgi-bin/hgblat g) På hvilken kromosom findes genet som koder for dette protein og hvad er de genomiske positioner Start og End for genet? Chr20, start 43803564, End 43804773 h) Hvor mange kodende exons består genet af? 2 kodende exons 2 Kig på intron/exon overgangene dvs donor site og acceptor site og benyt Figur 1 og 2 som hjælp til at vurdere om Blat finder de korrekte intron/exon overgange. Skriv de donor og acceptor sites i spørgsmål j) og k) som du mener er korrekte og gør det ved at skrive de sidste 3 nukleotider i exon for donor site og de første 3 nukleotider i exon for acceptor site.. Figur 1. Exon slutter på position -1 og intron starter fra position 0.

Side 8 of 17 Figur 2. Intron slutter på position -1 og exon starter fra position 0. i) Donor site (sidste 3 nukleotider i exon delen)? j) Acceptor site (første 3 nukleotider i exon delen)?

Side 9 of 17 Opgave 3 Parvis alignment (20%) Herunder er to proteinsekvenser sekvensa og sekvensb. >sekvensa CEGS >sekvensb MDGCI Der findes overordnet 2 typer af alignment: lokal alignment og global alignment. I det følgende skal du benytte Blosum50 substitutionmatricen herunder og Figur 3 som er vist på næste side til at aligne de to sekvenser sekvensa og sekvensb. Alle gaps har en værdi på -2. BLOSUM50 substitution matrix: A 5 R -2 7 N -1-1 7 D -2-2 2 8 C -1-4 -2-4 13 Q -1 1 0 0-3 7 E -1 0 0 2-3 2 6 G 0-3 0-1 -3-2 -3 8 H -2 0 1-1 -3 1 0-2 10 I -1-4 -3-4 -2-3 -4-4 -4 5 L -2-3 -4-4 -2-2 -3-4 -3 2 5 K -1 3 0-1 -3 2 1-2 0-3 -3 6 M -1-2 -2-4 -2 0-2 -3-1 2 3-2 7 F -3-3 -4-5 -2-4 -3-4 -1 0 1-4 0 8 P -1-3 -2-1 -4-1 -1-2 -2-3 -4-1 -3-4 10 S 1-1 1 0-1 0-1 0-1 -3-3 0-2 -3-1 5 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 2 5 W -3-3 -4-5 -5-1 -3-3 -3-3 -2-3 -1 1-4 -4-3 15 Y -2-1 -2-3 -3-1 -2-3 2-1 -1-2 0 4-3 -2-2 2 8 V 0-3 -3-4 -1-3 -3-4 -4 4 1-3 1-1 -3-2 0-3 -1 5 A R N D C Q E G H I L K M F P S T W Y V Hvis du har word: Hvis du har åbnet dette dokument i word er det nemmest bare at udfylde tabellen som er vist i Figur 3. Hvis du ikke har word: Skrive alignmentscorerne i en lang liste med angivelse af hvilken celle i Figur 3 du udregner, hvor celle er (række,kolonne) f.eks. på denne måde: M C celle (1,1) = Alignmentscore

Side 10 of 17 M E celle (1,2) = Alignmentscore M G celle (1,3) = Alignmentscore... I S celle (5,4) = Alignmentscore a) Lav en lokal alignment de to sekvenser ved at udfylde tabellen i Figur 3 og skriv hvilken alignment score du får? b) Skriv det lokale alignment du har fundet ved at udfylde tabellen i Figur 3

Side 11 of 17 Figur 3 C E G S 0-2 -4-6 -8-2 -4-4 -6-7 -8-8 -10 M -2-4 0-2 0-2 0-2 0-6 -2 2-2 -1-2 0-2 D -4-6 0-2 2 0 0-2 0-7 -2-3 0 10-2 0-2 G -6-8 0-2 0-2 10 8 8 7-2 -3-2 -3 8 9 6 C -8-10 7 5 5 3 8 6 9-10 5 3 3 1 6 5 7 I -10-12 5 3 3 1 6 4 7

Side 12 of 17 I en local alignment finder man højeste tal I matricen og backtracer indtil man støder på et 0 (nul). Alignmentscoren bliver altså 10. Alignment bliver: D G E G Man kan regne efter og får alignmentscore= 2+8=10

Side 13 of 17 Opgave 4 α-helix og informationsindhold (25%) Man har 3 typer af α-helix som hver især er karakteriser med deres hydrogenbindingsmønster. De 3 typer kaldes 310-helix, normal α-helix (oftest forekommende og den type man mener når man bare siger α- helix) og π-helix. Det som holder hver af de 3 typer af α-helix sammen er hydrogenbindingerne mellem backbone-atomerne N(i) og O(i+n), hvor i er en aminosyre på position i og i+n er den aminosyre hvortil der laves en hydrogenbinding og n er det heltal som beskriver hydrogenbindingsmønstret mellem positionerne i -> i+n a) Hvad er hydrogenbindingsmønstret for en normal α-helix, dvs hvad er værdien af n? 4 Der er nogle aminosyrer som man oftere finder i en α-helix end andre og der kan også være en præference for hvilke aminosyrer som sidder lige før starten af en α-helix. For at undersøge dette kan man aligne et stort antal α-helixer og beregne aminosyrer-frekvenserne for udvalgte positioner som det er gjort i Tabel 2. Aminosyrefrekvenserne er givet for hvor ofte en specifik aminosyre sidder lige før starten af en α-helix (position -1), mens kolonnen position 1 viser aminosyrefrekvenserne på den første position in en α-helix. Kun de 5 oftest forekommende aminosyretyper på hver position er angivet i Tabel 2, mens frekvensen for de andre er sat til 0 (af beregningsmessige årsager). Informationsinholdet på position i er givet ved følgende formel: Ι(i)= Σa fa * log2 (fa) + log2(n), hvor N=20, antallet af standard aminosyrer og fa er frekvensen af en given aminosyre. Log2(x) = log(x)/log(2) b) Benyt frekvenserne i Tabel 2 at beregne informationsindholdet på position -1 og på position 1 position -1: 0.260*log(0.260)/log(2)+0.262*log(0.262)/log(2) + 0.164*log(0.164)/log(2) + 0.113*log(0.113)/log(2) + 0.201*log(0.201)/log(2) + log(20)/log(2)= -2.26 + log(20)/log(2) = - 2.26 + 4.32 = 2.062 position 1:

Side 14 of 17 0.198*log(0.198)/log(2) + 0.19*log(0.19)/log(2) + 0.214*log(0.214)/log(2) + 0.257*log(0.257)/log(2) + 0.141*log(0.141)/log(2) +log(20)/log(2) = -2.296 + 4.32 = 2.026 Tabel 2 Aminosyre Frekvenser på position -1 Frekvenser på position 1 A 0 0.198 C 0 0 D 0.262 0 E 0 0.190 F 0 0 G 0 0 H 0 0 I 0 0 K 0 0 L 0 0.214 M 0 0 N 0.164 0 P 0.113 0.257 Q 0 0 R 0 0 S 0.260 0 T 0.201 0 V 0 0.141 W 0 0 Y 0 0 Informationsindhold 2.062 2.026 c) Hvad betyder det hvis man får et informationsindhold på 0 (nul)? At alle aminosyrer forekommer med samme frekvens og ingen aminosyre-præference d) Hvis der på en position kun observeres en bestemt type aminosyre dvs en frekvens er 1, mens de andre 19 frekvenser er 0 (nul). Hvilket informationsindhold får man så? Log(20)/log(2)=4.32 e) Skriv 3-bogstavskoderne for de 3 oftest forekommende aminosyrer på den position i Tabel 2 du bestemte med det højeste informationsindhold? Asp, Ser, Thr Det er kendt at den 3-dimensionells struktur er mere bevaret end funktionen og at funktionen er mere bevaret end sekvensen. Dette kan skrives som: Struktur > Funktion > Sekvens. Hvis man laver et multipelt

Side 15 of 17 alignment af en familie af enzymer, alle med samme funktion, er det muligt at bestemme hvilke aminosyrer der er vigtige for netop den familie af enzymer og for hver position i sekvensen kan man beregne informationsindholdet. f) Beskriv hvilke positioner i et protein hvor man vil forvente et forholdsvis højt informationsindhold? Positioner i det aktive site og positioner som er vigtige protein-foldet.

Side 16 of 17 Opgave 5 Phylogenetisk træ og afstandsmatrice (20%) For at bestemme hvor nært beslægtet forskellige organismer er, må man lave et multipelt alignment af deres arvemateriale. Herunder er vist fire korte stykker genomisk materiale fra organismerne vi kalder A, B, C og D og sekvenserne er alignet således: A: TAGGAATA B: TAAGCAAA C: CTAGCATG D: TTACCATG Udfyld afstandsmatricen herunder med alle parvise forskelle. A B C D A B 3 C 5 4 D 5 4 2 Benyt herefter afstandsmatricen til at lave det phylogenetiske træ og skriv hvor i træet du vil placere organismerne A-D (organisme A er allerede placeret øverst til venstre i træet) og hvilket afstande d1-d5 som opfylder kriterierne fra afstandsmatricen.

Side 17 of 17 Organisme øverst til venstre = A Organisme nederst til venstre =B Organisme øverst til højre =C Organisme nederst til højre =D Afstand d1=2 Afstand d2=1 Afstand d3=2 Afstand d4=1 Afstand d5=1