Danmarks Tekniske Universitet



Relaterede dokumenter
Danmarks Tekniske Universitet

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

27611 Eksamen Sommer 2007

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Danmarks Tekniske Universitet. Kursus navn: Introduktion til Bioinformatik. Kursus nummer: Hjælpemidler: alle.

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

27611 Eksamen Sommer 2008

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

Geneious en manual til elevbrug

Svar til sommereksamen 2014, opdateret maj 2016:

SUBS_BACLE 1 0 ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50

Danmarks Tekniske Universitet. Løsningsforslag til Øvelse i Immonologisk Bioinformatik

Immunologisk bioinformatik

Immunologisk Bioinformatik

Svar til sommereksamen 2014, opdateret 30. april 2018:

Danmarks Tekniske Universitet

Databasesøgning med BLAST

Struktur og funktion af gener

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

Proteiner: en introduktion. Modul 1; F13 Rolf Andersen, 18/2-2013

BIOTEKNOLOGI HØJT NIVEAU

BIOTEKNOLOGI HØJT NIVEAU

Bioinformatik Open Source Software i biologiens tjeneste

ISOWARE release note

Genetiske afstande og afstandsmatricer

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Kresten Cæsar Torp Supplerende materiale til Biokemibogen liv, funktion, molekyle

I denne manual kan du finde en hurtig introduktion til hvordan du:

Lav din egen forside i webtrees

vejledning sådan ARBejdeR du i ebg s RAppoRTvæRKTøj

Opgaver. Notater. Opgave 1: Find kursus hjemmeside og bladre lidt rundt på siderne.

Kom godt i gang med I-bogen

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer)

Indledning. MIO er optimeret til Internet Explorer. Læs endvidere under Ofte stillede spørgsmål.

På grund af reglerne for copyright er det ikke muligt at lægge figurer fra lærebøger på nettet. Derfor har jeg fjernet figurerne fra slides ne, men

Sådan redigerer du en hjemmeside i Umbraco

Redaktørvejledning for Skriv en artikel

BørneIntra hjemmesidekursus

Studienummer: MeDIS Exam Husk at opgive studienummer ikke navn og cpr.nr. på alle ark, der skal medtages i bedømmelsen

Manual til administration af online booking

Konvertering af DADAS data til Dansk Supermarked VI-skema

Side 1 of 16. Du skal i opgaven skrive en sorteret liste af Blast e-værdier, med den mest signifikante (laveste) I toppen af listen.

Proteiners byggesten er aminosyrer

Manual Version 2. til oprettelse af hjemmesider for landsbyer i Rebild kommune

Populationsgenetik hos to hvalarter

BRUGER KURSUS RAMBØLL HJEMMESIDE

FSFIs lynguide til DFRs elektronisk bevissystem

DATALOGISK INSTITUT, AARHUS UNIVERSITET

Danmarks Tekniske Universitet

Ekstraordinær re-eksamen 2015

Kom godt i gang med DLBR Webdyr

Brug af IT-udstyr ved skriftlig eksamen

Tre sideopsætninger: 1 Forside. 2 Standard 3 Liste. 1 Forside. 2 Underside. 3 Liste

IT-Brugerkursus. Modul 1 - Introduktion til skolens netværk og FC. Modul 1 - Introduktion til FC og Lectio. Printvenligt format. Indholdsfortegnelse

Vejledning til. LearnSpace

Lav etiketter online. Hvorfor? Før du går i gang. Hvordan

Sådan opretter du en elektronisk aflevering

Brugervejledning til. Hovedkursusleder

Brugermanual til Assignment Hand In

Vejledning til opbygning af hjemmesider

VELKOMMEN 3. KOM GODT I GANG 4 Log ind 5 Kontrolpanel 6 Tilpas profil 7 Tilknyt hold 8 Tilknyt fag 9

Ruko Security Master Central Database

Fronter for elever - Første undervisning

En blog med dansk brugerflade. Opret en Smartlog konto Gå til Opret en konto ved at skrive din adresse

Qbrick s krav til video filtyper

Fase Forklaring Navigation. Mappen skal indeholde alle elementer til dit site.

Digital Eksamen Når du er logget ind i Digital Eksamen, bliver du mødt med en oversigt som vist nedenfor:

Bachelor i Medicin og Medicin med Industriel Specialisering

VEJLEDNING ITS365. Gratis tilbud til alle kursister på Randers HF & VUC

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

SMVdanmark online løsning: Guide til oprettelse af oprindelsescertifikater

eportfolio på Studienet

Karens vejledning til WordPress, september

Elev-manual til Køreklar e-læring

Byg web sider. Introduktion:

Bioteknologi A. Gymnasiale uddannelser. Vejledende opgavesæt 1. Mandag den 31. maj 2010 kl timers skriftlig prøve

Foreløbig version af Brugervejledning for datamodtagere til GS1Trade Sync

Patient Database - Manual

DATALOGISK INSTITUT, AARHUS UNIVERSITET

Vejledning til redigering via iserasuaat.gl/typo3 - både frontend og backend

Danmarks Tekniske Universitet

Foreløbig version af Brugervejledning for datamodtagere til GS1Trade Sync

En forsker har lavet et cdna insert vha PCR og har anvendt det følgende primer sæt, som producerer hele den åbne læseramme af cdna et:

Vejledning til indtastning af overnatningspladser for skarv, samt tællinger af disse på hjemmesiden Cormorant counts in the Western Palearctic

Brugermanual til Assignment hand in

Biologiske signaler i graviditeten - Genetisk information

Vejledning til udførelse af WISEflow opgaver på instituttet

DE Online løsning: Quick guide til oprettelse af ATA Carnet

Trin-for-trin guide til debatforum

Transkript:

Side 1 of 17 Danmarks Tekniske Universitet Skriftlig prøve, den 21/1-2013 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle opgaver. Kursusansvarlig ------------------------------------------- Thomas Nordahl Petersen

Side 2 of 17 27633 Eksamen Januar 2013 Dette sæt indeholder x opgaver (side 1-x) check at du har alle sider. Opgave 1 DNA og aminosyrer (10%) Opgave 2 Uniprot, Blast og UCSC blat (25%) Opgave 3 Parvis alignment (20%) Opgave 4 α-helix og informationsinhold (25%) Opgave 5 phylogenetisk træ og afstandsmatrice (20%) En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan http://wiki.bio.dtu.dk/teaching/index.php/course27633autumn2012 - Monday_January_21_exam Svar til opgavesættet kan skrives enten i rå tekst (fx i JEdit) eller i et tekstbehandlingprogram såsom Microsoft Word. Gyldige formater er.txt,.doc,.docx og.rtf. Vi foretrækker dog at du benytter Microsoft Word. Svaret skal uploades på CampusNet under kursus 27633 (under "Opgaver -> bioinformatik-eksamen2013"). Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor. VIGTIGT: Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717") Udfyld denne forside og aflever den til eksamensvagten. Navn: Studienummer: Afleveringskode:

Side 3 of 17 Ang. brug af Internettet Trådløst internet: Du kan koble dig på det Wireless system du normalt bruger. Online materialer: Linksamlingen til bioinformatik serverne findes via kursets lektionsplan. BEMÆRK: I er ikke begrænset til kun de links der findes her det er tilladt at søge information andetsteds. Det er IKKE tilladt at kommunikere med andre over nettet under eksamen. Sluk telefonen. Der vil blive taget stikprøver af netværkstrafikken for at sikre dette. Hvad gør man hvis en web-server ikke virker: 1) Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet. 2) Prøv evt. at finde en alternativ server med samme funktion (Google). 3) Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt. HUSK altid: Don t panic Held og lykke med eksamenen. -Thomas

Side 4 of 17 Opgave 1 DNA og aminosyrer (10%) Herunder er vist et Enkelt-strenget DNA molekyle. Enkelt-strenget DNA molekyle: 5 CCGTGTGCAA 3 a) Hvilke af de 5 DNA strenge herunder (1-5), er den komplimentære DNA streng til: 5 CCGTGTGCAA 3? 1) 5 GGCACAGGTT 3 2) 3 GGCACAGGUU 5 3) 3 CCGTGTCCAA 5 4) 5 AACCTCTCCC 3 5) 5 TTGCACACGG 3 Answer: 5) 5 -TTGCACACGG-3 b) Oversæt sekvensen 5 CCGTGTCCAA 3 i læseramme +2 og skriv hvilken aminosyresekvensens der fås ved hjælp af 1-bogstavskoder? CGT-GTC-CAA => RVQ De aromatiske aminosyrer har alle en sidekæde hvor en del af denne er plan dvs flad på grund af et konjugeret system hvor elektroner befinder sig i en sky over og under denne flade gruppe af sidekæden. Disse aromatiske aminosyrer er: Phe, Tyr, Trp og His. c) Hvilke af disse aminosyrer er udelukkende hydrophobe dvs ingen polære grupper i sidekæden? Phe d) Hvilke af disse aminosyrer kan have en sidekæde som er positivt ladet? His Enzymer er en klasse af proteiner som katalyserer en kemisk proces således at dennne kan foregå meget hurtigt. Det sted på proteinet hvor den katalytiske process foregår kaldes det aktive site og det er normalt 1-3 aminosyrer som benyttes til at udføre den katalytiske funktion i et protein. Af de 20 naturligt forekommende aminosyrer er det kun et fåtal som man ser i det aktive site som del af den katalytiske mekanisme. e) Hvilke af disse aminosyrer nævnt herunder 1)-5) kan være blandt de katalytiske aminosyrer? 1) Asp, 3) Arg, 5) Ser 1) Asp 2) Ala 3) Arg 4) Phe

Side 5 of 17 5) Ser e) Når man taler om den naturlige læseretning for en proteinsekvens er der kun en af de udsagn herunder 1)-4) som er korrekt. Hvilken? 3) N-terminal -> C-terminal 1) C-terminal -> N-terminal 2) 5 -> 3 3) N-terminal -> C-terminal 4) 3 -> 5

Side 6 of 17 Opgave 2 UniProt, Blast og UCSC blat (25%) Benyt uniprot til at finde humane sekvenser (Taxonomy 9606) som har følgende: Et eksperimentelt signalpeptid med en længde på 20-30 aminosyrer, samt et eksperimentelt bestemt propeptid. a) Hvor mange hits finder du (skriv gerne søgestrengen)? 53 hits taxonomy:9606 AND annotation:(type:signal length:[20 TO 30] confidence:experimental) AND annotation:(type:propep confidence:experimental) b) Vil du forvente af de proteiner du finder er aktive indeni cellen eller udenfor? (begrund dit svar) Udenfor cellen da det er secreted proteiner Proteinet Elafin (accession id: P19957) opfylder kriterierne fra spørgsmål a) og det benyttes herefter som vores søgesekvens. Brug Blast http://blast.ncbi.nlm.nih.gov/til at finde homologe (lignende) sekvenser som findes ved at blaste mod databasen Protein data Bank proteins(pdb). c) Hvor mange signifikante hits finder du og forklar hvorfor du mener det er signifikante hits? Der er 2 hits med en e-værdi lavere end 1e- 05 d) Hvad er accession-id for det bedste hit du finder og hvad er e- værdien? Bedste hit 1FLE.I med en e-værdi på 3e-35 Alignment fra det bedste hit benyttes i de næste 2 spørgsmål du må gerne paste alignment ind herunder før du svarer på spørgsmål e) og f). Alignment: Score Expect Method Identities Positives Gaps 118 bits(296) 3e-35 Compositional matrix adjust. 57/57(100%) 57/57(100%) 0/57(0%) Query 61 AQEPVKGPVSTKPGSCPIILIRCAMLNPPNRCLKDTDCPGIKKCCEGSCGMACFVPQ 117 AQEPVKGPVSTKPGSCPIILIRCAMLNPPNRCLKDTDCPGIKKCCEGSCGMACFVPQ Sbjct 1 AQEPVKGPVSTKPGSCPIILIRCAMLNPPNRCLKDTDCPGIKKCCEGSCGMACFVPQ 57 e) Hvor stor en del (i procent) af din søgesekvens er dækket af det alignment du fandt? Query sekvensen er 117aa lang, men alignment dækker kun 117-61+1 = 57, 57*100/117=48.7%

Side 7 of 17 f) Hvor stor en del (i procent) udgør alignment i forhold til den modne del (eng: mature) af din søgesekvens? Den mature sekvens går iffølge uniprot fra 61-117, dvs 100% af den mature sekvens er dækket af alignment. I det følgende skal du stadig benytte samme fasta sekvens med UniProt accession-id P19957. Benyt UCSC Blat genom browseren http://genome.ucsc.edu/cgi-bin/hgblat g) På hvilken kromosom findes genet som koder for dette protein og hvad er de genomiske positioner Start og End for genet? Chr20, start 43803564, End 43804773 h) Hvor mange kodende exons består genet af? 2 kodende exons 2 Kig på intron/exon overgangene dvs donor site og acceptor site og benyt Figur 1 og 2 som hjælp til at vurdere om Blat finder de korrekte intron/exon overgange. Skriv de donor og acceptor sites i spørgsmål j) og k) som du mener er korrekte og gør det ved at skrive de sidste 3 nukleotider i exon for donor site og de første 3 nukleotider i exon for acceptor site.. Figur 1. Exon slutter på position -1 og intron starter fra position 0.

Side 8 of 17 Figur 2. Intron slutter på position -1 og exon starter fra position 0. i) Donor site (sidste 3 nukleotider i exon delen)? j) Acceptor site (første 3 nukleotider i exon delen)?

Side 9 of 17 Opgave 3 Parvis alignment (20%) Herunder er to proteinsekvenser sekvensa og sekvensb. >sekvensa CEGS >sekvensb MDGCI Der findes overordnet 2 typer af alignment: lokal alignment og global alignment. I det følgende skal du benytte Blosum50 substitutionmatricen herunder og Figur 3 som er vist på næste side til at aligne de to sekvenser sekvensa og sekvensb. Alle gaps har en værdi på -2. BLOSUM50 substitution matrix: A 5 R -2 7 N -1-1 7 D -2-2 2 8 C -1-4 -2-4 13 Q -1 1 0 0-3 7 E -1 0 0 2-3 2 6 G 0-3 0-1 -3-2 -3 8 H -2 0 1-1 -3 1 0-2 10 I -1-4 -3-4 -2-3 -4-4 -4 5 L -2-3 -4-4 -2-2 -3-4 -3 2 5 K -1 3 0-1 -3 2 1-2 0-3 -3 6 M -1-2 -2-4 -2 0-2 -3-1 2 3-2 7 F -3-3 -4-5 -2-4 -3-4 -1 0 1-4 0 8 P -1-3 -2-1 -4-1 -1-2 -2-3 -4-1 -3-4 10 S 1-1 1 0-1 0-1 0-1 -3-3 0-2 -3-1 5 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 2 5 W -3-3 -4-5 -5-1 -3-3 -3-3 -2-3 -1 1-4 -4-3 15 Y -2-1 -2-3 -3-1 -2-3 2-1 -1-2 0 4-3 -2-2 2 8 V 0-3 -3-4 -1-3 -3-4 -4 4 1-3 1-1 -3-2 0-3 -1 5 A R N D C Q E G H I L K M F P S T W Y V Hvis du har word: Hvis du har åbnet dette dokument i word er det nemmest bare at udfylde tabellen som er vist i Figur 3. Hvis du ikke har word: Skrive alignmentscorerne i en lang liste med angivelse af hvilken celle i Figur 3 du udregner, hvor celle er (række,kolonne) f.eks. på denne måde: M C celle (1,1) = Alignmentscore

Side 10 of 17 M E celle (1,2) = Alignmentscore M G celle (1,3) = Alignmentscore... I S celle (5,4) = Alignmentscore a) Lav en lokal alignment de to sekvenser ved at udfylde tabellen i Figur 3 og skriv hvilken alignment score du får? b) Skriv det lokale alignment du har fundet ved at udfylde tabellen i Figur 3

Side 11 of 17 Figur 3 C E G S 0-2 -4-6 -8-2 -4-4 -6-7 -8-8 -10 M -2-4 0-2 0-2 0-2 0-6 -2 2-2 -1-2 0-2 D -4-6 0-2 2 0 0-2 0-7 -2-3 0 10-2 0-2 G -6-8 0-2 0-2 10 8 8 7-2 -3-2 -3 8 9 6 C -8-10 7 5 5 3 8 6 9-10 5 3 3 1 6 5 7 I -10-12 5 3 3 1 6 4 7

Side 12 of 17 I en local alignment finder man højeste tal I matricen og backtracer indtil man støder på et 0 (nul). Alignmentscoren bliver altså 10. Alignment bliver: D G E G Man kan regne efter og får alignmentscore= 2+8=10

Side 13 of 17 Opgave 4 α-helix og informationsindhold (25%) Man har 3 typer af α-helix som hver især er karakteriser med deres hydrogenbindingsmønster. De 3 typer kaldes 310-helix, normal α-helix (oftest forekommende og den type man mener når man bare siger α- helix) og π-helix. Det som holder hver af de 3 typer af α-helix sammen er hydrogenbindingerne mellem backbone-atomerne N(i) og O(i+n), hvor i er en aminosyre på position i og i+n er den aminosyre hvortil der laves en hydrogenbinding og n er det heltal som beskriver hydrogenbindingsmønstret mellem positionerne i -> i+n a) Hvad er hydrogenbindingsmønstret for en normal α-helix, dvs hvad er værdien af n? 4 Der er nogle aminosyrer som man oftere finder i en α-helix end andre og der kan også være en præference for hvilke aminosyrer som sidder lige før starten af en α-helix. For at undersøge dette kan man aligne et stort antal α-helixer og beregne aminosyrer-frekvenserne for udvalgte positioner som det er gjort i Tabel 2. Aminosyrefrekvenserne er givet for hvor ofte en specifik aminosyre sidder lige før starten af en α-helix (position -1), mens kolonnen position 1 viser aminosyrefrekvenserne på den første position in en α-helix. Kun de 5 oftest forekommende aminosyretyper på hver position er angivet i Tabel 2, mens frekvensen for de andre er sat til 0 (af beregningsmessige årsager). Informationsinholdet på position i er givet ved følgende formel: Ι(i)= Σa fa * log2 (fa) + log2(n), hvor N=20, antallet af standard aminosyrer og fa er frekvensen af en given aminosyre. Log2(x) = log(x)/log(2) b) Benyt frekvenserne i Tabel 2 at beregne informationsindholdet på position -1 og på position 1 position -1: 0.260*log(0.260)/log(2)+0.262*log(0.262)/log(2) + 0.164*log(0.164)/log(2) + 0.113*log(0.113)/log(2) + 0.201*log(0.201)/log(2) + log(20)/log(2)= -2.26 + log(20)/log(2) = - 2.26 + 4.32 = 2.062 position 1:

Side 14 of 17 0.198*log(0.198)/log(2) + 0.19*log(0.19)/log(2) + 0.214*log(0.214)/log(2) + 0.257*log(0.257)/log(2) + 0.141*log(0.141)/log(2) +log(20)/log(2) = -2.296 + 4.32 = 2.026 Tabel 2 Aminosyre Frekvenser på position -1 Frekvenser på position 1 A 0 0.198 C 0 0 D 0.262 0 E 0 0.190 F 0 0 G 0 0 H 0 0 I 0 0 K 0 0 L 0 0.214 M 0 0 N 0.164 0 P 0.113 0.257 Q 0 0 R 0 0 S 0.260 0 T 0.201 0 V 0 0.141 W 0 0 Y 0 0 Informationsindhold 2.062 2.026 c) Hvad betyder det hvis man får et informationsindhold på 0 (nul)? At alle aminosyrer forekommer med samme frekvens og ingen aminosyre-præference d) Hvis der på en position kun observeres en bestemt type aminosyre dvs en frekvens er 1, mens de andre 19 frekvenser er 0 (nul). Hvilket informationsindhold får man så? Log(20)/log(2)=4.32 e) Skriv 3-bogstavskoderne for de 3 oftest forekommende aminosyrer på den position i Tabel 2 du bestemte med det højeste informationsindhold? Asp, Ser, Thr Det er kendt at den 3-dimensionells struktur er mere bevaret end funktionen og at funktionen er mere bevaret end sekvensen. Dette kan skrives som: Struktur > Funktion > Sekvens. Hvis man laver et multipelt

Side 15 of 17 alignment af en familie af enzymer, alle med samme funktion, er det muligt at bestemme hvilke aminosyrer der er vigtige for netop den familie af enzymer og for hver position i sekvensen kan man beregne informationsindholdet. f) Beskriv hvilke positioner i et protein hvor man vil forvente et forholdsvis højt informationsindhold? Positioner i det aktive site og positioner som er vigtige protein-foldet.

Side 16 of 17 Opgave 5 Phylogenetisk træ og afstandsmatrice (20%) For at bestemme hvor nært beslægtet forskellige organismer er, må man lave et multipelt alignment af deres arvemateriale. Herunder er vist fire korte stykker genomisk materiale fra organismerne vi kalder A, B, C og D og sekvenserne er alignet således: A: TAGGAATA B: TAAGCAAA C: CTAGCATG D: TTACCATG Udfyld afstandsmatricen herunder med alle parvise forskelle. A B C D A B 3 C 5 4 D 5 4 2 Benyt herefter afstandsmatricen til at lave det phylogenetiske træ og skriv hvor i træet du vil placere organismerne A-D (organisme A er allerede placeret øverst til venstre i træet) og hvilket afstande d1-d5 som opfylder kriterierne fra afstandsmatricen.

Side 17 of 17 Organisme øverst til venstre = A Organisme nederst til venstre =B Organisme øverst til højre =C Organisme nederst til højre =D Afstand d1=2 Afstand d2=1 Afstand d3=2 Afstand d4=1 Afstand d5=1