Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Relaterede dokumenter
Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

27611 Eksamen Sommer 2007

27611 Eksamen Sommer 2008

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet. Løsningsforslag til Øvelse i Immonologisk Bioinformatik

Bioinformatik Open Source Software i biologiens tjeneste

Immunologisk Bioinformatik

BIOTEKNOLOGI HØJT NIVEAU

Protein databases Rasmus Wernersson. (Slides af Henrik Nielsen & Morten Nielsen).

Immunologisk bioinformatik

Databasesøgning med BLAST

Proteiners byggesten er aminosyrer

En forsker har lavet et cdna insert vha PCR og har anvendt det følgende primer sæt, som producerer hele den åbne læseramme af cdna et:

BIOTEKNOLOGI HØJT NIVEAU

Geneious en manual til elevbrug

Struktur og funktion af gener

Protein syntese. return

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Kresten Cæsar Torp Supplerende materiale til Biokemibogen liv, funktion, molekyle

Side 1 of 16. Du skal i opgaven skrive en sorteret liste af Blast e-værdier, med den mest signifikante (laveste) I toppen af listen.

Danmarks Tekniske Universitet

Genetiske afstande og afstandsmatricer

Ataksi Forskningsstatus

TILBAGE TIL DANSK AGAPORNIS KLUB

Danmarks Tekniske Universitet

Fra DNA til protein - lærerens tekst

Ordinær vintereksamen 2016/17

Vejledning til brug af web-baserede slægtstavler

Ekstraordinær re-eksamen 2015

Biologi opgave Opsamling: Cellebiologi (Bioanalytiker modul3)

Menneskets væskefaser

Biologiske signaler i graviditeten - Genetisk information

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere: Sebastian, Louise og Ana

Indholdsfortegnelse. Indledning System krav side 1

Skjulte Markov Modeller og Genidentifikation 2003

Banan DNA 1/6. Formål: Formålet med øvelsen er at give eleverne mulighed for at se DNA strenge med det blotte øje.

Eksamensnummer. Multiple choice opgaver. Side 1 af 10. Hvert svar vægtes 1 point 1.1 A 1.2 E 1.3 C 1.4 B 2.1 F 2.2 C 2.3 D 3 D 4 E

Proteiner: en introduktion. Modul 1; F13 Rolf Andersen, 18/2-2013

Danmarks Tekniske Universitet

På grund af reglerne for copyright er det ikke muligt at lægge figurer fra lærebøger på nettet. Derfor har jeg fjernet figurerne fra slides ne, men

166 er % af er % af er % af er % af er % af er % af er % af er % af er % af 800

Bachelor i Medicin og Medicin med Industriel Specialisering

Studienummer: MeDIS Exam Husk at opgive studienummer ikke navn og cpr.nr. på alle ark, der skal medtages i bedømmelsen

Mark Jeays simple solution to the Rubik s cube oversat og redigeret af Jess Bonde. -

I denne manual kan du finde en hurtig introduktion til hvordan du:

JTA-DynamicsPDF. til. Microsoft Dynamics C5 vers. 3 SP3 eller højere. JTA-Data Jylland Vinkelvej 108a 8800 Viborg Tlf

Multi-Camera redigering

Indledning. På de følgende sider vises, primært i tegneserieform, lidt om mulighederne i PC-AXIS for Windows.

Vejledning Bilindretning

Kom godt i gang med NIS

Introduktion til Playmapping

Delta SOLIVIA Webmonitor G1 Kvik guide

vejman.dk Brugerdokumentation - kortmodul 14. marts 2012 Version 1.9

Redaktørvejledning for Skriv en artikel

Danmarks Tekniske Universitet

V E J L E D N I N G. Sådan bruger du din Joblog på Jobnet

Tre sideopsætninger: 1 Forside. 2 Standard 3 Liste. 1 Forside. 2 Underside. 3 Liste

Oktober Dokumentpakker

Opsætning af enkle bordkort Side 1

Modul 2 Database projekt Multimediedesign 3. semester Gruppe 3 IRF/TUJE

National sprogscreening af EUD-elever. skolens egne logins

AUTOMATION SERVICE. Sådan anvender du programmet Automation Service. Udviklet af PC SCHEMATIC A/S

Motto-Captura ApS, Ordblinde PDA. Lyt - lær - husk. Motto-Captura ApS, info@motto-captura.eu

Dannelse af PDF-dokumenter

Opgaver. Notater. Opgave 1: Find kursus hjemmeside og bladre lidt rundt på siderne.

I 2012 blev ClinicCare certificeret i brugen af ICPC-2-DK hos DAK-E. I forbindelse med indførelsen af pakkeforløb, er diagnosedelen blevet ændret.

PHP 3 UGERS FORLØB PHP, MYSQL & SQL

Database "opbygning"

Velkommen Immunologisk Bioinformatik

Kvadratrodsberegning ved hjælp af de fire regningsarter

Velkommen til denne korte vejledning i hvordan du kan oprette dine egne sider på foreningens hjemmeside.

Transkript:

Side 1 af 14 Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Navn: Studie nummer: Dette eksamenssæt vil også kunne ses som en pdf fil nederst på kursus-hjemmesiden udfor den sidste dag d. 27 Jan (Navn: Eksamen_27-1-2011.pdf) Kursus-hjemmeside: http://www.cbs.dtu.dk/courses/bioinformatics_it_and_health/2010/programme.php Eksamenssættet består af 6 hoved-emner 1 6 og til hvert emne er der en række spørgsmål som du skal svare på. Ialt er der 13 sider, hvoraf de to sidste er Appendix 1 og 2. Spørgsmålene du skal svare på står med kursiv Hvis du ikke har tilstrækkelig plads på disse sider så svar på et andet stykke papir, men husk at gengive hvilket spørgsmål du svarer på ved at skrive 1b hvis du svarer på spørgsmål b i opgave 1. Læs opgaverne omhyggeligt inden du begynder. Emner (bedømmelses-vægt i procent) Opgave 1: DNA og RNA (15%) Opgave 2: Aminosyrer (20%) Opgave 3: Uniprot (20%) Opgave 4: Sekvens alignment (20 %) Opgave 5: SNP - Single Nucleotide polymorphism (15%) Opgave 6: PDB 3D- struktur og homologi modellering (10%) Vi vil logge jeres internet under denne eksamen og alt kommunikation med andre personer via mail, tlf og lignende er diskvalificerende.

Side 2 af 14 Opgave 1: DNA og RNA (15%) a) Hvad kaldes den proces, hvor DNA oversættes til messenger RNA (DNA -> mrna)?(2 %) Transcription b) Hvad kaldes den proces, hvor messenger RNA oversættes til protein (mrna -> protein)?(2 %) Translation c) Hvad er 1-bogstavs koderne for kerne-baserne (nukleotiderne) i DNA?(2.5 %) A, T, C G d) Hvilke af disse kerne-baser danner hydrogen-bindinger til hinanden (kaldet base parring på engelsk)? (2.5 %) A-T og C-G Herunder er et stykke genomisk DNA (+ string) kaldet gene1 med læseretning fra venstre mod højre gene1: TTGATTGCAA e) Er den korrekt læseretningen for DNA fra 3 mod 5 enden eller omvendt dvs fra 5 mod 3 enden? (2 %) 5 mod 3 enden er den korrekte læseretning f) Der fines 3 stop codons: TAA, TAG og TGA. Benyt sekvensen herunder (genea) til at finde alle stop-codons i alle læserammer. Sekvensen er angivet for + stringen, med læseretning fra venstre mod højre. Skriv læseramme efterfulgt af mulige stopcodons.(4 %) genea: TTGATTTCAA læse-ramme stop-codons 2 TGA Revers komplement string (ikke en del af svaret, men en hjælp at skrive den her) TTGAAATCAA Læseramme stop-codon -2 TGA

Side 3 af 14 Opgave 2: Aminosyrer (20%) a) Hvor mange naturligt forekommende aminosyrer findes der? (1 %) 20 b) En enkelt aminosyre har ikke et chiralt C-alpha atom. Hvad er 1 og 3-bogstavs koderne for denne? (2 %) G (Gly) Skriv 1 og 3-bogstav koder for aminosyrerne som tilhører de grupper som er listet herunder i spørgsmål c), d) og e) c) Basiske: (3 %) K (Lys), R (Arg), H (His) d) Sure: (3 %) D (Asp), G (Glu) e) Aromatiske: (3 %) F (Phe), W (Trp), Y (Tyr) og evt H (His) f) Skriv herunder en korrekt sekvens i FASTA format, med navnet MIN_SEKVENS. Dette korte peptid skal bestå af 5 forskellige aminosyrer som er polære eller hydrophobe benyt 1-bogstavs koder. (3 %) >MIN_SEKVENS STVIL Det vigtigste er korrekt fasta header og alt andet end P (Pro) i sekvensen g) Tegn et di-peptid, hvor indikerer sidekæden med R. Skriv også navn på de 4 backbone atomer. (5 %) Lidt svært at tegne elektronisk, men jeg prøver. O O NH2-Ca-C-N-Ca-C-OH (4 %) R R Backbone atomerne er: N, Ca, C og O (1 %)

Side 4 af 14 Opgave 3: Uniprot (20%) Benyt Advanced Search i Uniprot databasen til at lede efter lysozyme hits for organismen Gallus gallus (Chicken). a) Hvor mange reviewed (dvs UniProtKB/Swiss- Prot) hits finder du for lysozyme for organismen Chicken, hvor lysozyme er en del af protein navnet (protein name). skriv antal hits du ender op med til sidst og evt antal hits (søgeresultater) du får undervejs? (5 %) Lysozyme 7752 Reviewed 334 Chicken 5 Lysozyme I Protein navn 2 (Ok at svare med et tal eller som ovenover) Antal hits er 2 b) Angiv Accession nummer for et af den/de hits du fandt spørgsmål 3a og skriv, med 1-bogstavs kode og position, de aminosyrer som er del af det aktive site i dette protein? (5 %) P00698 aktive site på position 53 E og 70 D Eller P27042 aktive site på position 99 E og 112 D c) Det protein du beskrev i spørgsmål 3b, vil det virke indenfor eller udenfor den celle hvor det bliver lavet. Angiv længden af det modne (English: mature) protein, samt hvor det befinder sig (dvs indenfor eller udenfor cellen). Begrund dine svar. (5 %) P00698 er angivet med et signal-peptid (position 1-18) og mere nøjagtigt som secreted, dvs virker udenfor cellen. Længde for modne protein er 147-19 +1 = 129. Eller P27042 er angivet med et signal-peptid (position 1-26) og mere nøjagtigt som secreted, dvs virker udenfor cellen. Længde for modne protein er 211-27 +1 = 185. Secreted er ikke et krav I denne opgave for at svare på proteinet virker indefor eller udenfor cellen.

Side 5 af 14 d) For proteinet med accession number P00698 ( 0 er et nul og ikke et bogstav) er der angivet sekundær strukturen i Uniprot. Kan du udfra denne angive hvilken af de 5 fold- klasser (a, b, c, d eller e) proteinet tilhører? (5 %) a. All- alpha b. All- beta c. Alpha+beta d. Alpha/beta e. Få eller ingen sekundær struktur elementer Proteinet tilhører klassen Alpha+Beta

Side 6 af 14 4: Sekvens alignment (20 %) Man har søgt med en protein sekvens mod en stor database af sekvenser vha Blast (i protein mode blastp ) og får 4 forskellige alignments tilbage. Resultaterne fra disse 4 alignments beskrives herunder som Hit 1-4. Normalt benyttes e-værdier (også kaldet e-values eller Expection values) til at udvælge det bedste hit. a) Skriv de 4 hits i en ordnet liste under hinanden, således at det bedste hit står øverst og dårligste hit står nederst. Skriv også hvilke hits du vil betragte som signifikante og hvorfor. (3 %) Hit 1: e-value = 4e-22 Hit 2: e-value= 0 Hit 3: e-value= 3.2 Hit 4: e-value = 0.01 Hit2 Hit1 Hit4 Hit3 Hit1 og Hit2 er signifikante hits idet de har e-værdier mindre end 1e-03 (1e-05 threshold benyttes også for store databaser som nr begge threshold er ok)

Side 7 af 14 To protein sekvenser kan alignes såfremt man har en substitutions-matrix og et mål for hvad det koster at lave gaps. Herunder er et alignment, hvor Query er en betegnelse for den sekvens man har søgt med, mens Sbjct repræsenterer et hit fundet i en sekvens-database. Affine gap-scores Når man laver et alignment kan man benytte sig af en simple procedure, hvor alle gaps koster det same eller man kan benytte en procedure med affine gap-scores, som er den måde Blast benytter. Når man anvender affine gap-scores, koster det en pris for at åbne et gap (gap-opening) og en anden pris for de næste gaps (gap-next). Gap-opening er altså den pris det koster i en situation hvor man indsætter et gap i et alignment og positionen lige før er ikke et gap. Gap-next er den pris det koster i den situation hvor man indsætter et gap i et alignment og positionen lige før er også et gap. Her skal vi benytte denne procedure med affine gap-scores. Gap-opening score: -11 Gap-next score: -1 b) Hvad er alignment scoren for det hypotetiske alignment som er vist. Benyt Blosum62 matrix i Appendix 1 og proceduren som beskrevet ovenfor i Affine gapscores. Husk at skrive mellem-regninger, ikke kun et tal. (3 %) pos: 8 15 Query: P R - - Q C K S S Sbjct: P R R E R C R Q T S Pos: 3 12 7+5-11- 1+1+9+2-11+1+4 = 6 c) Der findes overordnet to forskellige typer af alignments. Hvad kaldes den type alignment som er vist i spørgsmål 4b? (3 %) lokal alignment

Side 8 af 14 d) Herunder er 2 korte peptider Seq1 og Seq2. Seq1: R D V N T Seq2: K I Q S Disse sekvenser skal alignes vha en dynamisk alignment algoritme, hvor alle gaps hver især koster 2 point (dvs en score på - 2), mens substitutions- scoren fås udfra den Blosum62 matrix der findes i Appendix 1. Du selv bestemme hvilken af de 2 hoved- alignment typer du vælger, men skriv dit valg herunder. d1) Jeg vælger alignment type: (1 %) global alignment eller local alignment (I dette tilfælde er alignment faktisk det same for begge typer af alignment) Udfyld herefter alignment- matrix på næste side, hvor de to peptider alignes.

Side 9 af 14 Alignment matrix K I Q S 0-2 - 4-6 - 8 2-2 - 5-4 - 3-6 - 9-8 R - 2-4 2 0 - - - 0-2 - - - - 2-4 - - - - 4-3 0-1 - 2 0-4 - 2-6 D - 4-6 0-2 - 1-3 0-2 - - - - 2-6 - 2 3-3 - 3-2 - 2-4 V - 6-8 - 2-4 3 1 - - - 1-1 - - - - 1-6 - 4-5 1 3-1 2-3 N - 8-10 - 4-6 1-1 3 1 2-9 - 6-5 - 1 0 1 4 0 T - 10-12 - 6-8 - 1-3 1-1 4 d2) Skrive det færdige alignment herunder samt alignment- scoren: (10 % - dvs 2+8 %) Færdige aglinment bliver det herunder med alignment- scoren 4 (rigtig score 2 %, rigtig alignment og matrix 8 &) RDVNT K-IQS

Side 10 af 14 5: SNP - Single Nucleotide polymorphism (15%) Herunder ses sekvensen for den kodende region af et kort gen med en længde på 51 bp. Læseretningen er fra venstre mod højre. Der findes 2 SNP s indenfor dette område, SNP1(G/T) på position 6 og SNP2(T/A) på position 15. RNA translation- tabellen i Appendix 2 kan benyttes til nogle af spørgsmålene. SNP1 SNP2 ATGCAGCCTATGTGTAACGTGGTCACCCTGATCCGATCGTATGTTTTATTT a) Hvad er forskellen på en synonym (Eng: synonomous) SNP og en ikke synonym (Eng: non- synonomous) SNP? (5 %) En synonym SNP vil ikke ændre på protein- sekvensen. I modsætning til dette vil en ikke- synonym SNP medføre at codon nu vil kode for en anden aminsyre og derfor ændre protein sekvensen. b) Vil SNP1 have nogen indflydelse/ændre på det protein produkt som laves og hvor langt bliver protein sekvensen (begrund dit svar)? (5 %) SNP1: CAG (Q- Gln)- > CAT(H- His) Ja, SNP1 vil vil have en ændre protein sekvenser fra Q til H. c) Vil SNP2 have nogen indflydelse på det protein produkt som laves og hvor langt bliver protein sekvensen (begrund dit svar)? (5 %) SNP2 (TGT) - > (TGA) dvs SNP2 medfører at codon kommer til at kode for et STOP- codon, derfor bliver protein- produktet 4 aminosyrer langt.

Side 11 af 14 6: PDB 3D- struktur og homologi modellering (10%) a) De forskellige lag af information for et protein beskrives often med 4 ord: primær, sekundær, tertiær og kvaternær struktur. Beskriv kort betydningen af disse ord (3 %) Primær struktur er sekvensen af aminosyrer. Sekundær struktur er beskrevet ved de forskellige beta- stringe og alpha- helixer. Tertiær struktur er 3D- strukturen af det foldede protein. Kvaternær struktur er et kompleks bestående af flere foldede proteiner. Du skal til at bygge en homologimodel af et protein. Ved hjælp af en sekvenssøgning i PDB har du fundet seks strukturer til formålet. Strukturernes kvalitetsparametre og alignment- scorer er angivet nedenfor i Tabel 1 (side 11): b) Forklar ud fra parametrene i Tabel 1 (side 11), hvilken struktur (en eller flere) der vil være bedst at basere din model på. Begrund dit valg. (4 %) Struktur A og C har begge en lav e- værdi, lav R og R- free. Resolution er en lille smule bedre for struktur A i forhold til C. Struktur C har dog den bedste Ramachandran statestik og på det grundlag vil det være den bedste struktur, men både A og C vil kunne benyttes til homologi- modellering. c) Forklar ud fra parametrene i Tabel 1 (side 10), hvilke tre strukturer, der vil være de dårligste valg. Begrund dit valg. (3 %) B er den ringeste pga. E- værdien (formodentlig en helt anden struktur). Baseret på Ramachandran- statistikken alene, er D og E de ringeste > strukturer. D er også ringere end F, selvom F er en NMR- struktur.

Side 12 af 14 Tabel1 Struktur A B C D E F E- værdi (Eng. e- values) 1,0E- 09 1,0E- 02 1,0E- 10 1,0E- 12 1,0E- 11 1,0E- 10 Sekvens- id (%) 80 20 81 94 95 93 Metode* X X X X N N Opløsningsevne 2,3 1,4 2,4 4,0 n/a n/a Resolution (Å) R- værdi 0,22 0,16 0,24 0,30 n/a n/a R- free 0.29 0,20 0,27 0,35 n/a n/a RMSD** n/a n/a n/a n/a 0,3 0,4 Ramachandran statistik (% outliers) 3,0 1,0 2,0 5,0 5,0 2,5 *X = x- ray/røntgenkrystallografi, N = NMR, **For ensemblet

Appendix 1 - Blosum62 matrix Side 13 af 14

Appendix 2 - RNA translation table Side 14 af 14