Danmarks Tekniske Universitet

Relaterede dokumenter
Danmarks Tekniske Universitet

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik

Danmarks Tekniske Universitet

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik

Danmarks Tekniske Universitet

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Danmarks Tekniske Universitet. Kursus navn: Introduktion til Bioinformatik. Kursus nummer: Hjælpemidler: alle.

27611 Eksamen Sommer 2007

27611 Eksamen Sommer 2008

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Danmarks Tekniske Universitet

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet. Løsningsforslag til Øvelse i Immonologisk Bioinformatik

Genetiske Aspekter af HCM hos Kat. - en introduktion til forskningsprojektet

SUBS_BACLE 1 0 ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50

Geneious en manual til elevbrug

Immunologisk bioinformatik

Vejledning til opbygning af hjemmesider

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

I denne manual kan du finde en hurtig introduktion til hvordan du:

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

En forsker har lavet et cdna insert vha PCR og har anvendt det følgende primer sæt, som producerer hele den åbne læseramme af cdna et:

Manual til administration af online booking

Struktur og funktion af gener

Bachelor i Medicin og Medicin med Industriel Specialisering

BørneIntra hjemmesidekursus

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere:

Dansk Selskab for Medicinsk Genetik s (DSMG) politik vedrørende klinisk anvendelse af genomisk sekventering

Med udgangspunkt i øvelsen Fotosyntese og vedlagte materiale ønskes at du: Gør rede for de vigtigste processer i et økosystem.

Svar til sommereksamen 2014, opdateret maj 2016:

Bioinformatik Open Source Software i biologiens tjeneste

1. Lactase tilhører enzymklassen hydrolase

SNP håndtering og datavalidering. Kevin Byskov

Redaktørvejledning for Skriv en artikel

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Generne bestemmer. Baggrundsviden og progression: Niveau: 8. klasse. Varighed: 12 lektioner

Randers HF & VUC Nålemagervej Randers NV Tlf.:

Inholdsfortegnelse: 1. Allel-skema

Version august 2012 Side 1 af 7

Genetik og arvelighed - husdyr, Arbejdsark 1

Byg web sider. Introduktion:

Qbrick s krav til video filtyper

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer)

Genetiske afstande og afstandsmatricer

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere: Sebastian, Louise og Ana

Nye funktioner i FamilySearch FamilyTree

Avl på honningbier det genetiske grundlag I

EKSAMENSOPGAVER. Eksamensopgaver uden bilag

BIOTEKNOLOGI HØJT NIVEAU

Eksamen: Biologi C-niveau

Eksamen: Biologi C-niveau

Populationsgenetik hos to hvalarter

Dansk A, Engelsk B og Matematik A og B

3u BI, terminsprøve (Bio A)

Vejledning På bordene ligger omslag til din besvarelse, med dit navn på. Sæt dig ved bordet med dit omslag.

DI Online løsning: Quick guide til oprettelse af oprindelsescertifikater

Moltrup-sogn.dk - Vejledning i redigering af undersider, og oprettelse af nye sider.

Computer og print ved skriftlige prøver på Laursens Realskole forår 2017

Velkommen Immunologisk Bioinformatik

Retningslinjer for studerende som skal til skriftlig eksamen på Samfundsvidenskab

Eksamen: Biologi C-niveau

Elev-manual til Køreklar e-læring

Patient Database - Manual

Nr 1. Fra gen til protein

Nye prøveformater stx B og A 2017 læreplaner

Brugermanual til Assignment Hand In

IT-Brugerkursus. Modul 1 - Introduktion til skolens netværk og FC. Modul 1 - Introduktion til FC og Lectio. Printvenligt format. Indholdsfortegnelse

Tilpas: Hurtig adgang

1. Hvad er kræft, og hvorfor opstår sygdommen?

DI Online løsning: Quick guide til oprettelse af Oprindelsescertifikater

Cellens livscyklus GAP2. Celledeling

Dandy Walker Like Malformation

Introduktion til de praktiske øvelser

Randers HF & VUC Nålemagervej Randers NV Tlf.:

Rapport generator til Microsoft C5

Fra Excel til Capture part

Ordinær eksamen 2017/18

DE Online løsning: Quick guide til oprettelse af ATA Carnet

Introduktion til de praktiske øvelser

Bananfluer og nedarvning

Brug af IT-udstyr ved skriftlig eksamen

DATALOGISK INSTITUT, AARHUS UNIVERSITET

SÅDAN BRUGER DU TEKST- BEHANDLING INTRODUKTION

Ordinær vintereksamen 2016/17

Biologi opgave Opsamling: Cellebiologi (Bioanalytiker modul3)

Vejledning til Beskedmodulet i Remind for borgere via smartphone eller tablet (fremover kaldet "enhed") og via web.

Vejledning På bordene ligger omslag til din besvarelse, med dit navn på. Sæt dig ved bordet med dit omslag.

DE Online løsning: Quick guide til oprettelse af ATA Carnet

Reeksamen februar 2014

Forskningsnyheder om Huntingtons Sygdom På hverdagssprog Skrevet af forskere. Til det globale HS-fællesskab Træning øger cellulært genbrug

Brug af IT-udstyr ved skriftlig eksamen

Mini-guide for opdatering af hjemmesiden for. SOIF

Transkript:

Side 1 of 16 Danmarks Tekniske Universitet Skriftlig prøve, den 26/1-2012 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle opgaver. Kursusansvarlig ------------------------------------------- Thomas Nordahl Petersen

Side 2 of 16 27633 Eksamen Januar 2012 Dette sæt indeholder 5 opgaver (side 1-15) check at du har alle sider. Opgave 1 Sekvenssøgning via UniProt (15%) Opgave 2 DNA, læseramme og intron/exon (20%) Opgave 3 Best alignment (15%) Opgave 4 Parvis alignment (25%) Opgave 5 Genotype og fænotype (25%) En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan http://wiki.bio.dtu.dk/teaching/index.php/course27633autumn2011#thursday_january_2 6. Svar til opgavesættet kan skrives enten i rå tekst (fx i JEdit) eller i et tekstbehandlingprogram såsom Microsoft Word. Gyldige formater er.txt,.doc,.docx og.rtf. Vi foretrækker dog at du benytter Microsoft Word. Svaret skal uploades på CampusNet under kursus 27633 (under "Opgaver -> bioinformatik-eksamen2012"). Husk at gemme seneste version af dokumentet inden du uploader svaret. Når du afleverer får du en kode som skal skrives i feltet "Afleveringskode" nedenfor. VIGTIGT: Dit studienummer skal fremgå af filnavnet (fx. s022717.doc eller s022717.txt) og skal også stå i starten af dokumentet (fx: "Studienummer: s022717") Udfyld denne forside og aflever den til eksamensvagten. Navn: Studienummer: Afleveringskode:

Side 3 of 16 Ang. brug af Internettet Trådløst internet: Du skal koble dig på det helt normale DTU Wireless system. Online materialer: Linksamlingen til bioinformatik serverne findes via kursets lektionsplan. BEMÆRK: I er ikke begrænset til kun de links der findes her det er tilladt at søge information andetsteds. Det er IKKE tilladt at kommunikere med andre over nettet under eksamen. Sluk telefonen. Der vil blive taget stikprøver af netværkstrafikken for at sikre dette. Hvad gør man hvis en web-server ikke virker: 1) Verificer at input-data er i korrekt format. Forkert inputdata er i næsten alle tilfælde årsagen til problemet. 2) Prøv evt. at finde en alternativ server med samme funktion (Google). 3) Rapporter fejlen til eksamensvagten - den kursusansvarlige vil så blive tilkaldt. HUSK altid: Don t panic Held og lykke med eksamenen. -Thomas

Side 4 of 16 Opgave 1 Sekvenssøgning via UniProt (15%) Uniprot er en database som indeholder informationer om proteinsekvenser fra mange forskellige organismer. I det følgende skal du kun finde informationer for proteiner fra menneske (Kaldet: Human eller Homo sapiens ). 1. Find vha Uniprot databasen og søgemetoden Advanced Search ud af hvor mange proteiner som kommer fra organismen Homo sapiens (Taxonomy = 9606) og som har status som reviewed? Svar: 20248 2. For det sæt af sekvenser du fandt i spørgsmål 1, dvs dem med status reviewed skal du skrive Entry name og sekvenslængde for henholdsvis det længste og korteste protein? Svar: TUFT_HUMAN længde 4, TITIN_HUMAN længde 34350 3. Fortsæt med de samme sekvenser fra spørgsmål 1 og benyt igen Advanced search til af finde ud af hvor mange proteinsekvenser der er annoteret med et signalpeptid? Svar: 3452 4. Find nu sekvensen med Entry name AFAM_HUMAN og skriv 3- bogstavskoderne for de første fire aminosyrer i det modne protein (Engelsk: mature protein) dvs efter signalpeptidet er klippet fra? Svar: Leu-Pro-Thr-Gln 5. Når man søger information om et protein benytter man uniprot databasen som i de foregående spørgsmål, mens man benytter databasen genbank for at få information om bla. DNA/mRNA nukleotidsekvenser. Genet under navnet NM_001133 koder for proteinsekvensen fra det foregående sprøgsmål. Hvor mange exons er der i genet NM_001133?

Side 5 of 16 Opgave 2 DNA, læseramme og intron/exon (20%) 1. Både DNA og RNA består af hver 4 forskellige kernebaser. Tre af kernebaserne findes i både DNA og RNA. Skriv 1-bogstavskoderne for disse tre kernebaser. Svar: A, C, G (1%) 2. En åben læseramme kaldes på engelsk Open Reading Frame (ORF), som er et genomisk stykke DNA som starter med et startkodon og slutter med et stopkodon. Skriv standard genetiske koder for startkodon og alle stopkodons. Svar: ATG er et startkodon (1%) TAA, TAG og TGA er stopkodons (1%) 3. Herunder er et hypotetisk stykke genomisk DNA som starter på position 1 og slutter på position 70. Indenfor disse grænser findes et enkelt hypotetisk gen. Du skal lede efter en åben læseramme kaldet en ORF og du skal kun kigge i positive læserammer. a. Hvad er den første position i ORF en og hvad er kodon? b. Hvad er den sidste position i ORF en og hvad er kodon? c. Hvilken læseramme findes genet i? NB! Som hjælp er positionen angivet oven over sekvensen således at position 10 er et A, 20 et G osv. 10 20 30 40 50 60 70 GTATGGTGGATACCCAGCTGGTTTGTGTGGAGAGGCGCCCAGGGGAATATACAGCGGAAATAGAGGTCGT Svar a: Start i position 3 (ATG) (1%) Svar b: Slut i position 65 (TAG). (1%) Svar c: læserammen er +3. (2%) 4. Der findes et enkelt intron indenfor den ORF du fandt i spørgsmål 3a. De første 2 nukleotider i et intron er næsten altid GT og kaldes et donor site (Figur 1) og de sidste to nukleotider i et intron er AG

Side 6 of 16 og kaldes et acceptor site (Figur 2). Figur 1. Exon slutter på position -1 og intron starter fra position 0. Figur 2. Intron slutter på position -1 og exon starter fra position 0. Man har fundet ud af at donor site er GT på positionerne 21 og 22. Hvor mange nukleotider er der i den kodende del af det første exon? Svar: Der er 18 nukleotider I det første exon. (5%) ATGGTTAGTACTCAGCTG Der er mange mulige positioner som starter med AG og 3 af dem er vist herunder: AC1: Acceptor site AG position 31 og 32 AC2: Acceptor site AG position 33 og 34 AC3: Acceptor site AG position 41 og 42 Hvilket ene acceptor site: AC1, AC2 eller AC3 kan være korrekt og hvorfor? Svar: (7%) Exon 2 (AC1) indeholder 31 nukleotider (position 33-63) Exon 2 (AC2) indeholder 28 nukleotider (position 36-63)

Side 7 of 16 Exon 2 (AC3) indeholder 21 nukleotider (position 43-63) AC3 er det korrekte acceptor splice site da der så totalt vil være 18+21=39 nukleotider, dvs et tal som er deleligt med 3, hvad enten stop kodon er medregnet eller ej. Dette svarer til et protein med en lændge på 36/3=12 aminosyrer. 10 20 30 40 50 60 70 GTATGGTTAGTACTCAGCTGGTTTGTGTGGAGAGGCGCTCAGGGGAATATACAGCGTAATTAGGTGTCGT

Side 8 of 16 Opgave 3 Best alignment (15%) Herunder er givet 2 alignments og du skal beregne alignmentscoren ved hjælp af en BLOSUM50 scoringsmatrix og værdierne herunder for første gap (Engelsk: Gap opening) og næste gap (Engelsk: Gap extension). Husk at skrive mellemregninger og ikke bare et enkelt tal. BLOSUM50 substitution matrix: A 5 R -2 7 N -1-1 7 D -2-2 2 8 C -1-4 -2-4 13 Q -1 1 0 0-3 7 E -1 0 0 2-3 2 6 G 0-3 0-1 -3-2 -3 8 H -2 0 1-1 -3 1 0-2 10 I -1-4 -3-4 -2-3 -4-4 -4 5 L -2-3 -4-4 -2-2 -3-4 -3 2 5 K -1 3 0-1 -3 2 1-2 0-3 -3 6 M -1-2 -2-4 -2 0-2 -3-1 2 3-2 7 F -3-3 -4-5 -2-4 -3-4 -1 0 1-4 0 8 P -1-3 -2-1 -4-1 -1-2 -2-3 -4-1 -3-4 10 S 1-1 1 0-1 0-1 0-1 -3-3 0-2 -3-1 5 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 2 5 W -3-3 -4-5 -5-1 -3-3 -3-3 -2-3 -1 1-4 -4-3 15 Y -2-1 -2-3 -3-1 -2-3 2-1 -1-2 0 4-3 -2-2 2 8 V 0-3 -3-4 -1-3 -3-4 -4 4 1-3 1-1 -3-2 0-3 -1 5 A R N D C Q E G H I L K M F P S T W Y V Første gap: -10 Næste gap: -1 Alignment A: CTTHIKLMAAILLVY :: :: : :: CTSHI---KLML-VY 1. Hvad er scoren for Alignment A? Svar: 13 + 5 + 2 + 10 + 5-10 - 1-1 -1-2 +2 +5-10 +5 +8 = 30 (3%) Alignment B: CTTHIKLMAAILLVY :: ::::: ::: CTSHIKLM----LVY 2. Hvad er scoren for Alignment B? Svar: 13 + 5 + 2 + 10 + 5 +6 +5 +7-10 -1-1 -1 +5 +5 +8 = 58 (3%)

Side 9 of 16 3. Hvilken af de 2 alignments er bedst A eller B (begrund svaret)? Svar: Alignment B er bedst da det giver den højeste alignment score. (4%)

Side 10 of 16 Opgave 4 Parvis alignment (25%) Herunder er to proteinsekvenser sekvensa og sekvensb. >sekvensa RAYN >sekvensb KSWDP 1. Hvad kaldes det format ovenfor som sekvensa og sekvensb er skrevet i? Svar: FASTA format (2%) Der findes overordnet 2 typer af alignment: lokal alignment og global alignment. I det følgende skal du benytte Blosum50 substitutionmatricen herunder og Figur 3 som er vist på næste side til at aligne de to sekvenser sekvensa og sekvensb. Alle gaps har en værdi på -2. BLOSUM50 substitution matrix: A 5 R -2 7 N -1-1 7 D -2-2 2 8 C -1-4 -2-4 13 Q -1 1 0 0-3 7 E -1 0 0 2-3 2 6 G 0-3 0-1 -3-2 -3 8 H -2 0 1-1 -3 1 0-2 10 I -1-4 -3-4 -2-3 -4-4 -4 5 L -2-3 -4-4 -2-2 -3-4 -3 2 5 K -1 3 0-1 -3 2 1-2 0-3 -3 6 M -1-2 -2-4 -2 0-2 -3-1 2 3-2 7 F -3-3 -4-5 -2-4 -3-4 -1 0 1-4 0 8 P -1-3 -2-1 -4-1 -1-2 -2-3 -4-1 -3-4 10 S 1-1 1 0-1 0-1 0-1 -3-3 0-2 -3-1 5 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 2 5 W -3-3 -4-5 -5-1 -3-3 -3-3 -2-3 -1 1-4 -4-3 15 Y -2-1 -2-3 -3-1 -2-3 2-1 -1-2 0 4-3 -2-2 2 8 V 0-3 -3-4 -1-3 -3-4 -4 4 1-3 1-1 -3-2 0-3 -1 5 A R N D C Q E G H I L K M F P S T W Y V 2. Lav en global alignment to sekvenser ved at udfylde tabellen i Figur 1 (findes på næste side). Hvis du har word: Hvis du har åbnet dette dokument i word er det nemmest bare at udfylde tabellen som er vist i Figur1.

Side 11 of 16 Hvis du ikke har word: Skrive alignmentscorerne i en lang liste med angivelse af hvilken celle i Figur 3 du udregner, hvor celle er (række,kolonne) f.eks. på denne måde: K R celle (1,1) = Alignmentscore K A celle (1,2) = Alignmentscore K Y celle (1,3) = Alignmentscore... P N celle (5,4) = Alignmentscore Svar: (12%) 3. Skriv det globale alignment samt alignmentscoren Svar: (3%) KSWDP RAYN- Alignmentscore=6

Side 12 of 16 Figur 3 R A Y N O -2-4 -6-8 K -2 S -4 W -6 D -8 P -10

Side 13 of 16 SVAR R A Y N O -2-4 -6-8 K -2 3 1-1 -3 S -4 1 4 2 0 W -6-1 2 6 4 D -8-3 0 4 8 P -10-5 -2 2 6

Side 14 of 16 Opgave 5 Genotype og fænotype (25%) I fremtiden bliver det måske almindeligt for par at genteste embryoer og benytte informationen til at udvælge drømmebarnet. Lad os i denne opgave se bort fra de etiske aspekter og forestille os, at vi for to embryoer har fået 3 korte diploide dna-sekvenser med tilhørende position- og kromosom-angivelse. De viste sekvenser er alle givet på plus-strengen. Den midterste kernebase i sekvensen repræsenterer en SNP (vist med fed skrift). I de tre nederste rækker er der lavet plads til at udfylde SNP-position og genotype (orienteret i forhold til hhv. plus- og minus-strengen) ud fra de to kopier af kromosomerne, der kommer fra hhv. moderen og faderen. For Embryo 1 s første SNP er position og genotype allerede udfyldt og sorteret alfabetisk (i forhold til genotypen er det ikke relevant, hvilken forælder kernebasen kommer fra) for at matche genotyperne i fænotypetabel 1-3. 1. Udfyld SNP-position, genotype (på plus-streng) og genotype (på minus-streng) i skemaerne nedenfor. Embryo 1: kromosom: 2 11 15 position: 136608641-136608651 66328090-66328100 72638641-72638651 kopi fra mor: 5 -CAGGGGCTACA-3 5 -CTGACTGAGAG-3 5 -CACCACAGCCT-3 kopi fra far: 5 -CAGGGACTACA-3 5 -CTGACCGAGAG-3 5 -CACCACAGCCT-3 SNP-position: 136608646 66328095 72638646 genotype (på plus-streng): Genotype (på minus-streng): A;G C;T C;C C;T A;G G;G Embryo 2: kromosom: 2 11 15 position: 136608641-136608651 66328090-66328100 72638641-72638651 kopi fra mor: 5 -CAGGGGCTACA-3 5 -CTGACCGAGAG-3 5 -CACCAGAGCCT-3 kopi fra far: 5 -CAGGGACTACA-3 5 -CTGACCGAGAG-3 5 -CACCAGAGCCT-3

Side 15 of 16 SNP-position: 136608646 66328095 72638646 genotype (på plus-streng): genotype (på minus-streng): A;G C;C G;G C;T G;G C;C Du skal nu sammenholde de to embryoers genotyper med de tre fænotyper vist i fænotypetabel 1, 2 og 3 og svare på spørgsmål 2 og 3. Du bedes forholde dig til alle tre fænotyper for begge embryoer. Hint: Vær opmærksom på at genotyperne i fænotypetabellerne er angivet på den streng, der står ud for Streng (dbsnp). Position er altid givet i forhold til plus-strengen. 2. Hvilke mulige fænotyper har embryo 1? Forklar. rs4988235(c;t) på minus-strengen: Kan fordøje mælk. rs1815739 (C;T) på plus-strengen: Blanding af sprint- og udholdenhedsmuskler. rs28940871(g;g) på minus-strengen: Lider sandsynligvis af Tay-Sachs sygdom, der bl.a. medfører udviklingshæmmelse og tidlig død. 3. Hvilke mulige fænotyper har embryo 2? Forklar. rs4988235(c;t) på minus-strengen: Kan fordøje mælk. rs1815739(c;c) på plus-strengen: Muligvis øget sprinterpræstationsevne. På den baggrund vil individet formentligt være bedre egnet til kortere distancer end til marathonløb. rs28940871(c;c) på minus-strengen: Normal; lider ikke af Tay-Sachs sygdom. 4. Begge forældre vurderes til at være normalt begavede og raske, men kunne en eller begge tænkes at være bærer af rs28940871- variationen, der er kædet sammen med Tay-Sachs sygdom? Embryo 1 har har to dårlige kopier rs28940871. Den ene må komme fra faderen og den anden fra moderen. Således må begge forældre enten

Side 16 of 16 være bærer af denne variation (en god og en dårlig kopi) eller selv have sygdommen (to dårlige kopier), hvilket dog stemmer dårlig overens med, at sygdommen medfører død i de første leveår. Da embryo 2 har to gode kopier af rs28940871, er det i overenstemmelse med at begge forældre på være raske bærere (de er begge heterozygoter for denne SNP). Fænotypetabel 1. Evne til at nedbryde laktose. Kromosom 2 Streng (dbsnp) minus Position 136608646 Genotype Effekt rs4988235(c;c) Muligvis laktose-intolerant rs4988235(c;t) Kan fordøje mælk rs4988235(t;t) Kan fordøje mælk Fænotypetabel 2. Muskler optimeret til eskplosiv udfoldelse eller udholdende Kromosom 11 Streng (dbsnp) plus Position 66328095 Genotype Effekt rs1815739(c;c) Muligvis øget sprinter-præstationsevne rs1815739 (C;T) Blanding af sprint- og udholdenhedsmuskler rs1815739 (T;T) Muligvis øget udholdenhed Fænotypetabel 3. Tay-Sachs sygdom: Udviklingshæmmelse, paralyse, blindhed og død i alderen 2-4 år. Kromosom 15 Streng (dbsnp) minus Position 72638646 Genotype Effekt rs28940871(c;c) Normal rs28940871(c;g) Bærer af varianten relateret til Tay-Sachs sygdom rs28940871(g;g) Lider sandsynligvis af Tay-Sachs sygdom