Danmarks Tekniske Universitet. Løsningsforslag til Øvelse i Immonologisk Bioinformatik

Relaterede dokumenter
Immunologisk bioinformatik

Velkommen Immunologisk Bioinformatik

27611 Eksamen Sommer 2008

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Danmarks Tekniske Universitet. Kursus navn: Introduktion til Bioinformatik. Kursus nummer: Hjælpemidler: alle.

Genetiske afstande og afstandsmatricer

27611 Eksamen Sommer 2007

Danmarks Tekniske Universitet

Introduktion til de praktiske øvelser

Svar til sommereksamen 2014, opdateret maj 2016:

Danmarks Tekniske Universitet

Svar til sommereksamen 2014, opdateret 30. april 2018:

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Introduktion til de praktiske øvelser

matematik Demo excel trin 2 bernitt-matematik.dk 1 excel by bernitt-matematik.dk

matematik Demo excel trin 1 preben bernitt bernitt-matematik.dk 1 excel by bernitt-matematik.dk

Danmarks Tekniske Universitet

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Geneious en manual til elevbrug

Populationsgenetik hos to hvalarter

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

1.semester: IT-færdigheder

Åbn Paint, som er et lille tegne- og billedbehandlingsprogram der findes under Programmer i mappen Tilbehør. Åbn også Word.

Danmarks Tekniske Universitet

Tilpas: Hurtig adgang

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik

SÅDAN BRUGER DU REGNEARK INTRODUKTION

Herunder er vist en afstandsmatrice for fem pattedyr: Ulv (U), moskusokse (M), kænguru (K), isbjørn (I) og vildsvin (V).

Danmarks Tekniske Universitet

Kom i gang med regneark:

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Brugervejledning til hurtig start af EasyBusiness Online Indholdsfortegnelse:

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

Regneark LibreOffice. Øvelseshæfte. Version: September 2013

Vejledning PROPHIX 11. Driftsbudgettering ved åbning af templates (Kun til Avanceret-brugere)

Handout: Kursus for 3F i datajournalistik

Statistik i GeoGebra

Med et filarkiv kan du give dine besøgende på din hjemmeside adgang til at hente dokumenter i Word, PDF, PowerPoint og Excel.

Gem dine dokumenter i BON s Content Management System (CMS)

matematik Demo excel basis+g preben bernitt bernitt-matematik.dk 1 excel by bernitt-matematik.dk

Excel tutorial om indekstal og samfundsfag 2008

Matematik i Word. En manual til elever og andet godtfolk. Indhold med hurtig-links. Kom godt i gang med Word Matematik. At regne i Word Matematik

Geogebra. Dynamisk matematik. Version: August 2012

Danhost Webshop. Bliv fundet på Google

Kom godt i gang med Fronter

Bedste rette linje ved mindste kvadraters metode

Dig og din puls Dig og din puls Side 1 af 17

Specialkort med Valgdata

BM121 Resume af tirsdags forlæsningen, Uge 47

SUBS_BACLE 1 0 ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50

Collect - brugermanual til Y s Men

5.0 Velkommen til manualen for kanalen HTML-grab Introduktion til kanalen HTML-grab kanalside Hvad er et spot?

Analyse af en lineær regression med lav R 2 -værdi

Tilretning af importdatafiler

Tak for kaffe! Tak for kaffe! Side 1 af 16

Lav din egen forside i webtrees

IDAP manual Emission

Undersøgelse af GVU og EUD for voksne

Manual opdateret Oktober 2015 Copyright ABC Softwork Aps. Materialet må ikke gengives eller kopieres uden tilladelse. Download din gratis 30 dages

HåndOffice Dobbelt oprettelser

1. Semester: Identitet, sprog og relationer

Opret og vedligehold af favoritliste på markedspladsen

Udforske kommandoer på båndet De enkelte faner på båndet indeholder grupper, og hver gruppe indeholder et sæt relaterede kommandoer.

Kursusbeskrivelse Microsoft Excel Grundkursus

En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau)

Gratisprogrammet 27. september 2011

Brugermanual til Assignment Hand In

VEJLEDNING TIL DELNETSBRUGERE PÅ FOULUMIF.DK VIA DBUNET.DK OG KLUB-CMS

Opret CFU-kursusevaluering i Survey Xact

Tilretning af regneark med autosum, formatering af tekst og tal samt oprettelse og kopiering af formel (relativ reference)

DANSK SKOLEDATA APS. Tlf DSA-Ventelisten

Vækstprojekt 2. x forår 2016

Excel sortering-filtrering

Det nye opgaveværktøj i itslearning september 2017

Manual til Vandværksløsninger

Vejledning til oprettelse af Skole-konferencer

Hvis du ikke kan logge på systemet, skal du kontakte den Navisionkontaktansvarlige i dit team, der kan bestille en adgang til dig.

Jet Reports tips og tricks

Huskesedler. Design og automatisering af regneark. Microsoft Excel 2013

Vejledning til CD-ORD 10

Disposition for kursus i Excel2007

Excel-1: kom godt i gang!!

Betjeningsvejledning. Winformatik

Excel light. Grundlæggende talbehandling med Excel til matematik

Rapport generator til Microsoft C5

Skruedyrenes evolution

Active Builder - Brugermanual

I stedet for at oprette en masse medlemmer, er det muligt at importere disse når bare nogle enkle spilleregler overholdes.

FORMLER OG FUNKTIONER I EXCEL

Sagsnr BILAG 3

Fortsættelse af Regneark II. Indhold. Side 1 af 14. Regneark EXCEL

NVivo-øvelser for PC. Når NVivo er åbent, kan importen ske på to måder:

Annemette Søgaard Hansen/

Sådan opretter du en elektronisk aflevering

How to do in rows and columns 8

Transkript:

Danmarks Tekniske Universitet Løsningsforslag til Øvelse i Immonologisk Bioinformatik

Indledning De følgende sider giver en gennemgang af de øverlser i har lavet under jeres besøg på DTU, som en del af jeres SRP. Resultaterne skal alle sammen ses som et forslag til hvordan opgaverne kan løses, og stemme resultatet i nogle af opgaverne ikke overens med jeres betyder det nødvendigvis ikke at i har lavet en fejl. Derfor er det vigtigt at i ikke ser det som en endeligløsning, men som et løsningsforslag, da resultaterne nødvendigvis ikke er funde udfra den samme bagrund som jeres. Foruden løsningsforslaget er der et eksempel på hvordan et fylogenetisk træ lavet udfra de proteiner, der er blevet brugt igennem øvelsen. Dette er gjort med henblik på at i kan lave de resternede beregninger på nogle i databaserne fundet proteinsekvenser. Istedet for de sekvenser vi har givet jer Vi håber at det var en spændnde dag på DTU, og i fik et indblik i noget af det er muligt at arbejde med som studerende på Teknisk Biomedicin eller Bioteknologi. Skulle i have lyst til at lse mere om de to bachelor uddanelser på DTU Teknisk Biomedicin - BSc in Human Life Science Engineering http://www.dtu.dk/uddannelse/bachelor/teknisk-biomedicin Bioteknologi - BSc in Biotechnology Engineering http://www.dtu.dk/uddannelse/bachelor/bioteknologi Med venlig hilsen Eduforce Institut for Systembiologi 1

Indhold Del 1 - Konstruktion af distance matricer.................. 3 Konstruktion af fylogenetisk træ vha. Fig Tree............ 4 Analyse af FigTree........................... 5 Del 2 - Find sekvensen............................ 5 Søgning i uniprot............................ 6 Del 3 Parvis alignment........................... 6 Del 4 Antistofrespons............................ 8 Udregning af antistofrespons...................... 8 Del 6 Epitop bestemmelse......................... 10 2

Del 1 - Konstruktion af distance matricer Der er blevet givet fire forskellige sekvenser der skal bruges som bagrunden for det fylogenetisk træ: A: MATCGGRA B: MISCGGRA C: MATGGGCL D: MITGGGRL Forskellene i disse (hvor langt der er fra hinanden), altså hvor mange mutationer der er skrivers ind på en matrice form, der kaldes en distance matrice. Eller også kaldet D 1, da det er den førest vi laver. D 1 A B C D A - 2 3 3 B - - 5 3 C - - - 2 For at danne et mere sandfærdigt billede bruges der noget matematik til at definere tallet der kaldes u(i). Formlen for denne er givet i ligning (1) u(i) = Σr k=1d(i, k) r 2 (1) Q(i) = D(i, j) u(i) u(j) (2) For at finde u(i) tages alle forskellene for de brugte proteiner, over antallet af proteiner brugt, minus to: u(k) = Σr k=1d(i, k) r 2 u(a) = D(a, B) + D(a, C) + D(a, D) r 2 u(a) = 2 + 3 + 3 4 2 Da u(i) værdierne skal bruges igen noters disse ned; (3) = 4 (4) u(a) = 4, u(b) = 5, u(c) = 5, u(d) = 4 3

Der skal nu laves en ny Q-matrice for dette datasæt. Denne konstrueres ved brug af formlen i ligning (2). Alt efter hvad hvilke proteiner der er blevet valgt vil resultaterne være forskellige. Q(a) = D(a, b) u(a) u(b) Q(i) = 2 4 5 = 7 Dette gøres for alle forholdene og giver følgende Q-matrice : A B C D A - -7-6 -5 B - - -5-6 C - - - -7 Der skal nu bestemmes de enkelet sekvensers afstand fra deres fælles stamfar. Dette gøres ved at bruge ligningen: v(i) = 1 2 D(i, j) + 1 (u(i) u(j)) (5) 2 Da der i dette tilfælde er to taxa er har den laveste score, -7 vælges der tilfældigt imellem de to. I dette løsningsforslag er der blevet brugt noderne A & B. v(i) værdierne for disse to kan nu findes ved at bruge ligningnen v(a) = 1 2 D(A, B) + 1 2 (u(a) u(b)) = 1 2 2 + 1 (5 4) = 1.5 2 v(b) = 1 2 D(B, A) + 1 2 (u(b) u(a)) = 1 2 2 + 1 (4 5) = 0.5 2 Dette siger noget om hvor langt der forskellige sekvenser er i forhold til hinanden relativt set. Dette kan gøres for alle sekvenserne, hvilket vil være muligt at gøre når der er så få sekvenser. Er der, som i virkelighedens datasæt rigtig mange sekvenser er der en række online værktøjer der skal tages i brug for at kunne konstruere fylogenetisk træer. Konstruktion af fylogenetisk træ vha. Fig Tree Formålet med denne øvelse er at kunne konstruere fylogenetiske træer og ud fra dem kunne fortælle noget om hvilken slægtskab de forskellige sekvenser har til hinanden. Gå ind på hjemmesiden http://www.ebi.ac.uk/tools/msa/mafft/ for at lave et multiple alignment, det vil sige en sammenligning alle sekvenserne Indsæt alle de givne FASTA sekvenser: A: MATCGGRA 4

B: MISCGGRA C: MATGGGCL D: MITGGGRL Vælge More options og vælg Matrix til BLOSUM 62. Tryk submit. Gå under fanen Phylogenetic Tree og højre-klik på knappen Download Phylogenetic Tree File, og vælg derefter gem link som/save link as. Gem filen som en.ph fil husk at gemme den et sted hvor du kan finde den, så det er muligt for dig at åben den med figtree. Analyse af FigTree Den hentede fil åbens nu ved brug af FigTree og der brude komme noget der ligner følgende billed frem: Figur 1: Sekvens A,B,C & D vist i FigTree Udfra denne afbildning af sekvenserne er det nu muligt at se hvilke af dem der tæt beslægtet i relativt til hinanden. I dette tilfælde kan det ses at A & B ligger tæt på hinaden og C & D ligger tæt på hinaden. Dette stemmer overens med de analyser der er blevet lavet i distance matricerne hvor A & B havde en lavere score imellem hinanden, relativt set til f.eks. B & D. Det samme gælder for C & D. Det kan desuden ses at A & B ligger en forgrening længere ude end C & D. Del 2 - Find sekvensen Det vigtige når i laver en søgning er først at gøre jer klar over hvad i ønsker at finde, samt hvad der er af begrænsende parametre for jeres søgnig. 5

Søgning i uniprot Jeres søgning efter det specifikke protein kan se se ud på følgende måde; influenza AND hemagglutinin AND gene:ha AND length:[00550 TO *] AND host: Homo sapiens [9606] Der opnås ved denne søgning med 104 reviewed og 95 unreviewed hvorfra man kan tage de hits der er indenfor en årrække på 10 år. At en søgning er reviewed betyder at andre end dem der har oprettet proteinet i databasen, har kontroleret resultatet. Dette giver en større sikkerhed for at dette resultat er sandt. I denne søgning er det kun blevet benyttet AND kriteriet for at specificere søgningen ned til et overskueligt antal proteiner. Dette er gjort da dette valg lader en inkulderer alle de parametre der er ønsket, uden at ekludere potentielle søgnings kandidater. Del 3 Parvis alignment Alignment i Uniprot Udfra de proteiner fundet i del 1 bliver der valgt fire proteiner der skal bruges til at lave alignments på. I dette tilælde er der blevet valgt fire proteiner fra 1996 til 2000. Der er valgt de følgende: Q9Q0U6 (HEMA I96A0), 568 bp O56140 (HEMA I97A1), 568 bp Q8QPL1 (HEMA I00A0), 568 bp O89746 (HEMA I97A0), 568 bp Hvert af navnene kan tastes ind i Uniprot og vil fører direkte tilbage til de protein i har søgt på. Disse fire sekvenser opfylder de krav der er opstillet omkring antal basepar (bp), hvor stort tidsintervallet der er imellem dem skal være, og at de skal stamme fra mennesker. Der skal nu laves en FASTA-fil der kan bruges til at lave et alignment på. Dette gøres ved at klikke på de valgte proteiner, og åbne dem i et nyt vindue. Der trykkes på Sequences, der er indrammet på figur 1, for at komme ned til hvor denne findes. Man er nu kommer ned til hvor FASTA-filen kan findes. Den findes ved at klikke der hvor der står FASTA, denne er indrammet på figur 2, hvorefter man får vist 6

Figur 2: Figur 3: Figur 4: FASTA-filen for; Q9Q0U6 (HEMA I96A0) FASTA-filen der er vist på figur 3 FASTA-filen for Q9Q0U6 (HEMA I96A0), og ser såleds ud: For at sikre at der ikke ændres noget i FASTA-filerne skal teksten ikke kopieres ind i Word, men i Notepad eller TextEdit For at kunne lave en alignment kørsel kopiers de to FASTA-filer der skal alignes ind fra det førlavet dokument. Den lille der kan ses i filen betyder ny sekvens, og bliver af programmerne vi bruge læst sådan. Dette betyder også at det der står efter bestemmer hvad sekvensen bliver kaldt. Så navngiv sekvensen så der er overskueligt hvilken en det er. N.B. der kan ikke bruges mellemrum, der skal i stedet bruges underscore ( ). Hjemmesiden http://www.ebi.ac.uk/tools/msa/mafft/ bruges påny til at danne en fil der kan læses af figtree. Husk at gemme filen på samme måde. Åbens filen 7

korrekt kan der nu siges noget om hvor langt fra hinanden de enkelte sekvenser er. Med de sekvenser der blev valgt i starten ser det fylogenetisk træ som i figur 5. Husk det er den vandrette afstand der siger noget om hvor langt de enkelte sekvenser er fra hinanden Figur 5: Sekvens A,B,C & D vist i FigTree Del 4 Antistofrespons Udregning af antistofrespons For kunne lave udregningen for antistofresponsen for de i Del - 2 fundne proteiner skal er det nødvendigt at bruge antallet af forskellene imellem de fire proteiner. For overskueligørsle opstilles der samme difference matrice som i Del - 2 # A B C D - Q9Q0U6 O56140 Q8QPL1 O89746 a Q9Q0U6-11 11 11 b O56140 - - 12 4 c Q8QPL1 - - - 15 Der skal nu lave en beregning på hvor stor en antistofrespons der vil være imellem de fire proteiner. Dette gøres ved brug af formlen: Antistof respons = 1 2 mutationer 2.9 100% 8

Det skal her noteres at mutationer 2.9 er opløftet Det er nu muligt at udrenge den relative genkendlighedsprocent og man vil få følgende resultater: Givet i % Q9Q0U6 O56140 Q8QPL1 O89746 Q9Q0U6-6.59 6.59 6.59 O56140 - - 6.04 18.13 Q8QPL1 - - - 4.83 Det er kan ses her at der ikke skal mange mutaioner til førend at gendkendeligheden falder drastisk. Gøres det samme med sekvenserne A, B,C & D, vil det give følgende resultater: D 1 A B C D A - 2 3 3 B - - 5 3 C - - - 2 Og ved at lave samme udregning som før vil man få følgende resultater: D 1 A B C D A - 36.25 24.17 24.17 B - - 14.5 24.17 C - - - 36.25 Dette stemmer også overens med de reultater der belv fundet tidligere. Da dette også viser at der er større genkednelighed, og dermed også en tætter beslægtning imellem A & B end der er imellem A & D. Det samme glæder også for C & D 9

Del 6 Epitop bestemmelse De tidligere fundne protein-sekvenser kan nu testes for, hvilke dele af dem, der bliver præsenteret på overfladen af MHC-I og MHC-II celler. Sekvenserne indsættes og HLA-A*01:01 vælges som repræsentant for alle HLA- A*01-alleler. Klik på Sort by affinity, for at få vist strong binding peptides (SB) øverst. For hvert HA-protein noteres de stærkest bindende peptider i et regneark. Det samme gøres på serveren for MHC-II molekyler, http://www.cbs.dtu.dk/ services/netmhciipan/ På NetMHCIIpan anvendes kun core-peptidet, da det er dette der bindes i MHC-II kløften. Det samme gøres for DRB1*01:04, og dennes data skrives ligeledes ind i regnearket. Figur 6: Dette billede er repræsentativt for hvordan det kan se ud når man indskriver i excel Samlet set betyder det, at vores opstillede person ville være fuldt dækket mod QPQPL1, hvis han først havde været inficeret Q9Q0U6 og visa versa, men vedkommende kun ville have 64 % T-celle respons (fra huskecellerne ved en sekundær 10

infektion med O89746, hvis han havde værer inficeret med Q9Q0U6 eller QPQPL1 tidligere. 11