Immunologisk bioinformatik

Relaterede dokumenter
Danmarks Tekniske Universitet. Løsningsforslag til Øvelse i Immonologisk Bioinformatik

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Velkommen Immunologisk Bioinformatik

Genetiske afstande og afstandsmatricer

27611 Eksamen Sommer 2008

Danmarks Tekniske Universitet

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Populationsgenetik hos to hvalarter

Danmarks Tekniske Universitet

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik

Skruedyrenes evolution

Geneious en manual til elevbrug

Danmarks Tekniske Universitet. Kursus navn: Introduktion til Bioinformatik. Kursus nummer: Hjælpemidler: alle.

SUBS_BACLE 1 0 ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

27611 Eksamen Sommer 2007

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Herunder er vist en afstandsmatrice for fem pattedyr: Ulv (U), moskusokse (M), kænguru (K), isbjørn (I) og vildsvin (V).

BM121 Resume af tirsdags forlæsningen, Uge 47

SÅDAN BRUGER DU REGNEARK INTRODUKTION

Bedste rette linje ved mindste kvadraters metode

Immunologisk Bioinformatik

UPGMA-metoden eksempel truede tigre

Måske kender du nogle af de tips og tricks, guiden indeholder, men så bliver du blot bekræftet i, at du gør det rigtige.

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Lineære sammenhænge, residualplot og regression

Danmarks Tekniske Universitet

Excel sortering-filtrering

KL S EFFEKTMÅLINGS- REDSKAB TIL KONTROLOMRÅDET

Tilpas: Hurtig adgang

Graph brugermanual til matematik C

Introduktion til de praktiske øvelser

Excel regneark. I dette kapitel skal I arbejde med noget af det, Excel regneark kan bruges til. INTRO EXCEL REGNEARK

AT-forløb Jordskælv i Chile 1.u

Matematik og samfundsfag Gini-koefficienten

matematik Demo excel trin 2 bernitt-matematik.dk 1 excel by bernitt-matematik.dk

How to do in rows and columns 8

BONUSINFORMATIONER i forbindelse med emnet Billeder og grafik

matematik Demo excel trin 1 preben bernitt bernitt-matematik.dk 1 excel by bernitt-matematik.dk

Jet Reports tips og tricks

Indhold Forelæsning Dat-D1: Regneark Matematik og databehandling 2012

i modellen. Alle detaljer og analysemuligheder gennemgås dog ikke i denne skrivelse det er blot en introduktion, så du kommer godt fra start.

Statistik i GeoGebra

Excel - begynderkursus

Svar til sommereksamen 2014, opdateret maj 2016:

Danmarks Tekniske Universitet

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer)

Matematik i Word. En manual til elever og andet godtfolk. Indhold med hurtig-links. Kom godt i gang med Word Matematik. At regne i Word Matematik

Implementation of MUSCLE using GPU

Analyse af en lineær regression med lav R 2 -værdi

Introduktion til de praktiske øvelser

Svar til sommereksamen 2014, opdateret 30. april 2018:

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Vi har valgt at analysere vores gruppe ud fra belbins 9 grupperoller, vi har følgende roller

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik

LINEÆR PROGRAMMERING I EXCEL

Evolutionstræer (Phylogenetic trees)

ALMINDELIGT ANVENDTE FUNKTIONER

Excel-4: Diagrammer og udskrift

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning

Quick Guide til RKKP-dokumentation.dk. - Find rundt i databasernes dokumentation i online systemet på RKKP-Dokumentation.dk

Afgrænsning/filtrering, sortering m.v. i Klienten

Specialkort med Valgdata

Talrækker. Aktivitet Emne Klassetrin Side

Brugervejledning til hurtig start af EasyBusiness Online Indholdsfortegnelse:

Introduktion til processen. Overordnet beskrivelse. Detaljeret beskrivelse

Pivottabeller, diagrammer og databehandling. Underviser: Nina Kirkegaard Schou Mobil

Excel-1: kom godt i gang!!

Information om de forskellige nøgletal i modellerne findes i skrivelsen Varedeklaration.

SMARTBOARD. Hvordan fungerer det? Et kursusmateriale

R E D C A P M A N U A L. Importér data til REDCap fra CSV-fil. Opbyg din eksisterende database i REDCap Version 1.0

Databasesøgning med BLAST

1 Problemformulering CYKELHJELM

Administration af subsites BRUGERVEJLEDNING FOR ADMINISTRATOREN

Vejledning i udtræk af input-output data fra Statistikbanken

ViTre ver. 91 Opdatering fra ScanDis A/S. Instruktion og nyheder i TAL. Automatisk ro Ny forbedret udtalebog. Automatisk ro

En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau)

Klasse 1.4 Michael Jokil

Velkommen til ABC Analyzer! Denne basis manual indeholder introduktion til: De primære funktioner De 6 faneblade Dataslicers Rapporter og klikrapport

KL S EFFEKTMÅLINGS- REDSKAB TIL KONTROLOMRÅDET

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje.

5 ARBEJDE MED EDITOREN

Information om de forskellige nøgletal i modellerne findes i skrivelsen Varedeklaration.

Euklids algoritme og kædebrøker

Gem dine dokumenter i BON s Content Management System (CMS)

Oktober Dokumentpakker

Seriediagrammer - Guide til konstruktion i LibreOffice Calc

Daglig brug af JitBesked 2.0

ectrl vejledning ectrl Autorapporter

dpersp Uge 40 - Øvelser Internetalgoritmer

Vejledning til opbygning af hjemmesider

IT/Regneark Microsoft Excel Grundforløb

Huskesedler. Præsentation af tal i regneark. Microsoft Excel 2010

Regneark LibreOffice. Øvelseshæfte. Version: September 2013

Import-vejledning Fra regneark til UNI Login

FORMATERING AF REGNEARK

Huskesedler. Design og automatisering af regneark. Microsoft Excel 2013

NetLogo-simuleringen. Simuleringer og fysiske modeller (henfaldsloven)

Transkript:

Immunologisk bioinformatik Øvelsesvejledning

Introduktion til øvelsen Når man i dagligdagen taler om influenza, bliver virussen ofte forbundet med forbigående og ufarlig sygdom. Som regel har mennesker en vis immunitet over for en ny sæsonvirus som følge af infektion med tidligere sæsoners influenza. Indimellem sker der dog store mutationer i virus, så flere mennesker kun i ringe grad har immunitet overfor denne. Dette kan medføre store pandemier som det blandt andet sås under svineinfluenzaen i 2009, der var forårsaget af influenza A subtypen H1N1. Fordi mutationer i de ellers ufarlige virus kan have alvorlige konsekvenser for verdenspopulationen, har forskere i længere tid beskæftiget sig med udviklingen af vacciner mod influenzavirus. Hertil benyttes blandt andet bioinformatik, der kan forudsige kroppens immunrespons mod en given virus. Bioinformatik er en gren af bioteknologien, der kombinerer biologi, matematik, statistik og datalogi for at finde sammenhængen i biologiske systemer. I denne øvelse vil I benytte forskellige bioinformatiske værktøjer til at undersøge, hvordan kroppens immunforsvar reagerer på infektion med influenza og hvordan man kan benytte denne viden til vaccineudvikling. Side 2 af 12

Del 1 Fylogenetisk træ Teori Træer Ved fylogenetiske undersøgelser laver man slægtstræer, for at danne sig et overblik over arters evolutionære sammenhæng (slægtskabet). Eksempler på hvad fylogeni kan bruges til, er ved klassificering af fossiler/levende arter og hvor de hører hjemme i the tree of life, kortlægge konserverede steder i f.eks. vira for at finde mulige targetsekvenser til vacciner eller finde sammenhæng mellem ny opdagede proteiner og allerede kendte, for at bestemme de nyes funktionalitet. I fylogenetiske træer bliver hver art/organisme betegnet som en taxon (flertal: taxa). Hvis man følger en taxon tilbage langs grenene er hver forgrening ensbetydende med en fælles stamfader; dvs. forgreningspunktet er det sted hvor en taxon udviklede sig til to taxa, disse har hver en gren fra det punkt og betegnes derfor søstergrupper. Endvidere betegnes alle taxa der er udviklet fra en fælles stamfader som en clade. Ved at benytte clades kan man klynge taxa sammen for bl.a. at overskueliggøre og simplificere træet. Neighbor Joining algoritmen Der er forskellige måder hvorpå man kan opbygge fylogenetiske træer. Oftest opdeler man det i to metoder; klyngemetoden (clustering) og optimal kriteriummetoden (optimality criteria). Ved klyngemetoden opbygges træet trinvis, ved at sætte en ny gren (og dermed taxon) på, en ad gangen, indtil samtlige taxa er tilføjede. Ved optimal kriteriummetoden ses på samtlige træer, der kan konstrueres for et givent datasæt. Hvert træ får en score, der bygger på hvor godt træet beskriver data. Derefter bliver det træ med den bedste score valgt. For hver af de to metoder findes der igen forskellige algoritmer og scoringsmodeller til at lave træet. Vi vil beskæftige os med Neighbor Joining (NJ) algoritmen, da denne algoritme er den mest intuitive måde, at opstille fylogenetiske træer på. NJ algoritmen benytter distancen mellem taxa i træet som fundament for trækonstruktionen, afstanden er her defineret som antal mutationer, der er mellem de forskellige taxa. Side 3 af 12

Algoritmen gennemgår de samme trin i en trinvis proces indtil hele træet er konstrueret. Trinene der foretages bliver beskrevet her, og i øvelse 3.1 skal I selv lave et neighbor joining træ ud fra nogle givne sekvenser. 1. Konstruktion af en distance matrix (tabel). Hvert element har værdien D i, j som er distancen (antal mutationer mellem to sekvenser i og j). 2. Konstruktion af en ny distance matrix, Q. Q er en ny distance tabel der afbilder forholdet mellem én taxon og alle de andre. Værdierne i Qmatricen udregnes som følgende: Q i = D i, j u i u j (1) Hvor u i er summen af afstandene fra sekvens i til hver af de andre sekvenser, delt med antal taxa der ønskes relateret fratrukket 2. Ligningen ses nedenfor: u i =!!!! D(i, k) r 2 (2) r er antal taxa. u j findes på samme måde som u i, hvor det her i stedet for er afstanden fra sekvens j til hver af de andre sekvenser. 3. Beregning af afstand til nyt forgreningspunkt. Det nye forgreningspunkt, X, laves ved at sammensætte to noder (forgreningspunkter eller taxa),og herved sammensættes naboer neighbor joining!. De taxa hvis forgreningspunkt skal findes, er de to taxa (naboer) der har den laveste Qscore. Er der flere med samme score vælges en tilfældigt. Afstanden, v, fra det nye forgreningspunkt til de to taxa bestemmes med formlen: v i = 1 2 D i, j + 1 2 u i u j (3) Side 4 af 12

v j findes på samme måde som v i, hvor det så i stedet for er afstanden fra sekvens j til forgreningspunktet. Når afstanden til forgreningspunktet er fundet kan dette illustreres ved at tegne et V, hvor enderne er de to oprindelige noder og spidsen deres stamfader, de to afstande kan skrives ved siden af V ets sider. 4. Beregning af afstand fra X til de andre taxa. En fælles stamfader, X, til to taxa er blevet fundet, og dermed skal afstanden fra denne til de andre taxa bestemmes, så den oprindelige distance matrix kan blive korrigeret. For at beregne afstanden fra det nye forgreningspunkt til de resterende to sekvenser skal ligning 4 benyttes. Her er i og j sekvenserne for de to taxa der er blevet sat sammen i et forgreningspunkt. Den nye distance findes ved at lægge afstanden fra sekvens i til hver af de andre sekvenser sammen med afstanden fra sekvens j til hver af de andre sekvenser, hvorefter de sammensatte noders interne afstand trækkes fra. Afstanden mellem de to resterende sekvenser er den samme som i den første distance matrix. D x, k = 1 2 D i, k + D j, k D i, j (4) De fire trin gentages indtil der er to taxa tilbage. Herefter sættes det ikkerodede træ sammen, f.eks. ved at bruge de deltræer der blev lavet i trin 3. Desuden skal grenlængderne justeres så de matcher med distancen mellem noderne. Del 1.1 Konstruktion af fylogenetisk træ vha. Neighbor Joining Del 1.1.1 Konstruktion af distance matrix I skal nu konstruere et Neighbor Joining træ for følgende fire sekvenser: A: MATCGGRA B: MISCGGRA C: MATGGGCL D: MITGGGRL Lav den originale distance matrix ved at tælle forskellene mellem hver sekvens. Skriv antal forskelle, distancerne, ind i nedenstående tabel: Side 5 af 12

D: A B C D A B C D NB! Værdien for den nederste halvdel af tabellen er den samme som den øverste halvdel af tabellen, da afstanden fra A til B er den samme som afstanden fra B til A. Del 1.1.2 Konstruktion af Q matricen I skal lave den nye distance matrix, Q. Her er det lettest først at udregne u i og u j givet ved ligning 2 og herefter putte disse værdier ind i ligning 1. Husk, at I kan finde D i den distance tabel i lavede i Del 1. Skriv Qværdierne ind i nedenstående tabel: Q i = D i, j u i u j (1) u i =!!!! D(i, k) r 2 (2) Q: A B C D A B C D Del 1.1.3 Beregning af afstand til nyt forgreningspunkt Start med at finde det felt i Qmatricen, der har den laveste score og noter de to taxa der er ud for dette felt. Vi skal nu finde en fælles stamfader for disse, X. Dette gøres ved først at finde afstanden (v) til X. Benyt ligning 3 til at bestemme afstanden, v, fra de to taxa til deres stamfader X. Noter afstanden, i parentesen kan nodens navn stå: Side 6 af 12

V! = V! = Del 1.2 Konstruktion af fylogenetisk træ vha. Fig Tree Formålet med denne øvelse er at kunne konstruere fylogenetiske træer og ud fra dem kunne fortælle noget om hvilken slægtskab de forskellige sekvenser har til hinanden. Gå ind på hjemmesiden http://www.ebi.ac.uk/tools/msa/mafft/ for at lave et multiple alignment, det vil sige en sammenligning alle sekvenserne. Indsæt alle FASTA sekvenser fra Del 1. Vælge More options og vælg Matrix til BLOSUM 62. Tryk submit. Gå under fanen Phylogenetic Tree og tryk på knappen Download Phylogenetic Tree File. Gem filen som en.ph fil (det kan gøres ved at kopiere resultatet ind i en tekst fil og lav endelsen.ph). Gå dernæst ind i programmet FigTree (som kan hentes på linket http://tree.bio.ed.ac.uk/software/figtree/ ). Under File vælges Open og.ph filen findes. Når træet er kommet frem kan der herefter redigeres, så man får lige netop det træ man ønsker. For at gemme træet gå under File à Export as PDF og man kan da gemme et billede af træet som en PDF. Besvar spørgsmålene: Hvilke sekvenser er mest relaterede? Giver dette god mening? Hvad er forskellen på et rodet og et ikke rodet træ? Hvilket af de to er nemmest at aflæse? Del 2 Find sekvenser Formålet med denne øvelse er at give et kendskab til søgning af protein sekvenser i offentlige databaser og tolke den information der gives hos UniProt. I skal finde forskellige proteinsekvenser der koder for influenzavirus overfladeproteinet hæmagglutinin (HA). Disse sekvenser skal stamme fra influenza A eller B fra forskellige år. Gå ind på databasen http://www.uniprot.org/ og søg under Protein Knowledgebase (UniProtKB). Lav en fritekst søgning eller en avanceret søgning for at finde de ønskede proteinsekvenser, når du ved at: Side 7 af 12

1. Sekvensen skal kode for hæmagglutinin (HA) fra influenza A eller B 2. Sekvensen skal komme fra mennesker 3. Sekvensen skal være omkring 550 aa lang Udvælg 4 sekvenser der er identificeret indenfor en årrække på 10 år. NB! Når du har fundet din proteinsekvens tryk på FASTA (Står lige ovenover sekvensen) og gem dem et sted, hvor du kan finde dem. Besvar følgende spørgsmål: Hvad skrev du i søgefeltet? Hvor mange sekvenser fik du? Hvilke kriterier vil du benytte til at indsnævre din søgning? Vil du benytte AND, OR eller NOT, hvorfor/hvorfor ikke? Del 3 Parvis alignment Teori Sekvens alignment bliver benyttet som et værktøj til at sammenligne sekvenser og dette gøres enten som parvis eller multiple alignment. Alignments kan desuden foretages lokalt eller globalt. Globalt alignment giver et overblik over hvor identisk hele sekvensen er, hvorimod lokale alignments benyttes til at finde identiske dele af sekvenserne. Lokale alignments er derfor nyttige, hvis man eksempelvis skal undersøge DNA fusioner eller sammenligne proteiner, som kun har enkelte domæner tilfælles. Ved konstruktion af et alignment kan man se på identiske match (ens aminosyrer), om aminosyrerne er inden for samme gruppe (hydrofob, hydrofil etc.), ikke identisk match eller om der er sket insertions/deletions. Det sidste bliver visualiseret med huller (gaps) indsat i selve sekvenserne. På baggrund af alignments bliver man i stand til at se om der er sket mutationer i beslægtede sekvenser. Metoden der benyttes til alignment konstruktion kaldes dynamisk programmering. Dynamisk programmering betegner en algoritme (fremgangsmåde), der bryder problemet ned til mindre Side 8 af 12

dele for at kunne løse det. I praksis kan en sekvens alignes på forskellige måder, men ikke alle de mulige løsninger er lige favorable. For at finde det alignment, der er det bedste skal man se på godheden af alignmentet. Godheden findes gennem alignmentalgoritmen, som til hver mulig alignment udregner en score (betegnes alignmentscore, maxscore eller bitscore). Det alignment der har den bedste (højeste) score vælges. Alignment scores beregnes ud fra en scoringstabel. Den mest benyttede er BLOSUM62. Formålet med denne øvelse er at lære hvordan man sammenligner sekvenser og hvordan denne information kan benyttes til senere at beregne et antistofrespons i immunforsvarets Thjælper celler. Gå ind på databasen http://www.uniprot.org/ og tryk på fanen markeret Align. I sekvensfeltet indsættes de to FASTA sekvenser du vil sammenligne. Tryk Align. Sammenlign alle fundne sekvenser fra Del 2 og tæl, hvor mange forskelle der er i de sammenlignede sekvenser. Forskelle er markeret med punktum (.), kolon (:) eller mellemrum ( ). Indfør antal forskelle i et skema i Excel. Besvar spørgsmålene: Hvilke to sekvenser havde færrest forskelle ved sammenligning? Og hvilke havde flest? Ud fra antal forskelle hvad vil du tro det betyder for immunsystemets genkendelse ved en sekundær infektion? Du skal nu konstruere et fylogenetisk træ, ved samme fremgangsmåde som i del 1.2 denne gang med de nye FASTA sekvenser. Besvar spørgsmålene: Hvad forventer du af forskelle på de to træer? Hvorfor? Vil de forskellige taxa ligge tættere eller længer fra hinanden? Hvad siger det om de frie taxa fundet i del 2? Side 9 af 12

Del 4 Antistofrespons For at kunne beregne deres immunsystemets antistofrespons, benyttes følgende formel 1 Antistofrespons = 2^ 1 Antal mutationer 2,9 100% Benyt denne formel og beregn antistofresponset mellem alle de sammenlignede sekvenser fra Del 2. Opstil et skema i Excel som beskriver immunsystemets Antistofrespons. Besvar spørgsmålet: Hvordan stemmer denne information overens med det du kom frem til i Del 2? Ekstra: Hvis du laver samme øvelse med sekvens A, B, C og D fra øvelse 3, opnår du da det samme resultat som det du beregnede i hånden? Del 5 Epitop bestemmelse Formålet med denne øvelse er at lære hvordan man kan forudsige hvilke dele af en virus immunsystemet genkender og kunne beregne hvor stor en genkendelse det adaptive immunsystem har ved en ny virus infektion. I en forskningshverdag ville man gå ind og undersøge for de MHCImolekyler der er videnskabelig evidens for findes i området. Men i denne opgave har vi valgt de MHCImolekyler der skal søges på, grundet kompleksiteten af de hjemmesider der benyttes til dette i hverdagen. Der er blevet valgt at bruge MHCImolekylet: A*01:01 på baggrund af en opstillet hypotetisk person fra USA, med asiatisk afstamning. Denne person er valgt da der var udført undersøgelser på en stor population (n=1772). Dette betyder man kan være relativt mere sikker på at MHCI molekylet findes i personer der kommer fra denne etniske gruppe i USA. Det andet MHCImolekyle der er blevet valgt er: DRB1*01:04, fra en afroamerikansk befolkningsgruppe. I denne undersøgelser var der igen et relativt højt antal personer med (2,411). 1 De Jong J.C.; Smith D.J.; et al.2004: Mapping the Antigenic and Genetic Evolution of Influenza Virus. Side 10 af 12

Gå ind på hjemmesiden http://www.cbs.dtu.dk/services/netmhcpan/ for at finde hvilke epitoper der fremstilles af jeres valgte MHCImolekyler givet i teksten ovenfor Indsæt en af proteinsekvenserne valgt i Del 1. Vælg en peptid længde på 9 og vælg de MHCI- molekyle fundet givet. Tryk Submit. Indfør de peptid stumper der binder stærkt (SB) i et Excel ark. Gør nu det samme for resten af dine proteinsekvenser fra Del 1 og indfør alle peptiderne i samme Excel ark. NB! Du skal kunne finde ud af, hvilke peptidstumper der kommer fra hvilke protein sekvenser. Gå ind på hjemmesiden http://www.cbs.dtu.dk/services/netmhciipan/ for at finde, hvilke epitoper der fremstilles af jeres valgte MHCIImolekyler fra Del 5. Indsæt en af proteinsekvenserne valgt i Del 1. Vælg en peptid længde på 15 og vælg dit MHCII- molekyle fundet i Del 5. Tryk Submit. Indfør de peptid stumper der binder stærkt (SB) i et Excel ark. Gør nu det samme for resten af dine proteinsekvenser fra Del 1 og indfør alle peptiderne i samme Excel ark. Del 5.1 Antigenrespons For at kunne beregne hvor stort et antigenrespons der er benyttes formlen 2 T celle immunrespons = 0.6!"#!$!"#$#%&'() For at finde antallet af mutationer opstilles epitoperne fra to af proteinsekvenserne overfor hinanden. De epitop sekvenser, der minder om hinanden sættes overfor hinanden. Hvis nogle af eptiop sekvenserne ikke minder om nogle af de andre sættes de alene. Herefter tælles antallet af mutationer i mellem hver af de sammenlignede epitoper. Dette gøres for både epitoperne fra MHCI og MHCIImolekylerne. For at beregne den samlede procentvise epitop genkendelse benyttes formlen Samlet epitop genkendelse % = T celle immunrespons fremstillede epitoper fra ny virus 100% NB! Epitoperne fra MHCI og MHCIImolekylerne beregnes hver for sig. Besvar spørgsmålene: 2 Buggert M.; Hoof I.; Perez C.L.; et al., 2010: Interdisciplinary Analysis of HIVSpecific CD8 + T cell Responses against Variant Epitopes Reveals Restricted TCR Promiscuity. Side 11 af 12

Hvilke celler i immunsystemet binder til henholdsvis MHCI og MHCIImolekylerne? Hvilke sekvenser har størst epitop genkendelse og hvilke har mindst epitopgenkendelse? Hvad betyder dette? Side 12 af 12