Immunologisk bioinformatik Øvelsesvejledning
Introduktion til øvelsen Når man i dagligdagen taler om influenza, bliver virussen ofte forbundet med forbigående og ufarlig sygdom. Som regel har mennesker en vis immunitet over for en ny sæsonvirus som følge af infektion med tidligere sæsoners influenza. Indimellem sker der dog store mutationer i virus, så flere mennesker kun i ringe grad har immunitet overfor denne. Dette kan medføre store pandemier som det blandt andet sås under svineinfluenzaen i 2009, der var forårsaget af influenza A subtypen H1N1. Fordi mutationer i de ellers ufarlige virus kan have alvorlige konsekvenser for verdenspopulationen, har forskere i længere tid beskæftiget sig med udviklingen af vacciner mod influenzavirus. Hertil benyttes blandt andet bioinformatik, der kan forudsige kroppens immunrespons mod en given virus. Bioinformatik er en gren af bioteknologien, der kombinerer biologi, matematik, statistik og datalogi for at finde sammenhængen i biologiske systemer. I denne øvelse vil I benytte forskellige bioinformatiske værktøjer til at undersøge, hvordan kroppens immunforsvar reagerer på infektion med influenza og hvordan man kan benytte denne viden til vaccineudvikling. Side 2 af 12
Del 1 Fylogenetisk træ Teori Træer Ved fylogenetiske undersøgelser laver man slægtstræer, for at danne sig et overblik over arters evolutionære sammenhæng (slægtskabet). Eksempler på hvad fylogeni kan bruges til, er ved klassificering af fossiler/levende arter og hvor de hører hjemme i the tree of life, kortlægge konserverede steder i f.eks. vira for at finde mulige targetsekvenser til vacciner eller finde sammenhæng mellem ny opdagede proteiner og allerede kendte, for at bestemme de nyes funktionalitet. I fylogenetiske træer bliver hver art/organisme betegnet som en taxon (flertal: taxa). Hvis man følger en taxon tilbage langs grenene er hver forgrening ensbetydende med en fælles stamfader; dvs. forgreningspunktet er det sted hvor en taxon udviklede sig til to taxa, disse har hver en gren fra det punkt og betegnes derfor søstergrupper. Endvidere betegnes alle taxa der er udviklet fra en fælles stamfader som en clade. Ved at benytte clades kan man klynge taxa sammen for bl.a. at overskueliggøre og simplificere træet. Neighbor Joining algoritmen Der er forskellige måder hvorpå man kan opbygge fylogenetiske træer. Oftest opdeler man det i to metoder; klyngemetoden (clustering) og optimal kriteriummetoden (optimality criteria). Ved klyngemetoden opbygges træet trinvis, ved at sætte en ny gren (og dermed taxon) på, en ad gangen, indtil samtlige taxa er tilføjede. Ved optimal kriteriummetoden ses på samtlige træer, der kan konstrueres for et givent datasæt. Hvert træ får en score, der bygger på hvor godt træet beskriver data. Derefter bliver det træ med den bedste score valgt. For hver af de to metoder findes der igen forskellige algoritmer og scoringsmodeller til at lave træet. Vi vil beskæftige os med Neighbor Joining (NJ) algoritmen, da denne algoritme er den mest intuitive måde, at opstille fylogenetiske træer på. NJ algoritmen benytter distancen mellem taxa i træet som fundament for trækonstruktionen, afstanden er her defineret som antal mutationer, der er mellem de forskellige taxa. Side 3 af 12
Algoritmen gennemgår de samme trin i en trinvis proces indtil hele træet er konstrueret. Trinene der foretages bliver beskrevet her, og i øvelse 3.1 skal I selv lave et neighbor joining træ ud fra nogle givne sekvenser. 1. Konstruktion af en distance matrix (tabel). Hvert element har værdien D i, j som er distancen (antal mutationer mellem to sekvenser i og j). 2. Konstruktion af en ny distance matrix, Q. Q er en ny distance tabel der afbilder forholdet mellem én taxon og alle de andre. Værdierne i Qmatricen udregnes som følgende: Q i = D i, j u i u j (1) Hvor u i er summen af afstandene fra sekvens i til hver af de andre sekvenser, delt med antal taxa der ønskes relateret fratrukket 2. Ligningen ses nedenfor: u i =!!!! D(i, k) r 2 (2) r er antal taxa. u j findes på samme måde som u i, hvor det her i stedet for er afstanden fra sekvens j til hver af de andre sekvenser. 3. Beregning af afstand til nyt forgreningspunkt. Det nye forgreningspunkt, X, laves ved at sammensætte to noder (forgreningspunkter eller taxa),og herved sammensættes naboer neighbor joining!. De taxa hvis forgreningspunkt skal findes, er de to taxa (naboer) der har den laveste Qscore. Er der flere med samme score vælges en tilfældigt. Afstanden, v, fra det nye forgreningspunkt til de to taxa bestemmes med formlen: v i = 1 2 D i, j + 1 2 u i u j (3) Side 4 af 12
v j findes på samme måde som v i, hvor det så i stedet for er afstanden fra sekvens j til forgreningspunktet. Når afstanden til forgreningspunktet er fundet kan dette illustreres ved at tegne et V, hvor enderne er de to oprindelige noder og spidsen deres stamfader, de to afstande kan skrives ved siden af V ets sider. 4. Beregning af afstand fra X til de andre taxa. En fælles stamfader, X, til to taxa er blevet fundet, og dermed skal afstanden fra denne til de andre taxa bestemmes, så den oprindelige distance matrix kan blive korrigeret. For at beregne afstanden fra det nye forgreningspunkt til de resterende to sekvenser skal ligning 4 benyttes. Her er i og j sekvenserne for de to taxa der er blevet sat sammen i et forgreningspunkt. Den nye distance findes ved at lægge afstanden fra sekvens i til hver af de andre sekvenser sammen med afstanden fra sekvens j til hver af de andre sekvenser, hvorefter de sammensatte noders interne afstand trækkes fra. Afstanden mellem de to resterende sekvenser er den samme som i den første distance matrix. D x, k = 1 2 D i, k + D j, k D i, j (4) De fire trin gentages indtil der er to taxa tilbage. Herefter sættes det ikkerodede træ sammen, f.eks. ved at bruge de deltræer der blev lavet i trin 3. Desuden skal grenlængderne justeres så de matcher med distancen mellem noderne. Del 1.1 Konstruktion af fylogenetisk træ vha. Neighbor Joining Del 1.1.1 Konstruktion af distance matrix I skal nu konstruere et Neighbor Joining træ for følgende fire sekvenser: A: MATCGGRA B: MISCGGRA C: MATGGGCL D: MITGGGRL Lav den originale distance matrix ved at tælle forskellene mellem hver sekvens. Skriv antal forskelle, distancerne, ind i nedenstående tabel: Side 5 af 12
D: A B C D A B C D NB! Værdien for den nederste halvdel af tabellen er den samme som den øverste halvdel af tabellen, da afstanden fra A til B er den samme som afstanden fra B til A. Del 1.1.2 Konstruktion af Q matricen I skal lave den nye distance matrix, Q. Her er det lettest først at udregne u i og u j givet ved ligning 2 og herefter putte disse værdier ind i ligning 1. Husk, at I kan finde D i den distance tabel i lavede i Del 1. Skriv Qværdierne ind i nedenstående tabel: Q i = D i, j u i u j (1) u i =!!!! D(i, k) r 2 (2) Q: A B C D A B C D Del 1.1.3 Beregning af afstand til nyt forgreningspunkt Start med at finde det felt i Qmatricen, der har den laveste score og noter de to taxa der er ud for dette felt. Vi skal nu finde en fælles stamfader for disse, X. Dette gøres ved først at finde afstanden (v) til X. Benyt ligning 3 til at bestemme afstanden, v, fra de to taxa til deres stamfader X. Noter afstanden, i parentesen kan nodens navn stå: Side 6 af 12
V! = V! = Del 1.2 Konstruktion af fylogenetisk træ vha. Fig Tree Formålet med denne øvelse er at kunne konstruere fylogenetiske træer og ud fra dem kunne fortælle noget om hvilken slægtskab de forskellige sekvenser har til hinanden. Gå ind på hjemmesiden http://www.ebi.ac.uk/tools/msa/mafft/ for at lave et multiple alignment, det vil sige en sammenligning alle sekvenserne. Indsæt alle FASTA sekvenser fra Del 1. Vælge More options og vælg Matrix til BLOSUM 62. Tryk submit. Gå under fanen Phylogenetic Tree og tryk på knappen Download Phylogenetic Tree File. Gem filen som en.ph fil (det kan gøres ved at kopiere resultatet ind i en tekst fil og lav endelsen.ph). Gå dernæst ind i programmet FigTree (som kan hentes på linket http://tree.bio.ed.ac.uk/software/figtree/ ). Under File vælges Open og.ph filen findes. Når træet er kommet frem kan der herefter redigeres, så man får lige netop det træ man ønsker. For at gemme træet gå under File à Export as PDF og man kan da gemme et billede af træet som en PDF. Besvar spørgsmålene: Hvilke sekvenser er mest relaterede? Giver dette god mening? Hvad er forskellen på et rodet og et ikke rodet træ? Hvilket af de to er nemmest at aflæse? Del 2 Find sekvenser Formålet med denne øvelse er at give et kendskab til søgning af protein sekvenser i offentlige databaser og tolke den information der gives hos UniProt. I skal finde forskellige proteinsekvenser der koder for influenzavirus overfladeproteinet hæmagglutinin (HA). Disse sekvenser skal stamme fra influenza A eller B fra forskellige år. Gå ind på databasen http://www.uniprot.org/ og søg under Protein Knowledgebase (UniProtKB). Lav en fritekst søgning eller en avanceret søgning for at finde de ønskede proteinsekvenser, når du ved at: Side 7 af 12
1. Sekvensen skal kode for hæmagglutinin (HA) fra influenza A eller B 2. Sekvensen skal komme fra mennesker 3. Sekvensen skal være omkring 550 aa lang Udvælg 4 sekvenser der er identificeret indenfor en årrække på 10 år. NB! Når du har fundet din proteinsekvens tryk på FASTA (Står lige ovenover sekvensen) og gem dem et sted, hvor du kan finde dem. Besvar følgende spørgsmål: Hvad skrev du i søgefeltet? Hvor mange sekvenser fik du? Hvilke kriterier vil du benytte til at indsnævre din søgning? Vil du benytte AND, OR eller NOT, hvorfor/hvorfor ikke? Del 3 Parvis alignment Teori Sekvens alignment bliver benyttet som et værktøj til at sammenligne sekvenser og dette gøres enten som parvis eller multiple alignment. Alignments kan desuden foretages lokalt eller globalt. Globalt alignment giver et overblik over hvor identisk hele sekvensen er, hvorimod lokale alignments benyttes til at finde identiske dele af sekvenserne. Lokale alignments er derfor nyttige, hvis man eksempelvis skal undersøge DNA fusioner eller sammenligne proteiner, som kun har enkelte domæner tilfælles. Ved konstruktion af et alignment kan man se på identiske match (ens aminosyrer), om aminosyrerne er inden for samme gruppe (hydrofob, hydrofil etc.), ikke identisk match eller om der er sket insertions/deletions. Det sidste bliver visualiseret med huller (gaps) indsat i selve sekvenserne. På baggrund af alignments bliver man i stand til at se om der er sket mutationer i beslægtede sekvenser. Metoden der benyttes til alignment konstruktion kaldes dynamisk programmering. Dynamisk programmering betegner en algoritme (fremgangsmåde), der bryder problemet ned til mindre Side 8 af 12
dele for at kunne løse det. I praksis kan en sekvens alignes på forskellige måder, men ikke alle de mulige løsninger er lige favorable. For at finde det alignment, der er det bedste skal man se på godheden af alignmentet. Godheden findes gennem alignmentalgoritmen, som til hver mulig alignment udregner en score (betegnes alignmentscore, maxscore eller bitscore). Det alignment der har den bedste (højeste) score vælges. Alignment scores beregnes ud fra en scoringstabel. Den mest benyttede er BLOSUM62. Formålet med denne øvelse er at lære hvordan man sammenligner sekvenser og hvordan denne information kan benyttes til senere at beregne et antistofrespons i immunforsvarets Thjælper celler. Gå ind på databasen http://www.uniprot.org/ og tryk på fanen markeret Align. I sekvensfeltet indsættes de to FASTA sekvenser du vil sammenligne. Tryk Align. Sammenlign alle fundne sekvenser fra Del 2 og tæl, hvor mange forskelle der er i de sammenlignede sekvenser. Forskelle er markeret med punktum (.), kolon (:) eller mellemrum ( ). Indfør antal forskelle i et skema i Excel. Besvar spørgsmålene: Hvilke to sekvenser havde færrest forskelle ved sammenligning? Og hvilke havde flest? Ud fra antal forskelle hvad vil du tro det betyder for immunsystemets genkendelse ved en sekundær infektion? Du skal nu konstruere et fylogenetisk træ, ved samme fremgangsmåde som i del 1.2 denne gang med de nye FASTA sekvenser. Besvar spørgsmålene: Hvad forventer du af forskelle på de to træer? Hvorfor? Vil de forskellige taxa ligge tættere eller længer fra hinanden? Hvad siger det om de frie taxa fundet i del 2? Side 9 af 12
Del 4 Antistofrespons For at kunne beregne deres immunsystemets antistofrespons, benyttes følgende formel 1 Antistofrespons = 2^ 1 Antal mutationer 2,9 100% Benyt denne formel og beregn antistofresponset mellem alle de sammenlignede sekvenser fra Del 2. Opstil et skema i Excel som beskriver immunsystemets Antistofrespons. Besvar spørgsmålet: Hvordan stemmer denne information overens med det du kom frem til i Del 2? Ekstra: Hvis du laver samme øvelse med sekvens A, B, C og D fra øvelse 3, opnår du da det samme resultat som det du beregnede i hånden? Del 5 Epitop bestemmelse Formålet med denne øvelse er at lære hvordan man kan forudsige hvilke dele af en virus immunsystemet genkender og kunne beregne hvor stor en genkendelse det adaptive immunsystem har ved en ny virus infektion. I en forskningshverdag ville man gå ind og undersøge for de MHCImolekyler der er videnskabelig evidens for findes i området. Men i denne opgave har vi valgt de MHCImolekyler der skal søges på, grundet kompleksiteten af de hjemmesider der benyttes til dette i hverdagen. Der er blevet valgt at bruge MHCImolekylet: A*01:01 på baggrund af en opstillet hypotetisk person fra USA, med asiatisk afstamning. Denne person er valgt da der var udført undersøgelser på en stor population (n=1772). Dette betyder man kan være relativt mere sikker på at MHCI molekylet findes i personer der kommer fra denne etniske gruppe i USA. Det andet MHCImolekyle der er blevet valgt er: DRB1*01:04, fra en afroamerikansk befolkningsgruppe. I denne undersøgelser var der igen et relativt højt antal personer med (2,411). 1 De Jong J.C.; Smith D.J.; et al.2004: Mapping the Antigenic and Genetic Evolution of Influenza Virus. Side 10 af 12
Gå ind på hjemmesiden http://www.cbs.dtu.dk/services/netmhcpan/ for at finde hvilke epitoper der fremstilles af jeres valgte MHCImolekyler givet i teksten ovenfor Indsæt en af proteinsekvenserne valgt i Del 1. Vælg en peptid længde på 9 og vælg de MHCI- molekyle fundet givet. Tryk Submit. Indfør de peptid stumper der binder stærkt (SB) i et Excel ark. Gør nu det samme for resten af dine proteinsekvenser fra Del 1 og indfør alle peptiderne i samme Excel ark. NB! Du skal kunne finde ud af, hvilke peptidstumper der kommer fra hvilke protein sekvenser. Gå ind på hjemmesiden http://www.cbs.dtu.dk/services/netmhciipan/ for at finde, hvilke epitoper der fremstilles af jeres valgte MHCIImolekyler fra Del 5. Indsæt en af proteinsekvenserne valgt i Del 1. Vælg en peptid længde på 15 og vælg dit MHCII- molekyle fundet i Del 5. Tryk Submit. Indfør de peptid stumper der binder stærkt (SB) i et Excel ark. Gør nu det samme for resten af dine proteinsekvenser fra Del 1 og indfør alle peptiderne i samme Excel ark. Del 5.1 Antigenrespons For at kunne beregne hvor stort et antigenrespons der er benyttes formlen 2 T celle immunrespons = 0.6!"#!$!"#$#%&'() For at finde antallet af mutationer opstilles epitoperne fra to af proteinsekvenserne overfor hinanden. De epitop sekvenser, der minder om hinanden sættes overfor hinanden. Hvis nogle af eptiop sekvenserne ikke minder om nogle af de andre sættes de alene. Herefter tælles antallet af mutationer i mellem hver af de sammenlignede epitoper. Dette gøres for både epitoperne fra MHCI og MHCIImolekylerne. For at beregne den samlede procentvise epitop genkendelse benyttes formlen Samlet epitop genkendelse % = T celle immunrespons fremstillede epitoper fra ny virus 100% NB! Epitoperne fra MHCI og MHCIImolekylerne beregnes hver for sig. Besvar spørgsmålene: 2 Buggert M.; Hoof I.; Perez C.L.; et al., 2010: Interdisciplinary Analysis of HIVSpecific CD8 + T cell Responses against Variant Epitopes Reveals Restricted TCR Promiscuity. Side 11 af 12
Hvilke celler i immunsystemet binder til henholdsvis MHCI og MHCIImolekylerne? Hvilke sekvenser har størst epitop genkendelse og hvilke har mindst epitopgenkendelse? Hvad betyder dette? Side 12 af 12