Gen-identifikation ved sekvens-sammenligning. Tejs Scharling. Specialerapport. Datalogisk Institut Aarhus Universitet Danmark

Transkript

1 Gen-identifikation ved sekvens-sammenligning Tejs Scharling Specialerapport Datalogisk Institut Aarhus Universitet Danmark

2

3 Gen-identifikation ved sekvens-sammenligning En specialerapport afleveret til Datalogisk Institut ved Aarhus Universitet som del i erhvervelsen af kandidatgraden cand.scient. af Tejs Scharling 29. maj 2001

4

5 Indhold 1 Indledning Gen-identifikation Specialets struktur Biologisk modellering De biologiske grundelementer DNA RNA Protein Den biologiske proces Proteinsyntesen Den biologiske model Den evolutionære tilgangsvinkel Evolution Beregning af evolutionen Alignments Probabilistisk tolkning Klassiske rekonstruktionsmodeller Evolution af DNA Evolution af kodende DNA Afstand vs. similaritet Gen-identifikation Modeller til gen-identifikation Rekonstruktionsmodeller for gener Struktur-identifikation af gener Metoder til gen-identifikation Grundmodel Metode I, intron-exons alignment på DNA-niveau Metode II, exon alignment på DNA-niveau Metode III, exon alignment på DNA/protein-niveau i

6 4 Eksperimenter Implementation Lineært pladsforbrug, Hirschberg Resurse forbrug Testdata Simulerede data Biologiske data Parameterestimering Simulerede data Biologiske data Kvalitetsmål Kvalitet af struktur Kvalitet af alignment Eksperimenter Simulerede data Biologisk data Perspektiv Forbedringer af metoderne Splicesite-identifikation Konserverede intronregioner Analyse af hele genomer A Notation 89 B Biologiske tabeller 91 B.1 Aminosyrer B.2 Gendata fra genbank B.3 Modelparametre for simulerede data B.4 Modelparametre for biologiske data C Summary in english 95 ii

7 Kapitel 1 Indledning I dagens mediebillede kan begrebet bioinformatik beskrives som et såkaldt buzzword, altså et begreb, som, alle mener, må dække over noget interessant, men som de fleste ikke rigtig ved, hvad dækker over. Dekomponeres ordet i dets to dele bio og informatik, bliver det klart, at bioinformatik er læren om håndtering af biologiske data med speciel fokus på de informationer, dette data gemmer. I bred forstand spænder bioinformatik altså over indsamling og opbevaring af biologiske data, konstruktion af metoder til analyserer af biologiske data og egentlige analyser af biologiske data. I mange år har de discipliner, bioinformatik dækker over, ikke været betragtet som et selvstændigt fagområde, men har indgået som en naturlig del af de biologiske og medicinske fagområder. Dette skyldes hovedsageligt, at mængden af biologiske data har været så relativt lille, at den enkelte forsker eller forskergruppe har kunnet overskue den datamængde, der havde hans, hendes eller deres interesse. Det har altså i stor udstrækning været muligt at foretage de ønskede indsamlinger og analyser i hånden. Igennem de sidste år er mængden af biologiske data imidlertid vokset kraftigt og har efterhånden nået dimensioner, hvor alle efterhånden har mistet overblikket. Et ofte brugt eksempel på den accelererende dataindsamling er den nylige sekventering af den menneskelige arvemasse, også kaldet dets genom. Man har her aflæst de godt 3.2 milliarder nukleinsyrer, som de ialt 24 par af kromosomerne i genomet er opbygget af. En hidtil uset stor datamængde, hvor det blotte antal af nukleinsyrer vidner om uoverskueligheden. Mange andre genomer er blevet sekventeret, og flere er på vej. Derudover har man indsamlet data fra mange andre biologiske områder, eksemplevis store mængder data omkring proteiners strukturer. Sideløbende med den voksende datamængde er der opstået et endnu større behov for analytiske metoder. Det har længe været klart, at brugen af computere er en nødvendighed for opbevaring af det biologiske data, men at computere kan spille en aktiv og tildels selvstændig rolle i den efterfølgende analyse, har i brede kredse været mindre accepteret. Denne holdning har ændret sig gradvist og er 1

8 2 Kapitel 1. Indledning en væsentlig grund til, at bioinformatik er opstået som selvstændig disciplin på mange universiteter, inklusiv Aarhus Universitet. Sammenfattende kan vi sige, at den centrale komponent i bioinformatik er udviklingen af computerbaserede metoder til at foretage analyser af biologiske data. Udvikling af bioinformatiske metoder er en tværfaglig diciplin. Den involverer (1) modellering af biologiske systemer og formalisering af disse i en statistisk/matematisk verden, (2) konstruktion af beregningsmetoder i den formaliserede verden og (3) afprøvning af de udviklede beregningsmetoderne i en biologisk sammenhæng. Denne proces fordrer et samarbejde mellem biologer, læger, kemikere, statistikere og dataloger. I dette speciale kommer vi til at belyse alle tre aspekter, men med hovedvægten på den datalogiske proces, som udviklingen af en beregningsmetode indebærer. 1.1 Gen-identifikation Et af de væsentlige problemer med genomdata, heriblandt det menneskelige genom, er at identificere de gener, der ligger på genomets kromosomer. Et kromosom er en lang sekvens af nukleinsyrer, og rundt omkring på denne sekvens ligger generne. Et gen er i sig selv en sekvens af nukleinsyrer på kromosomet, blot meget kortere end selve kromosomet. Man er altså interesseret i at identificere disse øer rundt omkring på kromosomet, hvor der ligger et gen. Et gen har en vigtig funktion i en organisme, da det indgår i produktionen af proteiner, mens resten af kromosomet hovedsageligt ingen (kendt) funktion har. Ligesom et kromosom er opdelt i små gen-øer, er et gen igen opdelt i endnu mindre øer af nukleinsyrer kaldet exons. Hvor et kromosom kan karakteriseres ved dets gener, kan et gen karakteriseres ved dets exon-øer. At kende eksistensen af et gen uden at kende dets exons er utilfredsstillende, og man er derfor interesseret i at identificere disse exon-øer rundt omkring på genet. Områder af genet, der ikke er exons, kaldes for introns og har hovedsageligt ingen (kendt) funktion. En opdeling af et gen i introns og exons kaldes også for genets struktur. En af de metoder, man oftest benytter sig af, når man af forskellige grunde vil analysere en sekvens af nukleinsyrer, også kaldet en DNA-sekvens, er at sammenligne den med en anden DNA-sekvens. Hvis man betragter to organismer, der er i familie, f.eks. mennesket og musen, ser man en masse ligheder mellem de to, f.eks har de begge fortænder. Det skyldes, at der findes mange af de samme gener i begge organismer. I hver lighed ser man imidlertid også små forskelle, eksempelvis at musens tænder vokser i hele musens levetid. Dette skyldes at der mellem de samme gener i to organismer findes små forskelle. Forskellene er opstået på grund af forandringer, også kaldet mutationer, af kromosomerne igennem mange års evolution. Ved at sammenligne to gener i form af deres DNA-sekvenser kan man finde disse forskelle og benytte dem til at konkludere forskellige ting omkring de to gener.

9 1.2. Specialets struktur 3 I dette speciale er vi hovedsageligt interesserede i at identificere et gens exons. I den bioinformatiske metode vi vil konstruere, vil vi benytte sekvenssammenligning af to gener til at identificere de to geners struktur. Andre benytter en ligende tilgangsvinkel. I [Kne95, GMP96, HZ96] søger man de exons i en DNA-sekvens, der med størst sandsynlighed koder for et givet protein. I [BRS99] søger man efter matchende exons i to DNA-sekvenser med en tilgangsvinkel, der er relateret til den, vi vil benytte. 1.2 Specialets struktur I dette speciale vil vi konstruere en metode til at løse en af bioinformatikkens væsentlige problemer, nemlig gen-identifikation. Vi vil fokusere på det specielle delproblem af gen-identifikation, der handler om at identificere et gens struktur i form af introns og exons. Resten af specialet er opdelt i tre kapitler, som afspejler de tre væsentlige aktiviteter inden for bioinformatik, altså modellering af biologiske systemer, udvikling af beregningsmetoder og afprøvning af beregningsmetoderne i en biologisk sammenhæng. I kapitel 2 giver vi en introduktion til de biologiske systemer, der har relevans for vores problem. Vi beskriver en formel model for de biologiske systemer og formulerer gen-identifikation inden for denne model. Derudover introducerer vi evolution af DNA-sekvenser og beskriver, hvordan man kan rekonstruere de forandringer, der har forårsaget de forskelle, man ser mellem to beslægtede DNAsekvenser, såkaldte homologe DNA-sekvenser. I kapitel 3 udvikler vi en model, der er særligt velegnet til at finde de forandringer, man ser mellem to homologe geners DNA-sekvenser. Vi benytter denne model til forudsige, hvilke dele af DNA-sekvensen, der er introns, og hvilke, der er exons. Dette arbejde resulterer i tre konkrete metoder til gen-identifikation; Metode I, Metode II og Metode III. I kapitel 4 foretager vi en række analyser af par af homologe gener. Vi afprøver vores metoder på både simulerede data og rigtige biologiske data. Vi sammenligner metoderne med to andre metoder fra litteraturen ROSETTA [BPM + 00] og GENSCAN [BK97], hvilket giver følgende resultatet: Specificitet Sensitivitet ROSETTA GENSCAN Metode I Metode II Metode III hvor specificitet og sensitivitet er to mål mellem 0 og 1 for metodernes nøjagtighed. Sensitivitet er et mål for hvor mange af et gens exons en metode forudsiger, mens

10 4 Kapitel 1. Indledning specificitet er et mål for hvor mange af de exons en metode forudsiger, der faktisk er exons. En metoder klarer sig bedre jo højere score den har i de to mål. I kapitel 5 gennemgår vi en række problemstillinger, som det kunne være interessant at arbejde videre med i fremtiden. Endelig indeholder bilag C et referat af specialets indhold på engelsk.

11 Kapitel 2 Biologisk modellering Første skridt i enhver bioinformatisk metode er en modellering af de biologiske systemer man vil behandle. En modellering af et biologisk system kan aldrig indfange enhver biologisk variant af systemet, der vil altid være undtagelser fra reglen. Sådan er biologien forskellig fra en matematisk/datalogisk verden. Dette nødvendiggøre ikke desto mindre en endnu mere præcis formalisering af de relevante biologiske systemer, så enhver, der ønsker at benytte en metode, kan gøre sig klart hvilke dele af den biologiske verden, metoden begrænser sig til. Det er klart, at den biologisk mangfoldighed er en udfordring for en bioinformatiker; hvor sættes grænsen mellem det generelle og det specielle. I afsnit 2.1 og afsnit 2.2 beskriver vi de biologiske grundelementer og det biologiske system, der er grundlæggende for en formalisering af begrebet et gen. Vi præsenterer grundelementerne DNA, RNA og proteiner og systemet proteinsyntesen, der knytter de tre grundelementer sammen med beskrivelsen af et gen. Vi formaliserer disse begreber og præciserer i definition 2.1 vores egentlige fokus, nemlig genstruktur-identifikation. I afsnit 2.3 introducerer vi evolution af DNA-sekvenser. For at kunne rekonstruere evolutionære sammenhænge mellem to DNA-sekvenser indfører vi begrebet rekonstruktionsmodeller. En rekonstruktionsmodel giver os mulighed for at kunne udtale os kvalitativt om et evolutionært forløb, og vi viser hvordan man udfra en sådan model kan finde et optimalt evolutionsforløb. 2.1 De biologiske grundelementer Enhver organisme er bygget op af en mængde celler. Hver celle i en organisme har sit funktionelle særpræg (hudcelle, hjernecelle, blodcelle), men visse essentielle egenskaber er ens for alle celler. Dvs. at en række biologiske funktioner er til stede i enhver celle. Nogle af cellens centrale funktioner er at bære en organismes arvemasse (i form af DNA), at producere en række virksomme elementer, der kan udføre cellens funktion (RNA og proteiner), og at producere en kopi af sig selv (celledeling). 5

12 6 Kapitel 2. Biologisk modellering Under arbejdet med at udvikle metoder til gen-identifikation kommer vi til at benytte begreber som f.eks. gener og evolution. Disse begreber er tæt knyttet til en eller flere af de grundlæggende cellefunktioner. Det er derfor nødvendigt at have et rimeligt kendskab til dem. Følgende er en gennemgang af de biologiske strukturer, vi beskæftiger os med i nærværende sammenhæng. En mere detaljeret gennemgang kan findes i f.eks. [Lew00] DNA 3 3 C T A A T T G C G C A A G T A T G C G T A C G C 5 5 Figur 2.1: DNA Deoxyribonucleic acid (DNA) er det molekyle, der bærer den genetiske arvemasse for langt de fleste levende organismer, kun nogle vira er undtaget, [Lew00, side 6]. Et DNA-molekyle er bygget op af to komplementære kæder, der drejer sig omkring hinanden, så de former en dobbelt-spiral. Hver kæde er en polymer, hvor der på hvert led sidder en af fire mulige nukleinsyrer, adenin (A) og guanin (G) (kaldet puriner) og cytosin (C) og thymin (T) (kaldet pyrimidiner). De to kæder bindes sammen af hydrogenbindinger mellem par af nukleinsyrer, en fra hver kæde, og sådanne basepar opfylder at adenin altid binder med thymin, og guanin altid binder med cytosin. Den ene kæde er altså fastlagt udfra den anden. Hver kæde er opbygget af en rygrad af asymmetriske 5-3 fosfordiester bindinger mellem de enkelte led, og det gør det muligt at tale om en retning for en kæde. Denne retning bestemmer molekylets karakter, således at 5 -T-A-C-G-G-T-3 adskiller sig fra 3 -T-A-C-G-G-T-5. Det faktum, at de to kæder er komplementære og har en retning, gør det muligt at beskrive et DNA-molekyle udelukkende ved at kende dets nukleinsyrer i 5-3 -retningen (valget af retning bygger på retningen for transskriptionen, se afsnit 2.2.1) på en af kæderne. Det leder os frem til: Definition 2.1 (DNA-sekvens) En nukleinsyre er et element fra mængden Σ N = {A, C, G, T }. En DNA-sekvens er en streng a Σ + N af nukleinsyrer. Med a i vil vi betegne den i te nukleinsyre i strengen a og med a[i..j] delstrengen a i a i+1... a j. En organismes arvemasse findes ofte i form af en eller flere meget lange DNAmolekyler, kaldet kromosomer, og hver celle i organismen indeholder en kopi af disse kromosomer. F.eks. indeholder mennesket i hver celle 23 par af kromosomer, der hver har en længde på mange millioner basepar. Den samlede længde er i alt på omkring basepar. Et DNA-molekyle er informationsbærende og har sjældent direkte funktionelle egenskaber. Derimod indeholder molekylerne skabeloner, som cellen benytter til at producere cellens aktive komponenter, RNA og proteiner. Afsnit 2.2 er genstand for en gennemgang af denne proces.

13 2.1. De biologiske grundelementer RNA Ribonucleic acid (RNA) ligner DNA, men adskiller sig fra dette ved, at rygraden har en anden kemisk struktur, og at nukleinsyren thymine er udskiftet med nukleinsyren uracil (U). Derudover kan RNA forekomme enten i form af en dobbelthelix (som DNA) eller i en enkelt-strenget form. Et RNA-molekyle har to funktioner i cellen. Den ene er at være aktiv komponent i cellen som et protein (se afsnit 2.1.3), mens den anden er at være mellemled i den proces, der producerer et protein udfra en skabelon på et DNA-molekyle. Vi er her kun interesseret i den sidste egenskab, hvor RNA-molekylet udelukkende fungerer som informationsbærer. Da vi kun er interesseret i et RNA-molekyles informationsbærende egenskaber, kan vi benytte en definition tilsvarende definition 2.1, blot med alfabetet Σ R = {A, C, G, U} til at beskrive et RNA-molekyle. Det skal imidlertid vise sig nyttigt i stedet at benytte den samme definition, som vi bruger til at beskrive et DNAmolekyle, til også at beskrive et RNA-molekyle (hvor T så repræsenterer U). Dette bevirker naturligvis en vis uigennemskuelighed angående naturen af en streng over alfabetet Σ N (DNA eller RNA?), men det er netop denne abstraktion væk fra den biologiske forskel mellem DNA og RNA vi ønsker Protein Proteiner er organismens væsentligste aktive komponenter. Der findes et væld af proteiner, der afhængigt af proteinets kemiske struktur håndterer forskellige opgaver i cellen, f.eks. transport af molekyler igennem cellevæggen. Et protein er en kæde bygget op af en rygrad af kulstof. På hvert led sidder der en af tyve mulige aminosyrer (se tabel B.1 på bilag B). Et protein er fastlagt udfra denne kæde af aminosyrer, som et DNA-molekyle er det udfra kæden af nukleinsyrer. Et protein er altid enkeltstrenget og rygraden angiver igen en retning. Vi kan derfor beskrive et protein med: Definition 2.2 (protein) En aminosyre er et element fra mængden Σ A = {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y }. Et protein er en streng p Σ + A af aminosyrer. Med p i vil vi betegne den i te aminosyre i p og med p[i..j] delstrengen p i p i+1... p j. Som nævnt i slutningen af afsnit 2.1 produceres et protein på baggrund af en skabelon på et DNA-molekyle. Man kalder også denne proces for en syntese. Beskrivelsen af opbygning af et protein som en lang kæde af aminosyrer er dækkende lige efter syntesen. Man siger, at proteinet her optræder i sin primære struktur, men inden et protein bliver aktivt, foldes denne kæden sammen til en kompliceret tredimensional struktur med bindinger på tværs af kædens mange led. Denne struktur kan beskrives på flere niveauer. Enten ved de sekundære strukturer, der bekriver vigtige lokale strukturer, eller ved den tertiære struktur,

14 8 Kapitel 2. Biologisk modellering der beskriver proteinets fulde tredimensionale struktur, eller ved den kvadriære struktur, der beskriver hvordan proteinet binder sig til andre proteiner for at danne endnu større molekyler. Definition 2.2 indfanger kun et proteins primære struktur, men da vi kun kommer til at betragte proteiner på dette niveau, er definitionen fyldestgørende. 2.2 Den biologiske proces I forrige afsnit præsenterede vi tre af cellens/organismens vigtigste grundelementer, DNA, RNA og proteiner. I dette afsnit vil vi præsentere den biologiske proces, der knytter de tre grundelementer sammen. Denne proces er samtidig grundlæggende for definitionen, såvel som forståelsen af, hvad et gen er. Groft sagt er et gen en betegnelse på de dele af en organismes arvemasse, der indgår i produktionen af et protein (altså en skabelon for et protein). Et gen er ikke en egentlig fysisk genstand, som eksempelvis en nukleinsyre er det, men en abstraktion eller en betegnelse, man kan knytte til et stykke DNA i bestemte biologiske sammenhænge. For at afgrænse denne noget løse definition af et gen bliver man nødt til at se lidt nærmere på den egentlige produktion af proteinerne, proteinsyntesen Proteinsyntesen Proteinsyntesen er en proces, der foregår i enhver celle. Processens funktion er at producere proteiner udfra skabeloner, der ligger indkodet rundt omkring på kromosomerne. Det biologiske udtryk for en sådan skabelon er et gen. Proteinsyntesen bygger i alle organismer på de samme principper, men findes med små variationer (f.eks. manglen på såkaldte introns i bakterier). Vi betragter her proteinsyntesen for gener fra eukaryotiske celler. (Eukaryoter er en gruppe af organismer, som alle er bygget af en bestemt type celler. Menneske og mus tilhører f.eks. denne gruppe). En mere detaljeret gennemgang findes i eksempelvis [Lew00]. Der indgår tre grundelementer i proteinsyntesen, DNA, RNA og proteiner. Syntesen kan opdeles i tre skridt, jvf. figur 2.2. transskription er første stridt i proteinsyntesen. Et stykke DNA fra organismens arvemasse transskriberes til et stykke RNA. Dvs. at der opbygges en RNAsekvens bestående af samme sekvens af nukleinsyrer, som DNA-sekvensen består af, blot er thymine udskiftet med uracil. RNA-molekylet har en anden kemisk struktur end DNA-molekylet, men de to molekyler er identiske rent informationsmæssigt, se afsnit 2.1. Resultatet af transskriptionen kaldes for en pre-mrna-sekvens.

15 2.2. Den biologiske proces 9 DNA Exon 1 Intron 1 Exon 2 Intron 2 Exon 3 Transskription pre-mrna Splicing mrna Translation protein Figur 2.2: Proteinsyntesen. Eksempel: Transskriptionsstart Kromosom (DNA) Transskriptionsstop... G C G T C C T A T G T C T C G T C C T G A A A G C A A C T T G A C C G C T A G G... Transkription C C T A T G T C T C G T C C T G A A A G C A A C T T G A C C G pre-mrna (RNA) splicing klipper dele af pre-mrna-sekvensen væk. De dele, der klippes væk, indeholder ingen information om det protein, der produceres (men de indeholder signaler til cellens maskineri om, at delen skal fjernes). De dele, der klippes væk, kaldes for introns, og dele, der bevares, kaldes for exons. Man knytter de samme betegnelser til de områder på den oprindelige DNAsekvens, der svarer til et exon eller et intron på RNA-sekvensen. For hvert intron starter splicingen ved et såkaldt donor-site og slutter ved et acceptorsite. Disse signaler sidder på RNA-sekvensen i hver ende af et intron. Et signal er en kombination af nukleinsyrer. Donor-site et består ofte af nukleinsyrerne GT og acceptor-site et af nukleinsyrerne AG. Den resulterende RNA-sekvens kaldes for en mrna-sekvens (m for messenger, da mrna-molekylet transporteres til en anden del af cellen, hvor translationen foregår).

16 10 Kapitel 2. Biologisk modellering Eksempel: Donor site pre-mrna Acceptor site C C T A T G T C T C G T C C T G A A A G C A A C T T G A C C G Splicing C C T A T G T C T C C A A C T T G A C C G mrna translation er det skridt, der rent faktisk opbygger proteinet. Udfra hvert codon (tre på hinanden følgende nukleinsyrer) af mrna-sekvensen produceres en aminosyre i henhold til den genetiske kode, se tabel 2.2.1, og den resulterende aminosyrekæde udgør det færdige protein. Det er imidlertid ikke hele mrna-sekvensen, der oversættes. I begge ender af sekvensen findes en region, som ikke oversættes. Regionerne kaldes for henholdvis 5 -UTR og 3 -UTR (UnTranslated Region i 5 eller 3 enden, se afsnit 2.1.1). Translationen starter fra et såkaldt start-codon og oversættelsen fortsætter, indtil den når et stop-codon. Disse signaler består ofte af nukleinsyrerne AT G for start-codons og T AA, T AG eller T GA for stop-codons. Eksempel: Start codon C C T mrna A T G T C T C C A A C T T G A Translation Ser - Pro - Thr protein Stop codon C C G Denne beskrivelse af proteinsyntesen giver os mulighed for at præcisere følgende begreber. Genet udgør den del af arvemassen, der transskriberes til pre-mrna under syntesen (ifølge [Lew00], men denne definition varierer dog lidt). Man kan beskrive et gen som en position (locus) på et kromosom, hvor en transskription foregår. Strukturen af et gen er en opdeling af genet i introns og exons. Da ikke alle nukleinsyrer i exons indgår i translationen (pga. 5 -UTR og 3 -UTR ) kan en struktur yderligere deles op i introns, kodende exons og ikke-kodende exons. Vi vil her betragte et gens struktur som mængden af kodende exons. I området omkring et gen på en DNA-sekvensen findes der signaler, der sætter transskriptionen i gang. Disse signaler regnes ikke med til genet, men er stadig

17 2.2. Den biologiske proces 11 Codon Aminosyre Codon Aminosyre Codon Aminosyre Codon Aminosyre TTT Phe TCT Ser TAT Tyr TGT Cys TTC Phe TCC Ser TAC Tyr TGC Cys TTA Leu TCA Ser TAA Stop TGA Stop TTG Leu TCG Ser TAG Stop TGG Trp CTT Leu CCT Pro CAT His CGT Arg CTC Leu CCC Pro CAC His CGC Arg CTA Leu CCA Pro CAA Gln CGA Arg CTG Leu CCG Pro CAG Gln CGG Arg ATT Ile ACT Thr AAT Asn AGT Ser ATC Ile ACC Thr AAC Asn AGC Ser ATA Ile ACA Thr AAA Lys AGA Arg ATG Met ACG Thr AAG Lys AGG Arg GTT Val GCT Ala GAT Asp GGT Gly GTC Val GCC Ala GAC Asp GGC Gly GTA Val GCA Ala GAA Glu GGA Gly GTG Val GCG Ala GAG Glu GGG Gly Tabel 2.1: Den genetiske kode, som den ser ud for langt de fleste organismer. altafgørende for, om genet bliver udtrykt (tilsvarende til at der i introns findes signaler, der sætter splicing-processen i gang), se nedenfor. De to begreber giver umiddelbart anledning til to centrale problemer indenfor gen-identifikation, nemlig: Genlocus-identifikation: Givet et kromosom, find hvilke gener, der ligger på kromosomet. Sagt med andre ord, find loci på et kromosom, hvor en transskription kan finde sted. Genstruktur-identifikation: Givet en DNA-sekvens hvorpå der ligger et gen (eller givet et locus på et kromosom, hvor der ligger et gen), find strukturen af genet. Det vil hovedsagligt blive det sidste af de to problemer, vi vil beskæftige os med i dette speciale, men det skal vise sig (afsnit 5), at de to problemer overlapper i nogen grad. For at lette den sproglige fremstilling vil vi fremover også benytte betegnelser som struktur-identifikation, strukturanalyse eller slet og ret gen-identifikation, og hermed mene genstruktur-identifikation. Definitionen på første problem har en lille spidsfindighed, nemlig at en transskription kan finde sted, ikke skal. I denne distinktion ligger nemlig et helt andet biologisk spørgsmål, nemlig i hvilken grad et gen bliver udtrykt (at cellen producerer proteiner med dette gen som skabelon) i en organisme. Her spiller de

18 12 Kapitel 2. Biologisk modellering forskellige signaler på kromosomet en væsentlig rolle. Vi vil dog ikke beskæftige os med dette meget vanskelige problem yderligere. For at kunne beskæftige os med ovenstående problemer i datalogisk henseende er vi nødt til at omformulere ovenstående biologi til en stringent matematisk/datalogisk form, som gør det muligt for os at udforme f.eks. algorimter til at foretage genstruktur-identifikation på den. Vi siger, at vi formaliserer en biologisk model Den biologiske model Vi vil i dette afsnit formalisere den biologiske proces, proteinsyntesen, der blev præsenteret i sidste afsnit. En sådan formaliserings fornemste mål er at abstrahere fra præcis de biologiske forhold, som ikke er væsentlige i den aktuelle sammenhæng. Nedenstående definitioner kan derfor tage sig anderledes ud, hvis man har et andet analytisk mål for øje end genstruktur-identifikation. Vi vil lægge vægt på en formalisering, der fremhæver struktur-identifikationsproblemet og præciserer vores version af dette problem, nemlig at finde de kodende exons af et gen. Vi starter med at præcisere, hvad vi mener med et gen: Definition 2.3 (gen) Et gen g a består af en DNA-sekvens a, med en tilhørende struktur s a. Har DNA-sekvensen længden n er g a et element i (Σ N ) n S n, hvor S n angiver mængden af kodende exons, jvf. definition 2.4. Definition 2.4 (genstruktur) En genstruktur for en DNA-sekvens af længde n er en mængde af ikke-overlappende intervaller, der alle er indeholdt i [2: n 1]. Afstanden mellem hvert interval skal være mindst to. Mere formelt, hvis I(n) = {(i, j) 1 < i j < n}, så er en genstruktur givet ved et element i S n = {S I(n) + (i, j) S (k, l) S\(i, j): [i 1, j + 1] [k 1, l + 1] = } Vi vil kalde intervallerne i en struktur for exons, og de intervaller, der opstår mellem exons, for (interne) introns. De to intervaller, der opstår i enderne af DNA-sekvensen (bemærk de skarpe uligheder i definitionen af I(n)), dvs. før første og efter sidste exon, vil vi ligeledes kalde for (eksterne) introns. At interne introns skal have en længde på to, skyldes, at der i hver ende af intron et skal være plads til et splicesite-signal. Normalt er signalet mange nukleinsyrer langt, her har vi koncentreret hele signalet på hhv. første og sidste signal. Vi udnytter disse signalers eksistens senere. Exons benævnes også kodende regioner og introns ikke-kodende regioner. Bemærk, at vores definition af exon er synonymt med et kodende exon, mens et ikke-kodende exon betragtes som et intron. Ofte er det ønskeligt at kunne afgrænse de mulige strukturer S n til en mindre mængde af strukturer, der opfylder bestemte krav mht. DNA-sekvens. F.eks. at der skal være bestemte signaler til stede på hver side af et exon. For et gen g a

19 2.2. Den biologiske proces 13 Mængde G a start G a slut Estart a Eslut a Istart a Islut a Positioner på g a hvor første exon kan starte (translationsstart). sidste exon kan stoppe (translationsstop). et exon (første undtaget) kan starte. et exon (sidste undtaget) kan stoppe. et internt intron kan starte (donorsite). et internt intron kan stoppe (acceptorsite). hvor i E a start (i 1) I a slut og i E a slut (i + 1) I a start. Tabel 2.2: Begrænsningen af lovlige strukturer definerer vi delmængder af [1: n], jvf. tabel 2.2, og begrænser mængden af lovlige genstrukturer til: S a = {s S a start(s) G a start slut(s) G a slut (i, j) s: i start(s) Estart a j Eslut a slut(s)}, (2.1) hvor start(s) = min{i (i, ) s} og slut(s) = max{j (, j) s} angiver første hhv. sidste nukleinsyre af de kodende regioner, altså af Splice(a, s) (se definition 2.6). Vi beholder definition 2.4 af en genstruktur, men vi siger nu, at en struktur s S a er lovlig, hvis der også gælder at s S a. Transskriptionen er den proces, der udvælger hvilket område af et kromosom, der skal være genstand for en protein-syntese, og derfor fastsætter mængden af gener på et kromosom. En formalisering af denne proces ville derfor være central, hvis vi havde beskæftiget os med genlocus-identifikationsproblemet. Da vi her er interesseret i genstruktur-identifikationsproblemet, tager vi udgangspunkt i et stykke DNA, hvorpå vi allerede ved, at der ligger et gen. Med dette synspunkt bliver transskriptionens eneste formål at oversætte en DNA-sekvens til en RNAsekvens, men da vi benytter samme repræsentation af de to sekvenser, har denne oversættelse ingen effekt. Vi opsummerer dette i: Definition 2.5 (transskription) Transskriptionen er identitetsfunktionen. Følgende definitioner af splicing-processen og translationen er imidlertid centrale for vores problemstilling. I forhold til virkeligheden er splicing-processen ændret en smule i funktionalitet, idet den også klipper ikke-kodende exons fra. I virkeligheden er det under translationen, at denne sortering foregår. Denne ændring af funktionalitet passer sammen med vores definition af strukturen som blot bestående af kodende exons.

20 14 Kapitel 2. Biologisk modellering Definition 2.6 (splicing) Splicing-processen er en funktion Splice, der givet en pre-mrna-sekvens a og en genstruktur s a S a fjerner de delstrenge i strengen a, der ikke forekommer i s a. Mere formelt opfylder Splice, at Splice(a, s a ) = a[i 1, j 1 ] a[i 2, j 2 ]... a[i k, j k ], hvor k = s a, l [1, k]: (i l, j l ) s a og l [2, k]: i l 1 < i l. Definition 2.7 (translation) Translationen er en funktion Translate, der afbilder en RNA-sekvens a af længde 3n til en amonisyre-sekvens p af længde n, hvor p opfylder, at i = 0... n 1 : p i = amino(a 3i+1 a 3i+2 a 3i+3 ). Afbildningen fra codons til aminosyrer, amino: Σ N Σ N Σ N Σ A, er givet ved den genetiske kode, se tabel Bemærk, at denne afbildning er irreversibel, og at det samme derfor gælder for Translate. Med definition 2.6 og definition 2.7 bliver splicing-processen meget ukritisk. Den tillader i princippet en vilkårlig genstruktur, selvom der jo i virkeligheden kun er knyttet én struktur til et gen. Da vores mål netop er at forudsige denne struktur, bliver det i vores struktur-identifikationsmetode og i afgrænsning af lovlige genstrukturer, vi skal prøve at præcisere splicing-processens funktion. Vi formulerer nu vores hovedinteresse i: Problem 2.1 (Genstruktur-identifikation) Givet en streng a, som angiver DNA-sekvensen for et gen g a. Find strukturen af g a. Ovenstående formaliseringer præciserer vores problem, men giver os ingen umiddlebare løsninger af problemet. De metoder, man traditionelt har benyttet til at forudsige en genstruktur, har været ved at lede efter de omtalte signaler, der styrer proteinsyntesen, eller man har udnyttet, at fordelingen af de fire nukleinsyrer er forskellige i introns og exons. Sidstnævnte egenskab skyldes, at man kan observere forskellige evolutionære mønstre i de to typer af regioner. Det, vi i dette speciale ønsker at udnytte til at løse problem 2.1, er også den evolutionære udvikling, et gen har gennemløbet. Men i stedet for blot at sammenligne nukleinsyrefordelingerne i forskellige regioner af slutproduktet af evolutionen (altså det gen vi står med i dag), vil vi prøve at rekonstruere genets evolutionforløb for så at sammenligne forløbene i forskellige regioner af genet med hinanden. Det er derfor nødvendigt at se nærmere på evolutionen og de problemer, der knytter sig til denne. 2.3 Den evolutionære tilgangsvinkel Hvad er det vi kan udnytte ved at betragte et gens evolutionære udvikling i forbindelse med vores forudsigelse af genets struktur? Det grundlæggende princip

21 2.3. Den evolutionære tilgangsvinkel 15 er den kendsgerning, at evolutionen er opsplittet i to processer, nemlig de egentlige forandringer af en organismes genetiske materiale og den efterfølgende udvælgelse af de bedst egnede organismer (eller på neo-darwinistisk, af de bedste egnede genomer), den naturlige selektion. Hvis man fokuserer på det enkelte gen, betyder det, at informationsbærende områder (f.eks. exons) er mindre udsatte for forandringer over tid end informationstomme områder (f.eks. store dele af introns), da forandringen af information oftest er negativ og derfor fravælges af den naturlige selektion Evolution Den egentlige evolutionære forandring af en organismes arvemateriale finder sted, når organismen reproduceres (får afkom). Et vigtigt skridt af reproduktionen er at lave en kopi af den oprindelige organismes arvemateriale, som kan overføres til afkommet. Denne kopi kan indeholde fejl eller rettere sagt forandringer (med mindre vi ønsker at betragte os selv som produktet af en lang række fejl), der kan opstå under kopieringen. Sådanne forandringer kaldes for mutationer og klassificeres typisk i følgende grupper: Substitution: deletion: insertion: invertion: translokation: duplikation: En nukleinsyre i kromosomet udskiftes med en anden. Et stykke DNA fjernes fra kromosomet. Et nyt stykke DNA indsættes et sted i kromosomet Et stykke DNA i kromosomet vendes 180 grader Et stykke DNA flytter sig til en ny position på kromosomet En kopi af et stykke DNA i kromosomet indsættes et andet sted på kromosomet CCTCAAGT CCTTAAGT TCGGCATAGT TCGGAGT AGTCCTGGA AGTCTGTACTGGA AGTTCGGCATACT AGTTACGGCTACT CACTGGATGTCCT CGGATGTCCACTT CACTGGATGTCCT CACTGGATGTCCACTT Der findes også andre typer af mutationer af organismers arvemateriale end ovenstående, f.eks. rekombinationer, hvor meget store områder af en organismes kromosomer byttes rundt imellem hinanden eller udveksles med andre organismer. Her flyttes hele gener typisk rundt, så der er tale om forandringer, vi

22 16 Kapitel 2. Biologisk modellering hverken kan iagttage, endsige benytte, hvis vi kendte dem i vores situation. Invertioner, translationer og duplikationer involverer typisk også store områder af kromosomet. Ovenstående eksempler på disse mutationer er derfor misvisende i størrelsesforholdet. Da vi her kun er interesseret i den evolutionære proces, et enkelt gen gennemløber fra far til søn, nøjes vi med at betragte mutationer på den DNA-sekvens, hvorpå genet ligger. Blandt de ovenstående mutationer er langt de hyppigst forekommende de tre første, substitutioner, insertions og deletions (de to sidste samles ofte under betegnelsen indel), og vi kan nøjes med at betragte disse, uden at det kommer i for stor konflikt med den biologiske virkelighed. Vi vil derfor, og af beregningsmæssige hensyn, udelukkende betragte disse fremover. Det skal bemærkes, at disse mutationer som bekendt kan betragtes som editeringer af en streng over alfabetet Σ N = {A, C, G, T }. Den genetiske forandring i en organisme fra en generation til den næste er lille, men hvis man betragter et evolutionært forløb over mange generationer (millioner) kan man se betydelige forandringer i alle områder af arvemassen. Når organismens arvemasse, kaldet genotypen, forandrer sig, forandrer organsimens ydre, kaldet fænotypen, sig også, og som regel bliver den slægtslinie, organismen tilhører, på et tidspunkt splittet op i to forskellige grene. Det kan skyldes, at forandringer i omgivelserne tvinger organismen til at forandre fænotypen, men at omgivelserne giver den mulighed for at forandre sig i to forskellige retninger, eller det kan skyldes fysisk adskillelse. Darwins fugle på Galapagosøerne er vel det bedst kendte eksempel på det sidste. Fuglene, der oprindelig var af samme art, udviklede forskellige næb, alt afhængigt af økosystemet på den ø i øgruppen, fuglen levede på. Tilsvarende organismen gennemløber et gen en evolu- gen A Urgen Sidste fælles stamgen gen B Figur 2.3: Evolution tionær udvikling, som, selv om den er sammenfaldende med organismens, med fordel kan betragtes som selvstændig. En opsplitning af genet i to slægtsgrene kan opstå på baggrund af en ændring af den organisme, genet er en del af, således at genet specialiserer sig i to retninger (f.eks. α- og β-globin), eller at organismens slægtstræ forgrener sig (f.eks. α-globin i mus hhv. i menneske). Vi vil gerne benytte evolutionen til at kunne udtale os om visse egenskaber ved et gen. Det kræver i princippet, at vi kender en stamfader til genet og det hændelsesforløb, genet har gennemgået. Evolutionen er imidlertid historieløs, vi kan hverken finde stamgenet eller hændelsesforløb fra, hvor vi står i dag. Det, vi i stedet kan gøre, er, at udnytte de slægtsbånd, der findes mellem visse gener. At retfærdiggøre dette kræver en formalisering af begrebet evolution til en mere beregningsmæssig håndterlig form.

23 2.3. Den evolutionære tilgangsvinkel Beregning af evolutionen For at kunne udtale os kvalitativt om et evolutionært forløb er vi nødt til at fastlægge en evolutionsmodel, der værdisætter de enkelte mutationer i forhold til hinanden. Dette gøres i praksis ved at definere, hvad vi vil kalde, en rekonstruktionsmodel Definition 2.8 (rekonstruktionsmodel) En rekonstruktionsmodel er en mængde af lovlige mutationer og en omkostningsfunktion på disse. Hvis en evolutionær hændelse (mutation) e forandrer en DNA-sekvens a til a skriver vi a e a. Vi knytter omkostningsfunktionen cost(a e a ) til hændelsen. En række E af evolutionære hændelser e 1, e 2,..., e k, der forandrer a 0 e til a k, således at a 1 e 0 a1 2 e k ak, skrives samlet som a E 0 a k, og cost(a E 0 a k ) = e i+1 i=0...k 1 cost(a i ai+1 ). Når der ligger et gen på a, kan denne omkostning afhænge af genets struktur. Vi vil med g e a g a og cost(g e a g a ) betegne det samme som a e a hhv. cost(a e a ). Vi skal se eksempler på dette i kapitel 3. Hvis vi har givet et gen g a, og vi ved hjælp af evolutionen skal kunne forudsige g a s struktur, er vi nødt til at kende en stamfar g s til g a og evolutionen E s,a E s,a så g s ga. Vi kender imidlertid hverken stamfaderen eller evolutionen, derfor benytter vi det følgende princip. Lad g b være et søstergen til g a, altså et gen E s,b hvor g s gb, og g s er sidste fælles stamfader til de to gener g a og g b. Følgende to antagelser kan føre os videre: Antagelse 2.1 Parsimony princippet. Evolutionen vælger den mest rentable vej mht. en eller anden omkostningsfunktion. Antagelse 2.2 Evolutionen er reversibel. Der er ingen forskel på, om g udvikler sig til g, eller om g udvikler sig til g. Antag til en start, at vi kender stamfaderen g s, og lad E x,y = {E g x 2.1 opfylder evolutionen E s,a, at E g y }. Ifølge E s,a cost(g s ga ) = min cost(g s E g a ). (2.2) E E s,a Vores bedste bud på en evolution er altså en evolution E s,a, der opfylder (2.2). Tilsvarende kan vi finde E s,b. Desværre kender vi ikke g s, men ved at benytte antagelse 2.2 kan vi, i stedet for at betragte evolutionen E s,b fra g s til g b, betragte E s,a E s,b evolutionen E b,s fra g b til g s. Vi har så, at cost(g s ga ) + cost(g s gb ) = E s,a E b,s E b,s E s,a cost(g s ga ) + cost(g b gs ) = cost(g b gs ga ). Derfor må g s opfylde, at min E E b,s cost(g b E g s ) + min E E s,a cost(g s E g a ) = min E E b,a cost(g b E g a ), (2.3)

24 18 Kapitel 2. Biologisk modellering hvor hver minimalisering giver anledning til en mængde af evolutioner, hhv. E min Es,a min og Eb,a min min, hvor Ex,y = {E cost(g E x g y ) = min E Ex,y cost(g E x g y )}. Mellem disse tre mængder gælder, at E b,s E min b,s E s,a E min s,a b,s, E b,a E min b,a : E b,a = E b,s E s,a. (2.4) Et element E b,a Eb,a min er altså et godt bud på den evolution, den sidste fælles stamfader til g a og g b har gennemløbet til de to afkom (halvdelen blot i den anden retning). Så i stedet for at vælge E s,a, E s,b og g s, der opfylder (2.3), kan vi vælge at betragte g b som en stamfar til g a og evolutionen fra g b til g a som et alternativt bud på den evolution, vores gen er gennemløbet. Ovenstående samles i følgende definition. Definition 2.9 (afstand) Givet en rekonstruktionsmodel R med omkostningsfunktionen cost R. Afstanden mellem to gener g x og g y er givet ved dist R (g x, g y ) = min E E x,y cost R (g x E g y ), og det evolutionære forløb E x,y mellem dem opfylder, at E x,y cost R (g x gy ) = dist R (g x, g y ). Denne definition giver umiddelbart anledning til et beregningsproblem, nemlig: Problem 2.2 (rekonstruktionsproblemet, afstand) Givet en rekonstruktionsmodel R med omkostningsfunktionen cost R. Find et evolutionært forløb E x,y mel- E x,y lem de to gener g x og g y, der opfylder, at cost R (g x gy ) = dist R (g x, g y ). For at kunne løse rekonstruktionsproblemet skal vi kunne præcisere en rekonstruktionsmodel, derfor er vi nødt til at kende de evolutionære hændelser, der rent faktisk finder sted, når en organisme reproduceres, og den omkostning, der knyttes til hændelsen. Vi har allerede i afsnit lagt os fast på de tre typer af mutationer, vi vil betragte i nærværende sammenhæng, nemlig substitutioner, insertions og deletions, men omkostningen for en hændelse kan afhænge af, i hvilket funktionelt område af genet hændelsen sker, og af, hvilke områder vi opdeler genet i. I de næste afsnit ser vi på, hvordan forskellige opfattelser af funktionaliteten af den DNA-sekvens, genet ligger på, giver anledning til forskellige rekonstruktionsmodeller, der igen giver anledning til forskellige løsninger af rekonstruktionsproblemet. Men først introducerer vi kontruktionen af et alignment.

25 2.3. Den evolutionære tilgangsvinkel Alignments Med udgangspunkt i de to antagelser om evolutionen, antagelse 2.1 og antagelse 2.2, og ved udelukkende at betragte de tre typer af evolutionære hændelser substitution, deletion og insertion, har vi stadig ikke præciseret vores rekonstruktionsmodel tilstrækkeligt til at kunne genskabe evolutionen indenfor et overskueligt tidsrum. Vi bliver nødt til at lægge nogle begrænsninger på rekonstruktionsmodellen/omkostningsfunktionen, der giver beregningsproblemet en hensigtsmæssig form. Denne form bygger på det generelle begreb et alignment. Definition 2.10 (alignment) Givet to strenge a = a 1 a 2 a n og b = b 1 b 2 b m over et alfabet Σ. Et alignment λ(a, b) af a og b er en 2 l matrix (l n + m) over Σ { } uden søjler af typen [ ], og hvor matricens første række hhv. anden række giver a hhv. b, når indgange med fjernes. Vi er her interesseret i tilfældet Σ = Σ N. Et alignment af a og b kan så betragtes som en beskrivelse af en udvikling af sekvensen a til sekvensen b. Hvis to nukleinsyrer sidder i sam- [ ] me søjle, betragtes de som evolutionært A G C T A C G C T A T sammenhængende og siges at matche. A C A A T A G T Gapsymbolet i første række angiver, at en nukleinsyre er blevet indsat a = AGCTACGCTAT igennem evolutionen (insertion), mens b = ACAATAGT og a E b. et i anden række angiver, at en oprindelig nukleinsyre er slettet (deletion). Et Figur 2.4: Eksempel på et alignment alignment angiver altså en evolutionær sammenhæng mellem to sekvenser, men skjuler rækkefølgen af mutationerne og giver ikke mulighed for redundante hændelser, f.eks. at den anden position i eksemplet i figur 2.4 kan have udviklet sig fra G til C som G e 1 A e 2 C. Om et alignment således kan angive det billigste evolutionære forløb mellem to sekvenser afhænger derfor af omkostningsfunktionen. Vi vil fremover forlange, at omkostningsfunktionen opfylder, at den mest rentable evolution kun benytter én hændelse pr. nukleinsyre. Altså at nukleinsyren enten udskiftes, bliver indsat eller slettet igennem evolutionen, eller naturligvis blot består. Den evolutionære sammenhæng mellem to sekvenser kan så præsenteres ved et alignment. Når et alignment angiver et evolutionært forløb, kan vi tale om at alignmentet har en score. Alignmentet repræsenterer en række mutationer, som hver har en omkostning, der kan afhænge af mutationernes indbyrdes ordning. Scoren for alignmentet bliver så den billigste rækkefølge af disse mutationer. Man kan også betragte et alignment af a og b som en sti igennem en orienteret graf, hvor knuderne er talpar (i, j) for i [0 : n], j [0 : m] arrangeret i et n + 1 gange m + 1 netværk, som i figur 2.5. En kant på formen (i 1, j 1) (i, j) i stien svarer til et match af a i med b j, en kant på formen (i 1, j) (i, j) til en

26 20 Kapitel 2. Biologisk modellering T G A T A A C A A G C T A C G C T A T Figur 2.5: Alignment graf. deletion af a i, mens (i, j 1) (i, j) svarer til en insertion af b j. Stien i figur 2.5 svarer derfor til alignmentet i figur 2.4. At løse rekontruktionsproblemet for to gener svarer nu til at beregne det optimale alignment af deres DNA-sekvenser mht. den valgte rekonstruktionssmodel. Med reference til definition 2.9 ønsker vi at finde et alignment med scoren dist R (g a, g b ). Der findes mange forskellige rekonstruktionsmodeller med mange varianter af omkostningsfunktioner og forskellige former for afhængighed mellem nukleinsyrerne i sekvenserne. For mange rekonstruktionsmodeller kan følgende algoritmiske grundidé anvendes til at finde et optimalt alignment. Grundidéen præsenteres bl.a. i [NW70], som omtales yderligere i afsnit 2.4. Algoritmisk grundidé I: Lad der være givet to strenge a og b over et alfabet Σ. Vi definerer en rekonstruktionsmodel R, hvor de eneste mutationer, vi betragter, er substitutioner og indels af længde 1. Lad omkostningen for en mutation e være givet ved typen: 1. Er e en substitution, der ændrer a i til a i, er cost R(a e a ) = d(a i, a i ), hvor d er en metrik over Σ. 2. Er e en insertion eller deletion i a, er cost R (a e a ) = g(1) = β.

27 2.3. Den evolutionære tilgangsvinkel 21 Metrikken d kaldes også for en substutitionsmatrix og g kaldes en gapcostfunktion. Bemærk, at hvis vi tillod gaps af vilkårlig længde og satte g(k) = k1=1 g(1) = k β, ville den nye rekonstruktionsmodel svare til den, vi allerede benytter. Vi siger derfor, at den benyttede gapcost-funktion er lineær i længden af gappet, selvom vi kun tillader gaps af længde én. Vi ønsker nu at løse rekonstruktionsproblemet, problem 2.2, for a og b givet rekonstruktionsmodellen R. Definitionen på omkostningsfunktionen medfører, at de enkelte nukleinsyrers evolutionsforløb er uafhængige. Derfor er mutationernes rækkefølge ligegyldig. Da der yderligere gælder, at omkostningsfunktionen er en metrik, kan en optimal evolution beskrives ved et alignment. Man kan nu observere, at et alignment af del-strengene a[1..i] og b[1..j] har tre mulige sidste-søjler, nemlig [ ] [ ] a i b j, ai eller [ ] b j, og at omkostningen for disse kan beregnes uafhængigt af resten af alignmentet. Vi definerer en n m matrix D og lader D(i, j) angive scoren for det optimale alignment af del-strengene a[1..i] og b[1..j]. Vi får da følgende rekursive sammenhæng mellem indgangene i D: D(0, 0) = 0 D(i 1, j 1) + d(a i, b j ) (2.5) D(i, j) = min D(i 1, j) + β D(i, j 1) + β Man kan nu finde scoren for det optimale alignment af a og b ved at beregne D( a, b ). Hvis man kender D(i 1, j 1), D(i 1, j) og D(i, j 1) kan D(i, j) beregnes i konstant tid. D( a, b ) kan således beregnes ved hjælp af dynamisk programmering i tid og plads O(n m) ved at beregne hver indgange i D. Faktisk kan vi beregne D( a, b ) i plads O(m) ved at udfylde D række for række, idet alle indgange i en række i kun afhænger af indgange i række i og række i 1. Vi behøver altså kun at gemme to rækker ad gangen. Hvis m > n kan vi bytte om på strengene, så pladsforbruget bliver O(min(n, m)). Denne procedure giver os imidlertid kun scoren på det optimale alignment, den giver os ikke et optimalt alignment, der har denne score. Hvis vi gemmer alle indgange i D, altså bruger plads O(n m), kan vi imidlertid rekonstruere et optimalt alignment ved backtracking. Idéen er, at hver indgang D(i, j) er resultatet af en række af valg af rekursioner, der fører ned igennem matricen til D(0, 0). Hvert valg af rekursion repræsenterer en alignment-søjle, så rækken af rekursioner fra D(i, j) til D(0, 0) repræsenterer et alignment af a[1..i] og b[1..j]. Da D(i, j) angiver scoren for denne række rekursioner, og da D(i, j) er optimal, må alignmentet være optimalt. Givet D(i, j) og dennes umiddelbare forgængere D(i 1, j 1),D(i 1, j) og D(i 1, j 1) kan vi bestemme den sidste rekursion i rækken af rekursioner, der gav D(i, j). Resten af rekursionsrækken kan vi finde ved at betragte problemet rekursivt for den forgænger, den sidste rekursion refererer til.

Vis mere