Hvorfor er genfinding et vanskeligt problem?

Relaterede dokumenter
Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Modul 3: Sandsynlighedsregning

Struktur og funktion af gener

Danmarks Tekniske Universitet

Klip-og-kopier DNA: reparér mutationer med 'genom-redigering' DNA, RNA og protein

1. Hvad er kræft, og hvorfor opstår sygdommen?

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere: Sebastian, Louise og Ana

Genetiske Aspekter af HCM hos Kat. - en introduktion til forskningsprojektet

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer)

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

En forsker har lavet et cdna insert vha PCR og har anvendt det følgende primer sæt, som producerer hele den åbne læseramme af cdna et:

Dansk resumé for begyndere

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere:

Simulering af stokastiske fænomener med Excel

TØ-opgaver til uge 46

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik

Forskningsnyheder om Huntingtons Sygdom På hverdagssprog Skrevet af forskere. Til det globale HS-fællesskab En baglæns besked gemt i HD-genet?

Eksamensspørgsmål til BiB biologi B 2015

Simulering af stokastiske fænomener med Excel

Bioinformatik Open Source Software i biologiens tjeneste

Genetiske afstande og afstandsmatricer

Danmarks Tekniske Universitet

Biologiske signaler i graviditeten - Genetisk information

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Matematikken i kunstig intelligens Opgaver om koordinerende robotter

Matematikken i kunstig intelligens Opgaver om koordinerende robotter LØSNINGER

Elegante modeller til vigtige spørgsmål

27611 Eksamen Sommer 2007

PCR (Polymerase Chain Reaction): Opkopiering af DNA

Forskningsnyheder om Huntingtons Sygdom På hverdagssprog Skrevet af forskere. Til det globale HS-fællesskab Ofte stillede spørgsmål, januar 2011

Bioteknologi A. Gymnasiale uddannelser. Vejledende opgavesæt 1. Mandag den 31. maj 2010 kl timers skriftlig prøve

Biologien bag epidemien

Kvægavlens teoretiske grundlag

Gældende fra: April 2014 (Hold SB512) Version: Endelig Side 1 af 5

Fedtmolekyler og hjernen

Biologi opgave Opsamling: Cellebiologi (Bioanalytiker modul3)

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Iteration af et endomorft kryptosystem. Substitutions-permutations-net (SPN) og inversion. Eksklusiv disjunktion og dens egenskaber

Hvad er så vigtigt ved målinger?

Landmålingens fejlteori - Sandsynlighedsregning - Lektion 1

TØ-opgaver til uge 45

Anvendelse af DNA markører i planteforædlingen

Epigenetik Arv er andet end gener

Danmarks Tekniske Universitet

Genmanipulation i sport Gendoping

Ekstrakter - rammebevillinger

Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning

Pandoras æske eller vejen til forebyggelse af sygdomme?

Dansk Selskab for Medicinsk Genetik s (DSMG) politik vedrørende klinisk anvendelse af genomisk sekventering

Fra mutationer til sygdom

27611 Eksamen Sommer 2008

Bakteriers immunsystem

Hvad er en funktion? Funktioner og graftegning. Funktioners egenskaber. Funktioners egenskaber. f(b) y = f(x) f(a) f(a)

Gener, biologiske markører og valg af den rigtige behandling

Forsvundet ved oversættelsen? Ny viden om hvordan proteinet for Huntingtons Sygdom dannes Du siger kartoffel. huntingtingenet

Kvantitative metoder 1

# Problemet med genetisk ustabilitet

Mand eller mus. - hvad er forskellen?

Folkeskolens afgangsprøve December Biologi. Elevnavn: Elevnummer: Skole: Hold: 1/22 B4

Kaminsky DNS exploit

Den genetiske 'gråzone' i Huntington's chorea: hvad betyder det alt sammen? Den basale genetik

Kopi fra DBC Webarkiv

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

Er der flere farver i sort?

Ny teknologi til analyse af vores gener ændrer måden, vi forebygger og behandler sygdom på. Nye markedsmuligheder for Exiqon

NY TEKNOLOGI TIL ANALYSE AF VORES GENER ÆNDRER MÅDEN VI FOREBYGGER OG BEHANDLER SYGDOM PÅ NYE MARKEDSMULIGHEDER FOR EXIQON

Avl på honningbier det genetiske grundlag I

Deoxyribonukleinsyre

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

2. Otte barrierer. Cellens naturlige forsvar mod kræft

Disposition. Intro Hvad er evolution? Eksempel på nogle beviser Livets design Spørgsmål

mtdna og haplogrupper

BEREGNING AF SOCIAL VÆRDI. hvilke resultater kan sammenlignes?

Gener, biologiske markører og valg af den rigtige behandling. Et spørgsmål om at udnytte viden, teknologi og sundhedsresurser optimalt

Bilag A Ordforklaringer

Danmarks Tekniske Universitet. Kursus navn: Introduktion til Bioinformatik. Kursus nummer: Hjælpemidler: alle.

Cellen og dens funktioner

Håndtering af holddrift i Produktionsplan

Inholdsfortegnelse: 1. Allel-skema

Evolutionstræer (Phylogenetic trees)

Eukaryote celler arbejder

Skjulte Markov Modeller og Genidentifikation 2003

Folkeskolens afgangsprøve Maj Biologi. Elevnavn: Elevnummer: Skole: Hold: 1/22 B3

BIOS. Celledeling hos en bananflue KOPIARK 135 GENETIK

Bachelor i Medicin og Medicin med Industriel Specialisering

Kapitel 4 Sandsynlighed og statistiske modeller

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik

Menneskets væskefaser

Generne bestemmer. Baggrundsviden og progression: Niveau: 8. klasse. Varighed: 12 lektioner

Sandsynlighed og kombinatorik

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kjers. sygdom. Nyt fra forskningsfronten. Et studie der søger at påvise årsager til og behandling af denne hidtil uhelbredelige øjensygdom

BM121 Resume af tirsdags forlæsningen, Uge 47

Transkript:

19th January 2005 Genfinding og skjulte Markov-modeller Af Asger Hobolth og Leif Schauser Indledning I disse år kortlægges en række organismers arvelige materiale. Det humane om blev kortlagt i 2001, og kort tid efter fulgte musens og rottens omer. For nylig er kyllins om samlet, og dele af hundens, chimpansens og grisens omer er ligeledes til rådighed. En af de store og vigtige opgaver er at finde erne i disse arvemasser. En komplet liste over alle menneskets er er af stor vigtighed inden for moderne medicinsk, molekylærbiolgisk og evolutionær forskning. Her vil vi beskrive, hvordan man anvender den elegante, skjulte Markov-model til finding. Hvad er et om? Et om består af et eller flere meget store DNA-molekyler (kromosomer). DNA er sat sammen af de fire nukleotid-byggesten adenin (A), guanin (G), cytosin (C) og tymin (T). DNA-molekyler kan opfattes som strenge, og rækkeføl af byggestenene, DNA-sekvensen, indeholder den nødvendige information til at lave en organisme. Den menneskelige DNA-sekvens er 3 milliarder nukleotider lang, men kun 5% af sekvensen er særlig vigtig. Resten er fyld, bestående af en blanding af DNA-stumper, som dels er rester af uddøde er, dels omparasitter. Genomparasitter er fremmede DNAelementer, som på et tidpunkt i evolutionens historie har sneget sig ind i omet, og siden har formeret sig kraftigt. Det kendteste eksempel herpå er HIV-virus, som hører til familien af retrovirale omparasitter. Disse 95% af omet betegnes ofte junk- DNA, -kirkegård eller dark matter, da deres nytteværdi for organismen endnu er uklar. Hvorfor er finding et vanskeligt problem? Det er inden for de få procent af DNA-sekvensen, som virkelig betyder noget for organismen, at erne findes. Et er et stykke DNA, der koder for et bestemt protein. Det kræver imidlertid effektive beregningsværktøjer at finde erne. Problemet kan bedst illustreres ved at bruge bakterier som eksempel. Lad os antage, at vi har modtaget en bakteriel DNA-sekvens CCGTATGTATGGGGGC GTCTAGGTAACC. med et enkelt. Opgaven er at kende ets struktur, altså at give et bud på, hvor et begynder og slutter. Hvordan gør vi? Vi har brug for lidt molekylærbiologi 1

Faktaboks: Molekylærbiologiens centrale dogme. For at informationen i DNA kan blive udtrykt bliver DNA-sekvensen oversat i to trin. Den første oversættelse læser DNA og laver en RNA-kopi, som indeholder den samme information, men nu i form af RNA byggesten. Den anden oversættelse læser RNA-sekvensen, og oversætter den til en aminosyresekvens. Nu er ets informationen udtrykt i cellen og proteinet kan udføre dets funktion. og i særdeleshed det centrale dogme. Det centrale dogme fortæller, at informationen fra DNA (erne) først bliver udtrykt i form af RNA og derefter oversat til et protein (se også Faktaboksen). Ifølge dette dogme begynder et med nukleotiderne ATG, og derefter oversættes tripletter af nukleotider (også kaldet codons) til aminosyrer i henhold til den etiske kode (se Tabel 1), og til slut ender et med et af de tre tripletter TGA, TAA eller TAG. I dette tilfælde kunne afkodnin være CCGT }{{} Før Start {}}{ ATG TAT GGG GGC GTC }{{} Codons Stop {}}{ TAG GTAACC }{{} Efter Det første codon TAT fra vores eksempel oversættes således til Tyr, der er forkortelsen for aminosyren tyrosin, og det sidste codon GTC til aminosyren Val (valin). Mellem start- og stopsignalerne kan der ikke optræde stopcodons, men ATG kan forekomme, og oversættes da til aminosyren metionin. Proteinet udgøres af sekvensen af aminosyrer, som et koder for. En DNA sekvens kan potentielt kode for mange forskellige er. Eksempelvis er CCGTATGT }{{} Før Start {}}{ ATG GGG TCT AGG }{{} Codons Stop {}}{ TAA CC }{{} Efter også en mulig struktur af ovenstående sekvens. Det er ikke vanskeligt at lave et computerprogram, der finder alle potentielle er for en sekvens ud fra reglerne om 2.

start og stop af et og codons indenfor et, men hvilket potentielt er det rigtige? De to største udfordringer for en findingsmodel består i at er har fælles eskaber uden at være identiske, samt at eskaberne, som erne har til fælles, også kan optræde tilfældigt. Problemet ligner de udfordringer lingvister står overfor, når de udvikler metoder til computerkendelse af talte sætninger. I talekendelse er det afgørende at tage hensyn til grundlægde grammatiske regler for hvordan sætninger er bygget op, og et statistisk værktøj, såkaldte skjulte Markov-modeller, blev udviklet til netop det formål. I skjulte Markov-modeller for finding er de grammatiske regler erstattet af regler om strukturer, og findingsmodellerne bruges til at opdele omet i junk-dna og er. Udover regler om strukturer bliver findingsmodellen også trænet ud fra en række DNA-sekvenser med kendt struktur. For eksempel kan man tage hensyn til nukleotidfrekvenserne uden for erne og codonfrekvenserne inden for erne. Trænin bevirker, at modellen bliver endnu bedre til at afkode nye DNA-sekvenser med ukendt struktur. Det lejlighedsvist uærlige Casino Vi vil forklare, hvad skjulte Markov-modeller er, ud fra eksemplet Det lejlighedsvist uærlige Casino. Vi forestiller os et casino, der begynder med en ærlig mønt, men derefter med mellemrum skifter over til en uærlig mønt. Når den ærlige mønt kastes, er udfaldene plat eller krone lige sandsynlige, men når der kastes med den uærlige mønt er sandsynligheden for plat større. Vi ved ikke hvilken mønt der kastes med, men observerer kun udfaldet af møntkastene. Et konkret udfald fra modellen kunne 3

være PKKPPPPPPPPPPPPPKPKKKPKKPPPKPPPPPPPKPPKPKKKPPPPKPPPPPPPPPPPPPPPPKPKPKKKPPPPPPKKP hvor P angiver plat og K angiver krone. Det er nu vores opgave at afkode udfaldet, altså at angive hvorvidt den ærlige eller uærlige mønt blev brugt på et bestemt tidspunkt. I princippet kan udfaldet forklares ved et vilkårligt nemløb af de skjulte mønter, men nogle nemløb er mere sandsynlige end andre. Vi kigger på tilfældet, hvor den uærlige mønt slår plat med sandsynlighed 4/5 og krone med sandsynlighed 1/5, og hvor casinoet udskifter den ærlige mønt med den uærlige med sandsynlighed 1/20, og skifter tilbage i med sandsynlighed 1/10. Figur 1 viser en grafisk illustration af situationen. Sandsynligheden for skift til en ny skjult tilstand er bestemt udelukkende ud fra den nuværende skjulte tilstand, og ikke af tidligere skjulte tilstande. Dette er den såkaldte Markov-eskab. Figur 1: Grafisk illustration af uærlige casino. Mulige overgange mellem skjulte tilstande og deres sandsynlighed: 19/20 9/10 Ærlig mønt 1/20 Uærlig mønt 1/10 Casinoet begynder med en ærlig mønt. Mulige udfald fra skjulte tilstande: Ærlig mønt: K med sandsynlighed 1/2 og P med sandsynlighed 1/2. Uærlig mønt: K med sandsynlighed 1/5 og P med sandsynlighed 4/5. Detaljer i afkodnin af sekvensen er beskrevet i Faktaboksen, og resultatet vises i Figur 2. Trappekurven i Figur 2 angiver sandsynligheden for på det givne tidspunkt at være i den uærlige tilstand. Delsekvenser med mange P er stammer sandsynligvis fra den uærlige skjulte tilstand, mens delsekvenser med både P er og K er stammer fra den ærlige skjulte tilstand. Et alternativ til at bestemme sandsynligheden for på et givent tidspunkt at være i en bestemt tilstand er simpelthen at vælge det nemløb af de skjulte tilstande, der har størst sandsynlighed. I Figur 2 er denne vej markeret ved at de kast som formodes uærlige er givet en grå skygge. En skjult Markov-model til finding I Figur 3 har vi grafisk vist en skjult Markov-model for bakteriel finding. I det lejlighedsvist uærlige casino var mønternes identitet skjult, mens det i finding er skjult hvorvidt et nukleotid er udenfor et, i startsignalet af et, midt i et, eller i ets stopsignal. I det uærlige casino var udfaldene af de skjulte tilstande enten plat eller krone. Udfaldene af findingsmodellen er mere varierende. Udenfor et er 4

Figur 2: Afkodning af møntkast fra det uærlige casino PKKPPPPPPPPPPPPPKPKKKPKKPPPKPPPPPPPKPPKPKKKPPPPKPPPPPPPPPPPPPPPPKPKPKKKPPPPPPKKP 0.0 0.4 0.8 0.0 0.4 0.8 udfaldene nukleotiderne A,G,C eller T. Startsignalet er altid ATG, mens stopsignalerne er enten TGA, TAA eller TAG. Inden for et er udfaldene codons, men aldrig et af de tre stopcodons. Figur 3: Grafisk illustration af skjult Markov model til bakteriel finding Mulige overgange mellem skjulte tilstande: Før Start Inden for Stop Efter Mulige udfald af skjulte tilstande: Før og efter : A,G,C,T Start : ATG Inden for : AAA,AAG,...,TTT (61 codons) Stop : TAA,TGA,TAG. I forhold til den simple model, der kun tog hensyn til startsignal, stopsignal og codons har vi med den skjulte Markov-model opnået flere markante forbedringer. Man kan tage hensyn til frekvenserne for nukleotider udenfor er og for codons inden for er, og hvert potentielt kan tildeles en sandsynlighed. Vejen nem de skjulte tilstande med størst sandsynlighed bruges som regel til afkodning af en DNAsekvens. Modellen kan endvidere forholdsvis nemt forfines ved at tage hensyn til flere signaler. Eksempelvis forventes en Shine-Dalgarno sekvens (AGGAGG) 4-9 nukleotider før starten af et. Genfinding i pattedyrs omer er mere kompliceret. Inden for et kan rækken af codons være afbrudt af sekvenser, såkaldte introns, der ikke oversættes til aminosyrer. Ved at indføre flere skjulte tilstande i Markov-modellen kan den situation også håndteres. 5

Komparativ finding Sammenligning af to eller flere organismers omer er en meget effektiv måde at finde er på. Hver gang arvemassen videregives til afkom, kan den forandres i form af mutationer som ændrer et nukleotid til et andet. Normalt betyder sådanne ændringer ikke noget for organismen, men hvis en ændring i et gør, at det bliver oversat til et væsentligt ændret protein, vil det have store konsekvenser for individet og ofte nedsætte dets evne til at formere sig (selektion). Denne vekselvirkning mellem mutation og selektion afspejler sig i en høj grad af lighed mellem organismer inden for erne i forhold til mere divers udenfor erne. Også denne situation kan implementeres i en skjult Markov-model, men nu begynder modellen at blive temmelig kompleks. Skjulte Markov-modeller for komparativ finding har således et halvt hundrede skjulte tilstande. Figur 4 viser en sammenligning af sekvenser fra fisk, mus og menneske. Den fyloetiske afstand afspejler sig i antallet af nukleotidændringer som følge af mutationsprocessen. Musens sekvens er næsten identisk med menneskets, mens fiskens sekvens er ændret meget i forhold til pattedyrenes, hvilket afspejler at tidsafstanden for spaltning mellem pattedyr og fisk er større end tidsafstanden for spaltning mellem menneske og mus. Komparativ finding har ændret vores skøn over det totale antal er i menneskets om. Så sent som i år 2000 var det almindeligt antaget, at der fandtes 100.000 er, men med omets kortlægning i 2001 blev dette tal ændret til 35.000. Skønnet over antallet af er er aftade, da komparative findingsmetoder er effektive til at fjerne potentielle er som er falske. Med musen og rotten som sammenligningsgrundlag er det aktuelle skøn over antallet af er nede på 25.000. Inden for dette årti bliver en række nye omer kortlagt, og vi kan forvente et detaljeret katalog over menneskets er. Den post-ome æra hvor ernes indbyrdes vekselvirkning og deres regulering skal forstås, er allerede i fuld gang. 6

Figur 4: Sammenligning af DNA sekvenser fra fisk, mus og menneske. 7

Faktaboks: Afkodning af møntkast fra det uærlige casino. Sandsynligheden for at forklare udfaldet PPK med de skjulte tilstande ærlig (Æ), ærlig og uærlig (U) er givet ved at multiplicere sandsynligheden for nemløbet af de skjulte tilstande ÆÆU (19/20 1/20) og sandsynligheden for det observerede udfald givet de skjulte tilstande (1/2 1/2 1/5): Ærlig mønt 19/20 1/20 Ærlig mønt Uærlig mønt 1/2 1/2 1/5 Plat Plat Krone I nedenstående tabel har vi regnet alle nemløb inem, der kan forklare udfaldet PPK, og angivet deres sandsynlighed: Gennemløb Sandsynlighed for PPK a ÆÆÆ (1 19 20 19 20 ) ( 1 2 1 2 1 2 ) b ÆÆU (1 19 20 1 20 ) ( 1 2 1 2 1 5 ) c ÆUÆ (1 1 20 10 2 5 2 d ÆUU (1 1 20 10 2 5 5 Sandsynligheden for på et bestemt tidspunkt at være i en bestemt skjult tilstand kan nu findes ved at addere sandsynlighederne for alle nemløb, der går nem de skjulte tilstande på det bestemte tidspunkt, og dividere med den samlede sandsynlighed for PPK: Sandsynlighed for U i 1. position: 0 Sandsynlighed for c+d Sandsynlighed for U i 2. position: = 0.0384 Sandsynlighed for a+b+c+d Sandsynlighed for b+d Sandsynlighed for U i 3. position: = 0.0499 Sandsynlighed for a+b+c+d I nedenstående figur viser trappekurven resultatet af afkodnin. Trappekurven angiver sandsynligheden for at casinoet bruger en uærlig mønt på et bestemt tidspunkt. P P K 0.0 0.4 0.8 0.0 0.4 0.8 Når sekvenserne er lange, bliver antallet af mulige veje nem de skjulte tilstande 8

meget stort. I tilfældet med to skjulte tilstande vokser antallet af mulige tilstande eksponentielt som 2 n, og for lange sekvenser er det ikke muligt at regne alle mulige veje inem indenfor en overskuelig tidsperiode. Der findes beregningsmetoder, såkaldte rekursioner, der gør det muligt at afkode lange sekvenser ved systematisk at bruge alle mellemregninger. Om forfatterne: Asger Hobolth er adjunkt ved Center for Bioinformatik (BiRC), Aarhus Universitet. Leif Schauser er lektor ved Center for Bioinformatik (BiRC), Aarhus Universitet. Videre læsning: Om skjulte Markov-modeller: Rabiner, L.R. and Juang, B.H. (1986). An introduction to Hidden Markov Models. IEEE ASSP Magazine, 1, 4-15. Om finding og skjulte Markov-modeller i en sekvens: Krogh, A. (1998). An introduction to hidden Markov models for biological sequences. In S. L. Salzberg, D. B. Searls, and S. Kasif, editors, Computational Methods in Molecular Biology, chapter 4, pages 45-63. Elsevier, Amsterdam. Om komparativ finding og skjulte Markov-modeller: Hobolth, A. og Jensen, J.L. (2003). Applications of hidden Markov models for comparative e structure prediction. Maphysto Research Report 2003-35, Department of Theoretical Statistics, University of Aarhus. http://www.maphysto.dk. Udkommer i Journal of Computational Biology i foråret 2005. 9