Gen-identifikation ved sekvens-sammenligning. Tejs Scharling. Specialerapport. Datalogisk Institut Aarhus Universitet Danmark

Størrelse: px
Starte visningen fra side:

Download "Gen-identifikation ved sekvens-sammenligning. Tejs Scharling. Specialerapport. Datalogisk Institut Aarhus Universitet Danmark"

Transkript

1 Gen-identifikation ved sekvens-sammenligning Tejs Scharling Specialerapport Datalogisk Institut Aarhus Universitet Danmark

2

3 Gen-identifikation ved sekvens-sammenligning En specialerapport afleveret til Datalogisk Institut ved Aarhus Universitet som del i erhvervelsen af kandidatgraden cand.scient. af Tejs Scharling 29. maj 2001

4

5 Indhold 1 Indledning Gen-identifikation Specialets struktur Biologisk modellering De biologiske grundelementer DNA RNA Protein Den biologiske proces Proteinsyntesen Den biologiske model Den evolutionære tilgangsvinkel Evolution Beregning af evolutionen Alignments Probabilistisk tolkning Klassiske rekonstruktionsmodeller Evolution af DNA Evolution af kodende DNA Afstand vs. similaritet Gen-identifikation Modeller til gen-identifikation Rekonstruktionsmodeller for gener Struktur-identifikation af gener Metoder til gen-identifikation Grundmodel Metode I, intron-exons alignment på DNA-niveau Metode II, exon alignment på DNA-niveau Metode III, exon alignment på DNA/protein-niveau i

6 4 Eksperimenter Implementation Lineært pladsforbrug, Hirschberg Resurse forbrug Testdata Simulerede data Biologiske data Parameterestimering Simulerede data Biologiske data Kvalitetsmål Kvalitet af struktur Kvalitet af alignment Eksperimenter Simulerede data Biologisk data Perspektiv Forbedringer af metoderne Splicesite-identifikation Konserverede intronregioner Analyse af hele genomer A Notation 89 B Biologiske tabeller 91 B.1 Aminosyrer B.2 Gendata fra genbank B.3 Modelparametre for simulerede data B.4 Modelparametre for biologiske data C Summary in english 95 ii

7 Kapitel 1 Indledning I dagens mediebillede kan begrebet bioinformatik beskrives som et såkaldt buzzword, altså et begreb, som, alle mener, må dække over noget interessant, men som de fleste ikke rigtig ved, hvad dækker over. Dekomponeres ordet i dets to dele bio og informatik, bliver det klart, at bioinformatik er læren om håndtering af biologiske data med speciel fokus på de informationer, dette data gemmer. I bred forstand spænder bioinformatik altså over indsamling og opbevaring af biologiske data, konstruktion af metoder til analyserer af biologiske data og egentlige analyser af biologiske data. I mange år har de discipliner, bioinformatik dækker over, ikke været betragtet som et selvstændigt fagområde, men har indgået som en naturlig del af de biologiske og medicinske fagområder. Dette skyldes hovedsageligt, at mængden af biologiske data har været så relativt lille, at den enkelte forsker eller forskergruppe har kunnet overskue den datamængde, der havde hans, hendes eller deres interesse. Det har altså i stor udstrækning været muligt at foretage de ønskede indsamlinger og analyser i hånden. Igennem de sidste år er mængden af biologiske data imidlertid vokset kraftigt og har efterhånden nået dimensioner, hvor alle efterhånden har mistet overblikket. Et ofte brugt eksempel på den accelererende dataindsamling er den nylige sekventering af den menneskelige arvemasse, også kaldet dets genom. Man har her aflæst de godt 3.2 milliarder nukleinsyrer, som de ialt 24 par af kromosomerne i genomet er opbygget af. En hidtil uset stor datamængde, hvor det blotte antal af nukleinsyrer vidner om uoverskueligheden. Mange andre genomer er blevet sekventeret, og flere er på vej. Derudover har man indsamlet data fra mange andre biologiske områder, eksemplevis store mængder data omkring proteiners strukturer. Sideløbende med den voksende datamængde er der opstået et endnu større behov for analytiske metoder. Det har længe været klart, at brugen af computere er en nødvendighed for opbevaring af det biologiske data, men at computere kan spille en aktiv og tildels selvstændig rolle i den efterfølgende analyse, har i brede kredse været mindre accepteret. Denne holdning har ændret sig gradvist og er 1

8 2 Kapitel 1. Indledning en væsentlig grund til, at bioinformatik er opstået som selvstændig disciplin på mange universiteter, inklusiv Aarhus Universitet. Sammenfattende kan vi sige, at den centrale komponent i bioinformatik er udviklingen af computerbaserede metoder til at foretage analyser af biologiske data. Udvikling af bioinformatiske metoder er en tværfaglig diciplin. Den involverer (1) modellering af biologiske systemer og formalisering af disse i en statistisk/matematisk verden, (2) konstruktion af beregningsmetoder i den formaliserede verden og (3) afprøvning af de udviklede beregningsmetoderne i en biologisk sammenhæng. Denne proces fordrer et samarbejde mellem biologer, læger, kemikere, statistikere og dataloger. I dette speciale kommer vi til at belyse alle tre aspekter, men med hovedvægten på den datalogiske proces, som udviklingen af en beregningsmetode indebærer. 1.1 Gen-identifikation Et af de væsentlige problemer med genomdata, heriblandt det menneskelige genom, er at identificere de gener, der ligger på genomets kromosomer. Et kromosom er en lang sekvens af nukleinsyrer, og rundt omkring på denne sekvens ligger generne. Et gen er i sig selv en sekvens af nukleinsyrer på kromosomet, blot meget kortere end selve kromosomet. Man er altså interesseret i at identificere disse øer rundt omkring på kromosomet, hvor der ligger et gen. Et gen har en vigtig funktion i en organisme, da det indgår i produktionen af proteiner, mens resten af kromosomet hovedsageligt ingen (kendt) funktion har. Ligesom et kromosom er opdelt i små gen-øer, er et gen igen opdelt i endnu mindre øer af nukleinsyrer kaldet exons. Hvor et kromosom kan karakteriseres ved dets gener, kan et gen karakteriseres ved dets exon-øer. At kende eksistensen af et gen uden at kende dets exons er utilfredsstillende, og man er derfor interesseret i at identificere disse exon-øer rundt omkring på genet. Områder af genet, der ikke er exons, kaldes for introns og har hovedsageligt ingen (kendt) funktion. En opdeling af et gen i introns og exons kaldes også for genets struktur. En af de metoder, man oftest benytter sig af, når man af forskellige grunde vil analysere en sekvens af nukleinsyrer, også kaldet en DNA-sekvens, er at sammenligne den med en anden DNA-sekvens. Hvis man betragter to organismer, der er i familie, f.eks. mennesket og musen, ser man en masse ligheder mellem de to, f.eks har de begge fortænder. Det skyldes, at der findes mange af de samme gener i begge organismer. I hver lighed ser man imidlertid også små forskelle, eksempelvis at musens tænder vokser i hele musens levetid. Dette skyldes at der mellem de samme gener i to organismer findes små forskelle. Forskellene er opstået på grund af forandringer, også kaldet mutationer, af kromosomerne igennem mange års evolution. Ved at sammenligne to gener i form af deres DNA-sekvenser kan man finde disse forskelle og benytte dem til at konkludere forskellige ting omkring de to gener.

9 1.2. Specialets struktur 3 I dette speciale er vi hovedsageligt interesserede i at identificere et gens exons. I den bioinformatiske metode vi vil konstruere, vil vi benytte sekvenssammenligning af to gener til at identificere de to geners struktur. Andre benytter en ligende tilgangsvinkel. I [Kne95, GMP96, HZ96] søger man de exons i en DNA-sekvens, der med størst sandsynlighed koder for et givet protein. I [BRS99] søger man efter matchende exons i to DNA-sekvenser med en tilgangsvinkel, der er relateret til den, vi vil benytte. 1.2 Specialets struktur I dette speciale vil vi konstruere en metode til at løse en af bioinformatikkens væsentlige problemer, nemlig gen-identifikation. Vi vil fokusere på det specielle delproblem af gen-identifikation, der handler om at identificere et gens struktur i form af introns og exons. Resten af specialet er opdelt i tre kapitler, som afspejler de tre væsentlige aktiviteter inden for bioinformatik, altså modellering af biologiske systemer, udvikling af beregningsmetoder og afprøvning af beregningsmetoderne i en biologisk sammenhæng. I kapitel 2 giver vi en introduktion til de biologiske systemer, der har relevans for vores problem. Vi beskriver en formel model for de biologiske systemer og formulerer gen-identifikation inden for denne model. Derudover introducerer vi evolution af DNA-sekvenser og beskriver, hvordan man kan rekonstruere de forandringer, der har forårsaget de forskelle, man ser mellem to beslægtede DNAsekvenser, såkaldte homologe DNA-sekvenser. I kapitel 3 udvikler vi en model, der er særligt velegnet til at finde de forandringer, man ser mellem to homologe geners DNA-sekvenser. Vi benytter denne model til forudsige, hvilke dele af DNA-sekvensen, der er introns, og hvilke, der er exons. Dette arbejde resulterer i tre konkrete metoder til gen-identifikation; Metode I, Metode II og Metode III. I kapitel 4 foretager vi en række analyser af par af homologe gener. Vi afprøver vores metoder på både simulerede data og rigtige biologiske data. Vi sammenligner metoderne med to andre metoder fra litteraturen ROSETTA [BPM + 00] og GENSCAN [BK97], hvilket giver følgende resultatet: Specificitet Sensitivitet ROSETTA GENSCAN Metode I Metode II Metode III hvor specificitet og sensitivitet er to mål mellem 0 og 1 for metodernes nøjagtighed. Sensitivitet er et mål for hvor mange af et gens exons en metode forudsiger, mens

10 4 Kapitel 1. Indledning specificitet er et mål for hvor mange af de exons en metode forudsiger, der faktisk er exons. En metoder klarer sig bedre jo højere score den har i de to mål. I kapitel 5 gennemgår vi en række problemstillinger, som det kunne være interessant at arbejde videre med i fremtiden. Endelig indeholder bilag C et referat af specialets indhold på engelsk.

11 Kapitel 2 Biologisk modellering Første skridt i enhver bioinformatisk metode er en modellering af de biologiske systemer man vil behandle. En modellering af et biologisk system kan aldrig indfange enhver biologisk variant af systemet, der vil altid være undtagelser fra reglen. Sådan er biologien forskellig fra en matematisk/datalogisk verden. Dette nødvendiggøre ikke desto mindre en endnu mere præcis formalisering af de relevante biologiske systemer, så enhver, der ønsker at benytte en metode, kan gøre sig klart hvilke dele af den biologiske verden, metoden begrænser sig til. Det er klart, at den biologisk mangfoldighed er en udfordring for en bioinformatiker; hvor sættes grænsen mellem det generelle og det specielle. I afsnit 2.1 og afsnit 2.2 beskriver vi de biologiske grundelementer og det biologiske system, der er grundlæggende for en formalisering af begrebet et gen. Vi præsenterer grundelementerne DNA, RNA og proteiner og systemet proteinsyntesen, der knytter de tre grundelementer sammen med beskrivelsen af et gen. Vi formaliserer disse begreber og præciserer i definition 2.1 vores egentlige fokus, nemlig genstruktur-identifikation. I afsnit 2.3 introducerer vi evolution af DNA-sekvenser. For at kunne rekonstruere evolutionære sammenhænge mellem to DNA-sekvenser indfører vi begrebet rekonstruktionsmodeller. En rekonstruktionsmodel giver os mulighed for at kunne udtale os kvalitativt om et evolutionært forløb, og vi viser hvordan man udfra en sådan model kan finde et optimalt evolutionsforløb. 2.1 De biologiske grundelementer Enhver organisme er bygget op af en mængde celler. Hver celle i en organisme har sit funktionelle særpræg (hudcelle, hjernecelle, blodcelle), men visse essentielle egenskaber er ens for alle celler. Dvs. at en række biologiske funktioner er til stede i enhver celle. Nogle af cellens centrale funktioner er at bære en organismes arvemasse (i form af DNA), at producere en række virksomme elementer, der kan udføre cellens funktion (RNA og proteiner), og at producere en kopi af sig selv (celledeling). 5

12 6 Kapitel 2. Biologisk modellering Under arbejdet med at udvikle metoder til gen-identifikation kommer vi til at benytte begreber som f.eks. gener og evolution. Disse begreber er tæt knyttet til en eller flere af de grundlæggende cellefunktioner. Det er derfor nødvendigt at have et rimeligt kendskab til dem. Følgende er en gennemgang af de biologiske strukturer, vi beskæftiger os med i nærværende sammenhæng. En mere detaljeret gennemgang kan findes i f.eks. [Lew00] DNA 3 3 C T A A T T G C G C A A G T A T G C G T A C G C 5 5 Figur 2.1: DNA Deoxyribonucleic acid (DNA) er det molekyle, der bærer den genetiske arvemasse for langt de fleste levende organismer, kun nogle vira er undtaget, [Lew00, side 6]. Et DNA-molekyle er bygget op af to komplementære kæder, der drejer sig omkring hinanden, så de former en dobbelt-spiral. Hver kæde er en polymer, hvor der på hvert led sidder en af fire mulige nukleinsyrer, adenin (A) og guanin (G) (kaldet puriner) og cytosin (C) og thymin (T) (kaldet pyrimidiner). De to kæder bindes sammen af hydrogenbindinger mellem par af nukleinsyrer, en fra hver kæde, og sådanne basepar opfylder at adenin altid binder med thymin, og guanin altid binder med cytosin. Den ene kæde er altså fastlagt udfra den anden. Hver kæde er opbygget af en rygrad af asymmetriske 5-3 fosfordiester bindinger mellem de enkelte led, og det gør det muligt at tale om en retning for en kæde. Denne retning bestemmer molekylets karakter, således at 5 -T-A-C-G-G-T-3 adskiller sig fra 3 -T-A-C-G-G-T-5. Det faktum, at de to kæder er komplementære og har en retning, gør det muligt at beskrive et DNA-molekyle udelukkende ved at kende dets nukleinsyrer i 5-3 -retningen (valget af retning bygger på retningen for transskriptionen, se afsnit 2.2.1) på en af kæderne. Det leder os frem til: Definition 2.1 (DNA-sekvens) En nukleinsyre er et element fra mængden Σ N = {A, C, G, T }. En DNA-sekvens er en streng a Σ + N af nukleinsyrer. Med a i vil vi betegne den i te nukleinsyre i strengen a og med a[i..j] delstrengen a i a i+1... a j. En organismes arvemasse findes ofte i form af en eller flere meget lange DNAmolekyler, kaldet kromosomer, og hver celle i organismen indeholder en kopi af disse kromosomer. F.eks. indeholder mennesket i hver celle 23 par af kromosomer, der hver har en længde på mange millioner basepar. Den samlede længde er i alt på omkring basepar. Et DNA-molekyle er informationsbærende og har sjældent direkte funktionelle egenskaber. Derimod indeholder molekylerne skabeloner, som cellen benytter til at producere cellens aktive komponenter, RNA og proteiner. Afsnit 2.2 er genstand for en gennemgang af denne proces.

13 2.1. De biologiske grundelementer RNA Ribonucleic acid (RNA) ligner DNA, men adskiller sig fra dette ved, at rygraden har en anden kemisk struktur, og at nukleinsyren thymine er udskiftet med nukleinsyren uracil (U). Derudover kan RNA forekomme enten i form af en dobbelthelix (som DNA) eller i en enkelt-strenget form. Et RNA-molekyle har to funktioner i cellen. Den ene er at være aktiv komponent i cellen som et protein (se afsnit 2.1.3), mens den anden er at være mellemled i den proces, der producerer et protein udfra en skabelon på et DNA-molekyle. Vi er her kun interesseret i den sidste egenskab, hvor RNA-molekylet udelukkende fungerer som informationsbærer. Da vi kun er interesseret i et RNA-molekyles informationsbærende egenskaber, kan vi benytte en definition tilsvarende definition 2.1, blot med alfabetet Σ R = {A, C, G, U} til at beskrive et RNA-molekyle. Det skal imidlertid vise sig nyttigt i stedet at benytte den samme definition, som vi bruger til at beskrive et DNAmolekyle, til også at beskrive et RNA-molekyle (hvor T så repræsenterer U). Dette bevirker naturligvis en vis uigennemskuelighed angående naturen af en streng over alfabetet Σ N (DNA eller RNA?), men det er netop denne abstraktion væk fra den biologiske forskel mellem DNA og RNA vi ønsker Protein Proteiner er organismens væsentligste aktive komponenter. Der findes et væld af proteiner, der afhængigt af proteinets kemiske struktur håndterer forskellige opgaver i cellen, f.eks. transport af molekyler igennem cellevæggen. Et protein er en kæde bygget op af en rygrad af kulstof. På hvert led sidder der en af tyve mulige aminosyrer (se tabel B.1 på bilag B). Et protein er fastlagt udfra denne kæde af aminosyrer, som et DNA-molekyle er det udfra kæden af nukleinsyrer. Et protein er altid enkeltstrenget og rygraden angiver igen en retning. Vi kan derfor beskrive et protein med: Definition 2.2 (protein) En aminosyre er et element fra mængden Σ A = {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y }. Et protein er en streng p Σ + A af aminosyrer. Med p i vil vi betegne den i te aminosyre i p og med p[i..j] delstrengen p i p i+1... p j. Som nævnt i slutningen af afsnit 2.1 produceres et protein på baggrund af en skabelon på et DNA-molekyle. Man kalder også denne proces for en syntese. Beskrivelsen af opbygning af et protein som en lang kæde af aminosyrer er dækkende lige efter syntesen. Man siger, at proteinet her optræder i sin primære struktur, men inden et protein bliver aktivt, foldes denne kæden sammen til en kompliceret tredimensional struktur med bindinger på tværs af kædens mange led. Denne struktur kan beskrives på flere niveauer. Enten ved de sekundære strukturer, der bekriver vigtige lokale strukturer, eller ved den tertiære struktur,

14 8 Kapitel 2. Biologisk modellering der beskriver proteinets fulde tredimensionale struktur, eller ved den kvadriære struktur, der beskriver hvordan proteinet binder sig til andre proteiner for at danne endnu større molekyler. Definition 2.2 indfanger kun et proteins primære struktur, men da vi kun kommer til at betragte proteiner på dette niveau, er definitionen fyldestgørende. 2.2 Den biologiske proces I forrige afsnit præsenterede vi tre af cellens/organismens vigtigste grundelementer, DNA, RNA og proteiner. I dette afsnit vil vi præsentere den biologiske proces, der knytter de tre grundelementer sammen. Denne proces er samtidig grundlæggende for definitionen, såvel som forståelsen af, hvad et gen er. Groft sagt er et gen en betegnelse på de dele af en organismes arvemasse, der indgår i produktionen af et protein (altså en skabelon for et protein). Et gen er ikke en egentlig fysisk genstand, som eksempelvis en nukleinsyre er det, men en abstraktion eller en betegnelse, man kan knytte til et stykke DNA i bestemte biologiske sammenhænge. For at afgrænse denne noget løse definition af et gen bliver man nødt til at se lidt nærmere på den egentlige produktion af proteinerne, proteinsyntesen Proteinsyntesen Proteinsyntesen er en proces, der foregår i enhver celle. Processens funktion er at producere proteiner udfra skabeloner, der ligger indkodet rundt omkring på kromosomerne. Det biologiske udtryk for en sådan skabelon er et gen. Proteinsyntesen bygger i alle organismer på de samme principper, men findes med små variationer (f.eks. manglen på såkaldte introns i bakterier). Vi betragter her proteinsyntesen for gener fra eukaryotiske celler. (Eukaryoter er en gruppe af organismer, som alle er bygget af en bestemt type celler. Menneske og mus tilhører f.eks. denne gruppe). En mere detaljeret gennemgang findes i eksempelvis [Lew00]. Der indgår tre grundelementer i proteinsyntesen, DNA, RNA og proteiner. Syntesen kan opdeles i tre skridt, jvf. figur 2.2. transskription er første stridt i proteinsyntesen. Et stykke DNA fra organismens arvemasse transskriberes til et stykke RNA. Dvs. at der opbygges en RNAsekvens bestående af samme sekvens af nukleinsyrer, som DNA-sekvensen består af, blot er thymine udskiftet med uracil. RNA-molekylet har en anden kemisk struktur end DNA-molekylet, men de to molekyler er identiske rent informationsmæssigt, se afsnit 2.1. Resultatet af transskriptionen kaldes for en pre-mrna-sekvens.

15 2.2. Den biologiske proces 9 DNA Exon 1 Intron 1 Exon 2 Intron 2 Exon 3 Transskription pre-mrna Splicing mrna Translation protein Figur 2.2: Proteinsyntesen. Eksempel: Transskriptionsstart Kromosom (DNA) Transskriptionsstop... G C G T C C T A T G T C T C G T C C T G A A A G C A A C T T G A C C G C T A G G... Transkription C C T A T G T C T C G T C C T G A A A G C A A C T T G A C C G pre-mrna (RNA) splicing klipper dele af pre-mrna-sekvensen væk. De dele, der klippes væk, indeholder ingen information om det protein, der produceres (men de indeholder signaler til cellens maskineri om, at delen skal fjernes). De dele, der klippes væk, kaldes for introns, og dele, der bevares, kaldes for exons. Man knytter de samme betegnelser til de områder på den oprindelige DNAsekvens, der svarer til et exon eller et intron på RNA-sekvensen. For hvert intron starter splicingen ved et såkaldt donor-site og slutter ved et acceptorsite. Disse signaler sidder på RNA-sekvensen i hver ende af et intron. Et signal er en kombination af nukleinsyrer. Donor-site et består ofte af nukleinsyrerne GT og acceptor-site et af nukleinsyrerne AG. Den resulterende RNA-sekvens kaldes for en mrna-sekvens (m for messenger, da mrna-molekylet transporteres til en anden del af cellen, hvor translationen foregår).

16 10 Kapitel 2. Biologisk modellering Eksempel: Donor site pre-mrna Acceptor site C C T A T G T C T C G T C C T G A A A G C A A C T T G A C C G Splicing C C T A T G T C T C C A A C T T G A C C G mrna translation er det skridt, der rent faktisk opbygger proteinet. Udfra hvert codon (tre på hinanden følgende nukleinsyrer) af mrna-sekvensen produceres en aminosyre i henhold til den genetiske kode, se tabel 2.2.1, og den resulterende aminosyrekæde udgør det færdige protein. Det er imidlertid ikke hele mrna-sekvensen, der oversættes. I begge ender af sekvensen findes en region, som ikke oversættes. Regionerne kaldes for henholdvis 5 -UTR og 3 -UTR (UnTranslated Region i 5 eller 3 enden, se afsnit 2.1.1). Translationen starter fra et såkaldt start-codon og oversættelsen fortsætter, indtil den når et stop-codon. Disse signaler består ofte af nukleinsyrerne AT G for start-codons og T AA, T AG eller T GA for stop-codons. Eksempel: Start codon C C T mrna A T G T C T C C A A C T T G A Translation Ser - Pro - Thr protein Stop codon C C G Denne beskrivelse af proteinsyntesen giver os mulighed for at præcisere følgende begreber. Genet udgør den del af arvemassen, der transskriberes til pre-mrna under syntesen (ifølge [Lew00], men denne definition varierer dog lidt). Man kan beskrive et gen som en position (locus) på et kromosom, hvor en transskription foregår. Strukturen af et gen er en opdeling af genet i introns og exons. Da ikke alle nukleinsyrer i exons indgår i translationen (pga. 5 -UTR og 3 -UTR ) kan en struktur yderligere deles op i introns, kodende exons og ikke-kodende exons. Vi vil her betragte et gens struktur som mængden af kodende exons. I området omkring et gen på en DNA-sekvensen findes der signaler, der sætter transskriptionen i gang. Disse signaler regnes ikke med til genet, men er stadig

17 2.2. Den biologiske proces 11 Codon Aminosyre Codon Aminosyre Codon Aminosyre Codon Aminosyre TTT Phe TCT Ser TAT Tyr TGT Cys TTC Phe TCC Ser TAC Tyr TGC Cys TTA Leu TCA Ser TAA Stop TGA Stop TTG Leu TCG Ser TAG Stop TGG Trp CTT Leu CCT Pro CAT His CGT Arg CTC Leu CCC Pro CAC His CGC Arg CTA Leu CCA Pro CAA Gln CGA Arg CTG Leu CCG Pro CAG Gln CGG Arg ATT Ile ACT Thr AAT Asn AGT Ser ATC Ile ACC Thr AAC Asn AGC Ser ATA Ile ACA Thr AAA Lys AGA Arg ATG Met ACG Thr AAG Lys AGG Arg GTT Val GCT Ala GAT Asp GGT Gly GTC Val GCC Ala GAC Asp GGC Gly GTA Val GCA Ala GAA Glu GGA Gly GTG Val GCG Ala GAG Glu GGG Gly Tabel 2.1: Den genetiske kode, som den ser ud for langt de fleste organismer. altafgørende for, om genet bliver udtrykt (tilsvarende til at der i introns findes signaler, der sætter splicing-processen i gang), se nedenfor. De to begreber giver umiddelbart anledning til to centrale problemer indenfor gen-identifikation, nemlig: Genlocus-identifikation: Givet et kromosom, find hvilke gener, der ligger på kromosomet. Sagt med andre ord, find loci på et kromosom, hvor en transskription kan finde sted. Genstruktur-identifikation: Givet en DNA-sekvens hvorpå der ligger et gen (eller givet et locus på et kromosom, hvor der ligger et gen), find strukturen af genet. Det vil hovedsagligt blive det sidste af de to problemer, vi vil beskæftige os med i dette speciale, men det skal vise sig (afsnit 5), at de to problemer overlapper i nogen grad. For at lette den sproglige fremstilling vil vi fremover også benytte betegnelser som struktur-identifikation, strukturanalyse eller slet og ret gen-identifikation, og hermed mene genstruktur-identifikation. Definitionen på første problem har en lille spidsfindighed, nemlig at en transskription kan finde sted, ikke skal. I denne distinktion ligger nemlig et helt andet biologisk spørgsmål, nemlig i hvilken grad et gen bliver udtrykt (at cellen producerer proteiner med dette gen som skabelon) i en organisme. Her spiller de

18 12 Kapitel 2. Biologisk modellering forskellige signaler på kromosomet en væsentlig rolle. Vi vil dog ikke beskæftige os med dette meget vanskelige problem yderligere. For at kunne beskæftige os med ovenstående problemer i datalogisk henseende er vi nødt til at omformulere ovenstående biologi til en stringent matematisk/datalogisk form, som gør det muligt for os at udforme f.eks. algorimter til at foretage genstruktur-identifikation på den. Vi siger, at vi formaliserer en biologisk model Den biologiske model Vi vil i dette afsnit formalisere den biologiske proces, proteinsyntesen, der blev præsenteret i sidste afsnit. En sådan formaliserings fornemste mål er at abstrahere fra præcis de biologiske forhold, som ikke er væsentlige i den aktuelle sammenhæng. Nedenstående definitioner kan derfor tage sig anderledes ud, hvis man har et andet analytisk mål for øje end genstruktur-identifikation. Vi vil lægge vægt på en formalisering, der fremhæver struktur-identifikationsproblemet og præciserer vores version af dette problem, nemlig at finde de kodende exons af et gen. Vi starter med at præcisere, hvad vi mener med et gen: Definition 2.3 (gen) Et gen g a består af en DNA-sekvens a, med en tilhørende struktur s a. Har DNA-sekvensen længden n er g a et element i (Σ N ) n S n, hvor S n angiver mængden af kodende exons, jvf. definition 2.4. Definition 2.4 (genstruktur) En genstruktur for en DNA-sekvens af længde n er en mængde af ikke-overlappende intervaller, der alle er indeholdt i [2: n 1]. Afstanden mellem hvert interval skal være mindst to. Mere formelt, hvis I(n) = {(i, j) 1 < i j < n}, så er en genstruktur givet ved et element i S n = {S I(n) + (i, j) S (k, l) S\(i, j): [i 1, j + 1] [k 1, l + 1] = } Vi vil kalde intervallerne i en struktur for exons, og de intervaller, der opstår mellem exons, for (interne) introns. De to intervaller, der opstår i enderne af DNA-sekvensen (bemærk de skarpe uligheder i definitionen af I(n)), dvs. før første og efter sidste exon, vil vi ligeledes kalde for (eksterne) introns. At interne introns skal have en længde på to, skyldes, at der i hver ende af intron et skal være plads til et splicesite-signal. Normalt er signalet mange nukleinsyrer langt, her har vi koncentreret hele signalet på hhv. første og sidste signal. Vi udnytter disse signalers eksistens senere. Exons benævnes også kodende regioner og introns ikke-kodende regioner. Bemærk, at vores definition af exon er synonymt med et kodende exon, mens et ikke-kodende exon betragtes som et intron. Ofte er det ønskeligt at kunne afgrænse de mulige strukturer S n til en mindre mængde af strukturer, der opfylder bestemte krav mht. DNA-sekvens. F.eks. at der skal være bestemte signaler til stede på hver side af et exon. For et gen g a

19 2.2. Den biologiske proces 13 Mængde G a start G a slut Estart a Eslut a Istart a Islut a Positioner på g a hvor første exon kan starte (translationsstart). sidste exon kan stoppe (translationsstop). et exon (første undtaget) kan starte. et exon (sidste undtaget) kan stoppe. et internt intron kan starte (donorsite). et internt intron kan stoppe (acceptorsite). hvor i E a start (i 1) I a slut og i E a slut (i + 1) I a start. Tabel 2.2: Begrænsningen af lovlige strukturer definerer vi delmængder af [1: n], jvf. tabel 2.2, og begrænser mængden af lovlige genstrukturer til: S a = {s S a start(s) G a start slut(s) G a slut (i, j) s: i start(s) Estart a j Eslut a slut(s)}, (2.1) hvor start(s) = min{i (i, ) s} og slut(s) = max{j (, j) s} angiver første hhv. sidste nukleinsyre af de kodende regioner, altså af Splice(a, s) (se definition 2.6). Vi beholder definition 2.4 af en genstruktur, men vi siger nu, at en struktur s S a er lovlig, hvis der også gælder at s S a. Transskriptionen er den proces, der udvælger hvilket område af et kromosom, der skal være genstand for en protein-syntese, og derfor fastsætter mængden af gener på et kromosom. En formalisering af denne proces ville derfor være central, hvis vi havde beskæftiget os med genlocus-identifikationsproblemet. Da vi her er interesseret i genstruktur-identifikationsproblemet, tager vi udgangspunkt i et stykke DNA, hvorpå vi allerede ved, at der ligger et gen. Med dette synspunkt bliver transskriptionens eneste formål at oversætte en DNA-sekvens til en RNAsekvens, men da vi benytter samme repræsentation af de to sekvenser, har denne oversættelse ingen effekt. Vi opsummerer dette i: Definition 2.5 (transskription) Transskriptionen er identitetsfunktionen. Følgende definitioner af splicing-processen og translationen er imidlertid centrale for vores problemstilling. I forhold til virkeligheden er splicing-processen ændret en smule i funktionalitet, idet den også klipper ikke-kodende exons fra. I virkeligheden er det under translationen, at denne sortering foregår. Denne ændring af funktionalitet passer sammen med vores definition af strukturen som blot bestående af kodende exons.

20 14 Kapitel 2. Biologisk modellering Definition 2.6 (splicing) Splicing-processen er en funktion Splice, der givet en pre-mrna-sekvens a og en genstruktur s a S a fjerner de delstrenge i strengen a, der ikke forekommer i s a. Mere formelt opfylder Splice, at Splice(a, s a ) = a[i 1, j 1 ] a[i 2, j 2 ]... a[i k, j k ], hvor k = s a, l [1, k]: (i l, j l ) s a og l [2, k]: i l 1 < i l. Definition 2.7 (translation) Translationen er en funktion Translate, der afbilder en RNA-sekvens a af længde 3n til en amonisyre-sekvens p af længde n, hvor p opfylder, at i = 0... n 1 : p i = amino(a 3i+1 a 3i+2 a 3i+3 ). Afbildningen fra codons til aminosyrer, amino: Σ N Σ N Σ N Σ A, er givet ved den genetiske kode, se tabel Bemærk, at denne afbildning er irreversibel, og at det samme derfor gælder for Translate. Med definition 2.6 og definition 2.7 bliver splicing-processen meget ukritisk. Den tillader i princippet en vilkårlig genstruktur, selvom der jo i virkeligheden kun er knyttet én struktur til et gen. Da vores mål netop er at forudsige denne struktur, bliver det i vores struktur-identifikationsmetode og i afgrænsning af lovlige genstrukturer, vi skal prøve at præcisere splicing-processens funktion. Vi formulerer nu vores hovedinteresse i: Problem 2.1 (Genstruktur-identifikation) Givet en streng a, som angiver DNA-sekvensen for et gen g a. Find strukturen af g a. Ovenstående formaliseringer præciserer vores problem, men giver os ingen umiddlebare løsninger af problemet. De metoder, man traditionelt har benyttet til at forudsige en genstruktur, har været ved at lede efter de omtalte signaler, der styrer proteinsyntesen, eller man har udnyttet, at fordelingen af de fire nukleinsyrer er forskellige i introns og exons. Sidstnævnte egenskab skyldes, at man kan observere forskellige evolutionære mønstre i de to typer af regioner. Det, vi i dette speciale ønsker at udnytte til at løse problem 2.1, er også den evolutionære udvikling, et gen har gennemløbet. Men i stedet for blot at sammenligne nukleinsyrefordelingerne i forskellige regioner af slutproduktet af evolutionen (altså det gen vi står med i dag), vil vi prøve at rekonstruere genets evolutionforløb for så at sammenligne forløbene i forskellige regioner af genet med hinanden. Det er derfor nødvendigt at se nærmere på evolutionen og de problemer, der knytter sig til denne. 2.3 Den evolutionære tilgangsvinkel Hvad er det vi kan udnytte ved at betragte et gens evolutionære udvikling i forbindelse med vores forudsigelse af genets struktur? Det grundlæggende princip

21 2.3. Den evolutionære tilgangsvinkel 15 er den kendsgerning, at evolutionen er opsplittet i to processer, nemlig de egentlige forandringer af en organismes genetiske materiale og den efterfølgende udvælgelse af de bedst egnede organismer (eller på neo-darwinistisk, af de bedste egnede genomer), den naturlige selektion. Hvis man fokuserer på det enkelte gen, betyder det, at informationsbærende områder (f.eks. exons) er mindre udsatte for forandringer over tid end informationstomme områder (f.eks. store dele af introns), da forandringen af information oftest er negativ og derfor fravælges af den naturlige selektion Evolution Den egentlige evolutionære forandring af en organismes arvemateriale finder sted, når organismen reproduceres (får afkom). Et vigtigt skridt af reproduktionen er at lave en kopi af den oprindelige organismes arvemateriale, som kan overføres til afkommet. Denne kopi kan indeholde fejl eller rettere sagt forandringer (med mindre vi ønsker at betragte os selv som produktet af en lang række fejl), der kan opstå under kopieringen. Sådanne forandringer kaldes for mutationer og klassificeres typisk i følgende grupper: Substitution: deletion: insertion: invertion: translokation: duplikation: En nukleinsyre i kromosomet udskiftes med en anden. Et stykke DNA fjernes fra kromosomet. Et nyt stykke DNA indsættes et sted i kromosomet Et stykke DNA i kromosomet vendes 180 grader Et stykke DNA flytter sig til en ny position på kromosomet En kopi af et stykke DNA i kromosomet indsættes et andet sted på kromosomet CCTCAAGT CCTTAAGT TCGGCATAGT TCGGAGT AGTCCTGGA AGTCTGTACTGGA AGTTCGGCATACT AGTTACGGCTACT CACTGGATGTCCT CGGATGTCCACTT CACTGGATGTCCT CACTGGATGTCCACTT Der findes også andre typer af mutationer af organismers arvemateriale end ovenstående, f.eks. rekombinationer, hvor meget store områder af en organismes kromosomer byttes rundt imellem hinanden eller udveksles med andre organismer. Her flyttes hele gener typisk rundt, så der er tale om forandringer, vi

22 16 Kapitel 2. Biologisk modellering hverken kan iagttage, endsige benytte, hvis vi kendte dem i vores situation. Invertioner, translationer og duplikationer involverer typisk også store områder af kromosomet. Ovenstående eksempler på disse mutationer er derfor misvisende i størrelsesforholdet. Da vi her kun er interesseret i den evolutionære proces, et enkelt gen gennemløber fra far til søn, nøjes vi med at betragte mutationer på den DNA-sekvens, hvorpå genet ligger. Blandt de ovenstående mutationer er langt de hyppigst forekommende de tre første, substitutioner, insertions og deletions (de to sidste samles ofte under betegnelsen indel), og vi kan nøjes med at betragte disse, uden at det kommer i for stor konflikt med den biologiske virkelighed. Vi vil derfor, og af beregningsmæssige hensyn, udelukkende betragte disse fremover. Det skal bemærkes, at disse mutationer som bekendt kan betragtes som editeringer af en streng over alfabetet Σ N = {A, C, G, T }. Den genetiske forandring i en organisme fra en generation til den næste er lille, men hvis man betragter et evolutionært forløb over mange generationer (millioner) kan man se betydelige forandringer i alle områder af arvemassen. Når organismens arvemasse, kaldet genotypen, forandrer sig, forandrer organsimens ydre, kaldet fænotypen, sig også, og som regel bliver den slægtslinie, organismen tilhører, på et tidspunkt splittet op i to forskellige grene. Det kan skyldes, at forandringer i omgivelserne tvinger organismen til at forandre fænotypen, men at omgivelserne giver den mulighed for at forandre sig i to forskellige retninger, eller det kan skyldes fysisk adskillelse. Darwins fugle på Galapagosøerne er vel det bedst kendte eksempel på det sidste. Fuglene, der oprindelig var af samme art, udviklede forskellige næb, alt afhængigt af økosystemet på den ø i øgruppen, fuglen levede på. Tilsvarende organismen gennemløber et gen en evolu- gen A Urgen Sidste fælles stamgen gen B Figur 2.3: Evolution tionær udvikling, som, selv om den er sammenfaldende med organismens, med fordel kan betragtes som selvstændig. En opsplitning af genet i to slægtsgrene kan opstå på baggrund af en ændring af den organisme, genet er en del af, således at genet specialiserer sig i to retninger (f.eks. α- og β-globin), eller at organismens slægtstræ forgrener sig (f.eks. α-globin i mus hhv. i menneske). Vi vil gerne benytte evolutionen til at kunne udtale os om visse egenskaber ved et gen. Det kræver i princippet, at vi kender en stamfader til genet og det hændelsesforløb, genet har gennemgået. Evolutionen er imidlertid historieløs, vi kan hverken finde stamgenet eller hændelsesforløb fra, hvor vi står i dag. Det, vi i stedet kan gøre, er, at udnytte de slægtsbånd, der findes mellem visse gener. At retfærdiggøre dette kræver en formalisering af begrebet evolution til en mere beregningsmæssig håndterlig form.

23 2.3. Den evolutionære tilgangsvinkel Beregning af evolutionen For at kunne udtale os kvalitativt om et evolutionært forløb er vi nødt til at fastlægge en evolutionsmodel, der værdisætter de enkelte mutationer i forhold til hinanden. Dette gøres i praksis ved at definere, hvad vi vil kalde, en rekonstruktionsmodel Definition 2.8 (rekonstruktionsmodel) En rekonstruktionsmodel er en mængde af lovlige mutationer og en omkostningsfunktion på disse. Hvis en evolutionær hændelse (mutation) e forandrer en DNA-sekvens a til a skriver vi a e a. Vi knytter omkostningsfunktionen cost(a e a ) til hændelsen. En række E af evolutionære hændelser e 1, e 2,..., e k, der forandrer a 0 e til a k, således at a 1 e 0 a1 2 e k ak, skrives samlet som a E 0 a k, og cost(a E 0 a k ) = e i+1 i=0...k 1 cost(a i ai+1 ). Når der ligger et gen på a, kan denne omkostning afhænge af genets struktur. Vi vil med g e a g a og cost(g e a g a ) betegne det samme som a e a hhv. cost(a e a ). Vi skal se eksempler på dette i kapitel 3. Hvis vi har givet et gen g a, og vi ved hjælp af evolutionen skal kunne forudsige g a s struktur, er vi nødt til at kende en stamfar g s til g a og evolutionen E s,a E s,a så g s ga. Vi kender imidlertid hverken stamfaderen eller evolutionen, derfor benytter vi det følgende princip. Lad g b være et søstergen til g a, altså et gen E s,b hvor g s gb, og g s er sidste fælles stamfader til de to gener g a og g b. Følgende to antagelser kan føre os videre: Antagelse 2.1 Parsimony princippet. Evolutionen vælger den mest rentable vej mht. en eller anden omkostningsfunktion. Antagelse 2.2 Evolutionen er reversibel. Der er ingen forskel på, om g udvikler sig til g, eller om g udvikler sig til g. Antag til en start, at vi kender stamfaderen g s, og lad E x,y = {E g x 2.1 opfylder evolutionen E s,a, at E g y }. Ifølge E s,a cost(g s ga ) = min cost(g s E g a ). (2.2) E E s,a Vores bedste bud på en evolution er altså en evolution E s,a, der opfylder (2.2). Tilsvarende kan vi finde E s,b. Desværre kender vi ikke g s, men ved at benytte antagelse 2.2 kan vi, i stedet for at betragte evolutionen E s,b fra g s til g b, betragte E s,a E s,b evolutionen E b,s fra g b til g s. Vi har så, at cost(g s ga ) + cost(g s gb ) = E s,a E b,s E b,s E s,a cost(g s ga ) + cost(g b gs ) = cost(g b gs ga ). Derfor må g s opfylde, at min E E b,s cost(g b E g s ) + min E E s,a cost(g s E g a ) = min E E b,a cost(g b E g a ), (2.3)

24 18 Kapitel 2. Biologisk modellering hvor hver minimalisering giver anledning til en mængde af evolutioner, hhv. E min Es,a min og Eb,a min min, hvor Ex,y = {E cost(g E x g y ) = min E Ex,y cost(g E x g y )}. Mellem disse tre mængder gælder, at E b,s E min b,s E s,a E min s,a b,s, E b,a E min b,a : E b,a = E b,s E s,a. (2.4) Et element E b,a Eb,a min er altså et godt bud på den evolution, den sidste fælles stamfader til g a og g b har gennemløbet til de to afkom (halvdelen blot i den anden retning). Så i stedet for at vælge E s,a, E s,b og g s, der opfylder (2.3), kan vi vælge at betragte g b som en stamfar til g a og evolutionen fra g b til g a som et alternativt bud på den evolution, vores gen er gennemløbet. Ovenstående samles i følgende definition. Definition 2.9 (afstand) Givet en rekonstruktionsmodel R med omkostningsfunktionen cost R. Afstanden mellem to gener g x og g y er givet ved dist R (g x, g y ) = min E E x,y cost R (g x E g y ), og det evolutionære forløb E x,y mellem dem opfylder, at E x,y cost R (g x gy ) = dist R (g x, g y ). Denne definition giver umiddelbart anledning til et beregningsproblem, nemlig: Problem 2.2 (rekonstruktionsproblemet, afstand) Givet en rekonstruktionsmodel R med omkostningsfunktionen cost R. Find et evolutionært forløb E x,y mel- E x,y lem de to gener g x og g y, der opfylder, at cost R (g x gy ) = dist R (g x, g y ). For at kunne løse rekonstruktionsproblemet skal vi kunne præcisere en rekonstruktionsmodel, derfor er vi nødt til at kende de evolutionære hændelser, der rent faktisk finder sted, når en organisme reproduceres, og den omkostning, der knyttes til hændelsen. Vi har allerede i afsnit lagt os fast på de tre typer af mutationer, vi vil betragte i nærværende sammenhæng, nemlig substitutioner, insertions og deletions, men omkostningen for en hændelse kan afhænge af, i hvilket funktionelt område af genet hændelsen sker, og af, hvilke områder vi opdeler genet i. I de næste afsnit ser vi på, hvordan forskellige opfattelser af funktionaliteten af den DNA-sekvens, genet ligger på, giver anledning til forskellige rekonstruktionsmodeller, der igen giver anledning til forskellige løsninger af rekonstruktionsproblemet. Men først introducerer vi kontruktionen af et alignment.

25 2.3. Den evolutionære tilgangsvinkel Alignments Med udgangspunkt i de to antagelser om evolutionen, antagelse 2.1 og antagelse 2.2, og ved udelukkende at betragte de tre typer af evolutionære hændelser substitution, deletion og insertion, har vi stadig ikke præciseret vores rekonstruktionsmodel tilstrækkeligt til at kunne genskabe evolutionen indenfor et overskueligt tidsrum. Vi bliver nødt til at lægge nogle begrænsninger på rekonstruktionsmodellen/omkostningsfunktionen, der giver beregningsproblemet en hensigtsmæssig form. Denne form bygger på det generelle begreb et alignment. Definition 2.10 (alignment) Givet to strenge a = a 1 a 2 a n og b = b 1 b 2 b m over et alfabet Σ. Et alignment λ(a, b) af a og b er en 2 l matrix (l n + m) over Σ { } uden søjler af typen [ ], og hvor matricens første række hhv. anden række giver a hhv. b, når indgange med fjernes. Vi er her interesseret i tilfældet Σ = Σ N. Et alignment af a og b kan så betragtes som en beskrivelse af en udvikling af sekvensen a til sekvensen b. Hvis to nukleinsyrer sidder i sam- [ ] me søjle, betragtes de som evolutionært A G C T A C G C T A T sammenhængende og siges at matche. A C A A T A G T Gapsymbolet i første række angiver, at en nukleinsyre er blevet indsat a = AGCTACGCTAT igennem evolutionen (insertion), mens b = ACAATAGT og a E b. et i anden række angiver, at en oprindelig nukleinsyre er slettet (deletion). Et Figur 2.4: Eksempel på et alignment alignment angiver altså en evolutionær sammenhæng mellem to sekvenser, men skjuler rækkefølgen af mutationerne og giver ikke mulighed for redundante hændelser, f.eks. at den anden position i eksemplet i figur 2.4 kan have udviklet sig fra G til C som G e 1 A e 2 C. Om et alignment således kan angive det billigste evolutionære forløb mellem to sekvenser afhænger derfor af omkostningsfunktionen. Vi vil fremover forlange, at omkostningsfunktionen opfylder, at den mest rentable evolution kun benytter én hændelse pr. nukleinsyre. Altså at nukleinsyren enten udskiftes, bliver indsat eller slettet igennem evolutionen, eller naturligvis blot består. Den evolutionære sammenhæng mellem to sekvenser kan så præsenteres ved et alignment. Når et alignment angiver et evolutionært forløb, kan vi tale om at alignmentet har en score. Alignmentet repræsenterer en række mutationer, som hver har en omkostning, der kan afhænge af mutationernes indbyrdes ordning. Scoren for alignmentet bliver så den billigste rækkefølge af disse mutationer. Man kan også betragte et alignment af a og b som en sti igennem en orienteret graf, hvor knuderne er talpar (i, j) for i [0 : n], j [0 : m] arrangeret i et n + 1 gange m + 1 netværk, som i figur 2.5. En kant på formen (i 1, j 1) (i, j) i stien svarer til et match af a i med b j, en kant på formen (i 1, j) (i, j) til en

26 20 Kapitel 2. Biologisk modellering T G A T A A C A A G C T A C G C T A T Figur 2.5: Alignment graf. deletion af a i, mens (i, j 1) (i, j) svarer til en insertion af b j. Stien i figur 2.5 svarer derfor til alignmentet i figur 2.4. At løse rekontruktionsproblemet for to gener svarer nu til at beregne det optimale alignment af deres DNA-sekvenser mht. den valgte rekonstruktionssmodel. Med reference til definition 2.9 ønsker vi at finde et alignment med scoren dist R (g a, g b ). Der findes mange forskellige rekonstruktionsmodeller med mange varianter af omkostningsfunktioner og forskellige former for afhængighed mellem nukleinsyrerne i sekvenserne. For mange rekonstruktionsmodeller kan følgende algoritmiske grundidé anvendes til at finde et optimalt alignment. Grundidéen præsenteres bl.a. i [NW70], som omtales yderligere i afsnit 2.4. Algoritmisk grundidé I: Lad der være givet to strenge a og b over et alfabet Σ. Vi definerer en rekonstruktionsmodel R, hvor de eneste mutationer, vi betragter, er substitutioner og indels af længde 1. Lad omkostningen for en mutation e være givet ved typen: 1. Er e en substitution, der ændrer a i til a i, er cost R(a e a ) = d(a i, a i ), hvor d er en metrik over Σ. 2. Er e en insertion eller deletion i a, er cost R (a e a ) = g(1) = β.

27 2.3. Den evolutionære tilgangsvinkel 21 Metrikken d kaldes også for en substutitionsmatrix og g kaldes en gapcostfunktion. Bemærk, at hvis vi tillod gaps af vilkårlig længde og satte g(k) = k1=1 g(1) = k β, ville den nye rekonstruktionsmodel svare til den, vi allerede benytter. Vi siger derfor, at den benyttede gapcost-funktion er lineær i længden af gappet, selvom vi kun tillader gaps af længde én. Vi ønsker nu at løse rekonstruktionsproblemet, problem 2.2, for a og b givet rekonstruktionsmodellen R. Definitionen på omkostningsfunktionen medfører, at de enkelte nukleinsyrers evolutionsforløb er uafhængige. Derfor er mutationernes rækkefølge ligegyldig. Da der yderligere gælder, at omkostningsfunktionen er en metrik, kan en optimal evolution beskrives ved et alignment. Man kan nu observere, at et alignment af del-strengene a[1..i] og b[1..j] har tre mulige sidste-søjler, nemlig [ ] [ ] a i b j, ai eller [ ] b j, og at omkostningen for disse kan beregnes uafhængigt af resten af alignmentet. Vi definerer en n m matrix D og lader D(i, j) angive scoren for det optimale alignment af del-strengene a[1..i] og b[1..j]. Vi får da følgende rekursive sammenhæng mellem indgangene i D: D(0, 0) = 0 D(i 1, j 1) + d(a i, b j ) (2.5) D(i, j) = min D(i 1, j) + β D(i, j 1) + β Man kan nu finde scoren for det optimale alignment af a og b ved at beregne D( a, b ). Hvis man kender D(i 1, j 1), D(i 1, j) og D(i, j 1) kan D(i, j) beregnes i konstant tid. D( a, b ) kan således beregnes ved hjælp af dynamisk programmering i tid og plads O(n m) ved at beregne hver indgange i D. Faktisk kan vi beregne D( a, b ) i plads O(m) ved at udfylde D række for række, idet alle indgange i en række i kun afhænger af indgange i række i og række i 1. Vi behøver altså kun at gemme to rækker ad gangen. Hvis m > n kan vi bytte om på strengene, så pladsforbruget bliver O(min(n, m)). Denne procedure giver os imidlertid kun scoren på det optimale alignment, den giver os ikke et optimalt alignment, der har denne score. Hvis vi gemmer alle indgange i D, altså bruger plads O(n m), kan vi imidlertid rekonstruere et optimalt alignment ved backtracking. Idéen er, at hver indgang D(i, j) er resultatet af en række af valg af rekursioner, der fører ned igennem matricen til D(0, 0). Hvert valg af rekursion repræsenterer en alignment-søjle, så rækken af rekursioner fra D(i, j) til D(0, 0) repræsenterer et alignment af a[1..i] og b[1..j]. Da D(i, j) angiver scoren for denne række rekursioner, og da D(i, j) er optimal, må alignmentet være optimalt. Givet D(i, j) og dennes umiddelbare forgængere D(i 1, j 1),D(i 1, j) og D(i 1, j 1) kan vi bestemme den sidste rekursion i rækken af rekursioner, der gav D(i, j). Resten af rekursionsrækken kan vi finde ved at betragte problemet rekursivt for den forgænger, den sidste rekursion refererer til.

Modul 3: Sandsynlighedsregning

Modul 3: Sandsynlighedsregning Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 3: Sandsynlighedsregning 3.1 Sandsynligheder................................... 1 3.2 Tilfældig udtrækning fra en mængde........................

Læs mere

DM01 DM01. 4. Obl. Afl. Jacob Christiansen, 130282, jacob.ch@mail.tdcadsl.dk. D12, Elias 13/5-2003. Side 1 af 7

DM01 DM01. 4. Obl. Afl. Jacob Christiansen, 130282, jacob.ch@mail.tdcadsl.dk. D12, Elias 13/5-2003. Side 1 af 7 DM01 DM01 4. Obl. Afl. Jacob Christiansen, 130282, jacob.ch@mail.tdcadsl.dk D12, Elias 13/5-2003 Side 1 af 7 DM01 Indholdsfortegnelse: BILAG:...2 1 FORMÅL:...3 2 KLASSER:...4 2.1 DNA2:...4 2.1.1 METODER:...4

Læs mere

Skjulte Markov Modeller og Genidentifikation 2003

Skjulte Markov Modeller og Genidentifikation 2003 Aarhus Universitet 18. december 2003 Datalogisk Institut Ny Munkegade, Bldg. 540 8000 Århus C Skjulte Markov Modeller og Genidentifikation 2003 Niels Christian Bach 19951570 Torben Lauritzen 19940336 Dette

Læs mere

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Side 1 af 14 Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Navn: Studie nummer: Dette eksamenssæt vil også kunne ses som en pdf fil nederst på kursus-hjemmesiden udfor den sidste dag d. 27 Jan

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Side 1 of 14 Danmarks Tekniske Universitet Skriftlig prøve, den 21/1-2013 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Side1af14 Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Navn: Studie nummer: Dette eksamenssæt vil også kunne ses som en pdf fil nederst på kursus-hjemmesiden udfor den sidste dag d. 27 Jan

Læs mere

Bioinformatik Algoritmiske Aspekter. Christian Nørgaard Storm Pedersen BRICS. Datalogisk Institut Aarhus Universitet.

Bioinformatik Algoritmiske Aspekter. Christian Nørgaard Storm Pedersen BRICS. Datalogisk Institut Aarhus Universitet. Bioinformatik Algoritmiske Aspekter hristian Nørgaard Storm Pedersen BRIS Datalogisk Institut Aarhus Universitet IT-, April, 2001 Bioinformatik Bioinformatik er udvikling og anvendelse af algoritmer og

Læs mere

Fra DNA til protein - lærerens tekst

Fra DNA til protein - lærerens tekst Fra DNA til protein - lærerens tekst Af sidsel sangild Denne øvelse handler om proteinsyntese og proteiners foldning. Den giver mulighed for at danne nogle andre billeder af fænomenet, end man får ved

Læs mere

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik Side 1 of 13 Danmarks Tekniske Universitet Skriftlig prøve, den 20/1-2014 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Side 1 of 17 Danmarks Tekniske Universitet Skriftlig prøve, den 21/1-2013 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

1. Hvad er kræft, og hvorfor opstår sygdommen?

1. Hvad er kræft, og hvorfor opstår sygdommen? 1. Hvad er kræft, og hvorfor opstår sygdommen? Dette kapitel fortæller om, cellen, kroppens byggesten hvad der sker i cellen, når kræft opstår? årsager til kræft Alle levende organismer består af celler.

Læs mere

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik Side 1 of 12 Danmarks Tekniske Universitet Skriftlig prøve, den 20/1-2014 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

BIOTEKNOLOGI HØJT NIVEAU

BIOTEKNOLOGI HØJT NIVEAU STUDENTEREKSAMEN 2007 2007-BT-1 BITEKNLGI HØJT NIVEAU Torsdag den 31. maj 2007 kl. 9.00 14.00 Sættet består af 1 stor og 2 små opgaver samt 1 bilag i 2 eksemplarer. Det ene eksemplar af bilaget afleveres

Læs mere

En forsker har lavet et cdna insert vha PCR og har anvendt det følgende primer sæt, som producerer hele den åbne læseramme af cdna et:

En forsker har lavet et cdna insert vha PCR og har anvendt det følgende primer sæt, som producerer hele den åbne læseramme af cdna et: F2011-Opgave 1. En forsker har lavet et cdna insert vha PCR og har anvendt det følgende primer sæt, som producerer hele den åbne læseramme af cdna et: Forward primer: 5 CC ATG GGT ATG AAG CTT TGC AGC CTT

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Et algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Har en hvis lighed med divide-and-conquer: Begge opbygger løsninger til større problemer

Læs mere

Genetiske afstande og afstandsmatricer

Genetiske afstande og afstandsmatricer Genetiske afstande og afstandsmatricer Denne vejledning indeholder en række små øvelser og opgaver der illustrerer, hvordan man ud fra genetiske sekvenser kan udregne en gennemsnitlig evolutionær afstand

Læs mere

Struktur og funktion af gener

Struktur og funktion af gener Molekylærbiologi og genetik S4, F2008 f Malene Munk Jørgensen Emne: Struktur og funktion af gener Link: undervisningsplanen for S4-molekylærbiologi og genetik MMJ, VI niversity ollege Bioanalytikeruddannelsen

Læs mere

Biologiske signaler i graviditeten - Genetisk information

Biologiske signaler i graviditeten - Genetisk information Biologiske signaler i graviditeten - Genetisk information 2 I forbindelse med vores studie af graviditeten ønsker vi at foretage undersøgelser af arvematerialet (DNA og RNA). Disse genetiske undersøgelser

Læs mere

Kromosomer med genet: Genotype (= arveformel): RR Rr rr Fænotype (= fremtoning): Rød Rød Hvid

Kromosomer med genet: Genotype (= arveformel): RR Rr rr Fænotype (= fremtoning): Rød Rød Hvid Kromosomer med genet: R R R r r r Genotype (= arveformel): RR Rr rr Fænotype (= fremtoning): Rød Rød Hvid P-generation: Kønsceller: RR rr Meiose R R r r Befrugtning F 1-generation: Meiose Rr Rr Kønsceller:

Læs mere

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere:

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere: Velkommen Test dit eget DNA med PCR Undervisningsdag på DTU Systembiologi Undervisere: Hvem er I? 2 DTU Systembiologi, Danmarks Tekniske Universitet Hvilke baser indgår i DNA? A. Adenin, Guanin, Cytosin,

Læs mere

Genetiske Aspekter af HCM hos Kat. - en introduktion til forskningsprojektet

Genetiske Aspekter af HCM hos Kat. - en introduktion til forskningsprojektet Genetiske Aspekter af HCM hos Kat - en introduktion til forskningsprojektet Cand. scient. Mia Nyberg, ph.d. stud. mnje@life.ku.dk IMHS, Det Biovidenskabelige Fakultet, Københavns Universitet, Klinisk Biokemisk

Læs mere

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Side1af13 Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Navn: Studie nummer: Dette eksamenssæt vil også kunne ses som en pdf fil nederst på kursus-hjemmesiden udfor den sidste dag d. 27 Jan

Læs mere

3u BI, terminsprøve (Bio A)

3u BI, terminsprøve (Bio A) 3.u BI, terminsprøve, 2018 MV 3u BI, terminsprøve (Bio A) Torsdag den 12/4, 2018, kl. 9-14. Af opgaverne 1, 2, 3, og 4 skal tre, og kun tre, afleveres Tilladte hjælpemidler: Bøger, kompendier, noter, lommeregner.

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur (struktur opbygget af et endeligt antal enkeltdele) blandt mange mulige. Eksempler:

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur blandt mange mulige. Dynamisk programmering Optimeringsproblem: man ønsker at finde

Læs mere

BM121 Resume af tirsdags forlæsningen, Uge 47

BM121 Resume af tirsdags forlæsningen, Uge 47 BM121 Resume af tirsdags forlæsningen, Uge 47 Morten Källberg (kallberg@imada.sdu.dk) 22/11-2005 1 Probabilistiske modeller Vi vil i det følgende betragte to forskellige måder at evaluerer en given model

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturvidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Antal sider i opgavesættet (incl. forsiden): 6 (seks) Eksamensdag: Fredag den 25. juni 200, kl. 9.00-.00

Læs mere

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer)

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer) Elevvejledning til det Virtuelle Kræftlaboratorium Det Virtuelle Kræftlaboratorium stiller krav til en grundig forståelse af det centrale dogme inden for molekylærbiologien, hvordan DNA oversættes til

Læs mere

Dansk resumé for begyndere

Dansk resumé for begyndere Dansk resumé for begyndere Dansk resumé for begyndere Dette afsnit introducerer bakteriel genregulation for enhver uden forudgående kendskab til dette emne. Alle nødvendige, videnskabelige betegnelser

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer 2 (2003-ordning)

Skriftlig Eksamen Algoritmer og Datastrukturer 2 (2003-ordning) Skriftlig Eksamen Algoritmer og Datastrukturer 2 (2003-ordning) Datalogisk Institut Aarhus Universitet Fredag den 28. maj 2004, kl. 9.00 13.00 Opgave 1 (20%) En (r, k) kryds-graf er en orienteret graf

Læs mere

Menneskets væskefaser

Menneskets væskefaser Menneskets væskefaser Mennesket består af ca. 60% væske (vand) Overordnet opdelt i to: Ekstracellulærvæske og intracellulærvæske Ekstracellulærvæske udgør ca. 1/3 Interstitielvæske: Væske der ligger mellem

Læs mere

Bioinformatik Open Source Software i biologiens tjeneste

Bioinformatik Open Source Software i biologiens tjeneste Bioinformatik Open Source Software i biologiens tjeneste Kenneth Geisshirt kneth@silex.dk Silex Science ApS Bioinformatik p.1/19 Om Silex Science ApS Grundlagt maj 2002 Ejeren er Cortex Holding Fokusområderne

Læs mere

Hvorfor er genfinding et vanskeligt problem?

Hvorfor er genfinding et vanskeligt problem? 19th January 2005 Genfinding og skjulte Markov-modeller Af Asger Hobolth og Leif Schauser Indledning I disse år kortlægges en række organismers arvelige materiale. Det humane om blev kortlagt i 2001, og

Læs mere

Biologi opgave Opsamling: Cellebiologi (Bioanalytiker modul3)

Biologi opgave Opsamling: Cellebiologi (Bioanalytiker modul3) 1 Delphine Bonneau Biologi opgave Opsamling: Cellebiologi 1-6 Pelle har spist en kæmpe stor kage, og efterfølgende stiger hans blodsukker. Derfor sender kroppen besked til de endokrine kirtler i bugspytkirtlen

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

(19) DANMARK (11) DK B1 (12) PATENTSKRIFT. Ci2. Patent- og Varemærkestyrelsen

(19) DANMARK (11) DK B1 (12) PATENTSKRIFT. Ci2. Patent- og Varemærkestyrelsen (19) DANMARK (11) DK 176903 B1 Ci2 (12) PATENTSKRIFT Patent- og Varemærkestyrelsen (51) Int.CI. 8 : C 12 N 15/31 (2006.01) A 61 K 39/02 (2006.01) A 61 K 48/00 (2006.01) A 61 P 31/04 (2006.01) C 07 K 14/29

Læs mere

Generne bestemmer. Baggrundsviden og progression: Niveau: 8. klasse. Varighed: 12 lektioner

Generne bestemmer. Baggrundsviden og progression: Niveau: 8. klasse. Varighed: 12 lektioner Generne bestemmer Niveau: 8. klasse Varighed: 12 lektioner Præsentation: Generne bestemmer er et forløb om genernes indflydelse på individet. I forløbet kommer vi omkring den eukaryote celle, celledeling,

Læs mere

(19) DANMARK (11) DK 175533 B1 ( 1 2) PATENTSKRIFT. Patent- og Varemærkestyrelsen

(19) DANMARK (11) DK 175533 B1 ( 1 2) PATENTSKRIFT. Patent- og Varemærkestyrelsen (19) DANMARK (11) DK 175533 B1 ( 1 2) PATENTSKRIFT Patent- og Varemærkestyrelsen (51) Int.C1 7.: A 61 K 39/295 A 61 K 39/205 A 61 K 39/285 A 61 K 39/42 C 12 N 15/00 (21) Patentansøgning nr: PA 1985 06062

Læs mere

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik Side 1 of 11 Danmarks Tekniske Universitet Skriftlig prøve, den 22/1-2015 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier Isa Kirk Biotech Academy Institut for Systembiologi, Danmarks Tekniske Universitet 2. november 2010 1 Indhold 1 Introduktion

Læs mere

Det lyder enkelt, men for at forstå hvilket ærinde forskerne er ude i, er det nødvendigt med et indblik i, hvordan celler udvikles og specialiseres.

Det lyder enkelt, men for at forstå hvilket ærinde forskerne er ude i, er det nødvendigt med et indblik i, hvordan celler udvikles og specialiseres. Epigenetik Men hvad er så epigenetik? Ordet epi er af græsk oprindelse og betyder egentlig ved siden af. Genetik handler om arvelighed, og hvordan vores gener videreføres fra generation til generation.

Læs mere

27611 Eksamen Sommer 2008

27611 Eksamen Sommer 2008 27611 Eksamen Sommer 2008 Dette sæt indeholder 10 opgaver. En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan under selve eksamen ( juni 2008 klokken 15:00-19:00). DNA/Protein

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Dynamisk programmering. Flere eksempler

Dynamisk programmering. Flere eksempler Dynamisk programmering Flere eksempler Eksempel 1: Længste fælles delstreng Alfabet = mængde af tegn: {a,b,c,...,z}, {A,C,G,T}, {,1} Eksempel 1: Længste fælles delstreng Alfabet = mængde af tegn: {a,b,c,...,z},

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Side 1 of 16 Danmarks Tekniske Universitet Skriftlig prøve, den 26/1-2012 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

27611 Eksamen Sommer 2007

27611 Eksamen Sommer 2007 - Side 1 af 10-27611 Eksamen Sommer 2007 Dette sæt indeholder 4 opgaver. En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan, under selve eksamen (25. Maj 2007 klokken 9:00

Læs mere

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere: Sebastian, Louise og Ana

Velkommen. Test dit eget DNA med PCR. Undervisningsdag på DTU Systembiologi. Undervisere: Sebastian, Louise og Ana Velkommen Test dit eget DNA med PCR Undervisningsdag på DTU Systembiologi Undervisere: Sebastian, Louise og Ana Hvem er I? 2 DTU Systembiologi, Danmarks Tekniske Universitet Dagens program 9:00 10:00 Introduktion

Læs mere

2. Otte barrierer. Cellens naturlige forsvar mod kræft

2. Otte barrierer. Cellens naturlige forsvar mod kræft 2. Cellens naturlige forsvar mod kræft Dette kapitel fortæller, hvordan en normal celle kan blive til en kræftcelle hvorfor kræft er en genetisk sygdom hvad der hindrer kræftudvikling Dine celler kan nå

Læs mere

Dynamisk programmering. Flere eksempler

Dynamisk programmering. Flere eksempler Dynamisk programmering Flere eksempler Eksempel 1: Længste fælles delstreng Alfabet = mængde af tegn: {a,b,c,...,z}, {A,C,G,T}, {,1} Streng = sekvens x 1 x 2 x 3... x n af tegn fra et alfabet: helloworld

Læs mere

Skruedyrenes evolution

Skruedyrenes evolution Skruedyrenes evolution Materialer: 8 forskellige søm og skruer per hold. Formål: At tegne et slægtskabstræ udfra morfologiske karaktertræk Når arterne er blevet indsamlet og identificeret, skal de systematiseres.

Læs mere

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse Per Tøfting 23. september 2008 Speciale i softwarekonstruktion IT-Vest Aarhus Universitet Agenda Formål microrna Strategien

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Side 1 of 14 Danmarks Tekniske Universitet Skriftlig prøve, den 26/1-2012 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

(19) DANMARK. 2six,l (12) PATENTSKRIFT. Patent- og Varemærkestyrelsen (11) DK 175072 B1

(19) DANMARK. 2six,l (12) PATENTSKRIFT. Patent- og Varemærkestyrelsen (11) DK 175072 B1 (19) DANMARK (11) DK 175072 B1 2six,l (12) PATENTSKRIFT Patent- og Varemærkestyrelsen (51) Int.C1 7.: C 12 N 15/38 A 61 K 39/245 C 12 N 15/63 G 01 N 33/569 (21) Patentansøgning nr: PA 1987 02888 (22).

Læs mere

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET INSTITUT FOR ATALOGI, AARHUS UNIVERSITET Science and Technology EKSAMEN Algoritmer og atastrukturer (00-ordning) Antal sider i opgavesættet (incl. forsiden): (elleve) Eksamensdag: Fredag den. august 0,

Læs mere

1. Afrikansk plante med mulig gavnlig virkning på diabetes type II. 2. Bestemmelse af genomer hos forskellige arter organismer

1. Afrikansk plante med mulig gavnlig virkning på diabetes type II. 2. Bestemmelse af genomer hos forskellige arter organismer Eksamensspørgsmål til biobu juni 2012 1. Afrikansk plante med mulig gavnlig virkning på diabetes type II Forklar hvordan insulin er opbygget, dets dannelse og virkemåde. Hvad er årsagen til diabetes type

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Mandag den 27. maj 2002, kl. 9.00 13.00 Opgave 1 (25%) Denne opgave handler om multiplikation af positive heltal.

Læs mere

Kvægavlens teoretiske grundlag

Kvægavlens teoretiske grundlag Kvægavlens teoretiske grundlag Lige siden de første husdyrarter blev tæmmet for flere tusinde år siden, har mange interesseret sig for nedarvningens mysterier. Indtil begyndelsen af forrige århundrede

Læs mere

Klip-og-kopier DNA: reparér mutationer med 'genom-redigering' DNA, RNA og protein

Klip-og-kopier DNA: reparér mutationer med 'genom-redigering' DNA, RNA og protein Forskningsnyheder om Huntingtons Sygdom På hverdagssprog Skrevet af forskere. Til det globale HS-fællesskab Klip-og-kopier DNA: reparér mutationer med 'genom-redigering' Forskere kan lave præcise ændringer

Læs mere

Dansk Selskab for Medicinsk Genetik s (DSMG) politik vedrørende klinisk anvendelse af genomisk sekventering

Dansk Selskab for Medicinsk Genetik s (DSMG) politik vedrørende klinisk anvendelse af genomisk sekventering Dansk Selskab for Medicinsk Genetik s (DSMG) politik vedrørende klinisk anvendelse af genomisk sekventering De sidste 10 års store fremskridt indenfor gensekventeringsteknologi har gjort det muligt at

Læs mere

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik Datalogi C, RUC Forelæsning 22. november 2004 Henning Christiansen Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik Dagens program Hvad

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj-Jun 2010 Institution Sukkertoppen Uddannelse Fag og niveau Lærer(e) Hold htx Biologi B Thomas Haack Den

Læs mere

Forskningsnyheder om Huntingtons Sygdom På hverdagssprog Skrevet af forskere. Til det globale HS-fællesskab Ofte stillede spørgsmål, januar 2011

Forskningsnyheder om Huntingtons Sygdom På hverdagssprog Skrevet af forskere. Til det globale HS-fællesskab Ofte stillede spørgsmål, januar 2011 Forskningsnyheder om Huntingtons Sygdom På hverdagssprog Skrevet af forskere. Til det globale HS-fællesskab Ofte stillede spørgsmål, januar 2011 Svar på ofte stillede spørgsmål om HD - den første i en

Læs mere

Proteiners byggesten er aminosyrer

Proteiners byggesten er aminosyrer PTEIE G EZYME Proteiners byggesten er aminosyrer Lad os se på den kemiske opbygning af et protein. Proteiner er store molekyler der er opbygget af mindre molekyler, som man kalder aminosyrer. Der findes

Læs mere

Avl på honningbier det genetiske grundlag I

Avl på honningbier det genetiske grundlag I Avl på honningbier det genetiske grundlag I Egenskaber ved alle levende væsner bestemmes af 2 ting: Arv Miljø Grundlaget for alt avlsarbejde er at mange egenskaber nedarves. Hvad er arv og hvad er miljø

Læs mere

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse Per Tøfting 11. juli 2008 Speciale i softwarekonstruktion IT-Vest Aarhus Universitet INDHOLD i Indhold 1 Indledning 1 1.1

Læs mere

BIOS. Celledeling hos en bananflue KOPIARK 135 GENETIK

BIOS. Celledeling hos en bananflue KOPIARK 135 GENETIK KOPIARK 135 GENETIK Celledeling hos en bananflue Her er en celle fra en bananflue. Tegn det rigtige antal kromosomer i cellekernen. Se Grundbog B, s. 106. Hvor mange kromosomer har en bananflue i hver

Læs mere

Bioinformatik Algoritmiske Aspekter. Christian Nørgaard Storm Pedersen BRICS. Datalogisk Institut Aarhus Universitet.

Bioinformatik Algoritmiske Aspekter. Christian Nørgaard Storm Pedersen BRICS. Datalogisk Institut Aarhus Universitet. Bioinformatik Algoritmiske Aspekter Christian Nørgaard Storm Pedersen BRICS Datalogisk Institut Aarhus Universitet IT-C, April, 2001 Bioinformatik Bioinformatik er udvikling og anvendelse af algoritmer

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DTLOS NSTTUT, RUS UNVERSTET Det Naturvidenskabelige akultet ESMEN rundkurser i Datalogi ntal sider i opgavesættet (incl. forsiden): 7 (syv) Eksamensdag: Torsdag den 14. juni 007, kl. 9.00-1.00 Eksamenslokale:

Læs mere

Asger Hobolth (AU, Matematisk Institut): Kaffe, computere og konveks analyse kan kvantificere kendskabet til kræft

Asger Hobolth (AU, Matematisk Institut): Kaffe, computere og konveks analyse kan kvantificere kendskabet til kræft Asger Hobolth (AU, Matematisk Institut): Kaffe, computere og konveks analyse kan kvantificere kendskabet til kræft I tæt samarbejde med Astrid Kousholt (Novo Nordisk), Jens Ledet Jensen (AU, Math) and

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Tirsdag den 27. maj 2003, kl. 9.00 3.00 Opgave (25%) For konstanten π = 3.4592... gælder identiteten π 2 6 =

Læs mere

Banan DNA 1/6. Formål: Formålet med øvelsen er at give eleverne mulighed for at se DNA strenge med det blotte øje.

Banan DNA 1/6. Formål: Formålet med øvelsen er at give eleverne mulighed for at se DNA strenge med det blotte øje. Banan DNA Formål: Formålet med øvelsen er at give eleverne mulighed for at se DNA strenge med det blotte øje. Baggrundsviden: Om vi er mennesker, dyr eller planter, så har alle organismer DNA i deres celler.

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (DM507)

Skriftlig Eksamen Algoritmer og Datastrukturer (DM507) Skriftlig Eksamen Algoritmer og Datastrukturer (DM507) Institut for Matematik og Datalogi Syddansk Universitet, Odense Mandag den 7. juni 00, kl. 9 Alle sædvanlige hjælpemidler (lærebøger, notater, osv.)

Læs mere

Cellen og dens funktioner

Cellen og dens funktioner Eksamensopgaver Biologi C, 17bic80 6. og 7. juni 2018 1 Cellen og dens funktioner 1. Redegør for hvordan eukaryote og prokaryote celler i hovedtræk er opbygget, herunder skal du gøre rede for forskelle

Læs mere

Reaktionskinetik - 1 Baggrund. lineære og ikke-lineære differentialligninger. Køreplan

Reaktionskinetik - 1 Baggrund. lineære og ikke-lineære differentialligninger. Køreplan Reaktionskinetik - lineære og ikke-lineære differentialligninger Køreplan 1 Baggrund På 2. eller 4. semester møder kemi/bioteknologi studerende faget Indledende Fysisk Kemi (26201/26202). Her behandles

Læs mere

Grafer og graf-gennemløb

Grafer og graf-gennemløb Grafer og graf-gennemløb Grafer En mængde V af knuder (vertices). En mængde E V V af kanter (edges). Dvs. ordnede par af knuder. Grafer En mængde V af knuder (vertices). En mængde E V V af kanter (edges).

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Onsdag den. august 200, kl. 9.00.00 Opgave (25%) Lad A = A[] A[n] være et array af heltal. Længden af det længste

Læs mere

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET INSTITUT FOR DATALOGI, AARHUS UNIVERSITET Science and Technology EKSAMEN Antal sider i opgavesættet (incl. forsiden): (fjorten) Eksamensdag: Mandag den. juni 0, kl. 9.00-.00 Tilladte medbragte hjælpemidler:

Læs mere

OPSTILLING AF EFFEKTIVE MILEPÆLE FOR FLÅDECHEFER

OPSTILLING AF EFFEKTIVE MILEPÆLE FOR FLÅDECHEFER OPSTILLING AF EFFEKTIVE MILEPÆLE FOR FLÅDECHEFER KORTLÆGNING AF EN VELLYKKET STRATEGI FOR 2019 INTRODUKTION Når du skal ud på en længere rejse, er det ikke nok kun at kende destinationen. Du skal også

Læs mere

Lærervejledning Til internet-spillet Kræftkampen og undervisningshæftet Hvorfor opstår kræft? Biologi 8.-9. klasse

Lærervejledning Til internet-spillet Kræftkampen og undervisningshæftet Hvorfor opstår kræft? Biologi 8.-9. klasse kraeftkampen.dk Kræftens Bekæmpelse Lærervejledning Til internet-spillet Kræftkampen og undervisningshæftet Hvorfor opstår kræft? Biologi 8.-9. klasse Hvorfor arbejde med Kræft? Erhvervsskolernes Forlag

Læs mere

Immunologisk bioinformatik

Immunologisk bioinformatik Immunologisk bioinformatik Øvelsesvejledning Introduktion til øvelsen Når man i dagligdagen taler om influenza, bliver virussen ofte forbundet med forbigående og ufarlig sygdom. Som regel har mennesker

Læs mere

Proteiner: en introduktion. Modul 1; F13 Rolf Andersen, 18/2-2013

Proteiner: en introduktion. Modul 1; F13 Rolf Andersen, 18/2-2013 Proteiner: en introduktion Modul 1; F13 Rolf Andersen, 18/2-2013 4 facts om proteiner Proteiner udgør én af de vigtigste stofgrupper i vores organisme; de varetager en lang række forskellige funktioner.

Læs mere

PCR (Polymerase Chain Reaction): Opkopiering af DNA

PCR (Polymerase Chain Reaction): Opkopiering af DNA PCR (Polymerase Chain Reaction): Opkopiering af DNA PCR til at opkopiere bestemte DNA-sekvenser i en prøve er nu en af genteknologiens absolut vigtigste værktøjer. Peter Rugbjerg, Biotech Academy PCR (Polymerase

Læs mere

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET INSTITUT FOR DTOI, RUS UNIVERSITET Science and Technology ESEN lgoritmer og Datastrukturer (00-ordning) ntal sider i opgavesættet (incl. forsiden): (elleve) Eksamensdag: Fredag den. juni 0, kl. 9.00-.00

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturvidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Antal sider i opgavesættet (incl. forsiden): 6 (seks) Eksamensdag: Mandag den 11. august 008, kl.

Læs mere

Epigenetik Arv er andet end gener

Epigenetik Arv er andet end gener Epigenetik Arv er andet end gener Indhold Indledning Afsnit1: Epigenetik og DNA Afsnit 2: DNA, nukleosomer og kromatin Afsnit 3: Epigenetik og celledifferentiering Afsnit 4: Genetisk ens individer kan

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (DM507)

Skriftlig Eksamen Algoritmer og Datastrukturer (DM507) Skriftlig Eksamen Algoritmer og Datastrukturer (DM507) Institut for Matematik og Datalogi Syddansk Universitet, Odense Onsdag den 0. juni 009, kl. 9 Alle sædvanlige hjælpemidler (lærebøger, notater, osv.)

Læs mere

Cellekernen (Nucleus) Sebastian Frische Anatomisk Institut

Cellekernen (Nucleus) Sebastian Frische Anatomisk Institut Cellekernen (Nucleus) Sebastian Frische Anatomisk Institut Cellekernen Cellekernens overordnede struktur kernemembranen/nucleolemma kromatin nucleolus Cellecyklus faser i cellecyklus faser i mitosen Størrelse:

Læs mere

Matematisk modellering og numeriske metoder. Lektion 16

Matematisk modellering og numeriske metoder. Lektion 16 Matematisk modellering og numeriske metoder Lektion 16 Morten Grud Rasmussen 6. november, 2013 1 Interpolation [Bogens afsnit 19.3 side 805] 1.1 Interpolationspolynomier Enhver kontinuert funktion f på

Læs mere

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET INSTITUT FOR DTLOGI, RHUS UNIVERSITET Science and Technology EKSEN lgoritmer og Datastrukturer (00-ordning) ntal sider i opgavesættet (incl. forsiden): 11 (elleve) Eksamensdag: Torsdag den 1. juni 01,

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere

Cellens livscyklus GAP2. Celledeling

Cellens livscyklus GAP2. Celledeling Cellens livscyklus Cellens livscyklus inddeles i to faser, interfase og mitose. GAP1 (G1). Tiden lige efter mitosen hvor der syntetiseres RNA og protein. Syntese fasen. Tidsrummet hvor DNAet duplikeres

Læs mere

BIOLOGI A-NIVEAU NY ORDNING. Tirsdag den 19. august 2008. Kl. 09.00 14.00 STX082-BIA STUDENTEREKSAMEN AUGUST 2008

BIOLOGI A-NIVEAU NY ORDNING. Tirsdag den 19. august 2008. Kl. 09.00 14.00 STX082-BIA STUDENTEREKSAMEN AUGUST 2008 STUDENTEREKSAMEN AUGUST 2008 BIOLOGI A-NIVEAU Tirsdag den 19. august 2008 NY ORDNING Kl. 09.00 14.00 Af opgaverne 1, 2, 3 og 4 skal tre og kun tre af opgaverne besvares STX082-BIA Undervisningsministeriet

Læs mere

Er der flere farver i sort?

Er der flere farver i sort? Er der flere farver i sort? Hvad er kromatografi? Kromatografi benyttes inden for mange forskellige felter og forskningsområder og er en anvendelig og meget benyttet analytisk teknik. Kromatografi bruges

Læs mere

Ekstraordinær re-eksamen 2015

Ekstraordinær re-eksamen 2015 Ekstraordinær re-eksamen 2015 Titel på kursus: Uddannelse: Semester: Introduktion til basalfagene Bachelor i Medicin og Medicin med Industriel Specialisering 1. semester Eksamensdato: 04-08-2016 Tid: kl.

Læs mere

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET STTUT FR DTG, RUS UVERSTET Science and Technology ESE ntal sider i opgavesættet (incl. forsiden): (elleve) Eksamensdag: Fredag den. juni 0, kl. 9.00-.00 Tilladte medbragte hjælpemidler: lle sædvanlige

Læs mere