Bioinformatik Algoritmiske Aspekter. Christian Nørgaard Storm Pedersen BRICS. Datalogisk Institut Aarhus Universitet.

Størrelse: px
Starte visningen fra side:

Download "Bioinformatik Algoritmiske Aspekter. Christian Nørgaard Storm Pedersen BRICS. Datalogisk Institut Aarhus Universitet."

Transkript

1 Bioinformatik Algoritmiske Aspekter Christian Nørgaard Storm Pedersen BRICS Datalogisk Institut Aarhus Universitet IT-C, April, 2001

2 Bioinformatik Bioinformatik er udvikling og anvendelse af algoritmer og programmer til indsamling, håndtering og analyse af biologisk data ifm. undersøgelser af biologiske processer... Virkeligheden Modeller Problemer Programmer DNA: A C C T C G G T... RNA: A U C G U A G G... Protein: Met Arg Leu... Input: a[1..n],b[1..m] Output: dist(a,b) D[0,0..m]=D[0..n,0]=0 FOR i=1 TO n DO FOR j=1 TO m DO D[i,j]= min(d[i-1,j-1] d(a[i],b[j]), D[i-1,j]1, D[i,j-1]1) OD OD RETURN D[n,m] A C G C G T CompBio dist(a,b) Bioinformatik involverer... - kendskab til den biologiske virkelighed - formulering af modeller og beregningsproblemer - design og analyse af algoritmer - konstruktion og brug af programmer Fokus afhænger af baggrund: Datalogi, biologi, statistik, medicin... Bioinformatik 1

3 Plan Vi vil fokusere på sekvens-analyse... Tirsdag d. 17. april Molekylær biologi, DNA, RNA og protein Indsamling af sekvensdata, shotgun sequencing Sammenligning af to sekvenser, edit afstand, alignment Forbedringer af model og algoritme, pladsforbrug... Tirsdag d. 24. april Søgning i databaser, lokal alignment Sammenligning af flere sekvenser, multipelt alignment Andre problemer, strukturforudsigelse, DNA Chips... Bioinformatik 2

4 Deoxyribo Nucleic Acid Bioinformatik fokuserer på molekylær og genetisk data... Et menneske består af celler. Hver celle indeholder bl.a. 46 kromosomer, DNA molekylær, som lagrer genetisk information, arvemassen : DNA opdaget i køers cellekerner 1953: DNAs dobbelt-helix struktur og Watson- Crick basepar A T og C G beskrevet 1960: Den genetiske kode brudt... Den menneskelige arvemasse, det human genome, er ca bp langt og indeholder ca gener (Feb 2001). Hvert gen indkoder et protein... Bioinformatik 3

5 Biologiske sekvenser Et gen udtrykkes ved at dets kodende DNA transskriberes til RNA som igen translateres til et protein, en sekvens af aminosyrer... transskription A A G G C C T U translation TTG CTG CGG transskription UUG CUG CGG translation Leu Leu Arg DNA S {A, C, G, T } transskription RNA S {A, C, G, U} translation Protein S Σ, Σ = 20 Bioinformatik 4

6 Indsamling af sekvensdata 1940 erne: Aminosyre sekvens for insulin [Sanger et al.] 1960 erne: 77 nukleotider af trna [Holley et al., 1965] 1970 erne: nukleotider af virus DNA [Sanger et al., Maxam and Gilbert, 1977] 1990 erne: bp lange DNA sekvenser... DNA Shotgun Sequencing opdel i små overlappende fragmenter ( bp) aflæs hver segment eksperimentielt sammensæt de aflæste segmenter gatg at at agc agat agg gaa at ta gcgc atc ggat aa at at gcg taga aggatgaaatatatatagcgctagatc Sequence Assembly find overlap, lav layout, find konsensus problemer hvis mange gentagelser Double-Barreled Shotgun Sequencing... Algoritmiske problemer er tæt knyttet til eksperimentielle metoder... Bioinformatik 5

7 Tilgængelige Genomer HAEMOPHILUS INFLUENZAE (1995) Størrelse 1.8 millioner basepar. Antal gener HSACCHAROMYCES CEREVISIA (GÆR) (1996) Størrelse 12.1 millioner basepar. Antal gener CAENORHABDITIS ELEGANS (ORM) (1998) Størrelse 97 millioner basepar. Antal gener ARABIDOPSIS THALIANA (December 2000) Størrelse 125 millioner basepar. Antal gener DROSOPHILA MELANOGASTER (FLUE) (Marts 2000) Størrelse 185 millioner basepar. Antal gener MUS MUSCULUS (Næsten færdigt, 3x dækning, Februar 2001) Størrelse 3000 millioner basepar. Antal gener HOMO SAPIENS (Juni 2000, Februar 2001) Størrelse 3000 millioner basepar. Antal gener Bioinformatik 6

8 Tilgængelig sekvensdata GenBank en database med DNA sekvenser med samlet længde bp (Dec 2000), Mange specialiserede databaser, f.eks. som lagre det humane genome. Annoteringer, opdateringer, krydsreferencer... Focus på WWW and DB teknologi... Bioinformatik 7

9 Evolution af genetisk materiale Genetisk materiale, DNA sekvenser, udvikles over tid ved mutationer... Translocations Inversions Genomer Duplications Insertions Gener Deletions Substitutions GTTATC ins GTTACTC del TTACTC sub TTGCTC TTGCTC dup TTGTTGCTC trans TGCTTGTTC inv CGTTTGTTC Parsimony princippet Den nemmeste vej er et godt estimat af evolutionen, dvs. sekvenser som ligner hinanden er beslægtede og opfører sig ens... Bioinformatik 8

10 Sammenligning af sekvenser En oplagt kilde til biologisk information... Alignment af to sekvenser Givet to sekvenser som er udviklet fra en fælles stamfar, konstruer et alignment således at baser i samme søjle er udviklet fra samme base i den fælles stamfar... C : TTGCTG A : TTG B : TTGCTC T T G T T G C T C insert TGC, G C Formulering af et beregningsproblem, rekonstruktion af evolutionen... - Hvordan ser den fælles stamfar ud? - Hvilke evolutionære hændelser kan ske? hvordan? Konstruktion af en biologisk rimelig og beregningsmæssig håndterlig evolutionær model er svært og fundamentalt problem... Bioinformatik 9

11 En simpel evolutionærmodel Husk parsimony princippet der siger at den nemmeste vej er et godt estimat af den evolutionære historie... Hvis hændelser er reversible, dvs. hvis s e s så også s e s, så... dist(a, B) = min { E 1 E 2 A E 1 C E 2 B} C,E 1,E 2 Insert Leu Leu TTGCTG G C = min { E 1 E 2 A E 1 C E 2 B} C,E 1,E 2 Leu TTG Leu Leu TTGCTC = min E { E A E B} G C Phe TTC Insert Nemmeste vej modelleres som den korteste vej eller billigste vej... Beregning af dist(a, B) og et optimalt edit-script E er et fundamentalt problem indenfor bioinformatik. Problemets kompleksitet afhænger af de tilladte hændelser og deres omkostning... Bioinformatik 10

12 To afstandsproblemer Inversions-afstand: Givet A = π(1,..., n) og B = π(1,..., n), der beskriver rækkefølgen af de samme gener i to organismer. Bestem det mindste antal inversioner der fører A over i B, f.eks. 4, 1, 3, 2, 5 1, 4, 3, 2, 5 1, 2, 3, 4, 5 Et af mange genome rearrangement problemer, men NP-fuldstændigt... Edit-afstand: Givet A Σ og B Σ, der beskriver to biologiske sekvenser. Bestem den billigste sekvens af subs og indels der fører A over i B, hvor en sub af a med b koster d(a, b) og en indel af k symboler koster g(k), f.eks. TTG TTGCTG TTGCTC, pris g(3) d(g, C) TTG TTC TTGCTC, pris d(g, C) g(3) Beregnelig i tid O(nm) under rimelige antagelser... Bioinformatik 11

13 Antagelser ifm. edit-afstand Nogle interessante spørgsmål... Hvor mange mulige edit-scripts er der mellem A og B? Hvor mange af disse skal overvejes for at sikre at et optimalt edit-script identificeres? Formulering af en algoritme kræver antagelser om omkostningsfunktionen sub-cost d(a, b) er en metrik, altså d(a, a) = 0 d(a, b) = d(b, a) d(a, b) d(a, c) d(c, b) gap-cost g(k) er sub-additiv, altså g(k) g(k ) g(k ), for alle k, k hvor k k = k Evolutionen har ingen retning og vælger den nemmeste løsning... Bioinformatik 12

14 Edit-afstand og alignment Hvis d(a, b) er en metrik og g(k) er sub-additiv, så kan et optimalt edit-script mellem A og B udtrykkes som et alignment... T T C G C C A T T G C C TTGCTC TGCTC CGCTC CCTC CCATC CCATGC g(1) d(t, C) g(1) g(1) g(1) T C T G C C T A T G C C TTGCTC CTGCTC CCTC CCAC CCATGC d(t, C) g(2) d(t, A) g(2) Parvis alignment: Givet to strenge A[1.. n] og B[1.. m], en metrisk sub-cost d(a, b), og en sub-additiv gap-cost g(k). Bestem et optimal alignment af A og B... Observation: Hvis g(k) = α k, altså lineær, så er prisen for et alignment blot summen af prisen for de enkelte søjler... Bioinformatik 13

15 Formulering af en rekursiv løsning Vi kan beregne dist(a, B) ved at beregne prisen for et optimalt alignment Lad D(i, j) være prisen for et optimalt alignment af A[1.. i] og B[1.. j]. Pr. definition haves D(0,0)=0. Vi kan udtrykke D(i, j) rekursivt ved at betrage den sidste søjle i mulige alignments af A[1.. i] og B[1.. j]. Der er tre muligheder... A[i] B[j ], A[i] or B[j ] Dette giver anledning til følgende rekursion... D(i 1, j 1) d(a[i], B[j]) i > 0 og j > 0 D(i, j) = min D(i 1, j) α i > 0 og j 0 D(i, j 1) α i 0 og j > 0 0 i = 0 og j = 0 D(n, m) er edit-afstanden mellem A og B... Bioinformatik 14

16 Dynamisk programmering func Dist(i,j): if D(i, j) = undef then v 1 = v 2 = v 3 = v 4 = undef if (i > 0) & (j > 0) then v 1 = Dist(i 1,j 1) d(a[i], B[j]) if (i > 0) & (j 0) then v 2 = Dist(i 1,j) α if (i 0) & (j > 0) then v 3 = Dist(i,j 1) α if (i = 0) & (j = 0) then v 4 = 0 D(i, j) = min(v 1, v 2, v 3, v 4 ) endif return D(i, j) endfunc D[0.. n][0.. m] = undef; Dist(n,m) Tid og plads O(nm) Bioinformatik 15

17 En ikke-rekursiv implementation Jvf. rekursion afhænger indgang (i, j) i tabel D kun af indgange i samme og forrige række. Dette kan bruges til at udfylde tabel D iterativt... /* initialisering */ for i = 0 to n do D[i][0] = i α for j = 0 to m do D[0][j] = j α /* udfyld række for række */ for j = 1 to m do endfor for i = 1 to n do endfor D(i, j) = print D(n, m) min(d(i 1, j 1) d([a[i], B[j]), D(i 1, j) α, D(i, j 1) α) D(n, m) er edit-afstanden, men hvordan fås et optimalt alignment? Ved back-tracking i tid O(n m)... Bioinformatik 16

18 Længste fælles delsekvens Beregning af et optimalt alignment har mange anvendelser... Den længste fælles delsekvens af to strenge A[1.. n] og B[1.. m] er A[i 1 ], A[i 2 ],..., A[i k ], hvor i 1, i 2,..., i k {1, 2,..., min(n, m)} så A[i j ] = B[i j ] og k er maksimal, f.eks. LCS(CGATAATTGAG,GTTCCTAAT) = GTAAT Svarer til et optimalt alignment for passende valg af sub-cost og gap-cost. Overvej hvilke? C G A T A A T T G A G G T T C C T A A T Vi kan således beregne LCS i tid O(nm), men det er faktisk muligt at beregne LCS i tid O(n log n) jvf. [Hirschberg 1977]... Bioinformatik 17

19 En beslægtet algoritme Ønsker ofte at fremhæve similariteter mellem to strenge. Hvis to biologiske sekvenser ligner hinanden, så har de sikkert et eller andet tilfælles... C G A T A A T T G A G G T T C C T A A T Typisk tildeles en score/straf til mulige søjler i et alignment score s(a, b) for en match-søjle ( ) a b straf α for en gap-søjle ( ( a ) eller ) b Beregn et alignment med maksimal score sim(a, B). Dette kan beregnes tilsvarende dist(a, B), blot anvendes max istedet for min... S(i, j) = max S(i 1, j 1) s(a[i], B[j]) i > 0 og j > 0 S(i 1, j) α i > 0 og j 0 S(i, j 1) α i 0 og j > 0 0 i = 0 og j = 0 Bioinformatik 18

20 Algoritmens oprindelse - V. I. Levenshtein. Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics Doklady, T. K. Vintsyuk. Speech discrimination by dynamic programming. Kibernetika, S. B. Needleman and C. D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology, D. Sankoff. Matching sequences under deletion/insertion constraints. Proc. of the National Academy of Science of the USA, R. A. Wagner and M. J. Fisher. The string to string correction problem. Journal of the ACM, P. H. Sellers. On the theory and computation of evolutionary distance. SIAM Journal of Applied Mathematics, Alle omhandler samme problem, forskellige anvendelser... Bioinformatik 19

21 Forbedringer af model og algoritme Beregning af edit-afstand er kernen i mange anvendelser. Kan forfines vha. pris for hændelser, f.eks. substitution-cost d(x, y) and gap-cost g(k)... Hvis lineær gap-cost g(k) = ak så tid O(n 2 ), generelt tid O(n 3 ) Leu TTG T T G C T C C C A T G C versus T T G C T C C C A T G C d(t, C) g(2) d(t, A) g(2) Insert G C Leu Leu TTGCTG Phe TTC G Insert C Leu Leu TTGCTC Korte insertions og deletions er sjældne... affin gap-cost g(k) = ak b i tid O(n 2 ) [Gotoh, 1982] convex gap-cost i tid O(n 2 log n) [Miller og Myers, 1988] Anden biologisk information... indkodet protein i tid O(n 2 ) [Hein, Lyngsø og Pedersen, 1998] RNA sekundær-struktur i tid O(n 6 ) [Sankoff, 1985] Bioinformatik 20

22 Er tid og plads O(nm) godt nok? Afhænger af længden af typiske sekvenser... Antag n = m = og at vores maskine kan udføre op/sek, så Tid: Begrænsning af tid og plads op op/sek = 1 sek Plads: celler 100 Mb Mange heuristikker, f.eks. kun at beregne et bånd omkring diagonalen i tabellen... T GC A T C T T G C T C Længste fælles delsekvens i tid O(n2 ) og plads O(n) En meget anvendelig teknik [Hirschberg, 1975]... men ikke anvendt i praksis før sidst i 1980 erne!! [Myers and Millers, 1989] Bioinformatik 21

23 Lokal alignment Nogle gange er det mere hensigtsmæssigt blot at lede efter områder i to strenge der er meget lig hinanden... F.eks. ved sammenligning af lange stykker ukendt DNA, som måske deler et gen, eller ved sammenligning af fjernt beslægtede proteiner proteiner... Lokal alignment: Givet to strenge A[1.. n] og B[1.. m] og et similaritetsmål Sim(A, B). Find et par af delstrenge α af A og β af B, så Sim(α, β) er maksimal over alle mulige valg af α og β, altså: LocalSim(A, B) = max α,β Sim(α, β) Doolittle: The underlying message is that one must be alert to regions of similarity even when they occur embedded in an overall background of dissimilarity. Bioinformatik 22

24 Lokal alignment, overvejelser Antag at Sim(A, B) er givet ved score s(a, b) for en match-søjle ( ) a b straf α for en gap-søjle ( a ) eller ( b Beregning af Sim(A, B) tager tid O(nm)... ) Beregning af LocalSim(A, B)? Der er Θ(n 2 m 2 ) mulige par af delstrenge α og β. Den trivielle beregning af Sim(α, β) for alle mulige par tager således tid Θ(n 3 m 3 )!! Kan vi gøre det bedre? [Smith and Waterman, 1981] Bioinformatik 23

25 Lokal alignment, algoritme, del 1 Vi har... α = A[h 1.. i], for 0 h i n β = B[k 1.. j] for 0 k j m Vi kan således opskrive: LocalSim(A, B) = max i,j max Sim(A[h 1.. i], B[k 1.. j]) h i,k j } {{ } v(i,j) = max i,j v(i, j) Hvis v(i, j) er kendt for 0 i n og 0 j m, så kan vi beregne LocalSim(A, B) i tid O(nm)... Specialtilfælde: Hvad med resten... v(0, 0) = Sim(A[1.. 0], B[1.. 0] ) = S(0, 0) = 0 } {{ } } {{ } ɛ ɛ Bioinformatik 24

26 Lokal alignment, algoritme, del 2 Vi har at v(i, j) er scoren af et optimalt alignment... ([ ]) v(i, j) = OPT A[h 1.. i] B[k 1.. j] Vi kan opskrive denne score ved at betrage flg. tilfælde: Hvis h = i og k = j så v(i, j) = Sim(ɛ, ɛ) = 0. Ellers A[h 1.. i 1] A[i] B[k 1.. j 1] B[j], så v(i 1, j 1) s(a[i], B[j]). 2. A[h 1.. i] B[k 1.. j 1] B[j], så v(i, j 1) α). 3. A[h 1.. i 1] A[i] B[k 1.. j], så v(i 1, j) α). Bioinformatik 25

27 Lokal alignment, algoritme, del 3 LocalSim(A, B) = max Sim(α, β) = max v(i, j), hvor... α,β i,j v(i 1, j 1) s(a[i], B[j]) i > 0 og j > 0 v(i 1, j) α i > 0 og j 0 v(i, j) = max v(i, j 1) α i 0 og j > 0 0 i 0 og j 0 Algoritme... Udfyld v-tabellen række for række, tid O(nm) Find indgang (i, j ) så v(i, j ) = max v(i, j), tid O(nm) Back-track fra (i, j ) til (h, k), hvor v(h, k) = 0, tid O(n m) Sim(A[h 1.. i ], B[k 1.. j ]) = v(i, j ) = max v(i, j) = LocalSim(A, B) α β i,j Bioinformatik 26

28 Søgning i sekvensdatabaser Søg efter agta i... Givet q, find s i {s 1, s 2,..., s t } er mest lig q ctttccagttaaggtggggtcgaa 2. agctcctcgctctacctc 3. ggttagcaggtcgaatctccg. s i = argmax si LocalSim(s i, q) Udførelsestid O( s i q ) = O(N q) Genbank, bp i sekv. Hvis q = 1000, så op op/s 30t Heuristiske metoder, f.eks. BLAST, FASTA søgning efter hot-spots hvor fragmenter af q forekommer eksakt i s vha. indeks over s udvid og sammenkæd hot-spots giver tid O(n m) i praksis... Bioinformatik 27

29 Sekvensanalyse s 1 VTISCTGSSSNIGAG-NHVKWYQQLPG s 2 VTISCTGTSSNIGS--ITVNWYQQLPG s 3 LRLSCSSSGFIFSS--YAMYWVRQAPG s 4 LSLTCTVSGTSFDD--YYSTWVRQPPG s 5 PEVTCVVVDVSHEDPQVKFNWYVDG-- s 6 ATLVCLISDFYPGA--VTVAWKADS-- s 7 AALGCLVKDYFPEP--VTVSWNSG--- s 8 VSLTCLVKGFYPSD--IAVEWESNG-- Sammenligning af flere sekvenser... - afsløre svage ligheder - afdække evolutionære sammenhænge Man Gorilla Mouse Bird Alligator Meget svært at modellere og beregne!! Søgning efter gener... - analyse af en enkelt sekvens - sammenligning af beslægtede sekvenser; gener er mere velbevarede end ikke-kodende DNA Fokus på analyse af hele genomer, store datamængder... Bioinformatik 28

30 En, to, mange Det er ofte interessant at konstruere et multiplet alignment af k sekvenser s 1,..., s k, f.eks. til identifikation af svage ligheder... Ved sum of-pairs score defineres prisen for et multipelt alignment til cost s i 1 i<j k s 1. s k Et optimal SP-alignment kan beregnes i tid og plads O(n k ). Metoden er tilsvarende parvis alignment, altså kig på mulige sidste søjler... NP-fuldstændigt [Wang et al., 1994] 2 l k approksimation i tid O(k3 (2n) 2l5 ) [Bafna et al., 1994] s j Bioinformatik 29

31 Fylogeni Evolutionært træ Et træ der beskriver slægtskabet mellem arterne... Mouse Bird Alligator Man Gorilla En fylogeni kan være rodfæstet eller ikke-rodfæstet, have grenlængder, have begrænsninger på graden af indre knuder etc. Mange mulige modeller... Typiske problemer Bestem prisen for en fylogeni, hvor arterne er sekvenserne s 1,..., s k Bestem den korrekte fylogeni for en mængde af arter, hvor arterne er givet ved sekvenserne s 1,..., s k Sammenligning af to fylogenier... Bioinformatik 30

32 Prisen for en fylogeni Parsimony Optælling af mutationer {C}/2 Vægtning af mutationer A : 5 G : 5 C : 4 T : 6 {A, C}/1 {C, G}/1 A : 2 G : 3 A : 3 G : 2 C : 2 T : 3 C : 2 T : 3 {A}/0 C C G A A A : 0 G : 2 C : 4 T : 4 C C G Metode: Beregn prisen for alle mulige fylogenier... A A Problem: For k sekvenser er der 3 5 (2k 3) mulige rodfæstede fylogenier d(x, Y ) = 0 hvis X = Y 1 hvis {X, Y } {{A, G}, {C, T }} 2 ellers Bioinformatik 31

33 Eksempel Tandlægen En tandlæge var mistænkt for at overføre HIV til nogle af sine patienter. Fylogenien er for HIV fra tandlægen, patienterne, og fire tilfælde fra den lokale befolkning. Patienterne i dental clade havde ingen andre identificerede riskofaktorer end tandlægen, mens patentierne der ikke er i dental clade havde andre risikofaktorer. Bioinformatik 32

34 Multipelt alignment igen Sum-of-pairs score for multipelt alignment modellerer ikke at biologiske sekvenser er relateret i en træstruktur... Istedet skulle vi løse the large Parsimony problem: a {1,2,3} a {1,2} s 3 s 1 s 2 a {4,5} s 4 s 5 For en mængde bestående af k sekvenser, find en fylogeni og stamsekvenser til alle indre knuder således at summen af den postulerede evolution langs kanterne er minimal... Ækvivalent til Steiner-træ problemet i Σ, d(, ) hvor Σ er alfabetet og d(, ) er målet for evolutionær-afstand. Bioinformatik 33

35 Biomolekylære strukturer Et gen afslører kun beskrivelsen af et protein... Strukturen af et biomolekyle er også interessant, f.eks. så skyldes Creutzfeldt Jakob sygdommen en strukturel ændring af prioner... Strukturer klassiferes ofte i tre niveauer... Primær Sekundær Tertiær AAUCUGC Met Asp Phe Bioinformatik handler også om indsamling og analyse af strukturer... Bioinformatik 34

36 Tilgængelig struktureldata Protein Data Bank en database med protein-strukturer (Feb 2001)... sammenlign dette med de DNA sekvenser med en samlet længde på bp gemt i GenBank (Dec 2000) Strukturer indsamles ved tidskrævende eksperimentielle metoder... Røngten krystallografi (11.863), NMR (2217), Teoretisk modellering (311) Bioinformatik 35

37 Strukturforudsigelse Et protein folder i løbet af få millisekunder til en unik struktur... Et godt estimat af native state er en struktur med et minimum af fri energi... Der få meget forskellige strukturer. Måske kun omkring 1000!! Formulering af strukturforudsigelse som et beregningsproblem... - homologi, brug strukturelementer fra relaterede sekvenser med kendt struktur som udgangspunkt... - threading, tråd sekvensen på repræsentative strukturer. Vælg den der passer bedst... - simulering, minimering af fri energi... Bioinformatik 36

38 Minimering af fri energi Model: Beskriv protein, lovlige foldninger og energi-funktion... Problem: Givet et protein, find lovlig foldning(er) med minimum fri-energi non-local bond HP modellen En simpel gitter-model Dannelse af en hydrofob-kerne er en af de væsentligste drivkrafter ifm. proteinfoldning... - et protein er S {0, 1} der beskriver hydrofobe og hydrofile aminosyrer - en folding er en indlejring i et 2D gitter - den fri-energi afh. af antal ikke-lokale bindinger Svært!! Ingen visuelle ligheder, men adfærdsmæssige ligheder, og... [Hart & Istrail, 1995] beskriver en approksimations-algoritme der i tid O( S ) beregner en foldning af S med energi 1/4 OPT(S)... Bioinformatik 37

39 Hart og Istrails algoritme EVEN (S) = hydrofober i S på positioner med lige index ODD(S) = hydrofober i S på positioner med ulige index Observer at OPT(S) 2 min{ EVEN (S), ODD(S) }(2) Opdel S i to dele således at S 1 EVEN (S 1 ) EVEN (S) /2 og ODD(S 1 ) ODD(S) /2 S 2 Vi kan folde et loop med et lige antal symboler, hvilket giver sekvensen et nyt ansigt... Ansigt Loops Fold S 1 og S 2 så deres ansigter har en hydrofob i hver anden position og fold dem mod hinanden Scoren er 1/2 min{ EVEN (S), ODD(S) } 1/4 OPT(S) Bioinformatik 38

40 Mulige forbedringer Der er tre oplagte ideer til forbedring af algoritmen... En U-foldning fjerner kravet om ens paritet... En optimal U-foldning af S kan beregnes i tid O( S 2 ) S = (10) i 0(10) i 00(10) i (01) i U-fold(S) = 1/4 OPT(S) En S-foldning tillader flere knæk... En optimal S-foldning af S kan beregnes i tid O( S 3 ) S = (10) i (0 2i1 1) 4i (10) i S-fold(S) = 1/4 OPT(S) En C-foldning tillader to knæk som bøjer de to ender af strengen mod hinanden... En optimal C-foldning af S kan beregnes i tide O( S 3 ) Analyse af Cirkel-problemet giver at... C-fold(S) R OPT(S) hvor 1/4 R 1/3 Bioinformatik 39

41 Cirkel-problemet Ikke-lokale bindinger langs rygraden i C-foldning af S giver en matching i den instans af cirkel-problemet der svarer til de hydrofobes paritet i S... Givet en balanceret cirkel Find en maksimal matching Givet en vilkårlig cirkel med n er og n er, hvor stor en matching kan vi altid finde? Nedregrænse Opdel cirklen i to halvdele og forbind er fra den halvdel med flest er til er i den anden halvdel. Det giver en nedregrænse på n 2 Øvregrænse k 2k k () k giver en øvregrænse på 2n 3 med n = 3k Kan disse grænser forbedres?... Bioinformatik 40

42 Cirkel-problemet, eksperiment Vi har beregnet minimum størrelsen af en matching i alle cirkler med n er og n er for n = 1, 2,..., 17 ved udtømmende søgning... Bioinformatik 41

43 Strukturelanalyse... viden om et proteins struktur er et meget vigtigt skridt mod at forstå dets funktionalitet Strukturer er mere velbevarede end sekvenser... Sammenligning af strukturer... - identifikation af fælles delstrukturer, f.eks. søgning efter proteiner med en specifik receptor site Mere end sekvensanalyse... - håndtering og visualisering af strukturel information - genkendelse af strukturer, computer vision... - interaktion mellem proteiner, docking... Bioinformatik 42

44 Genetiskanalyse Der findes kun to kortlægninger af det menneskelige genom!! - Celera s kortlægning er baseret på blodprøver fra fem forskellige personer af forskellig race... To humane genomer er 99,9% identiske, men stadig forskelle... SNP s og mutationer er skyld i forskellige former for kræft, Alzheimer... Der findes flere forskellige teknologier som gør det muligt at undersøge den genetiske sammensætning af arvemassen for enkelte individer... Bioinformatik 43

45 DNA chips, del 1 DNA chips eller microarrays er baseret på hybridisering... Teknik fra 1970 erne... Gør det muligt at søge efter delstrenge i genetisk materiale... Kan bruges til DNA sequencing, detektion af SNPs og undersøgelse af hvilke gener er udtrykkes, altså hvilke proteiner der produceres... Bioinformatik 44

46 DNA chips, del 2 Et gitter af probes, f.eks korte DNA sekvenser på 25 baser, udvalgt så hver gruppe af 40 prober identificerer et specifikt gen... Output: værdier der hver beskriver tilstedeværelsen af en probe i prøven Identifikation af tilstedeværelsen af gener Et forsøg koster ca kr, producerer ca. 50 Mb data!! Håndterings- og beregningsproblemer ifm. søgning efter mønstre, data mining... Meget fokus på genetisk diagnose, analyse af tilstedeværelse af gener... Bioinformatik 45

47 Bioinformatiske aktiviteter Data; sekvensdata, struktureldata, ekspressionsdata... DNA: A C C T C G G T... RNA: A U C G U A G G... Protein: Met Arg Leu... Modeller; sekvensevolution, strukturdannelse, udtryk af gener, proteiners funktion og samspil... Input: a[1..n],b[1..m] Output: dist(a,b) D[0,0..m]=D[0..n,0]=0 FOR i=1 TO n DO FOR j=1 TO m DO D[i,j]= min(d[i-1,j-1] d(a[i],b[j]), D[i-1,j]1, D[i,j-1]1) OD OD RETURN D[n,m] Metoder; strengalgoritmer, mønstergenkendelse, optimering, data-mining, visualisering, simulering... A C G C G T CompBio dist(a,b) Programmer; databaser, wwwb, grænseflader... Dækkes af traditionelle områder; biologi, statistik, datalogi... Men bioinformatik handler om at fokusere på anvendelsen, dvs. design og konstruktion af programmer og algoritmer til analyse af biologisk data Store mængder af ikke udforsket data... Bioinformatik 46

48 Mere information Masser af information tilgængelig via Århus NCBI Protein Data Bank Celera Genomics ExPaSy og for links... Bioinformatik 47

Bioinformatik Algoritmiske Aspekter. Christian Nørgaard Storm Pedersen BRICS. Datalogisk Institut Aarhus Universitet.

Bioinformatik Algoritmiske Aspekter. Christian Nørgaard Storm Pedersen BRICS. Datalogisk Institut Aarhus Universitet. Bioinformatik Algoritmiske Aspekter hristian Nørgaard Storm Pedersen BRIS Datalogisk Institut Aarhus Universitet IT-, April, 2001 Bioinformatik Bioinformatik er udvikling og anvendelse af algoritmer og

Læs mere

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse Per Tøfting 23. september 2008 Speciale i softwarekonstruktion IT-Vest Aarhus Universitet Agenda Formål microrna Strategien

Læs mere

Bioinformatik Open Source Software i biologiens tjeneste

Bioinformatik Open Source Software i biologiens tjeneste Bioinformatik Open Source Software i biologiens tjeneste Kenneth Geisshirt kneth@silex.dk Silex Science ApS Bioinformatik p.1/19 Om Silex Science ApS Grundlagt maj 2002 Ejeren er Cortex Holding Fokusområderne

Læs mere

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Side 1 af 14 Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Navn: Studie nummer: Dette eksamenssæt vil også kunne ses som en pdf fil nederst på kursus-hjemmesiden udfor den sidste dag d. 27 Jan

Læs mere

Genetiske afstande og afstandsmatricer

Genetiske afstande og afstandsmatricer Genetiske afstande og afstandsmatricer Denne vejledning indeholder en række små øvelser og opgaver der illustrerer, hvordan man ud fra genetiske sekvenser kan udregne en gennemsnitlig evolutionær afstand

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer 2 (2003-ordning)

Skriftlig Eksamen Algoritmer og Datastrukturer 2 (2003-ordning) Skriftlig Eksamen Algoritmer og Datastrukturer 2 (2003-ordning) Datalogisk Institut Aarhus Universitet Fredag den 28. maj 2004, kl. 9.00 13.00 Opgave 1 (20%) En (r, k) kryds-graf er en orienteret graf

Læs mere

Implementation of MUSCLE using GPU

Implementation of MUSCLE using GPU Implementation of MUSCLE using GPU Peter Sandberg Brun, 20073790 Mads Sandberg Brun, 20073791 Master s Thesis, Computer Science September 2012 Advisor: Christian Nørgaard Storm Pedersen ii Abstract This

Læs mere

Introduktion. Introduktion. Algoritmer og datastrukturer. Eksempel: Maksimalt tal

Introduktion. Introduktion. Algoritmer og datastrukturer. Eksempel: Maksimalt tal Philip Bille Algoritmer og datastrukturer Algoritmisk problem. Præcist defineret relation mellem input og output. Algoritme. Metode til at løse et algoritmisk problem. Beskrevet i diskrete og entydige

Læs mere

Introduktion. Algoritmer og datastrukturer Toppunkter Algoritme 1 Algoritme 2 Algoritme 3. Philip Bille

Introduktion. Algoritmer og datastrukturer Toppunkter Algoritme 1 Algoritme 2 Algoritme 3. Philip Bille Introduktion Algoritmer og datastrukturer Toppunkter Algoritme 1 Algoritme 2 Algoritme 3 Philip Bille Introduktion Algoritmer og datastrukturer Toppunkter Algoritme 1 Algoritme 2 Algoritme 3 Algoritmer

Læs mere

Immunologisk bioinformatik

Immunologisk bioinformatik Immunologisk bioinformatik Øvelsesvejledning Introduktion til øvelsen Når man i dagligdagen taler om influenza, bliver virussen ofte forbundet med forbigående og ufarlig sygdom. Som regel har mennesker

Læs mere

Danmarks Tekniske Universitet. Kursus navn: Introduktion til Bioinformatik. Kursus nummer: Hjælpemidler: alle.

Danmarks Tekniske Universitet. Kursus navn: Introduktion til Bioinformatik. Kursus nummer: Hjælpemidler: alle. 1 Danmarks Tekniske Universitet Skriftlig prøve, den 23. maj 2012 Side 1 af 10 sider Kursus navn: Introduktion til Bioinformatik Kursus nummer: 27611 Hjælpemidler: alle Varighed: 4 timer Vægtning: Angivet

Læs mere

Søgning og Sortering. Søgning og Sortering. Søgning. Linæer søgning

Søgning og Sortering. Søgning og Sortering. Søgning. Linæer søgning Søgning og Sortering Søgning og Sortering Philip Bille Søgning. Givet en sorteret tabel A og et tal x, afgør om der findes indgang i, så A[i] = x. Sorteret tabel. En tabel A[0..n-1] er sorteret hvis A[0]

Læs mere

Søgning og Sortering. Philip Bille

Søgning og Sortering. Philip Bille Søgning og Sortering Philip Bille Plan Søgning Linæer søgning Binær søgning Sortering Indsættelsesortering Flettesortering Søgning Søgning 1 4 7 12 16 18 25 28 31 33 36 42 45 47 50 1 2 3 4 5 6 7 8 9 10

Læs mere

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier Isa Kirk Biotech Academy Institut for Systembiologi, Danmarks Tekniske Universitet 2. november 2010 1 Indhold 1 Introduktion

Læs mere

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik Side 1 of 13 Danmarks Tekniske Universitet Skriftlig prøve, den 20/1-2014 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Tirsdag den 27. maj 2003, kl. 9.00 3.00 Opgave (25%) For konstanten π = 3.4592... gælder identiteten π 2 6 =

Læs mere

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik Side 1 of 12 Danmarks Tekniske Universitet Skriftlig prøve, den 20/1-2014 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

27611 Eksamen Sommer 2008

27611 Eksamen Sommer 2008 27611 Eksamen Sommer 2008 Dette sæt indeholder 10 opgaver. En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan under selve eksamen ( juni 2008 klokken 15:00-19:00). DNA/Protein

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur blandt mange mulige. Dynamisk programmering Optimeringsproblem: man ønsker at finde

Læs mere

Søgning og Sortering. Søgning Linæer søgning Binær søgning Sortering Indsættelsessortering Flettesortering. Philip Bille

Søgning og Sortering. Søgning Linæer søgning Binær søgning Sortering Indsættelsessortering Flettesortering. Philip Bille Søgning og Sortering Søgning Linæer søgning Binær søgning Sortering Indsættelsessortering Flettesortering Philip Bille Søgning og Sortering Søgning Linæer søgning Binær søgning Sortering Indsættelsessortering

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet side af sider Danmarks Tekniske Universitet Skriftlig prøve, den 6. maj 0. Kursusnavn: Algoritmer og datastrukturer I Kursus nr. 005. Tilladte hjælpemidler: Skriftlige hjælpemidler. Varighed: timer Vægtning

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Et algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Har en hvis lighed med divide-and-conquer: Begge opbygger løsninger til større problemer

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Side 1 of 14 Danmarks Tekniske Universitet Skriftlig prøve, den 21/1-2013 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur (struktur opbygget af et endeligt antal enkeltdele) blandt mange mulige. Eksempler:

Læs mere

Perspektiverende Datalogikursus

Perspektiverende Datalogikursus Perspektiverende Datalogikursus Uge 1 - Algoritmer og kompleksitet Gerth Stølting Brodal 27. august 2004 1 Indhold Mere om Eksempler på beregningsproblemer Algoritmer og deres analyse Korrekthed af algoritmer

Læs mere

Danmarks Tekniske Universitet. Løsningsforslag til Øvelse i Immonologisk Bioinformatik

Danmarks Tekniske Universitet. Løsningsforslag til Øvelse i Immonologisk Bioinformatik Danmarks Tekniske Universitet Løsningsforslag til Øvelse i Immonologisk Bioinformatik Indledning De følgende sider giver en gennemgang af de øverlser i har lavet under jeres besøg på DTU, som en del af

Læs mere

Perspektiverende Datalogikursus

Perspektiverende Datalogikursus Perspektiverende Datalogikursus Uge 1 - Algoritmer og kompleksitet Gerth Stølting Brodal 2. september 2005 1 Afleveringsopgaver... /\.. // \\ / \ / [] \ \\_// / \ / \ []._. ---------------- _ 2 Øvelse

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Mandag den 27. maj 2002, kl. 9.00 13.00 Opgave 1 (25%) Denne opgave handler om multiplikation af positive heltal.

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturvidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Antal sider i opgavesættet (incl. forsiden): 6 (seks) Eksamensdag: Onsdag den 11. august 2004, kl.

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (DM507)

Skriftlig Eksamen Algoritmer og Datastrukturer (DM507) Skriftlig Eksamen Algoritmer og Datastrukturer (DM507) Institut for Matematik og Datalogi Syddansk Universitet, Odense Onsdag den 0. juni 009, kl. 9 Alle sædvanlige hjælpemidler (lærebøger, notater, osv.)

Læs mere

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Side1af14 Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Navn: Studie nummer: Dette eksamenssæt vil også kunne ses som en pdf fil nederst på kursus-hjemmesiden udfor den sidste dag d. 27 Jan

Læs mere

Perspektiverende Datalogi Klassiske Algoritmer

Perspektiverende Datalogi Klassiske Algoritmer Perspektiverende Datalogi Klassiske Algoritmer Gerth Stølting Brodal 1 Indhold Eksempler på beregningsproblemer Algoritmer og deres analyse Korrekthed af algoritmer Ressourceforbrug for algoritmer Kompleksitet

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Side 1 of 17 Danmarks Tekniske Universitet Skriftlig prøve, den 21/1-2013 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturvidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Antal sider i opgavesættet (incl. forsiden): 6 (seks) Eksamensdag: Fredag den 25. juni 200, kl. 9.00-.00

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturvidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Algoritmer og Datastrukturer (00-ordning) Antal sider i opgavesættet (incl. forsiden): 7 (syv) Eksamensdag:

Læs mere

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Side1af13 Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13 Navn: Studie nummer: Dette eksamenssæt vil også kunne ses som en pdf fil nederst på kursus-hjemmesiden udfor den sidste dag d. 27 Jan

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet side af sider Danmarks Tekniske Universitet Skriftlig prøve, den. maj 00. Kursusnavn Algoritmer og datastrukturer I Kursus nr. 005. Tilladte hjælpemidler: Alle skriftlige hjælpemidler. Vægtning af opgaverne:

Læs mere

Dynamisk programmering. Flere eksempler

Dynamisk programmering. Flere eksempler Dynamisk programmering Flere eksempler Eksempel 1: Længste fælles delstreng Alfabet = mængde af tegn: {a,b,c,...,z}, {A,C,G,T}, {,1} Streng = sekvens x 1 x 2 x 3... x n af tegn fra et alfabet: helloworld

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Onsdag den. august 200, kl. 9.00.00 Opgave (25%) Lad A = A[] A[n] være et array af heltal. Længden af det længste

Læs mere

Dynamisk programmering. Flere eksempler

Dynamisk programmering. Flere eksempler Dynamisk programmering Flere eksempler Eksempel 1: Længste fælles delstreng Alfabet = mængde af tegn: {a,b,c,...,z}, {A,C,G,T}, {,1} Eksempel 1: Længste fælles delstreng Alfabet = mængde af tegn: {a,b,c,...,z},

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Eksamen 005, F0 side af sider Danmarks Tekniske Universitet Skriftlig prøve, den 6. maj 00. Kursusnavn Algoritmik og datastrukturer I Kursus nr. 005. Tilladte hjælpemidler: Alle skriftlige hjælpemidler.

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturvidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Antal sider i opgavesættet (incl. forsiden): 6 (seks) Eksamensdag: Mandag den 11. august 008, kl.

Læs mere

Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO) Mm2: Rekursive algoritmer og rekurrens - October 12, 2010

Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO) Mm2: Rekursive algoritmer og rekurrens - October 12, 2010 Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO) Mm2: Rekursive algoritmer og rekurrens - October 12, 2010 1 Algorithms and Architectures II 1. Introduction to analysis and design of algorithms

Læs mere

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik Datalogi C, RUC Forelæsning 22. november 2004 Henning Christiansen Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik Dagens program Hvad

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturvidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Antal sider i opgavesættet (incl. forsiden): 6 (seks) Eksamensdag: Fredag den 0. august 00, kl. 9.00-.00

Læs mere

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer)

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer) Elevvejledning til det Virtuelle Kræftlaboratorium Det Virtuelle Kræftlaboratorium stiller krav til en grundig forståelse af det centrale dogme inden for molekylærbiologien, hvordan DNA oversættes til

Læs mere

Mm7: A little bit more about sorting - and more times for exercises - November 4, 2008

Mm7: A little bit more about sorting - and more times for exercises - November 4, 2008 Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO), Jimmy Jessen Nielsen (JJE) Mm: A little bit more about sorting - and more times for exercises - November 4, 2008 1 Algorithms and Architectures

Læs mere

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET INSTITUT FOR ATALOGI, AARHUS UNIVERSITET Science and Technology EKSAMEN Algoritmer og atastrukturer (00-ordning) Antal sider i opgavesættet (incl. forsiden): (elleve) Eksamensdag: Fredag den. august 0,

Læs mere

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik Side 1 of 11 Danmarks Tekniske Universitet Skriftlig prøve, den 22/1-2015 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for

Læs mere

Introduktion. Philip Bille

Introduktion. Philip Bille Introduktion Philip Bille Plan Algoritmer og datastrukturer Toppunkter Algoritme 1 Algoritme 2 Algoritme 3 Algoritmer og datastrukturer Hvad er det? Algoritmisk problem: præcist defineret relation mellem

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet side af 2 sider Danmarks Tekniske Universitet Skriftlig prøve, den 26. maj 2009. Kursusnavn Algoritmik og datastrukturer I Kursus nr. 0205. Tilladte hjælpemidler: Alle skriftlige hjælpemidler. Vægtning

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet side af sider Danmarks Tekniske Universitet Skriftlig prøve, den 6. maj 0. Kursusnavn: Algoritmer og datastrukturer Kursus nr. 06. Tilladte hjælpemidler: Skriftlige hjælpemidler. Varighed: timer Vægtning

Læs mere

Ny teknologi til analyse af vores gener ændrer måden, vi forebygger og behandler sygdom på. Nye markedsmuligheder for Exiqon

Ny teknologi til analyse af vores gener ændrer måden, vi forebygger og behandler sygdom på. Nye markedsmuligheder for Exiqon Ny teknologi til analyse af vores gener ændrer måden, vi forebygger og behandler sygdom på Nye markedsmuligheder for Exiqon De seneste års store teknologiske gennembrud har gjort, at vi i dag nemt og økonomisk

Læs mere

NY TEKNOLOGI TIL ANALYSE AF VORES GENER ÆNDRER MÅDEN VI FOREBYGGER OG BEHANDLER SYGDOM PÅ NYE MARKEDSMULIGHEDER FOR EXIQON

NY TEKNOLOGI TIL ANALYSE AF VORES GENER ÆNDRER MÅDEN VI FOREBYGGER OG BEHANDLER SYGDOM PÅ NYE MARKEDSMULIGHEDER FOR EXIQON NY TEKNOLOGI TIL ANALYSE AF VORES GENER ÆNDRER MÅDEN VI FOREBYGGER OG BEHANDLER SYGDOM PÅ NYE MARKEDSMULIGHEDER FOR EXIQON De sidste 5 års store teknologiske gennembrud har gjort, at vi i dag nemt og økonomisk

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet side af 2 sider Danmarks Tekniske Universitet Skriftlig prøve, den 2. maj 200. Kursusnavn Algoritmer og datastrukturer I Kursus nr. 0205. Tilladte hjælpemidler: Alle skriftlige hjælpemidler. Vægtning af

Læs mere

Orienterede grafer. Orienterede grafer. Orienterede grafer. Vejnetværk

Orienterede grafer. Orienterede grafer. Orienterede grafer. Vejnetværk Philip Bille Orienteret graf (directed graph). Mængde af knuder forbundet parvis med orienterede kanter. Vejnetværk Knude = vejkryds, kant = ensrettet vej. deg + (6) =, deg - (6) = sti fra til 6 8 7 9

Læs mere

Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO), Jimmy Jessen Nielsen (JJE) Mm2: Rekursive algoritmer og rekurrens - October 10, 2008

Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO), Jimmy Jessen Nielsen (JJE) Mm2: Rekursive algoritmer og rekurrens - October 10, 2008 Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO), Jimmy Jessen Nielsen (JJE) Mm2: Rekursive algoritmer og rekurrens - October 10, 2008 1 Algorithms and Architectures II 1. Introduction to analysis

Læs mere

Ideer til datalogiprojekter. Keld Helsgaun

Ideer til datalogiprojekter. Keld Helsgaun Ideer til datalogiprojekter Keld Helsgaun 1 Keld Helsgaun Forskning: kombinatorisk optimering heuristisk søgning (kunstig intelligens) programmeringsværktøjer Undervisning: programmering, datastrukturer

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet side af sider Danmarks Tekniske Universitet Skriftlig prøve, den. maj 00. Kursusnavn Algoritmer og datastrukturer Kursus nr. 06. Tilladte hjælpemidler: Alle hjælpemidler. Vægtning af opgaverne: Opgave

Læs mere

Algoritmisk geometri

Algoritmisk geometri Algoritmisk geometri 1 Intervalsøgning 2 Motivation for intervaltræer Lad der være givet en database over ansatte i en virksomhed Ansat Alder Løn Ansættelsesdato post i databasen Antag, at vi ønsker at

Læs mere

Symmetrisk Traveling Salesman Problemet

Symmetrisk Traveling Salesman Problemet Symmetrisk Traveling Salesman Problemet Videregående Algoritmik, Blok 2 2008/2009, Projektopgave 2 Bjørn Petersen 9. december 2008 Dette er den anden af to projektopgaver på kurset Videregående Algoritmik,

Læs mere

27611 Eksamen Sommer 2007

27611 Eksamen Sommer 2007 - Side 1 af 10-27611 Eksamen Sommer 2007 Dette sæt indeholder 4 opgaver. En online version af opgavesættet vil være tilgængeligt fra kursets lektionsplan, under selve eksamen (25. Maj 2007 klokken 9:00

Læs mere

Geneious en manual til elevbrug

Geneious en manual til elevbrug REGN MED BIOLOGI SUPPLERENDE MATERIALE (4.3) Geneious en manual til elevbrug Indhold INTRODUKTION TIL GENEIOUS... 2 DATABASERNE HOS NCBI... 2 ORGANISÉR PROJEKTET... 3 SØGNING... 3 UDVIDET SØGNING... 4

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturvidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Antal sider i opgavesættet (incl. forsiden): 6 (seks) Eksamensdag: Fredag den 24. juni 2011, kl.

Læs mere

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Eksamen 02105, F14 side 1 af 14 Danmarks Tekniske Universitet Skriftlig prøve, den 22. maj 2014. Kursusnavn: Algoritmer og datastrukturer 1 Kursusnummer: 02105 Hjælpemidler: Skriftlige hjælpemidler. Det

Læs mere

Gen-identifikation ved sekvens-sammenligning. Tejs Scharling. Specialerapport. Datalogisk Institut Aarhus Universitet Danmark

Gen-identifikation ved sekvens-sammenligning. Tejs Scharling. Specialerapport. Datalogisk Institut Aarhus Universitet Danmark Gen-identifikation ved sekvens-sammenligning Tejs Scharling Specialerapport Datalogisk Institut Aarhus Universitet Danmark Gen-identifikation ved sekvens-sammenligning En specialerapport afleveret til

Læs mere

Skjulte Markov Modeller og Genidentifikation 2003

Skjulte Markov Modeller og Genidentifikation 2003 Aarhus Universitet 18. december 2003 Datalogisk Institut Ny Munkegade, Bldg. 540 8000 Århus C Skjulte Markov Modeller og Genidentifikation 2003 Niels Christian Bach 19951570 Torben Lauritzen 19940336 Dette

Læs mere

Sommeren 2001, opgave 1

Sommeren 2001, opgave 1 Sommeren 2001, opgave 1 Vi antager at k 3, da det ellers er uklart hvordan trekanterne kan sættes sammen i en kreds. Vi ser nu at for hver trekant er der en knude i kredsen, og en spids. Derfor er n =

Læs mere

Svar til sommereksamen 2014, opdateret maj 2016:

Svar til sommereksamen 2014, opdateret maj 2016: Svar til 27611 sommereksamen 2014, opdateret maj 2016: ER proteiner, KDEL motiv og KDEL receptor Opgave 1 - Karakterisering af KDEL receptoren Spørgsmål a: Der er 1776 proteiner i UniProt, der hedder "ER

Læs mere

Løs til optimalitet i eksponentiel tid Find tilnærmet løsning i polynomiel tid

Løs til optimalitet i eksponentiel tid Find tilnærmet løsning i polynomiel tid 6 april Løsning af N P -hårde problemer Løs til optimalitet i eksponentiel tid Find tilnærmet løsning i polynomiel tid Oversigt Grænseværdier (repetition) Branch-and-bound algoritmens komponenter Eksempler

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DATALOGISK INSTITUT, AARHUS UNIVERSITET Det Naturidenskabelige Fakultet EKSAMEN Grundkurser i Datalogi Antal sider i opgaesættet (incl. forsiden): 7 (sy) Eksamensdag: Mandag den 20. juni 2005, kl. 9.00-13.00

Læs mere

Intervalsøgning. Algoritmisk geometri. Motivation for intervaltræer. Intervalsøgning. Lad der være givet en database over ansatte i en virksomhed

Intervalsøgning. Algoritmisk geometri. Motivation for intervaltræer. Intervalsøgning. Lad der være givet en database over ansatte i en virksomhed Algoritmisk geometri Intervalsøgning 1 2 Motivation for intervaltræer Intervalsøgning Lad der være givet en database over ansatte i en virksomhed Ansat Alder Løn Ansættelsesdato post i databasen Vi kan

Læs mere

Analyse af algoritmer

Analyse af algoritmer Analyse af algoritmer Analyse af algoritmer Køretid Pladsforbrug Asymptotisk notation O, Θ og Ω-notation. Eksperimentiel analyse af algoritmer Philip Bille Analyse af algoritmer Analyse af algoritmer Køretid

Læs mere

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik Side 1 of 12 Danmarks Tekniske Universitet Skriftlig prøve, den 22/1-2015 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet side af 2 sider Danmarks Tekniske Universitet Skriftlig prøve, den 23. maj 20. Kursusnavn: Algoritmer og datastrukturer I Kursus nr. 0205. Varighed: 4 timer Tilladte hjælpemidler: Alle skriftlige hjælpemidler.

Læs mere

Svar til sommereksamen 2014, opdateret 30. april 2018:

Svar til sommereksamen 2014, opdateret 30. april 2018: Svar til 27611 sommereksamen 2014, opdateret 30. april 2018: ER proteiner, KDEL motiv og KDEL receptor Opgave 1 - Karakterisering af KDEL receptoren Spørgsmål a: Der er 2577 proteiner i UniProt, der hedder

Læs mere

28 Algoritmedesign. Noter. PS1 -- Algoritmedesign

28 Algoritmedesign. Noter. PS1 -- Algoritmedesign 28 Algoritmedesign. Algoritmeskabelon for Del og Hersk. Eksempler på Del og Hersk algoritmer. Binær søgning i et ordnet array. Sortering ved fletning og Quicksort. Maksimal delsums problem. Tætteste par

Læs mere

Definition : Et træ er en sammenhængende ikke-orienteret graf uden simple kredse. Sætning : En ikke-orienteret graf er et træ hvis og kun hvis der er

Definition : Et træ er en sammenhængende ikke-orienteret graf uden simple kredse. Sætning : En ikke-orienteret graf er et træ hvis og kun hvis der er Definition : Et træ er en sammenhængende ikke-orienteret graf uden simple kredse. Sætning : En ikke-orienteret graf er et træ hvis og kun hvis der er en unik simpel vej mellem ethvert par af punkter i

Læs mere

Genomics og big data sikrer ny indsigt i sygdom og nye muligheder for sundhedsvæsenet

Genomics og big data sikrer ny indsigt i sygdom og nye muligheder for sundhedsvæsenet Genomics og big data sikrer ny indsigt i sygdom og nye muligheder for sundhedsvæsenet Exiqons cloud-løsning hjælper forskere med at analysere og forstå genomics og big data Hvad er genomics? Genomics er

Læs mere

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET STTUT FR DTG, RUS UVERSTET Science and Technology ESE ntal sider i opgavesættet (incl. forsiden): (elleve) Eksamensdag: Fredag den. juni 0, kl. 9.00-.00 Tilladte medbragte hjælpemidler: lle sædvanlige

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet side af 2 sider Danmarks Tekniske Universitet Skriftlig prøve, den 2. maj 200. Kursusnavn Algoritmer og datastrukturer Kursus nr. 02326. Tilladte hjælpemidler: Alle hjælpemidler. Vægtning af opgaverne:

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Danmarks Tekniske Universitet Skriftlig prøve, den 27/5-2014 Side 1 af 11 sider Kursus navn Introduktion til Bioinformatik Kursus nr. 27611 Varighed: 4 timer Tilladte hjælpemidler: Alle "Vægtning" Angivet

Læs mere

Algorithms & Architectures I 2. lektion

Algorithms & Architectures I 2. lektion Algorithms & Architectures I 2. lektion Design-teknikker: Divide-and-conquer Rekursive algoritmer (Recurrences) Dynamisk programmering Greedy algorithms Backtracking Dagens lektion Case eksempel: Triple

Læs mere

Dansk Selskab for Medicinsk Genetik s (DSMG) politik vedrørende klinisk anvendelse af genomisk sekventering

Dansk Selskab for Medicinsk Genetik s (DSMG) politik vedrørende klinisk anvendelse af genomisk sekventering Dansk Selskab for Medicinsk Genetik s (DSMG) politik vedrørende klinisk anvendelse af genomisk sekventering De sidste 10 års store fremskridt indenfor gensekventeringsteknologi har gjort det muligt at

Læs mere

Sortering. Eksempel: De n tal i sorteret orden

Sortering. Eksempel: De n tal i sorteret orden Sortering 1 / 32 Sortering Input: Output: Eksempel: n tal De n tal i sorteret orden 6, 2, 9, 4, 5, 1, 4, 3 1, 2, 3, 4, 4, 5, 9 2 / 32 Sortering Input: Output: Eksempel: n tal De n tal i sorteret orden

Læs mere

SUBS_BACLE 1 0 ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50

SUBS_BACLE 1 0 ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50 Svar til Parvis Alignment øvelsen - Af: Rasmus Wernersson Q1: FASTA format. Q2: # Length: 361 # Identity: 176/361 (48.8%) # Similarity: 214/361 (59.3%) # Gaps: 92/361 (25.5%) # Score: 916.0 SUBS_BACLE

Læs mere

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt.

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer (2. semester). Mål

Læs mere

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET INSTITUT FOR DTLOGI, RHUS UNIVERSITET Science and Technology EKSEN lgoritmer og Datastrukturer (00-ordning) ntal sider i opgavesættet (incl. forsiden): 11 (elleve) Eksamensdag: Torsdag den 1. juni 01,

Læs mere

Sortering af information er en fundamental og central opgave.

Sortering af information er en fundamental og central opgave. Sortering Sortering Input: Output: Eksempel: n tal De n tal i sorteret orden 6, 2, 9, 4, 5, 1, 4, 3 1, 2, 3, 4, 4, 5, 9 Mange opgaver er hurtigere i sorteret information (tænk på ordbøger, telefonbøger,

Læs mere

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for

Læs mere

BM121 Resume af tirsdags forlæsningen, Uge 47

BM121 Resume af tirsdags forlæsningen, Uge 47 BM121 Resume af tirsdags forlæsningen, Uge 47 Morten Källberg (kallberg@imada.sdu.dk) 22/11-2005 1 Probabilistiske modeller Vi vil i det følgende betragte to forskellige måder at evaluerer en given model

Læs mere

Esben N. Flindt, platformskoordinator Danske Regioner Personlig Medicin 10. december 2014. Danske Regioner - Personlig Medicin 10/12-2014

Esben N. Flindt, platformskoordinator Danske Regioner Personlig Medicin 10. december 2014. Danske Regioner - Personlig Medicin 10/12-2014 Esben N. Flindt, platformskoordinator Danske Regioner Personlig Medicin 10. december 2014 Danske Regioner - Personlig Medicin 10/12-2014 GenomeDenmark Platformen En national platform for stor-skala sekventering

Læs mere

Simple matematiske modeller til beskrivelse af komplekse biologiske systemer. Carsten Wiuf

Simple matematiske modeller til beskrivelse af komplekse biologiske systemer. Carsten Wiuf Århus, den 26. marts 2008 Simple matematiske modeller til beskrivelse af komplekse biologiske systemer Carsten Wiuf Center for Bioinformatik (BiRC) ved Aarhus Universitet Biologien er i disse år i rivende

Læs mere

Biologiske signaler i graviditeten - Genetisk information

Biologiske signaler i graviditeten - Genetisk information Biologiske signaler i graviditeten - Genetisk information 2 I forbindelse med vores studie af graviditeten ønsker vi at foretage undersøgelser af arvematerialet (DNA og RNA). Disse genetiske undersøgelser

Læs mere

Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO), Jimmy Jessen Nielsen (JJE) Mm3: More about recurrences - October 10, 2008

Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO), Jimmy Jessen Nielsen (JJE) Mm3: More about recurrences - October 10, 2008 Algorithms and Architectures I Rasmus Løvenstein Olsen (RLO), Jimmy Jessen Nielsen (JJE) Mm3: More about recurrences - October 10, 2008 1 Algorithms and Architectures II 1. Introduction to analysis and

Læs mere

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet Side 1 of 14 Danmarks Tekniske Universitet Skriftlig prøve, den 26/1-2012 Kursus navn: Kursus nr. 27633 Introduktion til Bioinformatik Tilladte hjælpemidler: Alle "Vægtning" Angivet ved de individuelle

Læs mere

DATALOGISK INSTITUT, AARHUS UNIVERSITET

DATALOGISK INSTITUT, AARHUS UNIVERSITET DTLOS NSTTUT, RUS UNVERSTET Det Naturvidenskabelige akultet ESMEN rundkurser i Datalogi ntal sider i opgavesættet (incl. forsiden): 7 (syv) Eksamensdag: Torsdag den 14. juni 007, kl. 9.00-1.00 Eksamenslokale:

Læs mere