Simulering og forudsigelse af strukturelle foldninger i proteiner vha. en biologisk orienteret evolutionær algoritme



Relaterede dokumenter
Proteiners byggesten er aminosyrer

Intra- og intermolekylære bindinger.

Proteiner. Proteiner er molekyler der er opbygget af "aminosyrer",nogle er sammensat af få aminosyrer medens andre er opbygget af mange tusinde

Proteiner: en introduktion. Modul 1; F13 Rolf Andersen, 18/2-2013

Eksamensnummer. Multiple choice opgaver. Side 1 af 10. Hvert svar vægtes 1 point 1.1 A 1.2 E 1.3 C 1.4 B 2.1 F 2.2 C 2.3 D 3 D 4 E

Protein syntese. return

Selvsamlende enkeltlag elevvejledning

Neurale netværk til identifikation og klassifikation af katalytiske proteiner - et case study

Kemiske bindinger. Præsentation: Niveau: 8. klasse. Varighed: 7 lektioner

Atomets bestanddele. Indledning. Atomer. Atomets bestanddele

Ekstraordinær re-eksamen 2015

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

katalysatorer f i g u r 1. Livets undfangelse på et celluært plan.

at du trænes i at genkende aminosyrer i en simpel proteinstruktur (pentapeptid = lille protein bestående af 5 (penta) aminosyrer)

Det lyder enkelt, men for at forstå hvilket ærinde forskerne er ude i, er det nødvendigt med et indblik i, hvordan celler udvikles og specialiseres.

Kvantitativ forsæbning af vindruekerneolie. Rapport nr

Naturkræfter Man skelner traditionelt set mellem fire forskellige naturkræfter: 1) Tyngdekraften Den svageste af de fire naturkræfter.

Eksamensopgaver. NF Kemi C DER KAN OPSTÅ ÆNDRINGER I DE ENDELIGE SPØRGSMÅL

Molekyler & Mere Godt Kemi

Enzymer og katalysatorer

Dansk Sportsdykker Forbund

Fremstilling af ferrofluids

Matematik i AT (til elever)

Benjamin Franklin Prøv ikke at gentage forsøget!

Velkommen. Præsentation

Brønderslev Gymnasium og HF. Følg os på Facebook Brønderslev Gymnasium og HF

Aminosyreanalyser i enkeltråvarer, der kan anvendes i fjerkræbiprodukt fra Farmfood A/S (F290)

Teknikken er egentlig meget simpel og ganske godt illustreret på animationen shell 4-5.

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2

OA1: Afleveringssæt i organisk kemi

Grundlæggende egenskaber for vand og fedt

Phenoliske forbindelsers interaktioner med det humane væksthormon

Gymnasieøvelse i Skanning Tunnel Mikroskopi (STM)

Lim mellem atomerne Ny Prisma Fysik og kemi 8. Skole: Navn: Klasse:

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Hassansalem.dk/delpin User: admin Pass: admin BACKEND

Fremstilling af enkeltlag på sølv

Er der flere farver i sort?

Hvordan laver jeg en poster/plakat og handout

Appendiks 6: Universet som en matematisk struktur

Spørgsmål 1 Kemisk ligevægt

Studienummer: MeDIS Exam Husk at opgive studienummer ikke navn og cpr.nr. på alle ark, der skal medtages i bedømmelsen

Atomer er betegnelsen for de kemisk mindste dele af grundstofferne.

Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF

Oxidationstal og elektronparbindinger December 2015

Immunologisk bioinformatik - et undervisningsprojekt til de danske gymnasier

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Strukturisomeri. Tautomeri. Diastereomeri. Enantiomeri

EKSAMENSSPØRGSMÅL Kemi C maj/juni 2017

Poster design. Meningen med en poster

Biotechnology Explorer. Protein Fingerprinting

Fra registrering til information

Dynamisk programmering

På grund af reglerne for copyright er det ikke muligt at lægge figurer fra lærebøger på nettet. Derfor har jeg fjernet figurerne fra slides ne, men

9. KONKLUSION

PCR (Polymerase Chain Reaction): Opkopiering af DNA

Dynamik. 1. Kræfter i ligevægt. Overvejelser over kræfter i ligevægt er meget vigtige i den moderne fysik.

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Emneopgave: Lineær- og kvadratisk programmering:

Definition af base (Brøndsted): En base er et molekyle eller en jon, der kan optage en hydron. En hydron er en H +

Seminaropgave: Præsentation af idé

Tilbagemeldingsetik: Hvordan sikrer jeg, at respondenten har tillid til processen?

1: Kemisk kinetik 1. Du skal gøre rede for kemiske reaktioners hastighed, herunder begrebet reaktionsorden.

MTU 2011 Medarbejdertilfredshedsundersøgelse

Færdigheds- og vidensområder. Eleven kan anvende og vurdere modeller i fysik/kemi. Eleven kan anvende og vurdere modeller i fysik/kemi

Enzymkemi H. C. Ørsted Ungdomslaboratorium Kemisk Institut Københavns Universitet august 2001

Undervisningsbeskrivelse

Grundstoffer og det periodiske system

Susanne Teglkamp Ledergruppen

Forhøjet blodtryk. Dr. Raths Cellular Health anbefalinger for forebyggelse og supplerende behandling

Oste-kemi. Størstedelen af proteinerne i mælken findes som små kugleformede samlinger, kaldet miceller.

Dynamisk programmering

Forberedelse. Forberedelse. Forberedelse

Håndbog til Studieretningsprojektet. Aalborg Katedralskole Arkiv 6151

MTU 2013 Medarbejdertilfredshedsundersøgelse

Simulering af stokastiske fænomener med Excel

af integrationsrådenes høringsret og økonomiske midler

Fraktaler Mandelbrots Mængde

Undervisningsbeskrivelse

Individer er ikke selv ansvarlige for deres livsstilssygdomme

Dansk-historieopgaven (DHO) skrivevejledning

Undervisningsbeskrivelse

Brugsvejledning for dialyseslange

IONER OG SALTE. Et stabilt elektronsystem kan natrium- og chlor-atomerne også få, hvis de reagerer kemisk med hinanden:

Læring af test. Rapport for. Aarhus Analyse Skoleåret

Dynamisk programmering

Hensigten har været at træne de studerende i at dele dokumenter hvor der er mulighed for inkorporering af alle former for multimodale tekster.

Eksamensspørgsmål. Spørgsmål : Atomer og bindinger (Hvilken type stof?) Spørgsmål : Ionforbindelser (Saltes opløselighed i vand

Proteiner. - til glæde og gavn

ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring

DIO. Faglige mål for Studieområdet DIO (Det internationale område)

MTU 2013 Medarbejdertilfredshedsundersøgelse

Nærvær, bevidstgørelse og tro

Folkeskolens afgangsprøve Maj-juni 2006 Fysik / kemi - Facitliste

Molekylemodeller. Opgave Del A. Om generelle modeltyper og kemiske modeller

Tal. Vi mener, vi kender og kan bruge følgende talmængder: N : de positive hele tal, Z : de hele tal, Q: de rationale tal.

Det sure, det salte, det basiske Ny Prisma Fysik og kemi 9 - kapitel 1 Skole: Navn: Klasse:

Skolevægring. Resultater fra en spørgeskemaundersøgelse blandt skoleledere på danske folkeskoler og specialskoler

Transkript:

Simulering og forudsigelse af strukturelle foldninger i proteiner vha. en biologisk orienteret evolutionær algoritme Speciale udarbejdet af: Glennie Helles Datalogisk vejleder: Prof. Peter Johansen

Indholdsfortegnelse FORORD...5 RESUMÉ...6 1 INDLEDNING...7 1.1 Baggrund...7 1.2 Problemformulering...8 1.3 Afgrænsning...10 1.4 Læsevejledning...11 2 BIOKEMISK BAGGRUND... 12 2.1 Kemiske egenskaber...12 2.1.1 Aminosyrer... 12 2.1.2 Opbygning af backbone... 14 2.1.3 Ion-bindinger... 17 2.1.4 Hydrogen-bindinger... 17 2.1.5 Van der Waalske interaktioner... 18 2.1.6 Disulfide bindinger... 19 2.1.7 Hydrofobe effekt... 19 2.2 Proteinstrukturer...20 2.2.1 Sekundære strukturer... 20 2.2.2 Tertiære og kvaternære strukturer... 23 2.3 Termodynamik...23 2.3.1 Entropi og enthalpi... 23 2.3.2 Termodynamikkens 2. lov... 24 2.4 Foldningsprincipper...25 3 EVOLUTIONÆRE ALGORITMER... 27 3.1 Fitness-landskaber...27 3.2 Algoritmerne...28 3.2.1 Evolutionsstrategier... 30 3.2.2 Genetisk programmering... 30 4 FOLDNINGSSYSTEMET... 31 4.1 Analyse...31 4.1.1 Biologiske realisme... 32 4.1.2 Systemets køretid... 35 4.2 Design af den generelle algoritme...35 4.2.1 Baggrund... 36 2

4.2.2 Generel Evolutionær Divide-And-Conquer Algoritme... 37 4.3 Design af foldningsalgoritmen...38 4.3.1 Divide-and-conquer strategi... 38 4.3.2 Evolutionær algoritme... 41 4.3.2.1 Individer... 42 4.3.2.2 Population... 44 4.3.2.3 Indkodning... 44 4.3.2.4 Fitness-evaluering... 45 4.3.2.5 Selektion... 53 4.3.2.6 Reproduktion... 54 4.3.3 Oversigt... 55 4.4 Designspecifikation...55 4.4.1 EDACA-skelettet... 56 4.4.1.1 DAC-modulet... 57 4.4.1.2 EA-modulet... 57 4.4.2 Applikationsspecifikke elementer... 59 4.4.2.1 DAC-modulet... 59 4.4.3 EA-modulet... 60 4.4.3.1 Indkodning... 60 4.4.3.2 Selektion... 62 4.4.3.3 Reproduktion... 63 4.4.4 Visualisering... 64 4.5 Implementation...64 4.5.1 Designændringer... 64 4.5.2 Systemafprøvning... 66 4.5.3 Brugervejledning... 69 5 RESULTATREPRÆSENTATION OG -DISKUSSION... 70 5.1 Root-Mean-Square Deviation (RMSD)...70 5.2 Forsøgsopstilling...71 5.2.1 Fitness-værdisæt... 71 5.2.2 Proteiner... 72 5.3 Resultater: Fitness-værdisæt...73 5.3.1 Diskussion... 76 5.4 Resultater: proteinfoldninger...77 5.4.1 1IFM... 77 5.4.2 1CRN... 78 5.4.3 Diskussion... 80 5.5 Resultater: Køretider...82 5.5.1 Diskussion... 83 6 VURDERING AF SYSTEMET... 84 6.1 Vurdering af den evolutionære algoritme...84 3

6.2 Vurdering af divide-and-conquer strategien...85 6.3 Forbedringsmuligheder...86 6.4 Samlet vurdering...86 7 KONKLUSION... 88 8 LITTERATURLISTE... 91 9 BILAGSLISTE... 92 APPENDIKS A... 93 BILAG 1...105 BILAG 2...111 BILAG 3...112 BILAG 4...119 BILAG 5...122 BILAG 6...124 BILAG 7...127 4

Forord Før læseren påbegynder gennemlæsning af dette speciale, finder jeg det nødvendigt at oplyse om, at indholdet i specialet adskiller sig fra den beskrivelse, der findes på den afleverede arbejdsbeskrivelse. Min oprindelige hensigt var at undersøge muligheden for at optimere en eksisterende evalueringsfunktion for et udvalgt evolutionært proteinfoldningssystem ved brug af anden evolutionær algoritme (forkortes EA) og med henblik på at skabe en foldningsalgoritme, der var bedre til at forudsige proteinfoldninger. Min antagelse under udarbejdelsen af arbejdsbeskrivelsen var, at det var muligt enten at arbejde direkte videre på et eksisterende system, eller at et foldningssystem forholdsvis let ville kunne rekonstrueres. Under de indledningsvise undersøgelser forbundet med specialet stod det imidlertid hurtigt klart, at de allerede eksisterende systemer ikke umiddelbart var tilgængelige, ligesom jeg fandt, at dokumentationen sjældent var tilstrækkelig til at skabe en nøjagtig rekonstruktion. Samtidig fandt jeg, at foldningssystemer som oftest var afgrænset på en måde, som jeg anså for uhensigtsmæssig, og da en implementation af et komplet system under alle omstændigheder viste sig at være påkrævet, valgte jeg efter aftale og godkendelse af vejleder at foretage en mindre ændring af fokus ift. arbejdsbeskrivelsen. I dette speciale fokuseres der således på design og konstruktion af et mit eget proteinfoldningssystem, der kan simulere og forudsige strukturelle foldninger i proteiner ved brug af en evolutionær algoritme, der designes ud fra en overvejende biologisk tilgangsvinkel. Det er fortsat mit mål at undersøge, om det er muligt at skabe en bedre proteinfoldningsalgoritme men i stedet for at forsøge at opnå dette ved at optimere en evalueringsfunktion, vil jeg forsøge at opnå det ved at fokusere på at skabe et system, der formår at inkludere omfattende biologisk viden. Jeg ønsker med andre ord at konstruere en foldningsalgoritme, der er mere naturtro og i højere grad kan betragtes som en simulering af foldningen, og undersøge om en sådan algoritme dermed også vil give bedre og mere realistiske resultater. I overensstemmelse med det ændrede fokus er specialets titel ændret fra den i arbejdsbeskrivelsen foreslåede titel. Den fulde titel på specialet er således: Simulering og forudsigelse af strukturelle foldninger i proteiner vha. en biologisk orienteret evolutionær algoritme Glennie Helles September 2003. 5

Resumé Der er to overordnede formål med specialet. For det første ønskes det undersøgt, om det er muligt at konstruere en evolutionær proteinfoldningsalgoritme, der, ved at blive designet ud fra en overvejende biologisk tilgangsvinkel, vil være mere naturtro og i højere grad tillade, at systemet kan betragtes som en egentlig simulering af proteinfoldninger. Dernæst ønskes det undersøgt, om en sådan algoritme vil give anledning til bedre eller mindst ligeså gode resultater som mere almindelige evolutionære foldningsalgoritmer. Under udarbejdelse af systemet lægges der særlig vægt på to parametre: biologisk realisme og systemets køretid. Disse to hensyn har således inspireret designet af en evolutionær divide-and-conquer algoritme, kaldet EDACA. EDACA udmærker sig ved i højere grad at simulere selve den proces, der finder sted under foldning af proteiner, og den forekommer derfor også mere naturtro. Generelt designes algoritmen på en måde, så det første formål konkluderes at være opfyldt, og spørgsmålet er nu, om denne algoritme kan give ligeså gode eller bedre resultater som ved brug af en almindelig evolutionær foldningsalgoritme. Der benyttes to proteiner til at afprøve dette: bakteriofagen Pf1 Inovirus og proteinet Crambin, der benævnes hhv. 1IFM og 1CRN. Begge proteiner har været forsøgt foldet tidligere ifm. andre evolutionære foldningssystemer. Inden de egentlige foldningsresultater analyseres, eksperimenteres der med forskellig vægtning af de kemiske kræfter, som er inkluderet i systemet, idet vægtningen afprøves ved brug af både EDACA og EA (dvs. den evolutionære algoritme uden kombination med divide-and-conquer). Mens det ikke lykkedes at finde en vægtning af de kemiske kræfter, som leder til en rigtig god relation mellem fitnessværdier og RMSD (Root Mean Square Deviation), afslører resultaterne fra eksperimenterne med forskellige vægtning, at brugen af EDACA som oftest finder løsninger, der scorer fitnessværdier, som ligger ca.10-30% højere end ved brug af EA alene. Selvom det på denne baggrund ikke er muligt at konkludere noget generelt, vurderes det alligevel, at der er et klart potentiale for brug af EDACA, da algoritmerne netop opererer med fitnessværdier og ikke RMSD. 1IFM foldes af begge algoritmer til en struktur, der med en RMSD på hhv. 1.71Å og 1.46Å ligger vel indenfor den acceptable grænse på 3.0Å. Ved brug af EDACA blev den gode foldning fundet konsistent i hver af de fem gentagende kørsler, der blev foretaget, mens den gode foldning kun blev fundet én gang ud af de fem kørsler ved brug af EA'en. For 1CRN havde den bedste løsning ved brug af EDACA en RMSD på 6.33Å, mens den var på 6.6Å ved brug af EA. Foldninger for 1CRN ligger dermed begge relativt langt fra den acceptable grænse, og der kan derfor ikke umiddelbart konkluderes noget endeligt om systemets foldningsevne ud fra disse resultater. Dog konkluderes det, at der ikke er noget, som antyder, at EDACA ikke finder mindst ligeså gode foldninger som EA. Afslutningsvist kan det på baggrund af køretidsresultaterne konkluderes, at EDACA er væsentlig hurtigere end EA til at folde de valgte proteiner, idet køretiden for EDACA kun er lidt under det halve af køretiden for EA, hvilket er en tendens, der også må forventes at gælde ved foldning af større proteiner. Hensynet til køretid betragtes dermed opretholdt. Samlet set konkluderes det, at givet bedre ressourcer og mere tid må det forventes, at systemet kan bringes til at give endnu bedre resultater, og det vurderes, at der ligger et klart potentiale i brugen af EDACA til netop forudsigelse af proteinfoldninger. 6

1 Indledning Dette speciale omhandler anvendelsen af evolutionære algoritmer (forkortet: EAs), til simulering og forudsigelse af proteiners foldning. Specialet bærer titlen: Simulering og forudsigelse af strukturelle foldninger i proteiner vha. en biologisk orienteret evolutionær algoritme Specialet er tværfagligt i sin natur, men det skrives som led i en datalogisk kandidatuddannelse, og læseren forventes således kun at være bekendt med generelle datalogiske metoder og begreber, om end jeg forudsætter et elementært biokemisk kendskab, svarende til gymnasie niveau. Generelt vil nødvendige biokemiske begreber blive analyseret og forklaret undervejs som led i specialet Specialet sponseres af et scholar-stipendie fra Novo Nordisk A/S 1. Dette kapitel indeholder indledningsvist en beskrivelse af baggrunden for specialet efterfulgt af selve problemformuleringen. Derudover indeholder kapitlet en afgrænsning af specialet samt en læsevejledning. 1.1 Baggrund Ordet "protein" er afledt fra det græske prōtos, der betyder "den første", fordi man tidligere anså proteinerne for at være de vigtigste bestanddele i alle levende organismer [1]. Om end man ikke længere henviser til dem som "de vigtigste" bestanddele, betragtes de fortsat som særdeles vigtige, og der lægges stadig mange kræfter i at lære at forstå disse komplekse molekyler. Proteiner findes i levende organismers celler, og blandt de utallige men essentielle opgaver, som proteinerne varetager, kan bl.a. nævnes deres bidrag til selve strukturen i cellen, bekæmpelse af fremmede bakterier og vira, kontrol af gen-ekspression, konvertering af kemisk energi til mekanisk energi, nedbrydning af affaldsstoffer, etc. Proteiner er i sig selv opbygget af nogle mindre molekyler, der kaldes for aminosyrer. Forskellige aminosyrer kan indgå i forskellige kemiske forbindelser med hinanden og med deres omgivelser, og kombinationen af aminosyrer, der varierer fra protein til protein, er afgørende for hvilken tredimensionel struktur, et protein har. Den tredimensionelle struktur har vist sig at være særdeles vigtig, idet den specificerer hvilken funktion, proteinet varetager i organismen. Når et protein optræder i sin tredimensionelle struktur, siger man, at proteinet er foldet. Det tager kun få sekunder eller minutter for et nyligt syntetiseret protein at folde, og det folder altid til samme konformation. Forudsigelser af, hvorledes et protein folder ud fra en bestemt aminosyresekvens, har igennem mange år været af stor interesse for især medicinal-industrien, idet metoder, der korrekt kan forudsige proteinstrukturer, vil åbne mulighed for, at medicinske præparater kan designes meget specifikt til at afhjælpe konkrete sygdomme og samtidig undgå de uønskede bivirkninger. 1 "Novo Scholarship Programme in Biotechnology and Pharmaceurical Sciences". Se http://www.novonordisk.com/opencms/index.html?target=05_science/scholarships.html 7

Der er imidlertid flere problemer med at forudsige et proteins foldning. For det første er det stadig uvist præcist hvilke kemiske kræfter, der er involveret, samt hvor stor indflydelse de enkelte kræfter har på foldningen. Dernæst består de fleste proteiner af mellem 100 og 1000 aminosyrer, hvilket giver enorme kombinatoriske muligheder. Problemet med de kombinatoriske muligheder gør, at traditionelle algoritmer ofte kommer til kort, og der har derfor været stor fokus på approksimative algoritmer som eksempelvis neurale netværk og evolutionære algoritmer (forkortes EAs). Neurale netværk er således i dag et af de bedste værktøjer til forudsigelse af nogle bestemte delstrukturer kaldet sekundære strukturer mens EAs med nogen succes forsøges anvendt til at forudsige komplette tredimensionelles strukturer. Foldningsproblemet kan generelt gribes an på to forskellige måder; en overvejende datalogisk eller en overvejende biologisk. Da EAs netop er kendt som datalogiske optimeringsalgoritmer, har der tidligere, ifm. brugen af disse, ikke overraskende hovedsageligt været taget en datalogisk tilgangsvinkel. Dette betyder, at problemet som oftest betragtes som et traditionelt datalogisk optimeringsproblem, hvor det primære fokus er at foretage en effektiv gennemsøgning i rummet af mulige foldninger. I dette speciale vil jeg imidlertid i højere grad tage udgangspunkt i biologien, og ved at se nærmere på det proteinkemiske kendskab der findes, vil jeg forsøge at konstruere et EAbaseret foldningssystem, hvor den evolutionære foldningsalgoritme funderes solidt i biologien. Det er mit håb at en mere biologisk orienteret foldningsalgoritme også vil producere bedre resultater. Mine forudsætninger er et hovedfag i datalogi og et bifag i biologi, hvilket letter kombinationen af de to fagdiscipliner, der er essentielle for dette speciale. 1.2 Problemformulering Specialets overordnede formål er, som titlen indikerer, at undersøge om det er muligt at konstruere et foldningssystem, der kan simulere og forudsige den måde, proteiner folder ved at benytte en evolutionær foldningsalgoritme, der designes ud fra en overvejende biologisk tilgangsvinkel. I dette afsnit vil jeg give en mere detaljeret beskrivelse af, hvad specialet forventes at behandle, hvilke ting jeg vælger at fokusere på, samt hvilke overordnede elementer jeg anser for vigtige i en succesvurdering af specialet som helhed. Jeg ønsker fra start at understrege, at biokemien bag proteinfoldningsprocessen er forholdsvis kompleks, og selv om dette er et datalogisk speciale, kræver problemstillingen en omfattende forståelse af det biokemiske domæne, før problemet kan forsøges løst. Jeg anser det derfor som en både vigtig og nødvendig del af specialet at analysere og præsentere de dele af biokemien, som jeg har vurderer vil være relevant for udarbejdelsen af et proteinfoldningssystem. Dette vil give specialet et klart tværfagligt præg. Specialet er opdelt i følgende fem hovedområder: 8

1) Analyse og beskrivelse af det biokemiske domæne 2) Kort introduktion til EAs 3) Analyse, design og implementation af et foldningssystem 4) Præsentation og behandling af resultater 5) Vurdering af systemet Analyse og beskrivelse af det biokemiske domæne Da den biokemiske baggrund er fundamental for det system, jeg efterfølgende ønsker at udvikle, vil jeg indledningsvist undersøge og beskrive denne. Formålet med beskrivelsen er at give et overblik over de relevante biokemiske mekanismer, men beskrivelsen skal samtidig være detaljeret nok til at kunne anvendes i forbindelse med såvel systemkonstruktionen som i den efterfølgende behandling af resultaterne. Kort introduktion til EAs EAs vil være essentielle i systemet, og jeg vil derfor give en kort introduktion til denne særlige form for algoritmer. Da jeg imidlertid har beskæftiget mig evolutionære algoritmer i et tidligere datalogisk projekt, vil jeg her holde det ganske kort, i form af en simpel opsummering. Kapitel 2 fra mit tidligere projekt 2, der giver en nærmere og mere detaljeret beskrivelse, vedlægges som appendiks til specialet. Analyse, design og implementation af et foldningssystem Forudsigelser af proteinfoldninger vha. EAs er ikke noget nyt fænomen men derimod noget, der har været forsøgt i årevis. I forbindelse med analysen vil jeg således inddrage nogle relevante artikler, der vil blive brugt dels som inspiration og dels til at sætte styrker og svagheder ved mit system i perspektiv. Foldningssystemet vil i øvrigt blive analyseret, designet og implementeret efter sædvanlig datalogisk fremgangsmetode. Analyse Under analysen vil der blive fokuseret på hvilke krav, der stilles til foldningssystemet. Ved at tage udgangspunkt i biologien vil jeg finde frem til hvilke generelle datalogiske krav, der stilles til den tekniske løsning. Kravene, fremsat i analysen, vil blive behandlet yderligere i selve designet af algoritmen og systemet som helhed. Design I designfasen vil selve foldningssystemet blive designet herunder algoritmer til at styre forløbet i systemet samt design af de(n) EA(s), som skal anvendes. Denne del af specialet vil omhandle de tekniske aspekter i systemet og afsluttes med et konkret implementationsdesign, der efterfølgende vil blive implementeret. Designet vil udgøre langt størstedelen af dette hovedområde. Implementation Foldningssystemet vil blive implementeret i programmeringssproget Java. Implementationsdelen skal desuden indeholde dokumentation for afprøvningen af systemet, samt en brugervejledning. 2 "Anvendelse af genetiske algoritmer til simulering af biologiske systemer", 2001 9

Præsentation og behandling af resultater Resultaterne fra foldningssystemet skal præsenteres og diskuteres, således at der dannes grundlag for en efterfølgende vurdering af systemets succes. Såvel de konkrete foldningsresultater som erfaringer ifm. eksperimentering med EAs skal fremsættes i dette afsnit. Vurdering af systemet Der skal afslutningsvist gives en vurdering af systemet. Følgende to succeskriterier anses som de vigtigste i vurderingen: 1) Systemet skal være "naturtro", dvs. det skal have et solidt biologisk fundament. 2) Systemet skal kunne forudsige foldninger for proteiner bedre eller mindst ligeså godt som ved traditionel brug af EAs. Vægtning Jeg vægter specialets hovedområder på følgende måde: 1) Biokemiske domæne: 10% 2) Introduktion til EA: 5% 3) Analyse og design af foldningssystemet: 55% 4) Præsentation og behandling af resultater: 20% 5) Vurdering af systemet: 10% 1.3 Afgrænsning Området, der vedrører proteinfoldninger (kaldet proteomics), er enormt. Området der vedrører brug af computere til forudsigelser af foldninger er ligeledes stort, og dette afsnit beskriver derfor en række afgrænsninger, som jeg har valgt at foretage af hensyn til specialets omfang og for at skærpe fokus. Som nævnt har der været foretaget adskillige forsøg tidligere på at forudsige proteinfoldninger både ved brug af evolutionære algoritmer og andre typer af algoritmer. Jeg har i dette speciale valgt at koncentrere mig alene om brugen af EAs, og jeg vil derfor ikke behandle alternative metoder nærmere. Da jeg tidligere har udarbejdet et større skriftligt projekt, hvor jeg anvendte evolutionære (genetiske) algoritmer, vil dette speciale ikke omfatte en grundig gennemgang af disse algoritmer. Såfremt læseren ikke på forhånd har kendskab til evolutionære algoritmer henvises til Appendiks A, der er taget fra mit tidligere projekt. I forbindelse med præsentationen af foldninger, har jeg endvidere valgt at standardværktøjet JMol 6.1 3 skal benyttes til at visualisere proteinerne grafisk i stedet for selv at skulle designe et visualiseringssystem. Denne afgrænsning har jeg fundet naturlig, idet visualisering blot er en nyttig egenskab men ikke essentiel for systemet. Afslutningsvist skal jeg understrege, at systemet, der vil blive udviklet, skal opfattes som en prototype, hvor der vil blive fokuseret på at skabe en biologisk orienteret evolutionær foldningsalgoritme. Tiden og midlerne er for mit vedkommende alt for begrænsede til, at 3 Programmet kan hentes: http://sourceforge.net/project/showfiles.php?group_id=23629 10

jeg vil kunne foretage omfattende eksperimenter med adskillige proteiner, og jeg vil derfor blot fokusere på nogle enkelte. 1.4 Læsevejledning Specialet er opdelt i 7 kapitler, hvoraf denne indledning udgør det første. Kapitel 2 giver en gennemgang af den relevante biokemi, som læsere med indgående biokemisk kendskab evt. kan springe over. Kapitel 3 indeholder ligeledes en ganske kort beskrivelse af evolutionære algoritmer. Jeg anbefaler at dette kapitel læses, selv hvis man besidder et solidt forhåndskendskab til EAs, således at læseren er indforstået med de definitioner, som jeg anvender igennem specialet. Kapitel 4 præsenterer analysen, designet og implementationen af foldningssystemet. Derudover indeholder kapitlet tillige afprøvningsresultater samt en kort brugervejledning. Præsentation og vurdering af de egentlige resultater gives i de efterfølgende kapitler 5 og 6, og specialet afsluttes med en konklusion i kapitel 7. Til specialet følger ud over en række bilag desuden et Appendiks A, der beskriver grundelementerne i evolutionære algoritmer. Det anbefales at læsere, der ikke er bekendte med evolutionære algoritmer læser dette appendiks indledningsvist. Langt det meste litteratur forefindes på engelsk, men jeg vil i specialet så vidt muligt benytte danske oversættelser af de engelske begreber. I de tilfælde hvor jeg imidlertid vurderer, at danske oversættelser vil forekomme meningsforstyrrende, vil jeg anvende de engelske betegnelser. Generelt vil nye begreber blive angivet i kursiv af hensyn til læsevenligheden. 11

2 Biokemisk baggrund I forsøget på at forudsige, hvordan proteiner folder, er det nødvendigt at være bekendt med de biokemiske og biofysiske begreber og principper, som menes at være afgørende under foldningsprocessen. I dette kapitel vil jeg således behandle de dele af dette omfangsrige område, der netop er relevante for forståelsen af problemstillingen i dette speciale og essentielle i forbindelse med konstruktionen af foldningssystemet. Oplysningerne i dette kapitel er dokumenteret i [2], [3] og [4], og såfremt læseren ønsker yderligere eller uddybende information, henviser jeg til disse kilder. 2.1 Kemiske egenskaber Ligesom for alle andre biologiske molekyler er der kraftige indikationer af, at proteiners foldning er styret af nogle grundlæggende kemiske kræfter. Dette skyldes ikke mindst, at proteiner altid folder til samme konformation i løbet af få sekunder eller minutter. Skulle samtlige mulige konformationer først afprøves for at finde den mest optimale foldning, ville det selv for et lille protein tage længere tid, end universet har eksisteret. I dette afsnit vil jeg gøre rede for proteinernes opbygning samt de kemiske bindinger og interaktioner, der menes at have størst betydning for foldningen af et protein. 2.1.1 Aminosyrer Proteiner består af nogle mindre byggesten, som kaldes for aminosyrer. Der findes adskillige vigtige aminosyrer, men det er kun 20 af dem, der indgår som byggesten i et protein, og i dette afsnit vil det således også kun være disse 20 aminosyrer, der refereres til. Proteiner dannes af alt fra ca. 20 til 10.000 aminosyrer, om end de fleste proteiner består af mindre end 3000 aminosyrer. En aminosyre kan opdeles i en basisdel og en sidekæde. Basisdelen har for alle aminosyrerne (undtagen aminosyren prolin) følgende generelle struktur: H H 3 N + C COO R R: Sidekæde H: Hydrogen-atom C: Carbon-atom N: Nitrogen-atom O: Oxygen-atom R kaldes for sidekæden, og dens atomare sammensætning varierer fra aminosyre til aminosyre (se Figur 1). Prolin adskiller sig en smule, idet sidekæden ikke kun binder til carbon-atomet (C), som illustreret herover, men også har en binding til nitrogen-atomet (N). Basisdelen består af tre centrale atomer: N, C og C. For bedre at kunne skelne mellem de to carbon-atomer, betegnes det carbon-atom, hvortil sidekæden binder, som C α, mens det andet carbon-atom betegnes som C'. 12

Aminosyrer kan klassificeres iht. en række forskellige egenskaber, såsom om de er sure eller basiske dvs. om de er enten negativt eller positivt ladet under fysiologiske betingelser eller hvilke atomer, der indgår i aminosyrens sidekæde. Figur 1 herunder viser den kemiske struktur for de 20 aminosyrer ordnet efter deres kemiske egenskaber. Figur 1 Oversigt over de 20 aminosyrer der kan indgå i proteiner. Aminosyrerne er ordnet efter deres kemiske karakteristika. En aminosyre betegnes som alifatisk, hvis der kun optræder C- atomer (samt H-atomer), og C-atomerne er ordnet i kæder (evt. forgrenede). Nogle alifatiske aminosyrer kan desuden indeholde en hydroxylgruppe (OH). Aromatiske aminosyrer indeholder en såkaldt aromatisk ring, mens aminosyrer med hhv. sure og basiske sidekæder adskiller sig ved, at deres sidekæder er ioniseret under fysiologiske betingelser. Et amid er en betegnelse for en kvælstofholdig forbindelse (N-atomet), og svovlholdige aminosyrer indeholder et svovl-atom. Prolin adskiller sig fra alle øvrige aminosyrer ved, at sidekæden forbinder til både C α -atomet og N-atomet i basisdelen. Oversigten taget fra [4]. 13

Molekyler, der ikke har en ladning under fysiologiske betingelser, kan fortsat tiltrække og frastøde andre molekyler, fordi mange molekyler danner såkaldte dipoler. En dipol betyder, at ladningen internt i molekylet er asymmetrisk fordelt, således at den ene del af molekylet er en anelse mere negativt eller positivt end den anden del af molekylet. Molekyler, som altid har en dipol, kaldes for permanente dipoler eller blot polære molekyler. Molekyler, hvor den interne ladning normalt er symmetrisk fordelt, kaldes tilsvarende for nonpolære (se afsnit 2.1.5). Blandt de 20 ovenstående aminosyrer er det primært de alifatiske aminosyrer, der er nonpolære. På grund af denne egenskab er de kun i meget ringe grad i stand til at danne nogen form for forbindelser til vandmolekyler, der netop er kendetegnet ved at være særdeles polære, og disse aminosyrer omtales derfor som de hydrofobe aminosyrer. Polære aminosyrer har omvendt sidekæder, der i langt større udstrækning gør det muligt at danne forbindelser til vandmolekyler, og de omtales derfor som hydrofile aminosyrer. De sure og basiske aminosyrer samt amiderne hører blandt de mest hydrofile aminosyrer. 2.1.2 Opbygning af backbone Når et protein syntetiseres, sker det ved, at aminosyrernes basisdele bindes sammen i en lang kæde. Bindingen mellem hver basisdel kaldes for en peptidbinding, og dannelsen af en sådan er illustreret herunder: H H 3N + C α COO R 1 H + H 3N + C α COO R 2 H O H H 3N + C α C N C α COO + H 2 O R 1 H R 2 -------- peptidbinding En peptidbinding er en kovalent binding 4, hvilket betyder at det kemiske bånd mellem basisdelene i aminosyrerne er meget stærkt, og alle de sammenbundne basisdele kaldes måske netop af den årsag for proteinets backbone. En kovalent binding mellem to atomer, A og B, angives typisk som A B. Når man angiver en bestemt aminosyresekvens, startes der altid fra den såkaldte N- terminale ende, dvs. den ende hvor amidgruppen (NH 3 + ) er fri, og der fortsættes mod den C-terminale ende, dvs. der hvor cabonylgruppen (CO 2 - ) er fri. På overstående illustration af peptidbindingen svarer det til, at aminosyrekæden "aflæses" fra venstre mod højre. Aminosyrekæder kan optræde under flere forskellige navne. Herunder er tre af de hyppigste betegnelser nævnt: 1) Peptid: betegnelse for en kortere aminosyrekæde. 2) Polypeptid: betegnelse for en længere aminosyrekæde. 3) Protein: betegnelse for de peptider eller polypeptider, der forekommer naturligt og har en bestemt tredimensionel struktur under fysiologiske betingelser. 4 I en kovalent binding deler de to atomer et elektronpar. 14

Betegnelserne peptid og polypeptid benyttes imidlertid begge til at referere til aminosyrekæder af udefineret længde. I det efterfølgende har jeg således valgt at bruge betegnelsen "peptid", når jeg refererer til en aminosyrekæde af vilkårlig længde. Betegnelsen "protein" bruges i overensstemmelse med ovenstående definition. Geometri Når en peptidbinding skitseres, markeres der normalt en såkaldt dobbeltbinding 5 mellem C'-atomet og O-atomet (angivet som C=O). Denne dobbeltbinding kan dog undertiden brydes, så der i stedet dannes en dobbeltbinding mellem C'-atomet og N-atomet, som vist herunder: O C α O C α C α C' N H C' N C α H En dobbeltbinding mellem C' og N optræder i ca. 40% af alle peptidbindinger, og det har vist sig generelt at gøre bindingen mellem disse atomer særdeles rigid. I beskrivelsen af geometrien for et peptid bruges begrebet frihedsgrader (eng. degrees of freedom) ofte. Frihedsgraden angiver antallet af kemiske bånd, hvorom rotation er mulig, eller med andre ord antallet af bånd, der opretholdes, selv hvis atomerne, der danner båndene, drejes eller roteres i forhold til hinanden (se Figur 2 herunder). I en peptidbinding er der tre centrale kovalente bånd: C α N, N C' og C' C α. Den delvise dobbeltbinding mellem N C' gør imidlertid som nævnt bindingen rigid, og det har vist sig, at de seks atomer, der indgår i peptidbindingen 6, stort set altid optræder i samme plan (omtales ofte som et amid-plan), hvorved rotation kun er mulig omkring båndene C' C α og C α N. Hver peptidbinding har derfor kun to frihedsgrader. Nedenstående Figur 2 illustrerer dels sådanne amid-planer og dels hvilke kemiske bindinger, der kan roteres omkring. Figur 2 Illustration af hvilket bånd det er muligt at rotere omkring. Rotationsvinklerne benævnes hhv. f og y. 5 En dobbeltbinding er en kovalent binding, hvor atomerne deler to elektronpar (se fodnote 4) 6 Selvom det reelt kun er N og C', der danner bindingen, er de øvrige atomer, der er bundet til N og C' atomerne, normalt underforstået en del af peptid-bindingen. 15

Rotationsvinklerne omkring en basisdel betegnes hhv. φ og ψ. I de fleste aminosyrer findes der tilsvarene bånd i sidekæder, hvorom rotation er mulig. Omdrejningsvinklerne omkring bånd i sidekæderne benævnes som χ-vinklerne. Hvis sidekæden har flere bånd, hvorom rotation er mulig, benyttes et indeks, idet båndet der forbinder sidekæden til basisdelen kaldes χ 1, næste bånd χ 2, etc. Når de atomer, der indgår i peptidbindingen, optræder i samme plan, er det muligt at danne to konformationer, som kaldes hhv. cis og trans: O C' N C α trans C α H O C' N C α cis H C α Trans-konformationen har vist sig at være stærkt energetisk favorabel bortset fra peptidbindinger til prolin, hvor cis-konformationen energetisk er ligeså hensigtsmæssig som trans-konformationen. I proteiner og andre peptider findes peptidbindingerne således normalt i trans-konformationen. Afslutningsvist skal det ifm. geometrien nævnes, at selvom to atomer tiltrækkes af hinanden i en sådan grad, at der dannes en kovalent binding eller endog en dobbeltbinding mellem dem, er der en begrænsning for, hvor tæt to atomer kan komme på hinanden. Hvis to elektronskyer overlapper for meget, vil atomerne automatiske begynde at frastødes. Der er således en favoriseret afstand, hvori atomerne findes fra hinanden. Afstande mellem atomer angives som regel i Ångstrøm 7 (forkortes til Å), hvor 1 Å = 10-10 meter. Afstanden mellem N-atomet og C α -atomet i en peptidbinding har vist sig at være 1,45Å, mens afstanden mellem C α -atomet og C'-atomet er 1,52Å. Længden af selve peptidbåndet mellem C' og N er blot 1,33Å, og det er dermed kortere end en normal kovalent binding mellem N- og C-atomer (som var 1,45Å). Båndet er dog fortsat længere end en generel dobbeltbinding mellem N- og C-atomer, der er 1,25Å. Figur 3 herunder illustrerer geometrien for en peptidbinding med såvel vinkler som længdeangivelser. 7 Opkaldt efter fysikeren Anders Ångstrøm. Figur 3 Illustration af geometrien i en peptidbinding. 16

2.1.3 Ion-bindinger En ion-binding er en relativ stærk kemisk binding, der dannes mellem to ioniserede, modsat-ladede molekyler. Selv på forholdsvis lang afstand vil de ladede molekyler blive draget mod hinanden, og ion-bindinger anses for den længst rækkende (kendte) kemiske tiltrækningskraft, idet ladede partikler i vandig opløsning kan påvirke hinanden inden for en afstand af ca. 10-40nm (dvs. 100-400 Å). Før der dannes en egentlig ion-binding skal atomerne dog være inden for ca. 1-2 Å. I proteiner finder denne type af binding typisk sted mellem de ioniserede sidekæder eller sågar til den N-terminale eller C-terminale ende af proteinkæden. 2.1.4 Hydrogen-bindinger En hydrogenbinding eller hydrogenbånd er en kemisk binding, der dannes mellem et kovalent bundet hydrogen-atom fra en såkaldt donor-gruppe og et par ikke-bundne elektroner fra en såkaldt acceptor-gruppe. Hvorvidt et H-atom kan indgå i en hydrogenbinding afhænger af elektronegativiteten af det atom, som H-atomet er bundet til. Hvis det er bundet til et meget elektronegativt atom (som eksempelvis et O-atom) bliver H-atomet mere positivt, og det bliver derfor også kraftigere tiltrukket af frie elektronpar hos en acceptor-gruppe. Hvis det derimod er bundet til et svagt elektronegativt atom (som eksempelvis et C-atom) forbliver H-atomet mere neutralt og kan ikke deltage i hydrogenbindinger. Blandt atomer, der forekommer i biologiske molekyler, er det kun oxygen (O) og nitrogen (N) atomer, der er elektronegative nok til at kunne fungere som hydrogen-donorer. Internt i proteinerne kan hydrogenbinderne både optræde imellem to sidekæder og imellem sidekæderne og proteinets backbone. Tabel 1 herunder angiver båndlængden for de vigtigste typer af hydrogenbindinger fundet i biologiske molekyler. Donor Acceptor Længde Interaktion O H O H 2.8 ± 0.1 Å vand vand O H O=C 2.8 ± 0.1 Å vand carbonylgruppe N H O H 2.9 ± 0.1 Å amidgruppe vand N H O=C 2.9 ± 0.1 Å amidgruppe carbonylgruppe N H N 3.1 ± 0.1 Å amidgruppe amidgruppe N H S 3.7 ± 0.1 Å amidgruppe svovlgruppe Tabel 1 Vigtige hydrogenbånd i proteiner. Båndlængden er defineret som afstanden mellem centrum i hhv. donor- og acceptor-gruppen. 17

Biologisk set har hydrogenbindingerne overordentlig stor betydning, idet mange af de vigtige strukturer (se afsnit 2.2) primært holdes sammen af disse bånd. Dernæst optræder de fleste proteiner i vandige opløsninger, og netop vand (med formlen H 2 O) udmærker sig ved at kunne indgå både som donor-gruppe og acceptor-gruppe i en hydrogenbinding 8. For aminosyrer, der er i direkte kontakt med vand, er det derfor en fordel at kunne indgå hydrogenbindinger. Et hydrogenbånd er stærkest, hvis atomerne, der danner bindingen, ligger lige overfor hinanden. Atomerne kan fortsat danne en hydrogenbinding, hvis de ligger mere skævt for hinanden, men bindingen vil i disse tilfælde være svækket. Såfremt atomerne ligger ved siden af hinanden, vil der ikke kunne dannes en hydrogenbinding (se Figur 4 herunder). Optimal binding Svækket binding Ingen binding Figur 4 Styrken af en hydrogenbinding afhænger af, hvordan atomerne er placeret i forhold til hinanden. Den stærkeste binding forekommer, når donor-gruppe og acceptor-gruppe er placeret umiddelbart overfor hinanden. 2.1.5 Van der Waalske interaktioner Som omtalt tidligere i dette kapitel kan molekyler såsom aminosyrer opdeles i polære og nonpolære molekyler. Der findes imidlertid nogle molekyler, der normalt er nonpolære, som kan danne en dipol, når andre molekyler nærmer sig. Dipolen kan induceres enten af et ladet molekyle eller en permanent dipol, men det kan også opstå mellem to nonpolære molekyler. Elektrisk ladning i et molekyle er aldrig statisk, og når to nonpolære molekyler langsomt nærmer sig hinanden, kan de inducere en dipol hos hinanden. Denne form for interaktion mellem to nonpolære molekyler kaldes for van der Waalske interaktioner, og de bidrager betydeligt til stabiliteten i et foldet protein. Det er især aminosyrer med aromatiske ringe, der indgår i denne slags interaktion. Når ikke-kovalente bundne molekyler eller atomer kommer så tæt på hinanden, at deres elektronskyer begynder at overlappe, begynder de automatisk at frastødes. Jo større et overlap desto voldsommere en frastødning. Den radius, hvor energien, som atomerne eller molekylerne tiltrækkes, netop opvejer den energi, hvormed de frastødes, kaldes for den van der Waalske radius. Nedenstående tabel angiver den van der Waalske radius for de forskellige atomer, der optræder i proteiner: 8 I rent vand holdes vandmolekylerne sammen af hydrogenbindinger, idet O-atomet i ét vandmolekyle indgår som acceptorgruppe i en hydrogenbinding til ét andet vandmolekyle, mens hver af H-atomerne indgår som donorgruppe til to andre vandmolekyler. 18

Atom H O N C S Gruppe OH NH 2 CH 2 CH 3 van der Waalsk radius 1.2 Å 1.4 Å 1.5 Å 1.7 Å 1.8 Å 1.4 Å 1.5 Å 2.0 Å 2.0 Å Tabel 2 Den van der Waalske radius for atomer og atomgrupper, der indgår i proteiner. Bemærk at grupper, hvor H-atomer indgår, typisk ikke påvirker den van Der Waalske radius. Dette skyldes at atomer ikke er perfekt sfæriske. Tallene stammer fra [3]. 2.1.6 Disulfide bindinger. Efter et protein har foldet sig, bliver det undertiden stabiliseret yderligere af disulfide bindinger (også kaldet S S-broer). Denne binding kan opstå mellem svovl-atomerne i to cystein-aminosyrer, og da det er en kovalent binding, er den særdeles stærk. 2.1.7 Hydrofobe effekt Nonpolære aminosyrer er særdeles hydrofobe, og proteiner, der består primært af hydrofobe aminosyrer, opløses derfor dårligt i vand. Årsagen til dette er at for at trives i vandige opløsninger, er det vigtigt at kunne danne hydrogenbindinger med vand, hvilket nonpolære aminosyrer er ude af stand til. Energetisk bliver det således langt mere attraktivt for de hydrofobe aminosyrer at interagere med hinanden. Dette fænomen kaldes for den hydrofobe effekt og bevirker, at nonpolære aminosyrer har en tendens til at samle sig i proteinets indre væk fra de vandige opgivelser Tabel 3 herunder illustrerer, hvor hydrofobe de forskellige aminosyrer er. Meget positive tal betyder, at aminosyren er særdeles hydrofil, mens meget negative værdier betyder, at aminosyren er særdeles hydrofob. Tallene stammer fra [2] og angiver hydrofobiciteten af sidekæderne (basisdelen er som bekendt ens for dem alle) normaliseret iht. glycin, hvis sidekæde som bekendt kun består af et H-atom (se evt. Figur 1). 19

Aminosyre Hydrofobicitet Arginin 3.95 Asparaginsyre 3.81 Glutaminsyre 2.91 Lysin 2.77 Asparagin 1.91 Glutamin 1.30 Serin 1.24 Threonin 1.00 Histidin 0.64 Glycin 0 Cystein -0,25 Alanin -0.39 Methionin -0.96 Prolin -0.99 Valin -1.30 Tyrosin -1.47 Isoleucin -1.82 Leucin -1.82 Tryptofan -2.13 Fenylalanin -2.27 Tabel 3 Hydrofobicitetstabel normaliseret i forhold til glycin. Meget positive værdier angiver, at aminosyren er meget hydrofil, mens meget negative tal angiver, at aminosyren er meget hydrofob. 2.2 Proteinstrukturer Selve kæden af aminosyrer, der indgår i et protein, kaldes for proteinets aminosyresekvens eller dets primære struktur. Når kæden af aminosyrer folder sig, dannes der en række mere eller mindre omfattende strukturer. Strukturerne er med til at stabilisere proteinet i dets endelige konformation. I dette afsnit vil jeg beskrive de forskellige typer af strukturer nærmere. 2.2.1 Sekundære strukturer Nogle af de første strukturer, der dannes under foldningsprocessen, er de såkaldte sekundære strukturer. De mest almindelige sekundære strukturer er α-helices og β-sheets (se Figur 5 og Figur 6 herunder), men der findes adskillige andre. I dette afsnit vil jeg beskrive de hyppigst forekommende strukturer. Helicer En helix dannes ved, at et antal aminosyrer snor sig omkring hinanden i en spiral-lignende struktur (se Figur 5). Der findes tre typer af helicer; α-helicer, π-helicer og 3 10 -helicer. Blandt disse er α-helicen langt den mest hyppige, mens π-helicen endnu ikke er observeret i proteiner. De forskellige former for helicer adskiller sig fra hinanden ved, at hver fulde runde i spiralen kaldet for et omgang (eng. turn) dannes af et varierende antal aminosyrer. En α-helix har således 3.6 aminosyrer per omgang, mens en 3 10 -helix og en π-helix har hhv. 3.0 og 4.4 aminosyrer per omgang. Dernæst kan helicer være enten højre-drejet eller venstre-drejet, om end de fleste helicer er højre-drejet. 20

Figur 5 Illustration af en (højre-drejet) α-helix med 3.6 aminosyrer per turn. De stiplede linier betegner hydrogenbindingerne. Andre typer af helicer snor sig på samme måde, men har et andet antal aminosyrer per turn. Figur 5 herover illustrerer en α-helix. Som det fremgår, findes der en række hydrogenbindinger, og det er netop disse bindinger, der holder aminosyrerne sammen i den karakteristiske struktur. Selvom hydrogenbindingerne, der holder helicerne sammen, dannes mellem atomerne i aminosyrernes basisdele, kan der ligeledes dannes hydrogenbindinger mellem atomerne i sidekæderne, hvilket blot vil stabilisere strukturen yderligere. β-sheets β-sheets dannes af to eller flere β-strands. Et β-strand er et antal aminosyrer, der ikke folder sig sammen, men i stedet er næsten helt udstrakte på samme måde, som hvis man forestillede sig, at man holdt fast i hver ende af aminosyrekæden og derved hindrede sammenfoldning. Et β-strand er ikke i sig selv en stabil struktur, men den stabiliseres, når den indgår i et β-sheet. I et β-sheet ligger de enkelte β-strands ved siden af hinanden og bliver stabiliseret af hydrogenbindinger, der dannes mellem H- og O-atomer i to naboliggende β-strands (se Figur 6 herunder). Et β-sheet kan arrangeres enten parallelt eller antiparallelt. Figur 6 illustrerer hvordan bindingerne dannes i de to forskellige typer af β-sheets. 21

Parallel β-sheet Antiparallel β-sheet Figur 6 β-sheets arrangeres enten parallelt (figuren til venstre) eller antiparallelt (figuren til venstre). Generelt giver begge typer af β-sheets tæt ved optimale betingelser for hydrogenbindingerne, men antiparallelle β-sheets menes dog at være væsentlig mere stabile end de parallelle β-sheets. Ligesom for helicer dannes β-strands af et antal aminosyrer, der er placeret ved siden af hinanden i den primære struktur, men et β-sheet dannes af strands, der hver især kan forekomme vilkårlige steder i den primære struktur. Geometri for Poly(Pro) I og II Som nævnt tidligere adskiller aminosyren prolin (Pro) sig fra de øvrige aminosyrer, idet den kan forekomme i både trans og cis. Denne egenskab gør, at den ikke egner sig specielt til at indgå i hverken α-helicer eller β-sheets. Til gengæld kan en sekvens af prolin-aminosyrer forme andre typer af helicer kendt som Poly(Pro) I og II. Peptidbindingerne i en Poly(Pro) I er udelukkende i cis og danner en højre-drejet helix med 3,3 aminosyrer per omgang, mens peptidbindingerne i Poly(Pro) II udelukkende er i trans og danner en venstre-drejet helix med 3,0 aminosyrer per omgang. I vandige opløsninger er Poly(Pro) II dominerende. Rotation Tabel 4 herunder angiver vinklerne mellem amidplanerne i de forskellige strukturer, som netop er gennemgået. 22

f y Aminosyrer per omgang Anti-parallel β-sheet -139 135 2.0 Parallel β-sheet -119 113 2.0 Højredrejet α-helix -62-41 3.6 3 10 -helix -49-26 3.0 π-helix -57-70 4.4 Poly(Pro) I -83 158 3.3 Poly(Pro) II -78 149 3.0 Tabel 4 Vinklerne mellem atomerne i peptidbindingerne i forskellige sekundære strukturer. 2.2.2 Tertiære og kvaternære strukturer Den tertiære struktur er den egentlige tredimensionelle struktur af en bestemt aminosyrekæde, hvori der kan indgå adskillige sekundære strukturer. De dele af aminosyrekæderne, der ikke er foldet i nogle af de omtalte sekundære strukturer, drives også sammen af den hydrofobe effekt, van der Waalske interaktioner og hydrogenbindinger, om end de ikke samler sig i specielle genkendelige strukturer. Man kalder disse tilfældige strukturer for random coils eller blot coils. Nogle proteiner består af flere tertiære strukturer såkaldte subunits der er bundet sammen af ikke-kovalente bindinger. Hvis et protein består af flere subunits, kaldes den struktur, hvor alle subunits er samlede, for proteinets kvaternære struktur. 2.3 Termodynamik Det er almindelig accepteret og antaget, at proteinernes foldninger sker i overensstemmelse med termodynamiske love. 2.3.1 Entropi og enthalpi I forbindelse med termodynamiske love er der to essentielle begreber, som det er vigtigt at kende til: entropi og enthalpi. Jeg vil her kort præcisere, hvordan de forstås i en proteinsammenhæng. Entropi Entropien, der som regel benævnes med et S, er generelt et mål for, hvor ordnet et system er. Entropien siges at falde, jo mere ordnet et system er, og stige jo mere uordnet et system er. I henhold til termodynamikkens 3. lov (jeg vender tilbage til de to første love i afsnit 2.3.2) er entropien, i et komplet ordnet system, nul. Entropien er primært interessant som mål i forbindelse med tilstandsændringer, og normalt ses der på S, dvs. forskellen i entropi for to tilstande, som er givet ved: S = S sluttilstand - S starttilstand For proteiner er entropien højst, når proteinet er ikke-foldet, og lavest, når proteinet er foldet, hvilket betyder at S altid vil være negativ, hvis et protein går fra at være ikkefoldet til at være foldet. 23

Enthalpi For proteiner er enthalpien et mål for, hvor meget ikke-kovalente bindinger bidrager energetisk med, og det er i denne sammenhæng altid er et negativt tal. Ligesom for entropi er det primært enthalpi-ændringen, der benævnes H, som er interessant i termodynamiske sammenhænge. Desto flere ikke-kovalente bindinger og interaktioner der optræder, desto mere negativ bliver H. 2.3.2 Termodynamikkens 2. lov Termodynamikkens 1. og 2. lov beregner den såkaldte frie energi (også kaldet for Gibbs frie energi efter opfinderen) i hhv. et lukket og åbent system. Et lukket system betyder, at systemet betragtes isoleret, mens et åbent system betyder, at systemet interagerer med sine omgivelser. Biologiske systemer interagerer naturligt med deres omgivelser, og det er derfor hovedsageligt termodynamikkens 2. lov, der er interessant. Ligesom for både entropi og enthalpi er det ændringen i den frie energi, der er interessant, idet det for proteiner kan betragtes som et slags mål for, hvor energetisk hensigtsmæssigt det er for et protein at indtage en bestemt konformation. Formlen til beregning af ændringen i den frie energi for to tilstande ser således ud: G = H T S G angiver forskellen i den frie energi, T angiver temperaturen, og som netop gennemgået i forrige afsnit, angiver H samt S forskellen i hhv. enthalpi og entropi. I studier af proteinfoldninger holdes temperaturen normalt konstant ved 25 C. Negative værdier af G betyder, at en reaktion favoriseres, mens positive værdier betyder, at den modsatte proces favoriseres. Hvis værdien er nul, er reaktionen i ligevægt. Som nævnt i forrige afsnit bliver S mellem et ikke-foldet og foldet protein altid negativ, hvilket iht. formlen (og ved 25 C) kommer til at bidrage positivt til G. Den lave entropi i et foldet protein taler dermed interessant nok imod en foldning. For proteiner i neutrale opløsninger er G imidlertid altid negativ, og foldning er derfor altid favoriseret. Dette skyldes dels, at enthalpien yder et større negativt bidrag end det positive bidrag, som entropien giver, og dels at den hydrofobe effekt er med til at mindske entropi-bidraget. Når et proteins meget hydrofobe aminosyrer kommer i kontakt med vand, som det sker, når proteinet ikke er foldet, vil de omkringliggende vandmolekyler ordne sig i et slags "bur" omkring de hydrofobe dele, hvilket resulterer i,at der sker et tab af entropi i omgivelserne. I det foldede protein, hvor de hydrofobe aminosyrer typisk begraves inde i proteinet, sker tabet af entropi pga. ordningen af proteinet, men struktureringen af vandmolekylerne bliver til gengæld unødvendig, og bidraget herfra forsvinder eller mindskes således. Bidraget til den negative enthalpi stammer fra såvel hydrogenbindinger som van der Waalske interaktioner, idet H bliver mere negativ jo flere af disse bindinger og interaktioner, der finder sted. 24

Det hersker en generel teori om, at proteiner folder til den konformation, der giver den lavest mulige G. Beregningen, af de kemiske egenskabers præcise bidrag til hhv. entropi og enthalpi, er imidlertid vanskelig og endnu ikke entydig bestemt. 2.4 Foldningsprincipper Ud over antagelsen om at proteiner folder til en lav energitilstand, har man empirisk kunnet observere nogle andre interessante foldningsprincipper. Et af principperne er, at proteinerne som regel folder, så de indre aminosyrer er pakket meget tæt, hvilket giver gode muligheder for van der Waalske interaktioner. Et andet vigtigt princip er, at foldningen af et protein sker iht. til en generel proces (se Figur 7 herunder), hvor de sekundære strukturer er nogle af de første, som dannes, inden de mere tilfældige coils skabes. Dette er interessant, fordi sekundære strukturer mindsker antallet af mulige konformationer signifikant, om end de kombinatoriske muligheder fortsat er overvældende. Indledningsvis formation af sekundære strukturer Strukturel konsolidering Ufoldet Delvist foldet Afsluttende organisering Næsten færdig foldet Færdig foldet protein Figur 7 Illustration af foldningsprocessen. I den tidlige fase dannes sekundære strukturer, i den mellemliggende fase fasttømres de dannede strukturer, mens der sker en afsluttende organisering i den sene fase. Et sidste vigtigt foldningsprincip er, at visse aminosyrer tilsyneladende indgår oftere end andre i forskellige sekundære strukturer. Optræder der således en række aminosyrer, som ofte indgår i en α-helix, umiddelbart efter hinanden, er der stor sandsynlighed for, at der dannes en α-helix dette sted. Tabel 5 herunder illustrerer præferencerne for de enkelte aminosyrer. 25

Glycin Alanin Valin Leucin Isoleucin Serin Threonin Cystein Methonin Prolin Asparatat Asparagin Glutamat Glutamin Lysin Arginin Histidin Fenylalanin Tyrosin Tryptofan Sheetpræference X X X X X X X Helixpræference X X X X X X X X Tabel 5 Oversigt over de enkelte aminosyrers præferencer for de to mest hyppige sekundære strukturer Selvom en aminosyre har en særlig præference for at indgå i en bestemt type af sekundær struktur, betyder det ikke, at aminosyren kun optræder i denne form for strukturer. Alle aminosyrer kan indgå i hhv. α-helicer og β-sheets, og tabellen beskriver derfor snarere en tendens frem for en regel. 26

3 Evolutionære algoritmer Evolutionære algoritmer er en betegnelse for nogle heuristikker, der, ved at simulere evolutionsprincipper, bl.a. kan bruges til at løse komplekse og beregningstunge problemer. De anvendes ofte i forbindelse med forskellige former for optimeringsproblemer, men de kan også anvendes til eksempelvis simulering og maskinlæring. Der hersker imidlertid lidt uenighed om, hvor bredt betegnelsen evolutionære algoritmer dækker, idet nogle anser det for en fælles betegnelse for forskellige typer af algoritmer, der baserer sig på genetisk evolution[5], mens andre mener, at evolutionære algoritmer også dækker over algoritmer baseret på social evolution så som sværmintelligens[6]. For at undgår misforståelser vil jeg her præcisere, hvad jeg forstår ved evolutionære algoritmer. Efter min opfattelse er evolutionære algoritmer synonymt med genetiske algoritmer, der, ligeledes efter min opfattelse, omfatter alle algoritmer, der baserer sig på en vilkårlig form for genetisk evolution. Jeg betragter sværmintelligens som et selvstændigt område, der ikke hører ind under evolutionære algoritmer. Dette kapitel opsummerer kort evolutionære algoritmer. For yderligere information og mere dybdegående beskrivelse henvises til Appendiks A. 3.1 Fitness-landskaber Nogle problemer, som eksempelvis proteinfoldningsproblemet, har flere alternative løsninger, om end nogle løsninger betragtes som bedre end andre. Mængden af mulige løsninger omtales ofte som enten løsningsrummet eller udfaldsrummet. Hvis der er tale om en søgning blandt de forskellige løsninger, kaldes det undertiden også for søgerummet. Jeg har derfor valgt konsekvent at benytte sidstnævnte betegnelse, fordi der ved brug af evolutionære algoritmer netop er tale om en gennemsøgning af de mulige løsninger. For proteinfoldningsproblemet er søgerummet enormt, men som nævnt folder et protein altid til samme konformation, og der er derfor kun én korrekt løsning. Selv om der kun er én korrekt løsning, findes der blandt de øvrige løsningsmuligheder nogle, der er tættere på den korrekte løsning end andre. Man siger, at disse løsninger er bedre eller mere fit end de andre. Søgerummet bliver ofte visualiseret grafisk som fitness-landskaber, der illustrerer hvor nemt eller svært et problem vil være at løse. Figur 8 herunder viser tre forskellige typer af landskaber; ét jævnt (eng. smooth) landskab, et bakket (eng. hilly) landskab samt et barskt (eng. rough) landskab. I fitness-landskaberne vist herunder symboliserer det højeste punkt i landskaberne den bedste løsning. 27