Sammenligning af proteiners 3-dimensionelle struturer Køreplan 01005 Matemati 1 - FORÅR 2006 1 Formål Formålet med opgaven er at lave en metode til sammenligning af proteiners 3-dimensionale struturer som er robust over for deformationer af proteiner stammende fra f.es Browns bevægelse. 2 Baggrund Proteiner er lange æde-moleyler der varetager de fleste funtioner i vor rop. Proteiner er sammensat af 20 forsellige byggesten, aldet aminosyrer, og ræefølgen af aminosyrerne i et protein er indodet i vort DNA. Proteinfoldningsproblemet eller hvordan får et proteins aminosyresevens proteinet til at folde op til den rigtige 3-dimensionale strutur? er et af de store uløste naturvidensabelige problemer, og proteinfoldningsproblemet tiltræer stor opmærsomhed fra mange forsellige vidensabelige discipliner. Under hele foldningsprocessen taber proteinet entropi ved at gå fra at være fri og ufoldet en nullermand i vand) til at ende i en fast formation aldet dets native fold. Tilgengæld vinder proteinet potentiel energi ved at ioner og hydrofile og hydrofobe grupper bliver parret rigtigt i dets native fold. Under foldningen af et protein an man identificere en eller flere mere eller mindre veldefinerede) formationer af proteinet hvor det opholder sig relativt længe under foldningsprocessen. En sådan formation an på dans aldes en foldningsrate-begrænsende formation FRBF). At foldningen går langsomt i en FRBF syldes at proteinet starter med at tabe entropi for først sent at vinde potentiel energi. I de senere år er der udvilet metoder til at simulere ensambler af FRBF. Et naturligt spørgsmål er nu: Er foldningsrate-begrænsende formationer af et protein tæt på proteinets egen native fold eller ligner de mere andre proteiners native fold? Udfordringen ligger i at en FRBF af et protein ie har alle de arateristia som færdigt foldede proteiner normalt har. Dette betyder at mange metoder til at sammenligne proteinstruturer blot vil sige at en FRBF ligger langt fra enhver nativ formation - så disse metoder er altså ie istand til at forholde sig til at der mere overordnet set an være store ligheder. Formålet er at fjerne loale arateristia af polygonale rumurver der besriver proteinæders bacbone rygrad). Dette gøres ved at lave en procedure til udglatning af proteiners bacbone. Mat1 05/06 side 1
at sire at bacbonet ie går igennem sig selv under udglatnings proceduren, da dette vil forårsage en stor ædring af dets fold. at sammenligne udglattede bacbone s af foldningsrate-begrænsende formationer med udglattede bacbone s af nogle nativt foldede protein struturer - for at eftervise at foldningsratebegræsende formationer ligger tættere på deres egen native strutur end på andre native struturer. at finde proteiner med nuder på. 3 En udglatnings rutine Når man sal sammenligne proteiners foldninger plejer man un at medtage possitionen af et atom fra hver aminosyre. Dette atom aldtes carbon alpha atomet og sidder i proteinets rygrad. Afstanden mellem to nabo carbon alpha atomer er tæt på 3.8Ångström og an næsten ie ændres selv hvis proteinet bevæger sig. En forsimplet matematis model for rygraden af et protein sammensat af n aminosyrer er en polygonal urve der forbinder punterne P i R 3, i = 1,...,n. Givet en polygonal proteinrygradsurve P i R 3, i = 1,...,n, an en ny urve laves ved at tage P ny i = hvor a og b er reelle onstanter. P i, for i = 1,2 Pi 2 + bp i 1 + ap i + bp i+1 + P i+2 ) / a + 2b + 2), for i = 3,...,n 2 P i, for i = n 1,n Summen af vinlerne i en polygonal urve aldes dens totale rumning. For et givent protein bliver den totale rumning af den ny polygonale urve P ny i, i = 1,...,n en funtion af a og b. 1. Proteinet 7lzm an i finde på listen DataMixedStructures. Beregn den totale rumning for proteinet 7lzm både for den originale carbon alpha urve og for den ny urve for a = 6 og b = 4. 2. Indgræns f.es. ved brug af Maples contourplot) a og b så den totale rumning af 7lzm bliver mindst mulig. 1 Vis den oprindelige og den udglattede urve sammen og ommenter resultatet. 3. 7lzm er et såaldt Mainly Alpha protein, hvilet betyder at det er sat sammen af en masse såaldte alpha helixer. Via CATH proteinstrutur-lassifiations hjemmesiden http://www.biochem.ucl.ac.u/bsm/cath/cath.html sal i på listen DataMixedStructures finde et protein der overvejende er lavet af såaldte beta sheets Mainly Beta), et der båder indeholder alpha-helixer og beta-sheets Mixed Alpha-Beta) samt et protein der har få seundærstruturelementer aldet FSS Few Secondary Structures) i CATH databasen. 4. Bestem a og b så den totale rumning bliver lav både for et Mainly Alpha, et Mainly Beta, et Mixed Alpha-Beta og et Few Secondary Structures protein. 1 VINK: Brug f.es un de første 5 carbon alpha atomer indtil jeres Maple-ald virer. Mat1 05/06 side 2
Q Q 17 Q +1 Q +2 Q 2 Q 1 Q ny Q 18 Figur 1: Under flytning fra puntet Q til puntet Q ny opstår en særing med liniestyet mellem Q 17 og Q 18. 4 Selvgennemsærings-chec Når man flytter et punt på en polygonal urve risierer man at urven særer sig selv undervejs, som illustreret på figur 1. Hvis dette ser under den udglatningsrutine, der er lavet ovenfor, vil proteinets fold ændres fundamentalt. Dette må altså ie se under udglatningen. Af figur 1 ses at det er no at unne chece om treant Q 1 Q Q ny og om treant Q Q +1 Q ny har særing med de andre linestyer i den polygonale urve. L 10 L 11 5. Betragt linien gennem L 0 = L 20 og L 1 = L 21 givet ved L 30 L 31 P 10 Lt) = L 0 +t L 1 L 0 ) og planen gennem P 0 = P 20, P 1 = P 21 og P 2 = P 22 givet ved P 30 P 31 P 32 P 11 P 12 Pu,v) = P 0 + up 1 P 0 ) + vp 2 P 0 ). Sæt DistSqr t,u,v) = L t ) P u,v )) L t ) P u,v )) 0 lig vadratet på afstanden mellem punterne på P og L. Vis ved formelle Maple regninger hvor division med nul ie frygtes) at DistSqr har netop et stationært punt hvori den globale mindsteværdi 0 nul) antages. 6. DistSqr t min,u min,v min ) = 0 betyder at linien og planen særer hinanden. Er det altid tilfældet? Opstil, under antagelse af at der er særing, et lineært ligningssystem til bestemmelse af t min, u min og v min. Løs dette ligningssystem ved formel Maple-regning og chec at løsningen er den samme som fundet i opgave 5. 7. Find en formel til løsning af det lineære ligningssystem opstillet i opgave 6 ved brug af Cramers sætning. Hvornår giver løsningsformlen ingen mening? Mat1 05/06 side 3
Maple proceduren: Indenfor:=procu,v) description ligger u,v i treanten 0<=u, 0<=v, u+v<=1? ; local ; :=0; if 0<=u and 0<=v and u+v<=1) then :=1; end if; ; end proc; 8. Hvad sal der gælde om t min, u min og v min for at liniestyet L 0 L 1 og treanten P 0 P 1 P 2 særer hinanden? Sriv en Maple procedure der returnerer 1 hvis der er særing og 0 nul) ellers. 9. Giv et esempel på at liniestyet L 0 L 1 og treanten P 0 P 1 P 2 an være meget tæt på hinanden men at særingen mellem den fulde linie og hele treantens planen ligger langt fra liniestyet og fra treanten. 10. Lav en Maple-procedure der beregner den mindste afstand fra liniestyet L 0 L 1 til treanten P 0 P 1 P 2. Dvs. find minimum af DistSqrt,u,v) over de værdier af t, u og v der svarer til liniestyet L 0 L 1 til treanten P 0 P 1 P 2. 11. Antages det minimum fundet i opgave 10 eller er det un et infimum? Giv forsellige esempler på hvordan minimummet an antages. F.es at minimummet fås mellem et endepunt på liniestyet til et punt der ligger inden i treanten, eller fra et punt inde på en ant af treanten til et punt inde på liniestyet. 12. Sriv en Maple-procedure der ændre den oprindelige carbon alpha urve til den udglattede urve. Dette an gøres i n 4 næsten ens sridt idet man for hvert = 3,...,n 2 flytter P til P ny hvis de to relevante treanter ie har særing med resten af urven. Der an her ses bort fra de to liniestyer der er naboer til treanterne.) Afprøv proceduren på de proteinstruturer i brugte til at optimere udglatningsrutinen. Er der selvgennemsæringer? 5 Sammenligning af FRBF med native protein struturer Listen DataSh3FRBF indeholder en ræe foldningsrate-begrænsende formationer af proteinet SH3 alphaspectrin. Disse stammer fra datamaterialet til artilen [1]. I listen DataStructuralRelatives finder i SH3 alphaspectrins native strutur samt en ræe andre native proteinstruturer der er forholdsvist tæt på SH3 alphaspectrin native strutur. Start med at udglatte alle struturerne. Her an det være nødvendigt at slå selvgennemsærings checet for at få en rimelig beregningstid.) 13. Er længderne af liniestyerne i udglattede protein rygrader arateristis for seundær strutur elementerne? Og hvad med vinlerne mellem liniestyerne? Hvis man sal sammenligne to proteiner der ie er lige lange har man et problem. Nemlig: Mat1 05/06 side 4
Hvilen del af det ene protein sal sammenlignes med det andet protein? Her siger vi at hele det mindste protein sal sammenlignes med et ubrudt stye af samme længde på det største protein. Hvis proteinerne har m hhv. n carbon alpha atomer er der altså m n + 1 måder at sammenligne dem på og man vælger altid den bedste. 14. En grov måde at sammenligne to proteiner på er at se om de har de samme længder af liniestyerne. Lav en procedure der for to udglattede proteiner beregner de m n + 1 gennemsnit af forsellen på liniestyelængderne, og returnerer det mindste gennemsnit. 15. Udbyg metoden fra opgave 14 til også at sammenligne vinlerne af de udglattede liniestyer. 16. Hvile af de native proteinsturturer i DataStructuralRelatives er tættest ved de foldningsrate-begrænsende formationer af proteinet SH3 alphaspectrin? 17. Prøv at sammenligne de oprindelige carbon alpha urver med metoderne fra opgaverne 14 og 15. Har udglatningen haft en effet? 18. Hvis to polygonale urver har ens længder og vinler, er de så ens? 6 Er der nuder på proteiner? De fleste an no blive enige om at der er er en nude på et bundet snørrebånd. Nogle mere sarpsindige vil så tilføje at selve støjfen, dvs. de to slipsti, ie tæller med for de an jo fjernes ved at træe i de to ender. Men så ommer man frem til at der slet ingen nude er for herefter an nudenaldet den trebladede løverbladsnude, blandt dem der ender mange forsellige nuder) jo bindes op. Problemet er at der matematis set ie findes nuder på åbne urver - men un på luede urver. Vi vil her omgå problemet ved gøre noget der svarer til at tage fat i de to løse ender af snørebåndet og træe dem i hver sin retning mod uendeligt for så at se om der er en nude fanget på snørebåndet. Prisen vi betaler ved denne omgåelse er at hvis der næsten er en nude på snørebåndet, så er det helt tilfældigt om vi fanger den eller ej. Vi vil her bruge en ganse berømt sætning af W. Fenchel, der underviste størstedelen af sit liv ved Institut for Matemati, DTU. For polygonale urver lyder sætningen: Hvis der er en nude på en luet polygonal urve da er summen af vinlerne > 4π. 2 Som et corollar af Fenchels sætning får vi: Hvis der er en nude på en åben polygonal urve da er summen af vinlerne > 2π., for det an oste 2π i vinler at lue den åbne polygonale urve. I stedet for at træe i enderne af et protein vil vi holde dets ender fast og srumpe resten af urven mens vi hele tiden vil rette urvens vinler ud og sørge for at urven ie laver selvgennemsæringer. Denne metode til at fange nuder blev første gang brugt at R. W. Taylor [2]. 19. Lav en procedure Glat,P) der i en polygonal urve P i, i = 1,...,n erstatter P med P 1 P +1 )/2 her sal 1 < < n) hvis dette ie forårsager selvgennemsæring med resten af urven. Brug eventuelt en del af proteinet SH3 alphaspectrins native strutur der ie har en nude på) mens i arbejder med algoritmen. 2 I ursus 01234, Differentialgeometri med Anvendelser, er der mulighed for at omme til at forstå beviset for sætningen for differentiable urver. Mat1 05/06 side 5
20. Lav en procedure GlatP) der alder Glat for = 2 til = n 1. 21. Lav en procedure ErDerEnKnudeP) der alder Glat f.es 50 gange eller til summen af vinlerne er under 2π. Proteiner med nuder på er så lange at vi her foretræer at arbejde med en unstig nude vi selv an ontrollere. Torusnuder er nuder der ligger på en torus og gå n gange den ene vej rundt om torussen mens de går m gange den anden vej rundt om torussen. Det an vises at for alle 1 < n < m, hvor n og m er indbyrdes primise dvs ie har en fælles divisor) fås forsellige nuder. 22. Undersøg om der er nuder på nogle af proteinerne fra listerne, og om der er nude på torusnuden for n = 2 og m = 3 aldet den trebladede løverbladsnude. Litteratur [1] K. Lindorff-Larsen, P. Røgen, E. Paci, M Vendrusscolo & C. M. Dobson, Protein folding and the organization of the protein topology universe, Trends in Biochemical Sciences, 301), 13-19. 2005. [2] W. R. Taylor, A deeply notted protein structure and how it might fold, Nature 406, 916-919, 2000. En ta til Kresten Lindorff-Larsen, Protein Biologis Gruppe på Institut for Moleylær Biologi and Physiologi, Københavns Universitet, der venligst har stillet foldningsrate-begrænsende formationer af proteinet SH3 alphaspectrins til rådighed for denne opgave. Mat1 05/06 side 6