Teoretiske vs. empiriske modeller

Teoretiske vs. empiriske modeller Kjeld Rasmussen*, R, dr. techn., docent emer. Kemisk Institut Danmarks tekniske Universitet Abstract Vi vil se på modellering som et redskab til beregning af struktur og termodynamiske egenskaber for et molekyle gennem en matematisk model for vekselvirkningerne mellem atomerne. En model tilpasses traditionelt ved trial-and-error fitting til kendte data for kendte molekyler; i nyere tid ved tilstræbt objektiv optimering i stedet for trial-and-error; og i nyeste tid ved fitting eller optimering på rent teoretiske data frembragt ved kvantekemiske ab initio beregninger. Vi skal diskutere metodernes fordele og ulemper. Bygget over et indlæg på 16. RUC-modeldag Matematiske modeller i kemi Torsdag d. 29. april 2004 * Adresser til korrespondance: Runebergs alle 46 2860 SØBORG Tel: + 45 39 69 18 13 Email: kjr@kemi.dtu.dk Website: http://struktur.kemi.dtu.dk/kjr/ 1

Beregning af struktur og termodynamiske egenskaber Engang i 1960 mødtes to mænd: Shneior Lifson og Antonio Roig. De var fra Israel og Spanien, og de arbejdede i Cambridge, Massachusetts. De fik en ide om at beskrive statistisk termodynamik for helix-omdannelsen i polypeptider ved at bruge de indre rotationsvinkler i polypeptidkæden som variable. De skrev en artikel, der blev skelsættende, og den [1] er det eneste arbejde, de to har lavet sammen. Det nye redskab havde en beklagelig og meget alvorlig fejl: pålideligheden af de konklusioner, man kom frem til, var begrænset, fordi man kun havde svage ideer om den potentielle energi af vekselvirkningerne i polymererne. Det er helt essentielt at kende den potentielle energi for at kunne beregne fordelingsfunktioner, for al beregning af termodynamik hviler på fordelingsfunktioner. Lifson besluttede at rette op på det, og med sine ideer og sin energi startede han et meget aktivt forskningsfelt: at bygge potentialenergifunktioner til beskrivelse af intra- og intermolekylære vekselvirkninger for at kunne udforske konformationsrummet. Det var ikke noget fuldstændig nyt. Mathieu lavede de første primitive beregninger [2] på koordinationsforbindelser i 1944, hvad ingen lagde mærke til. Alle havde for travlt med tyskerne og japanerne. Det næste forsøg, som tillige viste en vej til konformationsanalyse i uorganisk kemi, var et arbejde [3] af Corey og Bailar i 1959. I 1960erne kastede rigtig mange sig over formulering af potentialenergifunktioner og søgning efter strukturer med minimal energi, som jo må formodes at repræsentere ligevægtskonformationer, og dermed være tæt på virkelige og observerbare strukturer. Det var især organiske eksperimentalkemikere, som søgte at finde genveje til synteser, og organiske strukturkemikere, som ønskede at rationalisere deres resultater fra elektrondiffraktion. Lifson, som ses i Figur 1, tog disse ideer op, men begyndte helt forfra med en ny udvikling af potentialenergifunktioner for alkaner og cycloalkaner; en vej, som alle senere seriøse udviklere har fulgt. Model for vekselvirkningerne mellem atomerne Jeg har nævnt, at en god model til beregning af molekylære strukturer og egenskaber afhænger af, hvor godt den potentielle energi i molekylet kan beregnes. Lad os derfor se nøjere på det. I et molekyle, som for eksempel polyalkoholen inositol vist i Figur 2, er der en mængde vekselvirkninger mellem atomerne. Vi taler om to hovedtyper: bundne og ikke-bundne. De bundne er repræsenteret ved de tykke streger, som symboliserer kemiske bindinger. Det er dem, der holder molekylet sammen som en helhed. Molekylets form Figur 2: En iso- og konformer af inositol eller konformation er tillige bestemt af alle de ikkebundne vekselvirkninger, altså alle de påvirkninger, der findes mellem to atomer, der ikke er bundet til hinanden. Det er klart, at der er mange, mange flere af dem end af de bundne. Og i krystaller dominerer de ikke-bundne vekselvirkninger; de bestemmer jo selve krystalstrukturen. Figur 3 viser et eksempel på en meget enkel model med ret primitive matematiske udtryk for de forskellige energibidrag. De primære vekselvirkninger falder i to hovedgrupper: bundne og ikke-bundne. De bundne beskrives med en harmonisk funktion; de ikke-bundne med en meget enkel Lennard-Jones-funktion plus et Coulomb-led. De sekundære termer er korrektioner til den ret primitive inddeling i to-legeme-vekselvirkninger. De er bestemt ikke betydningsløse, heller ikke numerisk. De behandles med harmoniske udtryk. 2 Figur 1: Afdøde professor Shneior Lifson, grundlægger af Chemical Physics Department på Weizmann Institute of Science og opfinder af the Consistent Force Field

Figur 3: Primitiv potentialenergifunktion Disse enkle udtryk blev i lange tider anvendt af stort set alle, der arbejder med modellering. Selv om de er primitive, virker de ofte tilfredsstillende til en del anvendelser, især hvis molekylerne ikke indeholder for store spændinger, og hvis der ikke ønskes beregnet svingningsfrekvenser og termodynamiske funktioner. I dag bruger næsten alle betydeligt mere komplicerede funktioner, som da også giver langt bedre resultater. Se Figur 4. Til beskrivelse af bindende vekselvirkninger er det blevet almindeligt at anvende Morse-funktioner, som er langt mere realistiske end harmoniske, både ved sammentrykning af bindingen, hvor frastødningen stiger stejlt, og ved strækning af bindingen, hvor Morse-funktionen, Figur 5, opfører sig korrekt, nemlig aftager mod nul, mens den harmoniske går mod uendeligt. Den tredje funktion er en type, som jeg venter mig meget af til beskrivelse af den koordinative Figur 4: Sofistikeret potentialenergifunktion binding, som man finder den i komplekser af overgangsmetaller. Den er inspireret af de tidlige arbejder over krystalfelt- og ligandfeltteorien, men er endnu ikke udforsket. 3

Ikke-bundne vekselvirkninger blev i lange tider fortrinsvis beskrevet med Buckingham-funktionen, som har en teoretisk begrundelse, men som opfører sig helt forkert ved meget korte afstande. I stedet bruger de fleste nu Lennard-Jonesfunktionen, som i Figur 4 er vist i to repræsentationer. Tillige anvender vi et Coulomb-led til beskrivelse af elektrostatiske vekselvirkninger; de fleste tillægger hvert atom en del af en elektronladning, positiv eller negativ. Til korrektionsleddene i de forskellige typer vinkler anvender man i det væsentlige harmoniske udtryk. I Figur 4 er vist nogle af dem, der bruges i forskellige modeller. Figur 5: Optimerede potentialenergifunktioner for C-H-bindingen; øverst harmonisk (parabel); nederst Morse Trial-and-error fitting til kendte data Med disse udtryk behandler vi så molekylerne. Vi tager et sæt molekyler, hvis strukturer vi kender, putter deres geometrier ind i et program, som vi lader beregne deres energier, og ændre på geometrierne, indtil energierne er mindst mulige. Så har vi ligevægtskonformationerne for hvert molekyle i sættet med den udvalgte potentialenergifunktion. Så sammenligner vi med de kendte strukturer, og ændrer på parametrene i potentialenergifunktionerne og gentager beregningerne, til strukturerne passer så godt, som det nu er os muligt med denne model. Optimering i stedet for trial-and-error I 1968 skete der noget meget væsentligt: Warshel og Lifson publicerede [4] deres Consistent Force Field. De indførte flere nye begreber og metoder, som var lidet kendte i strukturkemien: kvadratisk konvergent minimering af energi, beregning af normalsvingninger, beregning af termodynamiske funktioner med statistisk-mekaniske metoder og, vigtigst af alt, optimering af parametrene i potentialenergifunktionerne. Det må vi se lidt nærmere på. Hjertet i optimering er en enkel algoritme, der fører til en meget indviklet programmering. Vi finder de partielle afledede af alle de observable data med hensyn til parametrene i potentialenergifunktionerne. Så kan vi med en mindste kvadraters metode ændre på parametrene indtil de observable passer pænt med de observerede data. Konceptet er som nævnt Lifson s, og den oprindelige programmering udførte Warshel. De nuværende rutiner er udviklet over en lang årrække på Kemisk Laboratorium A på DTH, nu Kemisk Institut på DTU, af mine medarbejdere og mig [5]. Det konsistente i navnet på fremgangsmåden ligger i, at vi i samme beregning anvender mange molekyler (og krystaller) og flere forskellige slags data, som strukturer fra diffraktionsmålinger, svingningsfrekvenser fra IR, Raman og neutronspektre, dipolmomenter fra kapacitetsmålinger eller mikrobølgespektre, og termodynamiske funktioner fra kalorimetri. Vi vil se på, hvad jeg kalder CFF-cyklussen. Figur 6 viser, at vi skal have minimeringen fuldført og dermed have fundet ligevægtskonformationerne, før vi kan beregne normalfrekvenser og derefter termodynamiske størrelser. Først når alt dette er gjort, kan vi optimere. Det skyldes, at vi til beregning af normalfrekvenser skal bruge krumningen i ligevægtstilstanden. De vanskeligste parametre i potentialenergifunktionerne at tilpasse godt er dem, der beskriver de ikke-bundne vekselvirkninger, og her især den frastødende del af potentialenergifunktionen. Her ville det være godt at kunne udnytte de mange data fra molekylspredning, som er fremkommet i de seneste 20-30 år. 4

Til nøjere bestemmelse af de mere langtrækkende indflydelser ville det være fordelagtigt at kunne medtage de mange målinger af gasfasetransportkoefficienter, som er udført med stor præcision over mere end et halvt århundrede. Altså målinger af viskositet, diffusionskoefficient og termisk ledningsevne. Foruden disse dynamiske egenskaber burde vi anvende flere termodynamiske data som virialkoefficienter og damptryk. Når man tilpasser en model til at gengive eksperimentelle data, må man gøre sig klart, hvad disse data betyder. Drejer det sig om molekylstrukturer, har vi mange typer, som er udledt fra forskellige eksperimentelle metoder. Man er nødt til at udvælge en enkelt type og holde sig til den, ellers er ens fremgangsmåde ikke konsistent. Det tog såmænd mange år at få de fleste i branchen til at indse det. Figur 6: CFF-cyklus Figur 7: Nogle strukturtyper I Figur 7 ses et udvalg af strukturer, som man kan udlede fra målinger(6). r z fås ud fra højtopløste IR- og Ramana og beslægtede fra elektron- spektre; r diffraktion i gasfase. r g kan siges at vise et molekyles størrelse ved almindelige omstændigheder. Almindeligvis publiceres r a og r g; man kan regne sig frem til r z, som er den struktur, de fleste nu om dage foretrækker til fitting og optimering. Figur 8 viser nogle strukturer hos methan som et eksempel. Den potentielle energi for C-H-bindingen har et minimum, som angiver ligevægtsstrukturen. Den er ens for de to isotopomere. Da protium er lettere end deuterium, har den større amplitude i strækningssvingningerne, og derfor i middel støre afstand fra carbon. Vi ser, at man kan korrigere fra spektroskopiske og fra elektrondiffraktionsmåz og til r e. Den struktur, som man beregner ved at linger til r minimere den potentielle energi, er derimod helt klar. Det er ligevægtsstrukturen. Den har til modelbygning blot den fejl, at den er utilgængelig for måling; man kan principielt ikke iagttage den. Man kan som nævnt regne sig til den ud fra målinger, men kun for små molekyler, og det er ikke gjort for særlig mange. Dog nok til at man har fundet nydelig overensstemmelse med de bedste rent teoretiske beregninger. Figur 8: Strukturer for methan 5

Fitting eller optimering på teoretiske data Det har siden 1920erne været klart, at man i princippet kan beregne ligevægtsstrukturen af et molekyle med kvantemekanik, men det har indtil fornyligt været praktisk umuligt. I løbet af de seneste ti år er der sket så store fremskridt i både computerteknologi og i udvikling af programmel, at det nu er realistisk at bruge kvantekemiske metoder til at beregne ligevægtsstrukturer og andre egenskaber med troværdighed, selv for ret store molekyler. Denne udvikling har ført til, at mange grupper har publiceret modeller baseret på rent teoretiske data. Det kan dog også være betænkeligt. Dels skal kvantekemiske beregninger være meget omfattende for at give troværdige resultater for især meget fleksible molekyler, stærkt polære molekyler, og molekyler med hydrogenbindinger. Det rammer modeller, der søger at beskrive naturstoffer som peptider og saccharider. Dels er det ikke helt ligetil at beregne normalsvingninger. Især i den højfrekvente del af spektret, altså ved C-H strækning og tilsvarende, får man alt for høje værdier, og man er nødt til at indføre empiriske skaleringer. Det tager lidt af glansen væk. Ligeså er beregning af dipolmomenter både meget bekostelige og ganske unøjagtige. ab initio beregninger Til orientering for dem med særlig indsigt: Jeg arbejder selv rutinemæssigt med kvantekemiske metoder. Et eksempel er den, der beskrives som B3LYP/6-311++G**. Jeg har blandt andet gennemført en geometrioptimering på et tetrasaccharid med 84 atomer, hvoraf halvdelen er H, resten C og O, på en af mine hjemmecomputere, en maskine [7] med fire processorer, der arbejder parallelt. Det tog nogle måneder. Molekylet ses i Figur 9. Figur 9: Krystalkonformation af et makrocyklisk tetrasaccharid 6

Resultaterne herfra skal naturligvis anvendes i modelbygning, sammen med data fra tilsvarende beregninger på mono- og disaccharider. Jeg kan ikke anbefale ab initio beregninger af væsentlig ringere kvalitet end den vist her til udvikling af modeller, der skal beskrive fleksible polære molekyler med hydrogenbindinger. Fordele og ulemper Jeg har netop beskrevet inkonsekvenser ved brug af eksperimentelle strukturer og unøjagtigheder ved teoretiske beregninger. Selv bruger jeg nu en blanding af teoretiske og empiriske data til mine optimeringer. Det er ikke ideelt, men jeg finder, at det er det bedste, man kan gøre i dag. En alvorligt ment advarsel, baseret på mange års erfaringer: Ingen potentialenergifunktion - eller intet kraftfelt - bør anvendes ukritisk uden for det område, den blev udviklet til, og når den bruges med et andet program end det, der blev brugt til dens udvikling. Overtræder man disse regler, er man selv skyld i sin fiasko. Litteraturhenvisninger 1. S. Lifson and A. Roig, J. Chem. Phys. 34 (1961) 1963. 2. J.-P. Mathieu, Ann. de Physique 19 (1944) 335-354. 3. E. J. Corey and J. C. Bailar, Jr., J. Am. Chem. Soc. 81 (1959) 2620-2629. 4. S. Lifson and A. Warshel, J. Chem. Phys. 49 (1968) 5116-5129. 5. http://struktur.kemi.dtu.dk/kjr/ 6. K. Kuchitsu, in D. R. Lide, Jr. and M.A. Paul (eds.) Critical Evaluation of Chemical and Physical Structural Information, Nat. Acad. Sci., Washington 1974, p.132. 7. http://www.pqs-chem.com 7