Estimation of binding free energies with Monte Carlo atomistic simulations and enhanced sampling

Author

Gilabert Navarro, Joan Francesc

Director

Guallar i Tasies, Víctor

Codirector

López i Codina, Daniel

Date of defense

2020-07-22

Pages

164 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Física

Abstract

The advances in computing power have motivated the hope that computational methods can accelerate the pace of drug discovery pipelines. For this, fast, reliable and user-friendly tools are required. One of the fields that has gotten more attentions is the prediction of binding affinities. Two main problems have been identified for such methods: insufficient sampling and inaccurate models. This thesis is focused on tackling the first problem. To this end, we present the development of efficient methods for the estimation of protein-ligand binding free energies. We have developed a protocol that combines enhanced sampling with more standard simulations methods to achieve higher efficiency. First, we run an exploratory enhanced sampling simulation, starting from the bound conformation and partially biased towards unbound poses. The we leverage the information gained from this short simulation to run, longer unbiased simulations to collect statistics. Thanks to the modularity and automation that the protocol offers we were able to test three different methods for the long simulations: PELE, molecular dynamics and AdaptivePELE. PELE and molecular dynamics showed similar results, although PELE used less computational resources. Both seemed to work well with small protein-fragment systems or proteins with not very flexible binding sites. Both failed to accurately reproduce the binding of a kinase, the Mitogen-activated protein kinase 1 (ERK2). On the other hand, AdaptivePELE did not show a great improvement over PELE, with positive results for the Urokinase-type plasminogen activator (URO) and a clear lack of sampling for the Progesterone receptor (PR). We demonstrated the importance of well-designed suite of test systems for the development of new methods. Through the use of a diverse benchmark of protein systems we have established the cases in which the protocol is expected to give accurate results, and which areas require further development. This benchmark consisted of four proteins, and over 30 ligands, much larger than the test systems typically used in the development of pathway-based free energy methods. In summary, the methodology developed in this work can contribute to the drug discovery process for a limited range of protein systems. For many other, we have observed that regular unbiased simulations are not efficient enough and more sophisticated, enhanced sampling methods are required.


Els grans avenços en la capacitat de computació han motivat l'esperança que els mètodes de simulacions per ordinador puguin accelerar el ritme de descobriment de nous fàrmacs. Per a què això sigui possible, es necessiten eines ràpides, acurades i fàcils d'utilitzar. Un dels problemes que han rebut més atenció és el de la predicció d'energies lliures d'unió entre proteïna i lligand. Dos grans problemes han estat identificats per a aquests mètodes: la falta de mostreig i les aproximacions dels models. Aquesta tesi està enfocada a resoldre el primer problema. Per a això, presentem el desenvolupament de mètodes eficients per a l'estimació de d'energies lliures d'unió entre proteïna i lligand. Hem desenvolupat un protocol que combina mètodes anomenats enhanced sampling amb simulació clàssiques per a obtenir una major eficiència. Els mètodes d'enhanced sampling són una classe d'eines que apliquen algun tipus de pertorbació externa al sistema que s'està estudiant per tal d'accelerar-ne el mostreig. En el nostre protocol, primer correm una simulació exploratòria d'enhanced sampling, començant per una mostra de la unió de la proteïna i el lligand. Aquesta simulació esta parcialment esbiaixada cap a aquells estats del sistema on els dos components es troben més separats. Després utilitzem la informació obtinguda d'aquesta primera simulació més curta per a córrer una segona simulació més llarga, amb mètodes sense biaix per obtenir una estadística fidedigna del sistema. Gràcies a la modularitat i el grau d'automatització que la implementació del protocol ofereix, hem pogut provar tres mètodes diferents per les simulacions llargues: PELE, dinàmica molecular i AdaptivePELE. PELE i dinàmica molecular han mostrat resultats similars, tot i que PELE utilitza menys recursos. Els dos han mostrat bons resultats en l'estudi de sistemes de fragments o amb proteïnes amb llocs d'unió poc flexibles. Però, els dos han fallat a l'hora de reproduir els resultats experimentals per a una quinasa, la Mitogen-activated protein kinase 1 (ERK2). D'altra banda, AdaptivePELE no ha mostrat una gran millora respecte a PELE, amb resultats positius per a la proteïna Urokinase-type plasminogen activator (URO) i una clara falta de mostreig per al receptor de progesterona (PR). En aquest treball hem demostrat la importància d'establir un banc de proves equilibrat durant el desenvolupament de nous mètodes. Mitjançant l'ús d'un banc de proves divers hem pogut establir en quins casos es pot esperar que el protocol obtingui resultats acurats, i quines àrees necessiten més desenvolupament. El banc de proves ha consistit de quatre proteïnes i més de trenta lligands, molt més dels que comunament s'utilitzen en el desenvolupament de mètodes per a la predicció d'energies d'unió mitjançant mètodes basats en camins (pathway-based). En resum, la metodologia desenvolupada durant aquesta tesi pot contribuir al procés de recerca de nous fàrmacs per a certs tipus de sistemes de proteïnes. Per a la resta, hem observat que els mètodes de simulació no esbiaixats no són prou eficients i tècniques més sofisticades són necessàries.

Keywords

Binding free energy; Enhanced sampling; Molecular dynamics; Markov state models; AdaptivePELE

Subjects

531/534 - Mechanics; 536 - Heat. Thermodynamics. Statistical physics

Knowledge Area

Àrees temàtiques de la UPC::Física

Documents

TJFGN1de1.pdf

7.332Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

This item appears in the following Collection(s)