Machine learning in multiscale modeling and simulations of molecular systems

Author

Hashemian, Behrooz

Director

Arroyo Balaguer, Marino

Date of defense

2015-05-08

Legal Deposit

B 21121-2015

Pages

131 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Matemàtica Aplicada III

Abstract

Collective variables (CVs) are low-dimensional representations of the state of a complex system, which help us rationalize molecular conformations and sample free energy landscapes with molecular dynamics simulations. However, identifying a representative set of CVs for a given system is far from obvious, and most often relies on physical intuition or partial knowledge about the systems. An inappropriate choice of CVs is misleading and can lead to inefficient sampling. Thus, there is a need for systematic approaches to effectively identify CVs. In recent years, machine learning techniques, especially nonlinear dimensionality reduction (NLDR), have shown their ability to automatically identify the most important collective behavior of molecular systems. These methods have been widely used to visualize molecular trajectories. However, in general they do not provide a differentiable mapping from high-dimensional configuration space to their low-dimensional representation, as required in enhanced sampling methods, and they cannot deal with systems with inherently nontrivial conformational manifolds. In the fist part of this dissertation, we introduce a methodology that, starting from an ensemble representative of molecular flexibility, builds smooth and nonlinear data-driven collective variables (SandCV) from the output of nonlinear manifold learning algorithms. We demonstrate the method with a standard benchmark molecule and show how it can be non-intrusively combined with off-the-shelf enhanced sampling methods, here the adaptive biasing force method. SandCV identifies the system's conformational manifold, handles out-of-manifold conformations by a closest point projection, and exactly computes the Jacobian of the resulting CVs. We also illustrate how enhanced sampling simulations with SandCV can explore regions that were poorly sampled in the original molecular ensemble. We then demonstrate that NLDR methods face serious obstacles when the underlying CVs present periodicities, e.g.~arising from proper dihedral angles. As a result, NLDR methods collapse very distant configurations, thus leading to misinterpretations and inefficiencies in enhanced sampling. Here, we identify this largely overlooked problem, and discuss possible approaches to overcome it. Additionally, we characterize flexibility of alanine dipeptide molecule and show that it evolves around a flat torus in four-dimensional space. In the final part of this thesis, we propose a novel method, atlas of collective variables, that systematically overcomes topological obstacles, ameliorates the geometrical distortions and thus allows NLDR techniques to perform optimally in molecular simulations. This method automatically partitions the configuration space and treats each partition separately. Then, it connects these partitions from the statistical mechanics standpoint.


Las variables colectivas (CVs, acrónimo inglés de collective variables) son representaciones de baja dimensionalidad del estado de un sistema complejo, que nos ayudan a racionalizar conformaciones moleculares y muestrear paisajes de energía libre con simulaciones de dinámica molecular. Sin embargo, identificar unas CVs representativas para un sistema dado dista de ser evidente, por lo que a menudo se confía en la intuición física o en el conocimiento parcial de los sistemas bajo estudio. Una elección inadecuada de las CVs puede dar a interpretaciones engañosas y conducir a un muestreo ineficiente. Por lo tanto, hay una necesidad de desarrollar enfoques sistemáticos para identificar CVs de manera efectiva. En los últimos años, las técnicas de aprendizaje de máquina, especialmente las técnicas de reducción de dimensionalidad no lineal (NLDR, acrónimo inglés de nonlinear dimensionality reduction), han demostrado su capacidad para identificar automáticamente el comportamiento colectivo de sistemas moleculares. Estos métodos han sido ampliamente utilizados para visualizar las trayectorias moleculares. No obstante, en general las técnicas de NLDR no proporcionan una aplicación diferenciable de las configuraciones de alta dimensión a su representación de baja dimensión, condición que es requerida en los métodos mejorados de muestreo, por lo que no pueden hacer frente a sistemas con variedades conformacionales inherentemente no triviales. En la primer parte de esta tesis doctoral, introducimos una metodología que, a partir de un conjunto de conformaciones representativo de la flexibilidad del sistema molecular, construye variables colectivas suaves y no lineales basadas en datos (SandCV, acrónimo en inglés de smooth and nonlinear data-driven collective variables) obtenidos utilizando algoritmos de aprendizaje de variedades no lineales. Demostramos el método con una molécula de referencia estándar y mostramos cómo puede ser combinado de forma no intrusiva con métodos mejorados de muestreo ya existentes, aquí el método de la fuerza de sesgo adaptativa. SandCV identifica la variedad conformacional del sistema, maneja conformaciones fuera de la variedad por una proyección al punto más cercano de la variedad, y calcula exactamente el Jacobiano de las CVs resultantes. También ilustramos cómo simulaciones de muestreo mejoradas pueden, mediante SandCV, explorar regiones que fueron mal muestreadas en el conjunto molecular inicial. A continuación, demostramos que los métodos NLDR se enfrentan a serios obstáculos cuando las CVs subyacentes presentan periodicidad, por ejemplo, derivados de ángulos diedrales. Como consecuencia, los métodos NLDR colapsan configuraciones muy distantes, lo que conduce a interpretaciones erróneas y a ineficiencias en el muestreo mejorado. Aquí, identificamos este problema en gran medida pasado por alto, y discutimos los posibles enfoques para superarlo. Además, caracterizamos la flexibilidad de la molécula de dipéptido alanina y demostramos que evoluciona en torno a un toro plano en cuatro dimensiones. En la parte final de esta tesis, proponemos una metodología novedosa, atlas de variables colectivas, que supera sistemáticamente obstáculos topológicos, aminora las distorsiones geométricas y por lo tanto permite que las técnicas NLDR trabajen de manera óptima en simulaciones moleculares. Este método divide de forma automática el espacio configuracional y trata a cada partición por separado. Después, conecta estas particiones del punto de vista de mecánica estadística.

Subjects

004 - Computer science and technology. Computing. Data processing; 539 - Physical nature of matter

Documents

TBH1de1.pdf

5.767Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)