Impact of recent protein structure prediction methods on homology, evolutionary and functional inference

Author

Baltzis, Athanasios ORCID

Director

Notredame, Cedric

Date of defense

2023-03-20

Pages

161 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Medicina i Ciències de la Vida

Doctorate programs

Programa de doctorat en Biomedicina

Abstract

Recent advances in deep learning techniques have revolutionised protein structure modelling. Since AlphaFold2’s release, a set of tools have now become available to predict native-like structures at near-experimental accuracy for a large fraction of the proteome. This massive amount of structural data is now powering every kind of biological inference requiring structural information. The work presented here features an exploration of the impact of experimental and predicted protein structural information onto homology, evolutionary and functional inference. The first part addresses the issue of accurate multiple sequence alignment (MSA) computation through a novel large-scale algorithmic approach and the systematic use of predicted structural information. In the second part, I explored the contribution of MSAs and structural information to refine phylogenetic and functional inference. On top of developing generic structure-based phylogeny reconstruction methods, I used RBM10, a well characterised splicing factor, as a showcase for the use of predicted structural information to support the inference of functional and phenotypic predictions, especially in the case of pathogenic mutations. The last part of this thesis presents a best-practice bioinformatics pipeline, nf-core/proteinfold, implemented using the Nextflow workflow management system and following nf-core guidelines. This pipeline was developed as a support for the rest of the projects in order to provide a solution to the need of high throughput structure predictions.


Els avenços recents en tècniques de deep learning han revolucionat la modelització d'estructures de proteïnes. Desde el llançament d'AlphaFold2, hi ha disponibles un conjunt d'eines per preveure les estructures de forma nativa amb una precisió gairebé experimental per una gran part del proteoma. A dia d'avui, aquesta gran quantitat de data estructural està alimentant tot tipus de inferència biològica que requereix informació estructural. El treball que es presenta aquí conté una exploració de l'impacte de la informació estructural experimental i predictiva de la proteïna en la inferència de la homologia, l'evolució i la funció. La primera part resolt el problema de la computació precisa d'alineacions de seqüències múltiples (MSA) a través d'un nou enfocament algorítmic de gran escala i l'ús sistemàtic de informació estructural predictiva. En la segona part, exploro la contribució de MSAs i la informació estructural per refinar la inferència filogenètica i funcional. A més a més de desenvolupar mètodes genèrics de reconstrucció filogenètica basada en estructures, he utilitzat RBM10, un factor d'empalmament ben caracteritzat, com un exemple per l'ús d'informació estructural predictiva per recolzar la inferència de prediccions funcional i fenotípica, especialment en el cas de mutacions patogèniques. La última part d'aquesta tesis presenta un pipeline bioinformatic best-practise, nf-core/proteinfold, implementat utilitzant el sistema de gestió de fluxos de treball Nextflow i seguint les directrius de nf-core. Aquest pipeline ha sigut desenvolupat com un suport a la resta de projectes i per proveir una solució a la necessitat de prediccions estructurals de gran escala.

Keywords

Protein structure modelling; Multiple sequence alignment; Phylogenetic reconstruction; Functional inference; Large-scale analysis; Modelització d'estructures de proteïna; Alineació de seqüències múltiples; Reconstrucció filogenètica; Inferència funcional; Anàlisis de gran escala

Subjects

577 - Material bases of life. Biochemistry. Molecular biology. Biophysics

Documents

This document contains embargoed files until 2025-03-20

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)