Decoding natural selection: Statistical approaches for inferring and representing positive selection in large-scale genetic variation data
llistat de metadades
Author
Director
Barbadilla Prados, Antonio
Speidel , Leo
Casillas Viladerrams, Sònia
Tutor
Barbadilla Prados, Antonio
Date of defense
2025-06-18
Pages
233 p.
Doctorate programs
Universitat Autònoma de Barcelona. Programa de Doctorat en Bioinformàtica
Abstract
Els desafiaments adaptatius que hem afrontat com a espècie en expandir-nos pel planeta Terra han deixat petjades en els nostres genomes que podem observar avui dia. Els avenços recents en la genètica de poblacions i les metodologies computacionals han millorat notablement la nostra capacitat per a rastrejar aquestes petjades adaptatives, oferint-nos una visió més precisa sobre els orígens humans, les històries poblacionals i els processos evolutius. L'interès per entendre la selecció natural ha suscitat debats sobre la seva magnitud i naturalesa al llarg de la història humana. Aquest projecte busca millorar les metodologies per a detectar senyals de selecció positiva, desenvolupant un enfoc més precís per a identificar aquests patrons de manera eficaç. Tot i que existeixen múltiples estadístics per a identificar regions genòmiques sotmeses a selecció, trobar els al·lels específics responsables d'aquesta és encara més difícil. Per a abordar aquest repte, el primer capítol de resultats d’aquesta tesi descriu PopHumanVar, una aplicació interactiva dissenyada per a facilitar l'exploració i anàlisi de regions genòmiques candidates a selecció, mitjançant la integració de dades funcionals i de genòmica de poblacions. PopHumanVar recopila i representa gràficament informació de bases de dades com GEVA, SnpEFF, GWAS Catalog, ClinVar, RegulomeDB i DisGeNET, juntament amb estimacions precises d'estadístiques com iHS, nSL i iSAFE per a variants bial·lèliques del projecte 1000 Genomes Project (fase 3). Amb els informes detallats que genera sobre les variants potencialment implicades en escombratges selectius recents, PopHumanVar és capaç d’identificar les variants causals de regions ben estudiades com EDAR en asiàtics orientals, ACKR1 (DARC) en africans i LCT/MCM6 en europeus. L'aplicació està disponible a l’enllaç https://pophumanvar.uab.cat. D'altra banda, la seqüenciació de cohorts cada vegada més àmplies d'ADN antic (aDNA) està permetent estudiar de manera més directa la selecció que ha actuat sobre els nostres genomes al llarg del temps. El desenvolupament de noves tècniques permet inferir trajectòries de freqüències al·lèliques i estimar els coeficients de selecció associats. Encara que combinar dades d'ADN modern i antic és un enfocament potent, la conservació de l'ADN antic sol ser millor en climes freds i es degrada amb el temps, la qual cosa limita la disponibilitat de sèries temporals denses. Recentment, s'han desenvolupat mètodes per a inferir genealogies a partir de genomes moderns i antics de manera conjunta, com Relate, tsinfer i ARGneedle. Aquestes eines permeten aprofitar al màxim la informació d'haplotips per a inferir selecció, incloent-hi trajectòries de freqüències al·lèliques i coeficients de selecció. Per a avançar en el coneixement sobre la selecció recent i aprofitar aquestes noves metodologies, als dos darrers capítols de resultats d’aquesta tesi presentem: (1) un marc flexible de simulació per a modelar canvis en freqüències al·lèliques sota selecció positiva, incloent mostreig d’aDNA, i (2) un model ocult de Markov (HMM) dissenyat per a inferir coeficients de selecció i canvis en freqüències al·lèliques a partir de genealogies que inclouen aADN. Hem avaluat aquest HMM utilitzant el nostre marc de simulació i l'hem comparat amb altres metodologies existents com CLUES2. Els nostres resultats mostren que la combinació d'inferència genealògica amb dades d'aADN millora considerablement la inferència de la selecció. A més, proposem un marc teòric per a estendre el HMM, permetent l'actualització iterativa d'arbres marginals per a millorar la seva precisió en escenaris de selecció intensa. El desenvolupament de noves metodologies computacionals i la integració de conjunts de dades genòmiques diverses ens permet afinar la detecció de signatures de selecció i aprofundir en la nostra comprensió de l'adaptació humana.
Los retos adaptativos que los humanos hemos experimentado al expandirnos por el planeta Tierra han dejado huellas en nuestros genomas que podemos detectar con los avances recientes en el rastreo de huellas adaptativas en genética y en metodologías computacionales. Estos avances nos han provisto de una visión más precisa sobre los orígenes humanos, las historias poblacionales y los procesos evolutivos. El interés por entender la selección natural ha suscitado debates sobre su magnitud y naturaleza a lo largo de la historia humana. Este proyecto busca mejorar las metodologías existentes para detectar señales de selección positiva, desarrollando enfoques más precisos y eficaces para identificar estos patrones. Aunque existen múltiples métricas para identificar regiones genómicas sometidas a selección, resulta difícil señalar los alelos específicos responsables de ella. Para abordar este reto, el primer capítulo de resultados de esta tesis describe PopHumanVar, una aplicación interactiva diseñada para facilitar la exploración y análisis de regiones genómicas candidatas a selección, mediante la integración de datos funcionales y de genómica de poblaciones. PopHumanVar recopila y representa gráficamente información de bases de datos como GEVA, SnpEFF, GWAS Catalog, ClinVar, RegulomeDB y DisGeNET, junto con estimaciones precisas de estadísticas como iHS, nSL e iSAFE para variantes bialélicas del proyecto 1000 Genomes Project (fase 3). Con los informes detallados que genera sobre las variantes potencialmente implicadas en barridos selectivos recientes, PopHumanVar identifica con éxito las variantes causales de regiones bien estudiadas como los genes EDAR en asiáticos orientales, ACKR1 (DARC) en africanos y LCT/MCM6 en europeos. La aplicación está disponible en: https://pophumanvar.uab.cat. Por otro lado, la secuenciación de cohortes cada vez más amplias de ADN antiguo (aDNA) está permitiendo estudiar de manera más directa la selección que ha actuado sobre nuestros genomas a lo largo del tiempo. El desarrollo de nuevas técnicas de simulación permite inferir trayectorias de frecuencias alélicas y estimar los coeficientes de selección asociados. Aunque combinar datos de ADN moderno y antiguo es un enfoque potente, la conservación del ADN antiguo viene limitada por la disponibilidad de series temporales densas. Recientemente, se han desarrollado métodos para inferir genealogías a partir de genomas modernos y antiguos de manera conjunta, como Relate, tsinfer y ARGneedle. Estas herramientas permiten aprovechar al máximo la información de haplotipos para inferir selección, incluyendo trayectorias de frecuencias alélicas y coeficientes de selección. Para avanzar en el conocimiento sobre la selección reciente y aprovechar estas nuevas metodologías, en los dos últimos capítulos de resultados de esta tesis presentamos: (1) un marco flexible de simulación para modelar cambios en frecuencias alélicas bajo selección positiva con muestreo integrado de aDNA, y (2) un modelo oculto de Markov (HMM) diseñado para inferir coeficientes de selección y cambios en frecuencias alélicas a partir de genealogías que incluyen ADN antiguo. Hemos evaluado este este HMM utilizando nuestro marco de simulación y lo hemos comparado con otras metodologías existentes como CLUES2. Nuestros resultados muestran que la combinación de inferencia genealógica con datos de ADN antiguo mejora considerablemente la estimación de selección alélica. Además, proponemos un marco teórico para extender el HMM, permitiendo la actualización iterativa de árboles marginales para mejorar su precisión en escenarios de selección intensa. El desarrollo de nuevas metodologías computacionales y la integración de conjuntos de datos genómicos diversos nos permite afinar la detección de firmas de selección y profundizar en nuestra comprensión de la adaptación humana.
The adaptive challenges humans faced while expanding globally have left genetic footprints in our present-day genomes. Recent advances in genetic research and computational methodologies have significantly enhanced our ability to trace these adaptive signatures, offering deeper insights into human origins, population histories, and evolutionary trajectories. A growing interest in understanding natural selection has sparked debate over its extent and nature in shaping human populations throughout history. This thesis aims to improve methods for detecting selection signatures in genomic data, by refining existing approaches and integrating multiple lines of evidence to improve accuracy. While various metrics exist to identify genomic regions under selection, pinpointing the causal alleles remains challenging. To address this, in chapter 2 of this thesis we present PopHumanVar, an interactive online application designed to facilitate the exploration and analysis of candidate genomic regions by integrating functional and population genomics data. PopHumanVar compiles and visualizes information from diverse sources, including GEVA, SnpEFF, GWAS Catalog, ClinVar, RegulomeDB, and DisGeNET, alongside precise estimations of iHS, nSL, and iSAFE statistics for biallelic single nucleotide variants (SNVs) from the 1000 Genomes Project Phase 3 data set. By generating detailed reports of prioritized variants potentially involved in recent selective sweeps, PopHumanVar successfully identifies known causal variants in well-documented regions such as EDAR in East Asians, ACKR1 (DARC) in Africans, and LCT/MCM6 in Europeans. The platform is available at https://pophumanvar.uab.cat. Building on this, in chapters 3 and 4 of this thesis, we present a novel approach for assessing selection evidence using ancient DNA (aDNA). The sequencing of increasingly large aDNA cohorts now allows direct observation of selection acting on genomes over time. Recent methods enable inference of allele frequency trajectories and selection coefficients, yet integrating modern and ancient DNA remains challenging due to sparse time series data. New genealogy-based methods, such as Relate, tsinfer, and ARGneedle, now allow for the joint inference of genealogies from modern and ancient genomes, fully leverage haplotype information to infer selection, including allele frequency trajectories and selection coefficients. To further refine our understanding of recent selection while leveraging these new methodological tools, we present: (1) a flexible simulation framework for modeling allele frequency changes under positive selection, incorporating aDNA sampling, and (2) a hidden Markov model (HMM)-based method for inferring selection coefficients and allele frequency changes from genealogies incorporating aDNA. We validate our approach using our proposed simulation framework and benchmark it against state-of-the-art methodologies such as CLUES2. Our results demonstrate that integrating genealogical inference with aDNA improves selection estimates. Additionally, we propose a theoretical extension of the HMM to iteratively update marginal trees, which incorporates selection directly into reconstructed genealogies and promises to enhance selection inference. By advancing computational methodologies and integrating diverse genomic datasets, this thesis refines the detection of selection signatures and broadens our understanding of human adaptation.
Keywords
Selecció positiva; Positive selection; Selección positiva; DNA antic; Ancient DNA; DNA antiguo; Genealogies; Genealogies; Genealogías
Subjects
575 - General genetics. General cytogenetics. Immunogenetics. Evolution. Phylogeny