Cataloguing the shape and strength of positive selection on 1000 Genomes Project data

Murga Moreno, Jesús

Cataloguing the shape and strength of positive selection on 1000 Genomes Project data

Author

Murga Moreno, Jesús

Director

Casillas Viladerrams, Sònia

Barbadilla Prados, Antonio

Date of defense

2022-04-07

Pages

271 p.

Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Genètica

Abstract

Des que els humans i els ximpanzés es van separar evolutivament, i posteriorment a través de les migracions, la nostra espècie s’ha enfrontat a nombrosos canvis ambientals i socials. Aquestes pressions han modelat els patrons de variació dels nostres genomes, deixant característiques empremtes moleculars al llarg del genoma que es poden identificar mitjançant nombrosos mètodes estadístics. Aquests mètodes han permès detectar i quantificar l’adaptació molecular a diferents escales temporals, proporcionant informació essencial sobre la història evolutiva passada i recent de la nostra espècie. La disponibilitat del conjunt de dades de variació nucleotídica més complet fins ara, el Projecte 1000 Genomes, permet provar hipòtesis de la genètica de poblacions sobre la base dels patrons de variació i finalment identificar caràcters subjectes a selecció positiva. Aquesta tesi té com a objectiu inferir la forma i la força de la selecció positiva en les dades de 1000GP. Per fer-ho ens centrem en mètodes estadístics i bioinformàtics que detecten la selecció adaptativa que contribueix a la diversificació entre espècies i entre poblacions. Amb aquesta finalitat, hem realitzat un cribratge de selecció al llarg de tot el genoma, per totes les poblacions de 1000GP mitjançant l’anàlisi d’impromptus distintives de variació genòmica causades per diferents tipus d’esdeveniments selectius. El mètode emprat detecta arrossegaments selectius per diferents escales temporals i evidències de selecció recurrent al llinatge humà des de la separació evolutiva respecte als ximpanzés. A partir dels resultats, s’ha creat un catàleg que incorpora totes les regions genòmiques candidates a haver estat subjectes a l’acció de la selecció natural, per facilitar així, la seva validació i anàlisi en profunditat. Proporcionem nous candidats i reunim estudis que localitzen repetidament els mateixos gens independentment de les dades i les metodologies. Els resultats s’han posat a disposició en una base de dades col·laboratives en línia, amb l’objectiu de compilar i anotar esdeveniments d’adaptació d’estudis futurs. Per altra banda, fem una revisió del test de McDonald i Kreitman (MKT), un dels mètodes històrics més potents i robusts per detectar l’acció de la selecció natural recurrent, tant en l’àmbit genètic com genòmic. En primer lloc, tot i la gran quantitat de modificacions proposades que corregeixen els potencials biaixos del test original, la majoria d’aquestes extensions principalment tracten la presència de mutacions lleument perjudicials (SDM). Si bé cada vegada tenim més i més anàlisis a escala genòmica, el simple G-test proposat pel MKT original està en desús. Per tot això, presentem imputed MKT (impMKT), una extensió del MKT que millora l’anàlisi i maximitza la informació que permet quantificar la selecció positiva a nivell genètic. En segon lloc, a més de la presencia de SDM, la recombinació, la demografia, la selecció positiva dèbil o la selecció lligada s’han postulats com a possible causa de la baixa proporció de mutacions adaptatives detectat en humans i primats. Aprofitant la informació de tot el genoma, desenvolupem una extensió del mètode ABC-MK. La nostra proposta és un procediment d’inferència basat en ABC més simple i eficient que l’anterior, modelant la DFE d’al·lels perjudicials i beneficiosos i la recombinació incompleta entre elements genòmics. Descrivim el procediment de la inferència, avaluem el seu rendiment i robustesa, demostrant que és raonablement robust per a esdeveniments demogràfics diversos i en diferents escenaris adaptatius. A més, presentem l’evidència d’un efecte substancial dels virus d’ARN en les taxes d’adaptació humana, proporcionant una nova perspectiva sobre la importància del virus d’ARN com a promotors d’adaptació molecular en humans. Finalment, a part de la nostra base de dades col·laborativa i mètodes computacionalment eficients, implementem un servidor web que facilita l’anàlisi MKT al llinatge humà i anàlisis personalitzades.

Desde que los humanos y chimpancés se separaron evolutivamente, y posteriormente a través de las migraciones, nuestra especie se ha enfrentado a numerosos cambios ambientales y sociales. Estas presiones han moldeado los patrones de variación de nuestros genomas, dejando características huellas moleculares a lo largo del genoma que pueden identificarse mediante numerosos métodos estadísticos. Dichos métodos han permitido detectar y cuantificar la adaptación molecular a diferentes escalas temporales, proporcionando información esencial sobre la historia evolutiva pasada y reciente de nuestra especie. La disponibilidad del conjunto de datos de variación nucleotídica más completo hasta la fecha, el Proyecto 1000 Genomas, permite probar hipótesis de la genética de poblaciones en base a los patrones de variación y finalmente identificar caracteres sujetos a selección positiva. Esta tesis tiene como objetivo inferir la forma y la fuerza de la selección positiva en datos los de 1000GP, centrándose principalmente en métodos estadísticos y bioinformáticos que pueden revelar la selección adaptativa que contribuye a la diversificación entre especies y entre poblaciones de nuestra especie. Con este propósito, hemos realizado un escaneo de selección de todo el genoma en los datos de 1000GP mediante el análisis de improntas distintivas de variación genómica causados por diferentes sucesos selectivos y creado un catálogo de todas las regiones genómicas candidatas a estar sujetas a la acción de la selección natural, para así facilitar su validación y análisis exhaustivo. La aproximación presentada detecta barridos selectivos en diferentes momentos históricos y evidencias de selección recurrente en el linaje humano desde la división entre nuestra especie y los chimpancés. Proporcionamos nuevos candidatos y reunimos estudios que localizan repetidamente los mismos genes independientemente de los datos y las metodologías. Estos resultados se han puesto a disposición en una base de datos colaborativa, que recopila y anota eventos de adaptación junto con la historia evolutiva humana, la cual pretende ampliarse con estudios futuros. Además, revisamos la prueba de McDonald y Kreitman (MKT), uno de los métodos más potentes y robustos para detectar la acción de la selección natural recurrente a nivel de ADN, tanto a nivel de gen como de genoma. En primer lugar, aunque se han propuesto varias modificaciones del MKT original para solventar sus posibles sesgos subyacentes, la mayoría de estas extensiones principalmente tratan la presencia de mutaciones levemente perjudiciales (SDM). Si bien se han cada vez se llevan a cabo más y más análisis a escala genómica, el simple G-test propuesto por el MKT original está desuso. Por esa razón, presentamos el imputed MKT (impMKT), una extensión de MKT que mejora significativamente los análisis gen por gen y maximiza la información para cuantificar la selección positiva a nivel génico. En segundo lugar, además de SDM, la demografía, la selección ligada y la adaptación débil se han postulado repetidamente como causantes de la menor proporción de mutaciones adaptativas en humanos y primates. Aprovechando la información genómica, hemos desarrollado una extensión del método ABC-MK. Nuestro enfoque es un procedimiento de inferencia basado en ABC más simple y eficiente que el anterior, modelando la DFE de alelos perjudiciales y beneficiosos y la recombinación incompleta entre elementos genómicos. Describimos el procedimiento de la inferencia, evaluamos su desempeño y robustez, y finalmente mostramos que es razonablemente robusto frente a eventos de no equilibrio o diferentes configuraciones de selección adaptativa. Además, presentamos evidencia de un efecto sustancial de los virus de ARN en las tasas de adaptación humana, proporcionando una nueva visión de los impulsores humanos de la adaptación. Finalmente, además de nuestra base de datos colaborativa y métodos computacionalmente eficientes, creamos un servidor web que facilita los análisis MKT en el linaje humano y análisis personalizados.

Since the split with chimpanzees, and especially since the migrations that led humans to colonize almost every place on Earth, our species has faced frequent environmental and social changes that have shaped the variation patterns of our genomes through the action of natural selection. These selection pressures left signatures in the landscape of genetic variation that can be identified in today’s genomes. Numerous statistical methods have been proposed to analyze genomic data, allowing the detection and quantification of molecular adaptation at different temporal scales and providing essential insights into past and recent human evolutionary history. The availability of the most comprehensive worldwide nucleotide variation dataset so far, the 1000 Genomes Project, provides a resource to test population genetics hypotheses and eventually pinpoint targets of positive selection from the background evolutionary dynamics of genetic variation. This thesis aims to trace the shape and strength of positive selection on 1000GP data, mainly focusing on population genetics methods that try to disentangle the adaptive selection contributing to between species and between populations diversification. For this purpose, the thesis develops statistical and bioinformatics approaches to solve issues of major importance in population genomics. We performed a genome-wide scan of selection on the 1000GP data by surveying distinctive signatures of genomic variation left by selective events and created an online catalog of all candidates to facilitate their validation and thorough analysis. The outlier approach applied here detects sweeps at different historical ages and evidence of recurrent selection in the human lineage since the split between our species and chimpanzees. We provide new candidates and bring together studies that locate repeatedly the same target genes independently of data and methodologies. These results have been made available in a collaborative, online database, compiling and annotating adaptation events along with the human evolutionary history, which aims to be expanded in future studies. In addition, we reviewed the McDonald and Kreitman test (MKT), one of the most powerful and robust methods to detect the action of recurrent natural selection at the DNA level, both at the gene and the genome level. First, although several modifications of the original MKT have been proposed to account for the potential biases underlying the MKT, most of these extensions mainly deal with the presence of slightly deleterious mutations (SDM). While more and more genome-wide analyses have been carried out, the simple G-test of the original MKT has become almost deprecated. For that reason, we present the imputed MKT (impMKT), an MKT extension that significantly improves gene-by-gene analyses maximizing the information to test the recurrent positive at the gene level. Second, in addition to SDM, demography, linked selection and weak adaptation have been repeatedly postulated as the possible cause of the much lower proportion of adaptive mutations measured by the MKT in humans and primates. Taking advantage of genome-wide information, we also develop an extension of the ABC-MK method. Our approach is a simpler and much more computationally efficient ABC-based inference procedure than the previous one, which accounts for the DFE of deleterious and beneficial alleles and incomplete recombination between selected genomic elements. We describe the inference procedure, assess its performance and robustness, and finally show that it is reasonably robust to non-equilibrium events or different configurations of adaptive selection. In addition, we present evidence for a substantial effect of RNA-viruses on human adaptation rates, providing new insight into the human drivers of adaptation. Finally, in addition to our collaborative database and computationally efficient methods, we developed a web server that facilitates MKT analyses in the human lineage and custom analyses for humans and other species with population genomics data.

Keywords

Selecció positiva; Selección positiva; Positive selection; Bioinformatica; Bioinformática; Bioinformátics; Variació nucleotidica; Variación nucleotídica; Nucleotide variation

Subjects

575 - General genetics. General cytogenetics

Knowledge Area

Ciències Experimentals

Documents

jmm1de1.pdf

6.535Mb

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)

Programa de Doctorat en Genètica [13]

Cataloguing the shape and strength of positive selection on 1000 Genomes Project data

Author

Director

Date of defense

Pages

Share

Doctorate programs

Abstract

Keywords

Subjects

Knowledge Area

Documents

Export

Rights

This item appears in the following Collection(s)