Detecting signals of polygenic variability in domestication and in breeding

Author

Vourlaki, Ioanna Theoni

Director

Ramos Onsins, Sebastian Ernesto

Perez Enciso, Miguel

Tutor

Cáceres Aguilar, Mario

Date of defense

2023-01-25

Pages

239 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Genètica

Abstract

Els trets més complexos d’interès estan controlats per molts gens amb efecte petit que experimenten canvis subtils en la seva freqüència, cosa que dificulta el detectar un patró específic derivat al genoma. De fet, encara està per revelar l’arquitectura genètica subjacent a la variació fenotípica de la majoria de trets complexos. Aquesta tesi pretén comprendre els efectes poligènics des de la perspectiva de la genètica de poblacions (mitjançant inferència) i genètica quantitativa (mitjançant predicció). Raonem que l’observació de com es formen els patrons de variabilitat en diferents condicions selectives i demogràfiques, com ara la domesticació, pot revelar patrons d’adaptació poligènics en el genoma de les espècies. A més, l’associació entre els trets fenotípics i les variants causals no s’hauria de limitar als polimorfismes nucleotídics (SNP). Els polimorfismes d’inserció transposables (TIP) i les variacions estructurals (SV) també podrien explicar una part important de la variabilitat. En primer lloc, la tesi se centra a detectar el senyal poligènic del procés de domesticació al genoma mitjançant l’anàlisi de la distribució d’efectes selectius (DFE). Estudiem el DFE conjunt mitjançant l’espectre de freqüència bidimensional (2D-SFS) entre les poblacions salvatge i domèstica de dues maneres: (i) descrivim i comparem els patrons de diversitat genètica entre les poblacions en deu escenaris de domesticació derivats de simulacions, i (ii) proposem un nou model per mesurar el DFE conjunt dissenyat per quantificar un senyal de domesticació. Hem recuperat aquest senyal amb èxit en presència de polimorfismes compartits. Finalment, destaquem els punts forts i les limitacions dels models genètics poblacionals actuals a l’hora de detectar un senyal poligènic de domesticació sota diferents arquitectures genètiques i demogràfiques. En segon lloc, investiguem si els TIP poden augmentar l’eficàcia de la predicció genòmica (GP) dels trets en comparació amb l’ús només de SNP. Hem utilitzat onze trets d’importància agronòmica originats per cinc grups diferents de població d’arròs (Aus/Boro, Indica, Aromàtic, Japonica i Admixed), 738 mostres en total. En un escenari només amb mostres dins de grup, vam predir el rendiment de les varietats millorades Indica utilitzant la resta de varietats. En un escenari transversal, es van predir totes les mostres aromàtiques i mixtes utilitzant la resta de poblacions. La nostra anàlisi va demostrar que els TIP poden explicar una fracció important de la variància genètica total i també millorar la predicció genòmica de trets complexos. El tercer propòsit d’aquesta tesi és afegir SV per explorar la seva capacitat per predir trets agronòmics complexos en l’arròs. Els SV com les supressions, les inversions i les duplicacions, es poden trobar en una proporció elevada en els genomes de les plantes. Com en els TIP, vam trobar que els SV poden explicar una fracció important de la variació genètica en els trets d’interès. A més, els nostres resultats suggereixen que els models d’aprenentatge profund superen el 50% dels casos estudiats. Finalment, aprenentatge profund sembla millorar la capacitat de predicció de trets continus en comparació amb els models bayesians quan l’entrenament i el conjunt de dades estan llunyanament relacionats.


La mayoría de los caracteres complejos de interés están controlados por muchos genes de efecto menor que experimentan cambios sutiles en su frecuencia, lo que dificulta la detección de un patrón derivado específico en el genoma. Por tanto, la arquitectura genética que subyace a la variación fenotípica de los caracteres más complejos aún está por revelarse. Esta tesis tiene como objetivo comprender los efectos poligénicos desde la perspectiva de la genética de poblaciones (mediante inferencia) y de la genética cuantitativa (mediante predicción). Argumentamos que observar cómo se forman los patrones de variabilidad bajo diferentes condiciones selectivas y demográficas, como en el caso de la domesticación, puede revelar señales de adaptación poligénica en el genoma de las especies. Además, la asociación entre los caracteres fenotípicos y las variantes causales no debe limitarse a los polimorfismos nucleotídicos (SNP). Los polimorfismos transponibles de inserción (TIP) y las variantes estructurales (SV) también podrían explicar una fracción importante de la variabilidad. En primer lugar, la tesis se centra en detectar la señal poligénica del proceso de domesticación en el genoma mediante el análisis de la distribución de los efectos selectivos (DFE). Estudiamos el DFE conjunto utilizando el espectro de frecuencia bidimensional (2D-SFS) entre las poblaciones silvestre y domesticada de dos maneras: (i) describimos y comparamos los patrones de diversidad genética entre las poblaciones bajo diez escenarios de domesticación derivados de simulaciones, y (ii) proponemos un nuevo modelo para medir el DFE conjunto diseñado para cuantificar la señal de domesticación. Recuperamos con éxito esta señal en presencia de polimorfismos compartidos. Finalmente, destacamos las fortalezas y limitaciones de los modelos genéticos de población actuales para detectar una señal poligénica de domesticación bajo diferentes arquitecturas genéticas y demográficas. En segundo lugar, investigamos si los TIP pueden aumentar la eficacia de la predicción genómica (GP) de caracteres en comparación con el uso exclusivo de SNP. Utilizamos once caracteres de importancia agronómica originadas por cinco grupos de población de arroz diferentes (Aus/Boro, Indica, Aromático, Japonica y Mixto), con 738 muestras en total. En un escenario con muestras dentro de grupo, predijimos el rendimiento de las variedades mejoradas de Indica utilizando las demás variedades. En un escenario con todos los grupos, todas las muestras aromáticas y mixtas se predijeron utilizando el resto de las poblaciones. Nuestro análisis mostró que los TIP pueden explicar una fracción importante de la variación genética total y también mejorar la predicción genómica de caracteres complejos. El tercer propósito de esta tesis es agregar SV para explorar su capacidad para predecir características agronómicas complejas en arroz. Los SV, como las deleciones, inversiones y duplicaciones, se pueden encontrar en una alta proporción en los genomas de las plantas. Al igual que en los TIP, encontramos que los SV pueden explicar una fracción importante de la variación genética en los caracteres de interés. Además, nuestros resultados sugirieron que los modelos de Aprendizaje Profundo superan en el 50% de los casos estudiados. Finalmente, Aprendizaje Profundo parece mejorar la capacidad de predicción de los caracteres continuos en comparación con los modelos bayesianos cuando el entrenamiento y el conjunto de datos están relacionados de manera distante.


Most complex traits of interest are controlled by many genes of small effects which experience only subtle changes in their frequency, making it hard to detect a specific derived pattern in the genome. Therefore, the genetic architecture underlying the phenotypic variation of most complex traits is still to be revealed. This thesis aims to understand polygenic effects from a population genetics (inference) and a quantitative genetics (prediction) perspective. We reason that observing how patterns of variability are formed under different selective and demographic conditions, such as domestication, may reveal patterns of polygenic adaptation signals in the genome of species. In addition, association between phenotypic traits and causative variants should not be restricted to Single Nucleotide Polymorphisms (SNPs). Transposable Insertion polymorphisms (TIPs) and Structural Variations (SVs) could also explain an important fraction of the variability. Firstly, the thesis focuses on detecting a genome-wide polygenic signal of domestication process through the analysis of full Distribution of Fitness Effects (DFE). We study the joint DFE using the 2-dimensional site frequency spectrum (2D-SFS) between populations in two ways: (i) we describe and compare the patterns of genetic diversity between the wild and domestic populations under ten domestication scenarios derived from forward simulations, and (ii) we propose a new joint DFE model designed to quantify a signal of domestication. We successfully retrieved this signal in the presence of shared polymorphisms. Finally, we highlight the strengths and limitations of current population genetic models in detecting a polygenic signal of domestication under different genetic and demographic architectures. Secondly, we investigate whether TIPs can increase the effectiveness of Genomic Prediction (GP) of traits when compared to using only SNPs. We used eleven traits of agronomic importance originated by five different rice population groups (Aus/Boro, Indica, Aromatic, Japonica and Admixed), 738 accessions in total. In a within group scenario, we predicted performance of improved Indica varieties using the rest varieties. In an across group scenario, all Aromatic and Admixed accessions were predicted using the rest of populations. Our analysis showed that TIPs can explain an important fraction of total genetic variance and also improve the genomic prediction of complex traits. The third purpose of this thesis is to add SVs to explore its capacity to predict complex agronomic traits in rice. SVs such as deletions, inversions and duplication can be found in a high proportion in the plant genomes. As in TIPs, we found that SVs can explain an important fraction of genetic variation in the traits of interest. Also, our results suggested that Deep Learning (DL) models outperform in 50% of the studied cases. Finally, DL seems to improve prediction ability of continuous traits compared to Bayesian models when training and test dataset are distantly related.

Keywords

Genètica de poblacions; Genética de poblaciones; Population genetics; Genètica quantitativa; Genética cuantitativa; Quantitative genetics; Genètica; Genética; Genetics

Subjects

0 - Science and knowledge. Organization. Computer science. Information. Documentation. Librarianship. Institutions. Publications

Knowledge Area

Ciències Experimentals

Documents

itv1de1.pdf

9.799Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)