Investigating relationships between sequence conservation and function using multispecies whole genome alignments
Détails
Télécharger: these-FR-OK.pdf (9438.65 [Ko])
Etat: Public
Version: Après imprimatur
Licence: Non spécifiée
Etat: Public
Version: Après imprimatur
Licence: Non spécifiée
ID Serval
serval:BIB_FD973D0CD126
Type
Thèse: thèse de doctorat.
Collection
Publications
Institution
Titre
Investigating relationships between sequence conservation and function using multispecies whole genome alignments
Directeur⸱rice⸱s
Waterhouse Robert
Codirecteur⸱rice⸱s
Robinson Rechavi Marc
Détails de l'institution
Université de Lausanne, Faculté de biologie et médecine
Statut éditorial
Acceptée
Date de publication
01/11/2024
Langue
anglais
Résumé
The main goal driving the work presented in this thesis is to investigate the relationship between sequence conservation and biological function in Arthropods. Indeed, the increasingly comprehensive sampling of all kingdoms of life enabled by developments in large-scale DNA sequencing and driven by large-scale sequencing initiatives brings powerful opportunities to explore patterns of genome evolution and characterise novel functional genomic elements using multi-species comparative genomics approaches. The basic premise of such approaches is that sequences that remain conserved or recognisably similar across many species over millions of years of evolution are constrained to do so because of evolutionary pressures to maintain some biologically functional role. Consequently, furthering our understanding of the relationship between these evolutionary constraints on genomic sequence and the biological function of the related genomic elements will facilitate the large-scale identification of functional elements in new genome assemblies, as well as generally strengthen our knowledge of how genomes encode biological function. A powerful method of detecting genomic sequences conserved across genomes relies on the computation of Multispecies Whole-Genome Alignments (MWGAs), which form the basic resource required to interrogate patterns of sequence changes and evolutionary constraints in relation to the functional spectra of genomic elements. Pioneering studies using signatures of evolutionary conservation to characterise functional elements first looked at the relatively small genomes of yeasts and Drosophila; following advances in sequencing technologies, further work investigated these patterns in mammals and angiosperms. However, despite the success of these studies, computing MWGAs remains a challenging task to this day, and at the start of this thesis project, there was no reliable implementation of the computational workflow required to do so. Furthermore, while the ever accelerating accumulation of available genome sequences enables increasingly powerful studies of evolutionary constraints on genomic sequence for more and more clades, the quality of these assemblies as well as the taxonomic coverage of sequence species remains heterogeneous even today.
In light of these observations, the first challenge addressed by this thesis work was to accurately assess both the quality and taxonomic distribution of genomic resources available for arthropods, in order to select genome assemblies to include in MWGAs. Our solution to this problem resulted in the release of an online resource powered by a computational workflow, the Arthropoda Assembly Assessment Catalogue (A3Cat), which regroups all available information on released and upcoming arthropod assemblies along with estimates of assembly quality computed by the workflow. This resource and the associated data was the focus of two publications, which are summarised in Chapter 1. The second task undertaken in this work was the development of bioinformatics tools and workflows necessary to build whole-genome alignment resources for arthropods as well as downstream analyses of sequence conservation and visualisation tools. In order to be useful to the general scientific community, these tools had to follow modern requirements for computational science by being portable, scalable, documented, and enabling fully reproducible computational analyses. This work resulted in two computational workflows implemented using a modern workflow management engine: one to compute MWGAs, presented in Chapter 2, and a second to perform analyses and generate powerful visualisation from MWGAs, described in Chapter 3; furthermore, additional work to develop specific missing blocks in the workflows and efforts to ensure reproducibility are covered in Chapter 5.
Because of the considerable challenges encountered during the development of the A3Cat and the two computational workflows to generate and analyse MWGAs, amplified by the need for a reproducible implementation following modern practices, these technical advances comprise the main outcome of this thesis work. However, we were able to leverage this work to compute several MWGAs, which are described as part of Chapter 2, including a MWGA of 22 mosquito species which was used for a preliminary analysis of sequence conservation at the genome level presented in the results of Chapter 3. We expanded on the results of this analysis in Chapter 4, exploring how patterns of sequence conservation relate to biological function in protein-coding genes in mosquitoes using both long-term evolutionary conservation computed from the MWGA as well population-level genetic polymorphism. We focused particularly on genes whose products are involved in the immune system, as mosquitoes are vectors of some of the deadliest diseases to humans, identifying a link between specific functions in the immune system and sequence conservation for multiple gene families. Finally, we summarise additional work contributing to collaborative projects in multiple areas of genomics in Chapter 6.
--
L'objectif principal des travaux présentés dans cette thèse est d'étudier le lien entre la conservation des séquences génomiques et la fonction biologique chez les arthropodes. En effet, l'échantillonnage de plus en plus complet des espèces vivantes, rendu possible par les progrès du séquençage de l'ADN et par les initiatives de séquençage à grande échelle, offre de puissantes opportunités d'explorer les schémas d'évolution du génome et de caractériser de nouveaux éléments génomiques fonctionnels à l'aide d'approches de génomique comparative multi-espèces. Le principe de base de ces approches est que les séquences qui restent conservées ou qui présentent des similitudes reconnaissables chez de nombreuses espèces au cours de millions d'années d'évolution sont contraintes de le faire en raison de pressions évolutives visant à maintenir un certain rôle biologiquement fonctionnel. Par conséquent, une meilleure compréhension de la relation entre ces contraintes évolutives sur la séquence génomique et la fonction biologique des éléments génomiques apparentés facilitera l'identification à grande échelle des éléments fonctionnels dans les nouveaux assemblages de génomes, et renforcera d'une manière générale notre connaissance de la manière dont les génomes codent pour une fonction biologique. Un outil puissant de détection des séquences génomiques conservées à travers les génomes repose sur l'élaboration d'alignements de génomes entiers multi-espèces (MWGA), qui constituent la ressource de base nécessaire pour interroger les modèles de changements de séquence et les contraintes évolutives en lien avec les catégories fonctionnelles d’éléments génomiques. Des études pionnières utilisant les signatures évolutives de la conservation de séquences pour caractériser les éléments fonctionnels ont d'abord porté sur les génomes relativement petits de la levure et de la drosophile ; d'autres travaux ont ensuite étudié ces modèles chez les mammifères et les angiospermes. Cependant, malgré le succès de ces études, la génération de MWGA reste à ce jour une tâche difficile, et au début de ce projet de thèse, il n'existait pas d'implémentation fiable du workflow nécessaire pour y parvenir. De plus, alors que l'accumulation toujours plus rapide de séquences génomiques permet des études de plus en plus étendues des contraintes évolutives sur le génome pour un nombre croissant de clades, la qualité de ces assemblages ainsi que la couverture taxonomique des espèces séquencées restent encore aujourd'hui hétérogènes.
À la lumière de ces observations, le premier défi relevé par ce travail de thèse a été d'évaluer avec précision la qualité et la distribution taxonomique des ressources génomiques disponibles pour les arthropodes, afin de sélectionner les assemblages de génomes à inclure dans les MWGA. Notre solution à ce problème a abouti à la publication d'une ressource en ligne, l'Arthropoda Assembly Assessment Catalogue (A3Cat), qui regroupe toutes les informations disponibles sur les assemblages d'arthropodes publiés et à venir, ainsi que les estimations de la qualité des assemblages calculées par le workflow générant cette ressource. Le catalogue et les données associées ont fait l'objet de deux publications, qui sont résumées dans le Chapitre
1. La deuxième tâche entreprise dans le cadre de ce travail a été le développement d'outils bioinformatiques et de workflows nécessaires pour créer des ressources d'alignement de génomes entiers d'arthropodes ainsi que des analyses en aval de la conservation des séquences et des outils de visualisation. Afin d'être utiles à la communauté scientifique, ces outils devaient répondre aux exigences modernes de la science informatique en étant portables, scalables, documentés et en permettant des analyses informatiques entièrement reproductibles. Ce travail a abouti à deux workflows mis en œuvre à l'aide d'un moteur moderne de gestion des workflows : l'un pour générer les MWGA, présenté dans le Chapitre 2, et l'autre pour effectuer des analyses et générer des visualisations à partir des MWGA, décrit dans le Chapitre 3 ; en outre, des travaux supplémentaires visant à développer des blocs spécifiques manquants aux workflows et des efforts pour assurer la reproductibilité sont couverts dans le Chapitre 5.
En raison des défis considérables rencontrés lors du développement de l'A3Cat et des deux workflows pour générer et analyser les MWGA, amplifiés par la nécessité d'une implémentation reproductible adhérant aux pratiques modernes, ces avancées techniques constituent le principal résultat de ce travail de thèse. Cependant, nous avons pu tirer parti de ce travail pour générer plusieurs MWGA, qui sont décrits dans le cadre du Chapitre 2, y compris un MWGA de 22 espèces de moustiques qui a été utilisé pour une analyse préliminaire de la conservation des séquences au niveau du génome, présentée dans les résultats du Chapitre 3. Nous avons développé les résultats de cette analyse au Chapitre 4, en explorant la manière dont les schémas de conservation des séquences sont liés à la fonction biologique des gènes chez les moustiques, en utilisant à la fois la conservation de séquence à l'échelle évolutive calculée à partir de ce MWGA et le polymorphisme génétique au niveau des populations. Nous nous sommes particulièrement intéressés aux gènes dont les produits sont impliqués dans le système immunitaire, car les moustiques sont les vecteurs de certaines des maladies les plus mortelles pour l'homme, et nous avons identifié un lien entre des fonctions spécifiques du système immunitaire et la conservation des séquences pour plusieurs familles de gènes. Enfin, nous résumons au Chapitre 6 les travaux supplémentaires contribuant à des projets de collaboration dans de multiples domaines de la génomique.
In light of these observations, the first challenge addressed by this thesis work was to accurately assess both the quality and taxonomic distribution of genomic resources available for arthropods, in order to select genome assemblies to include in MWGAs. Our solution to this problem resulted in the release of an online resource powered by a computational workflow, the Arthropoda Assembly Assessment Catalogue (A3Cat), which regroups all available information on released and upcoming arthropod assemblies along with estimates of assembly quality computed by the workflow. This resource and the associated data was the focus of two publications, which are summarised in Chapter 1. The second task undertaken in this work was the development of bioinformatics tools and workflows necessary to build whole-genome alignment resources for arthropods as well as downstream analyses of sequence conservation and visualisation tools. In order to be useful to the general scientific community, these tools had to follow modern requirements for computational science by being portable, scalable, documented, and enabling fully reproducible computational analyses. This work resulted in two computational workflows implemented using a modern workflow management engine: one to compute MWGAs, presented in Chapter 2, and a second to perform analyses and generate powerful visualisation from MWGAs, described in Chapter 3; furthermore, additional work to develop specific missing blocks in the workflows and efforts to ensure reproducibility are covered in Chapter 5.
Because of the considerable challenges encountered during the development of the A3Cat and the two computational workflows to generate and analyse MWGAs, amplified by the need for a reproducible implementation following modern practices, these technical advances comprise the main outcome of this thesis work. However, we were able to leverage this work to compute several MWGAs, which are described as part of Chapter 2, including a MWGA of 22 mosquito species which was used for a preliminary analysis of sequence conservation at the genome level presented in the results of Chapter 3. We expanded on the results of this analysis in Chapter 4, exploring how patterns of sequence conservation relate to biological function in protein-coding genes in mosquitoes using both long-term evolutionary conservation computed from the MWGA as well population-level genetic polymorphism. We focused particularly on genes whose products are involved in the immune system, as mosquitoes are vectors of some of the deadliest diseases to humans, identifying a link between specific functions in the immune system and sequence conservation for multiple gene families. Finally, we summarise additional work contributing to collaborative projects in multiple areas of genomics in Chapter 6.
--
L'objectif principal des travaux présentés dans cette thèse est d'étudier le lien entre la conservation des séquences génomiques et la fonction biologique chez les arthropodes. En effet, l'échantillonnage de plus en plus complet des espèces vivantes, rendu possible par les progrès du séquençage de l'ADN et par les initiatives de séquençage à grande échelle, offre de puissantes opportunités d'explorer les schémas d'évolution du génome et de caractériser de nouveaux éléments génomiques fonctionnels à l'aide d'approches de génomique comparative multi-espèces. Le principe de base de ces approches est que les séquences qui restent conservées ou qui présentent des similitudes reconnaissables chez de nombreuses espèces au cours de millions d'années d'évolution sont contraintes de le faire en raison de pressions évolutives visant à maintenir un certain rôle biologiquement fonctionnel. Par conséquent, une meilleure compréhension de la relation entre ces contraintes évolutives sur la séquence génomique et la fonction biologique des éléments génomiques apparentés facilitera l'identification à grande échelle des éléments fonctionnels dans les nouveaux assemblages de génomes, et renforcera d'une manière générale notre connaissance de la manière dont les génomes codent pour une fonction biologique. Un outil puissant de détection des séquences génomiques conservées à travers les génomes repose sur l'élaboration d'alignements de génomes entiers multi-espèces (MWGA), qui constituent la ressource de base nécessaire pour interroger les modèles de changements de séquence et les contraintes évolutives en lien avec les catégories fonctionnelles d’éléments génomiques. Des études pionnières utilisant les signatures évolutives de la conservation de séquences pour caractériser les éléments fonctionnels ont d'abord porté sur les génomes relativement petits de la levure et de la drosophile ; d'autres travaux ont ensuite étudié ces modèles chez les mammifères et les angiospermes. Cependant, malgré le succès de ces études, la génération de MWGA reste à ce jour une tâche difficile, et au début de ce projet de thèse, il n'existait pas d'implémentation fiable du workflow nécessaire pour y parvenir. De plus, alors que l'accumulation toujours plus rapide de séquences génomiques permet des études de plus en plus étendues des contraintes évolutives sur le génome pour un nombre croissant de clades, la qualité de ces assemblages ainsi que la couverture taxonomique des espèces séquencées restent encore aujourd'hui hétérogènes.
À la lumière de ces observations, le premier défi relevé par ce travail de thèse a été d'évaluer avec précision la qualité et la distribution taxonomique des ressources génomiques disponibles pour les arthropodes, afin de sélectionner les assemblages de génomes à inclure dans les MWGA. Notre solution à ce problème a abouti à la publication d'une ressource en ligne, l'Arthropoda Assembly Assessment Catalogue (A3Cat), qui regroupe toutes les informations disponibles sur les assemblages d'arthropodes publiés et à venir, ainsi que les estimations de la qualité des assemblages calculées par le workflow générant cette ressource. Le catalogue et les données associées ont fait l'objet de deux publications, qui sont résumées dans le Chapitre
1. La deuxième tâche entreprise dans le cadre de ce travail a été le développement d'outils bioinformatiques et de workflows nécessaires pour créer des ressources d'alignement de génomes entiers d'arthropodes ainsi que des analyses en aval de la conservation des séquences et des outils de visualisation. Afin d'être utiles à la communauté scientifique, ces outils devaient répondre aux exigences modernes de la science informatique en étant portables, scalables, documentés et en permettant des analyses informatiques entièrement reproductibles. Ce travail a abouti à deux workflows mis en œuvre à l'aide d'un moteur moderne de gestion des workflows : l'un pour générer les MWGA, présenté dans le Chapitre 2, et l'autre pour effectuer des analyses et générer des visualisations à partir des MWGA, décrit dans le Chapitre 3 ; en outre, des travaux supplémentaires visant à développer des blocs spécifiques manquants aux workflows et des efforts pour assurer la reproductibilité sont couverts dans le Chapitre 5.
En raison des défis considérables rencontrés lors du développement de l'A3Cat et des deux workflows pour générer et analyser les MWGA, amplifiés par la nécessité d'une implémentation reproductible adhérant aux pratiques modernes, ces avancées techniques constituent le principal résultat de ce travail de thèse. Cependant, nous avons pu tirer parti de ce travail pour générer plusieurs MWGA, qui sont décrits dans le cadre du Chapitre 2, y compris un MWGA de 22 espèces de moustiques qui a été utilisé pour une analyse préliminaire de la conservation des séquences au niveau du génome, présentée dans les résultats du Chapitre 3. Nous avons développé les résultats de cette analyse au Chapitre 4, en explorant la manière dont les schémas de conservation des séquences sont liés à la fonction biologique des gènes chez les moustiques, en utilisant à la fois la conservation de séquence à l'échelle évolutive calculée à partir de ce MWGA et le polymorphisme génétique au niveau des populations. Nous nous sommes particulièrement intéressés aux gènes dont les produits sont impliqués dans le système immunitaire, car les moustiques sont les vecteurs de certaines des maladies les plus mortelles pour l'homme, et nous avons identifié un lien entre des fonctions spécifiques du système immunitaire et la conservation des séquences pour plusieurs familles de gènes. Enfin, nous résumons au Chapitre 6 les travaux supplémentaires contribuant à des projets de collaboration dans de multiples domaines de la génomique.
Création de la notice
01/11/2024 10:20
Dernière modification de la notice
19/12/2024 10:23