Towards Big data comparative genomics
Details
Download: thèse-RV-OK.pdf (27421.31 [Ko])
State: Public
Version: After imprimatur
License: Not specified
State: Public
Version: After imprimatur
License: Not specified
Serval ID
serval:BIB_07B22E00B8C7
Type
PhD thesis: a PhD thesis.
Collection
Publications
Institution
Title
Towards Big data comparative genomics
Director(s)
Dessimoz Christophe
Codirector(s)
Robinson-Rechavi Marc
Institution details
Université de Lausanne, Faculté de biologie et médecine
Publication state
Accepted
Issued date
2022
Language
english
Abstract
Comparative genomics is a powerful approach to study evolution and discover the genetic basis of phenotypes. At the core of this approach lies the ability to differentiate comparable genes across species, the orthologs, from lineage-specific genes arising from gene duplications, the paralogs. However, the recent deluge of next generation sequencing data has turned genomics into a Big data discipline, thus fundamentally challenging comparative genomics methods, in particular the ones to infer orthologs and paralogs. On the other hand, the increasing number of genomes offers new opportunities for biological discovery, as each new sequenced species can be thought of as a privileged access to a unique evolutionary experience. Thus, in the first half of this thesis, I developed two comparative genomics methods to cope with some aspects of the velocity, volume and variety property of Big data. Then, in the second half, I capitalised on these new developments to study two biological systems that benefit particularly from increasing numbers of genomes. In chapter 2, I introduce OMAmer, a fast orthology assignment method based on alignment-free comparisons against gene families and subfamilies. OMAmer can process an entire human proteome (i.e. protein-coding gene repertoire) within a few minutes on a laptop and thus should provide the opportunity to close the gap between the increasing rate of genome sequencing and their integration in orthology databases. In chapter 3, I tackle the problem of visualising the evolutionary history of large gene families. To this end, I present Matreex, which combines phylogenetic profiles (for the compact view of gene distributions across species) with gene trees (for the evolutionary component). In chapter 4, I characterise the role of convergent gene duplications in animal venom evolution by contrasting the protein repertoires of 68 venomous and closely related non- venomous species. To this end, I use OMAmer and quality controls to integrate proteomes of heterogeneous quality into orthologous groups in a quick and robust way. In chapter 5, I generalize this comparative genomics approach for genotype-phenotype associations and apply it to seven convergent adaptations in birds. To this end, OMAmer was used to scale-up the inference of orthologs and paralogs for 363 recently released bird genomes. With this dense species sampling, I find convergent hemoglobin duplications in diving birds, which might be linked to the enhanced oxygen metabolism required for prolonged dives. Moreover, I observe hundreds of gene families with convergent gene losses associated with the loss of flight, some of which are associated with forelimb and feather development. I use Matreex to explore these families. Overall, I believe that this work represents a step closer towards Big data comparative genomics.
--
La génomique comparative est une approche puissante pour étudier l'évolution et découvrir la base génétique des phénotypes. Au cœur de cette approche se trouve la capacité de différencier les gènes comparables d'une espèce à l'autre, les orthologues, des gènes spécifiques à une lignée issus de duplications de gènes, les paralogues. Cependant, le récent déluge de données de séquençage de nouvelle génération a transformé la génomique en une discipline de type Big Data, ce qui remet fondamentalement en question les méthodes de génomique comparative, en particulier celles permettant de prédire les orthologues et les paralogues. D'autre part, le nombre croissant de génomes offre de nouvelles possibilités de découverte biologique, car chaque nouvelle espèce séquencée peut être considérée comme un accès privilégié à une expérience évolutive unique. Ainsi, dans la première moitié de cette thèse, j'ai développé deux méthodes de génomique comparative pour faire face à certains aspects de la vélocité, du volume et de la variété des Big data. Ensuite, dans la seconde moitié, j'ai capitalisé sur ces nouveaux développements pour étudier deux systèmes biologiques qui bénéficient particulièrement de l'augmentation du nombre de génomes. Dans le chapitre 2, je présente OMAmer, une méthode rapide d'inférence d'orthologie basée sur des comparaisons sans alignement avec des familles et des sous-familles de gènes. OMAmer peut traiter un protéome (c'est-à-dire le répertoire des gènes codant pour les protéines) humain entier en quelques minutes sur un ordinateur portable et devrait donc permettre de combler le fossé entre le taux croissant de séquençage des génomes et leur intégration dans les bases de données d'orthologie. Dans le chapitre 3, j'aborde le problème de la visualisation de l'histoire évolutive des grandes familles de gènes. À cette fin, je présente Matreex, qui combine des profils phylogénétiques (pour une vue compacte de la distribution des gènes entre espèces) et des arbres génétiques (pour la composante évolutive). Dans le chapitre 4, je tente de caractériser le rôle des duplications de gènes convergents dans l'évolution des venins chez les animaux en contrastant les répertoires de protéines de 68 espèces venimeuses et d'espèces non venimeuses évolutivement proches. Dans ce but, J'utilise OMAmer et des contrôles de qualité pour intégrer des protéomes de qualité hétérogène dans des groupes orthologues de manière rapide et robuste. Dans le chapitre 5, OMAmer a été utilisé pour intensifier l'inférence d'orthologues et de paralogues pour 363 génomes d'oiseaux récemment publiés. Grâce à cet échantillonnage dense d'espèces, je caractérisé le rôle des duplications et des pertes de gènes pour sept adaptations convergentes chez les oiseaux. J'identifie notamment des duplications convergentes de l'hémoglobine chez les oiseaux plongeurs, qui pourraient être liées à l'augmentation du métabolisme de l'oxygène nécessaire à des plongées prolongées. En outre, j’observe des centaines de familles de gènes présentant des contractions convergentes associées à la perte du vol, dont certaines sont associées au développement des membres antérieurs et des plumes. J'utilise Matreex pour explorer ces familles. Dans l'ensemble, je pense que cette thèse représente un pas de plus vers la génomique comparative Big data.
--
La génomique comparative est une approche puissante pour étudier l'évolution et découvrir la base génétique des phénotypes. Au cœur de cette approche se trouve la capacité de différencier les gènes comparables d'une espèce à l'autre, les orthologues, des gènes spécifiques à une lignée issus de duplications de gènes, les paralogues. Cependant, le récent déluge de données de séquençage de nouvelle génération a transformé la génomique en une discipline de type Big Data, ce qui remet fondamentalement en question les méthodes de génomique comparative, en particulier celles permettant de prédire les orthologues et les paralogues. D'autre part, le nombre croissant de génomes offre de nouvelles possibilités de découverte biologique, car chaque nouvelle espèce séquencée peut être considérée comme un accès privilégié à une expérience évolutive unique. Ainsi, dans la première moitié de cette thèse, j'ai développé deux méthodes de génomique comparative pour faire face à certains aspects de la vélocité, du volume et de la variété des Big data. Ensuite, dans la seconde moitié, j'ai capitalisé sur ces nouveaux développements pour étudier deux systèmes biologiques qui bénéficient particulièrement de l'augmentation du nombre de génomes. Dans le chapitre 2, je présente OMAmer, une méthode rapide d'inférence d'orthologie basée sur des comparaisons sans alignement avec des familles et des sous-familles de gènes. OMAmer peut traiter un protéome (c'est-à-dire le répertoire des gènes codant pour les protéines) humain entier en quelques minutes sur un ordinateur portable et devrait donc permettre de combler le fossé entre le taux croissant de séquençage des génomes et leur intégration dans les bases de données d'orthologie. Dans le chapitre 3, j'aborde le problème de la visualisation de l'histoire évolutive des grandes familles de gènes. À cette fin, je présente Matreex, qui combine des profils phylogénétiques (pour une vue compacte de la distribution des gènes entre espèces) et des arbres génétiques (pour la composante évolutive). Dans le chapitre 4, je tente de caractériser le rôle des duplications de gènes convergents dans l'évolution des venins chez les animaux en contrastant les répertoires de protéines de 68 espèces venimeuses et d'espèces non venimeuses évolutivement proches. Dans ce but, J'utilise OMAmer et des contrôles de qualité pour intégrer des protéomes de qualité hétérogène dans des groupes orthologues de manière rapide et robuste. Dans le chapitre 5, OMAmer a été utilisé pour intensifier l'inférence d'orthologues et de paralogues pour 363 génomes d'oiseaux récemment publiés. Grâce à cet échantillonnage dense d'espèces, je caractérisé le rôle des duplications et des pertes de gènes pour sept adaptations convergentes chez les oiseaux. J'identifie notamment des duplications convergentes de l'hémoglobine chez les oiseaux plongeurs, qui pourraient être liées à l'augmentation du métabolisme de l'oxygène nécessaire à des plongées prolongées. En outre, j’observe des centaines de familles de gènes présentant des contractions convergentes associées à la perte du vol, dont certaines sont associées au développement des membres antérieurs et des plumes. J'utilise Matreex pour explorer ces familles. Dans l'ensemble, je pense que cette thèse représente un pas de plus vers la génomique comparative Big data.
Create date
10/11/2022 12:06
Last modification date
07/12/2022 8:08