Genomic history of ancient populations in the Americas
Details
Serval ID
serval:BIB_410DF8130F27
Type
PhD thesis: a PhD thesis.
Collection
Publications
Institution
Title
Genomic history of ancient populations in the Americas
Director(s)
Malaspinas Anna-Sapfo
Codirector(s)
Ávila-Arcos Maria C., Reymond Alexandre
Institution details
Université de Lausanne, Faculté de biologie et médecine
Publication state
Accepted
Issued date
2023
Language
english
Abstract
The peopling of the Americas encompasses the last chapter of massive migrations by our species. In the 19th century, the scientific community engaged in a race to explain the origins of "the first Americans" and the mechanisms leading to their social, cultural and biological diversification. For instance, Jê-speaking hunter-gatherers in central and eastern Brazil (called "Botocudos" by the European colonizers) were thought to be the.descendants of the first Americans in the region due to their craniometric affinities with the latter. However, little is known about the genetic relationship between "Botocudo" populations and Indigenous Americans since the only two "Botocudo" individuals sequenced so far were of Polynesian ancestry.
To better understand the genetic history of Indigenous Americans, I studied the genomes of 24 individuals whose remains were housed at the National Museum in Rio de Janeiro. Twenty-two of those individuals were labeled as "Botocudos" in the museum's archives. In the first chapter, I showed that the 24 individuals bore genetic ancestry consis tent with that of Indigenous Americans (unlike the two "Botocudos" sequenced from the same museum in 2014). Since "Botocudo" populations were persecuted during the European colonization of Brazil, and the fate of their descendants is hidden from the historical records, I then aimed at identifying the "Botocudos'" closest genetic populations. While I observed a general affinity between the "Botocudos" and populations in South America and Brazil, none of the In digenous populations analyzed were significantly doser to the "Botocudos". When I modelled the genetic history of the "Botocudos" and Tupi-speaking populations in the Amazon, I estimated a divergence time of approximately 1,000 years. Furthermore, I observed that the levels of heterozygosity among the "Botocudos" was as low as those of Amazonian populations, which could be explained by unique social practices or a very small effective size. Finally, whole genomes of likely ancient pathogens were recovered, including lineages of human parvovirus Big that were possibly introduced after the European contact.
To generate aDNA genomes and metagenomes suitable for downstream analyses (such as those introduced in Chapter 1), the identification of promising samples and libraries is a crucial step. To achieve this, libraries are usually sequenced, mapped and investigated multiple times. Thus, bioinformatic tools are needed to ensure that the analyses are performed in a robust and reproducible manner. To address this issue, my colleagues and I developed mapach , a pipeline to map ancient and present-day DNA to a single or multiple reference genomes. The low-quality and unmapped reads can then be mapped to a set of reference genomes in order to reconstruct microbial genomes. Furthermore, mapache was designed to efficiently manage storage when mapping medium and large datasets.
Finally, one of the main challenges to study aDNA is that it is scarce. Enrichment experiments can be performed on sequencing libraries to increase the yield of target DNA (e.g., human). The last chapter of my thesis presents the efficiency assessment of enrichment experiments to retrieve Y-chromosome ancient DNA from human remains that were buried in Puerto Rico and the Sint Marteen island in the Caribbean. We observed that samples with a minimum of 0.1% of human DNA could be candidates to perform enrichment experiments that would yield enough data to call Y-chromosome haplogroups. We also found that a direct enrichment of Y-chromosome DNA led to higher amounts of recovered Y-DNA compared to no enrichment at all or to an additional enrichment of the whole genome.
--
Le peuplement des Amériques englobe le dernier chapitre des migrations massives de notre espèce. Au XIXe siècle, la communauté scientifique s'était engagée dans une course pour expliquer les origines des « premiers Américains » et les mécanismes conduisant à leur diversification sociale, culturelle et biologique. Par exemple, les chasseurs-cueilleurs de langue Jê du centre et de l'est du Brésil (appelés "Botocudos" par les colonisateurs européens) étaient considérés comme les descendants des premiers Américains de la région en raison de leurs affinités craniométriques avec ces derniers. Cependant, on ne sait pas beaucoup de choses sur la relation génétique entre les populations "Botocudo" et les Amérindiens puisque les deux seuls individus "Botocudo" séquencés jusqu'à présent étaient d'ascendance polynésienne. Pour mieux comprendre l'histoire génétique de ces populations, j'ai étudié les génomes de 24 individus dont les restes étaient conservés au Musée National de Rio de Janeiro. Vingt-deux de ces individus ont été étiquetés comme "Botocudos" dans les archives du musée. Dans le premier chapitre, j'ai montré que les 24 individus avaient une ascen dance génétique cohérente avec celle des Amérindiens (contrairement aux deux "Botocudos" du même musée séquencés en 2014). Les populations de "Botocudos" ayant été persécutées lors de la colonisation européenne du Brésil, et le sort de leurs descendants étant occulté des archives historiques, j'ai alors cherché à identifier les populations génétiques les plus proches des "Botocudos". Bien que j'aie observé une affinité générale entre les "Botocudos" et les populations d'Amérique du Sud et du Brésil, aucune des populations autochtones analysées n'était significativement plus proche des "Botocudos". Lorsque j'ai modélisé l'histoire génétique des "Botocudos" et des populations de langue Tupi en Amazonie, j'ai estimé un temps de divergence d'environ 1'000 ans. De plus, j'ai observé que les niveaux d'hétérozygotie chez les "Botocudos" étaient comparablement faibles à ceux des populations an:iazoniennes, ce qui peut s'expliquer par certaines pratiques sociales ou une taille effective très réduite. Enfin, des génomes entiers d'agents pathogènes probablement anciens ont été récupérés, y compris des lignées de parvovirus humain B19 qui ont peut-être été introduites après le contact européen.
Pour générer des génomes et des métagénomes d'ADNa adaptés aux analyses en aval (telles que celles introduites au chapitre 1), l'identification d'échantillons et de bibliothèques prometteurs est une étape cruciale. Pour y parvenir, les bibliothèques sont généralement séquencées, cartographiées et étudiées plusieurs fois. Ainsi, des outils bioinformatiques sont nécessaires pour s'assurer que les analyses sont effectuées de manière robuste et reproductible. Pour résoudre ce problème, mes collègues et moi avons développé mapache, une pipeline pour mapper l'ADN ancien ou actuel sur un ou plusieurs génomes de référence. Les lectures de faible qualité et non cartographiées peuvent ensuite être cartographiées sur un ensemble de génomes de référence afin de reconstruire des génomes microbiens. De plus, mapache a été conçu pour gérer efficacement le stockage lors du mappage d'ensembles de données moyens et volumineux.
Enfin, l'un des principaux défis pour étudier l'ADNa est qu'il est sa rareté. Des expériences d'enrichissement peu vent être effectuées sur des bibliothèques de séquençage pour augmenter le rendement de l'ADN cible (par exemple, humain). Le dernier chapitre de ma thèse présente l'évaluation de l'efficacité des expériences d'enrichissement pour récupérer l'ADN ancien du chromosome Y à partir de restes humains qui ont été enterrés à Porto Rico et sur l'île de Sint Marteen dans les Caraibes. Nous avons observé que des échantillons avec un minimum de 0,1% d'ADN humain peuvent être candidats pour effectuer des expériences d'enrichissement fournissant suffisamment de données pour iden tifier les haplogroupes du chromosome Y. Nous avons également constaté qu'un enrichissement direct du chromosome Y entraînait des quantités plus élevées d'ADN récupéré par rapport à l'absence d'enrichissement ou à un enrichissement du génome entier.
To better understand the genetic history of Indigenous Americans, I studied the genomes of 24 individuals whose remains were housed at the National Museum in Rio de Janeiro. Twenty-two of those individuals were labeled as "Botocudos" in the museum's archives. In the first chapter, I showed that the 24 individuals bore genetic ancestry consis tent with that of Indigenous Americans (unlike the two "Botocudos" sequenced from the same museum in 2014). Since "Botocudo" populations were persecuted during the European colonization of Brazil, and the fate of their descendants is hidden from the historical records, I then aimed at identifying the "Botocudos'" closest genetic populations. While I observed a general affinity between the "Botocudos" and populations in South America and Brazil, none of the In digenous populations analyzed were significantly doser to the "Botocudos". When I modelled the genetic history of the "Botocudos" and Tupi-speaking populations in the Amazon, I estimated a divergence time of approximately 1,000 years. Furthermore, I observed that the levels of heterozygosity among the "Botocudos" was as low as those of Amazonian populations, which could be explained by unique social practices or a very small effective size. Finally, whole genomes of likely ancient pathogens were recovered, including lineages of human parvovirus Big that were possibly introduced after the European contact.
To generate aDNA genomes and metagenomes suitable for downstream analyses (such as those introduced in Chapter 1), the identification of promising samples and libraries is a crucial step. To achieve this, libraries are usually sequenced, mapped and investigated multiple times. Thus, bioinformatic tools are needed to ensure that the analyses are performed in a robust and reproducible manner. To address this issue, my colleagues and I developed mapach , a pipeline to map ancient and present-day DNA to a single or multiple reference genomes. The low-quality and unmapped reads can then be mapped to a set of reference genomes in order to reconstruct microbial genomes. Furthermore, mapache was designed to efficiently manage storage when mapping medium and large datasets.
Finally, one of the main challenges to study aDNA is that it is scarce. Enrichment experiments can be performed on sequencing libraries to increase the yield of target DNA (e.g., human). The last chapter of my thesis presents the efficiency assessment of enrichment experiments to retrieve Y-chromosome ancient DNA from human remains that were buried in Puerto Rico and the Sint Marteen island in the Caribbean. We observed that samples with a minimum of 0.1% of human DNA could be candidates to perform enrichment experiments that would yield enough data to call Y-chromosome haplogroups. We also found that a direct enrichment of Y-chromosome DNA led to higher amounts of recovered Y-DNA compared to no enrichment at all or to an additional enrichment of the whole genome.
--
Le peuplement des Amériques englobe le dernier chapitre des migrations massives de notre espèce. Au XIXe siècle, la communauté scientifique s'était engagée dans une course pour expliquer les origines des « premiers Américains » et les mécanismes conduisant à leur diversification sociale, culturelle et biologique. Par exemple, les chasseurs-cueilleurs de langue Jê du centre et de l'est du Brésil (appelés "Botocudos" par les colonisateurs européens) étaient considérés comme les descendants des premiers Américains de la région en raison de leurs affinités craniométriques avec ces derniers. Cependant, on ne sait pas beaucoup de choses sur la relation génétique entre les populations "Botocudo" et les Amérindiens puisque les deux seuls individus "Botocudo" séquencés jusqu'à présent étaient d'ascendance polynésienne. Pour mieux comprendre l'histoire génétique de ces populations, j'ai étudié les génomes de 24 individus dont les restes étaient conservés au Musée National de Rio de Janeiro. Vingt-deux de ces individus ont été étiquetés comme "Botocudos" dans les archives du musée. Dans le premier chapitre, j'ai montré que les 24 individus avaient une ascen dance génétique cohérente avec celle des Amérindiens (contrairement aux deux "Botocudos" du même musée séquencés en 2014). Les populations de "Botocudos" ayant été persécutées lors de la colonisation européenne du Brésil, et le sort de leurs descendants étant occulté des archives historiques, j'ai alors cherché à identifier les populations génétiques les plus proches des "Botocudos". Bien que j'aie observé une affinité générale entre les "Botocudos" et les populations d'Amérique du Sud et du Brésil, aucune des populations autochtones analysées n'était significativement plus proche des "Botocudos". Lorsque j'ai modélisé l'histoire génétique des "Botocudos" et des populations de langue Tupi en Amazonie, j'ai estimé un temps de divergence d'environ 1'000 ans. De plus, j'ai observé que les niveaux d'hétérozygotie chez les "Botocudos" étaient comparablement faibles à ceux des populations an:iazoniennes, ce qui peut s'expliquer par certaines pratiques sociales ou une taille effective très réduite. Enfin, des génomes entiers d'agents pathogènes probablement anciens ont été récupérés, y compris des lignées de parvovirus humain B19 qui ont peut-être été introduites après le contact européen.
Pour générer des génomes et des métagénomes d'ADNa adaptés aux analyses en aval (telles que celles introduites au chapitre 1), l'identification d'échantillons et de bibliothèques prometteurs est une étape cruciale. Pour y parvenir, les bibliothèques sont généralement séquencées, cartographiées et étudiées plusieurs fois. Ainsi, des outils bioinformatiques sont nécessaires pour s'assurer que les analyses sont effectuées de manière robuste et reproductible. Pour résoudre ce problème, mes collègues et moi avons développé mapache, une pipeline pour mapper l'ADN ancien ou actuel sur un ou plusieurs génomes de référence. Les lectures de faible qualité et non cartographiées peuvent ensuite être cartographiées sur un ensemble de génomes de référence afin de reconstruire des génomes microbiens. De plus, mapache a été conçu pour gérer efficacement le stockage lors du mappage d'ensembles de données moyens et volumineux.
Enfin, l'un des principaux défis pour étudier l'ADNa est qu'il est sa rareté. Des expériences d'enrichissement peu vent être effectuées sur des bibliothèques de séquençage pour augmenter le rendement de l'ADN cible (par exemple, humain). Le dernier chapitre de ma thèse présente l'évaluation de l'efficacité des expériences d'enrichissement pour récupérer l'ADN ancien du chromosome Y à partir de restes humains qui ont été enterrés à Porto Rico et sur l'île de Sint Marteen dans les Caraibes. Nous avons observé que des échantillons avec un minimum de 0,1% d'ADN humain peuvent être candidats pour effectuer des expériences d'enrichissement fournissant suffisamment de données pour iden tifier les haplogroupes du chromosome Y. Nous avons également constaté qu'un enrichissement direct du chromosome Y entraînait des quantités plus élevées d'ADN récupéré par rapport à l'absence d'enrichissement ou à un enrichissement du génome entier.
Create date
07/06/2023 9:01
Last modification date
08/06/2023 5:56