CNV DETECTION, ASSOCIATION AND INTERPRETATION
Details
Serval ID
serval:BIB_45DBAEB8FA47
Type
PhD thesis: a PhD thesis.
Collection
Publications
Institution
Title
CNV DETECTION, ASSOCIATION AND INTERPRETATION
Director(s)
Kutalik Zoltán
Codirector(s)
Reymond Alexandre
Institution details
Université de Lausanne, Faculté de biologie et médecine
Address
Faculté de biologie et de médecine
Université de Lausanne
CH-1015 Lausanne
SUISSE
Université de Lausanne
CH-1015 Lausanne
SUISSE
Publication state
Accepted
Issued date
2017
Language
english
Abstract
Dans cette thèse, nous nous intéressons à ce grand livre du vivant qu'est notre génome. Depuis plusieurs années déjà, de nombreux chercheurs essayent de trouver des liens entre certaines lettres de ce livre et certaines maladies ou caractéristiques physiques. Mais jusqu'à présent, les résultats restent minces, en particulier pour des traits complexes tels que l'indice de masse corporelle (IMC). Imaginez donc que ce livre, long de 3 milliards de lettres, soit une chanson et que celle-ci soit enregistrée sur un CD, chaque humain ayant son propre disque. Dans cette thèse, nous proposons de nous intéresser non pas à des fautes d'orthographe dans le texte mais plutôt à des rayures sur le disque qui font que certaines paroles vont être coupées ou se répéter plusieurs fois. Nous essayons de voir comment ces rayures, aussi appelées variations du nombre de copies, peuvent influencer notre IMC, poids, taille ou ratio taille-hanche. Ces rayures sont rares et leurs effets faibles, il faut donc collecter un grand nombre de disques afin de pouvoir les estimer correctement. Il existe actuellement de telle quantité de données, cependant celles-ci proviennent d'une technologie qui n'était pas faite à l'origine pour détecter ces variations du nombre de copies. Ainsi, la première partie de la thèse consiste à développer une nouvelle mesure permettant d'estimer la qualité, et donc la véracité, de ces variations de nombre de copies. Cette estimation a ensuite été utilisée dans la seconde partie de la thèse pour examiner les effets possibles de certaines variations du nombre de copies sur plusieurs traits anthropométriques. Pour cela, et en collaboration avec de nombreux chercheurs dans le monde, nous avons collecté les disques, ou données génétiques, de presque 200,000 individus. Nous avons détecté toutes les rayures et essayé de voir lesquelles influencent l'IMC, le poids, la taille ou le ratio taille-hanche. De cette manière, nous avons découvert 8 régions, dont 6 nouvelles, qui impactent un ou plusieurs de ces phénotypes. Certaines d'entre elles sont spécifiques à des populations et seront présentes, par exemple, principalement dans la population britannique. J'espère que le travail de cette thèse va ouvrir de nouvelles perspectives pour de futures recherches permettant de mieux comprendre l'impact des variations du nombre de copies sur la santé humaine.
--
De nombreuses associations pangénomiques (GWAS) ont identifié plusieurs polymorphismes nucléotidiques (SNPs) impactant l'indice de masse corporelle (IMC) et la taille, mais jusqu'à présent la variance expliquée par ces marqueurs génétiques reste loin des prévisions faites suite à des études sur les jumeaux [80% pour la taille et 40¬70% pour l'IMC). L'effet cumulé des 97 SNPs associés à l'IMC n'explique que 2.7% de la variance de ce phénotype, alors que ce chiffre monte à 20% pour les 697 SNPs associés à la taille. D'un autre côté, nous avons montré que de rares et larges variations du nombre de copies de l'ADN (CNV), tel que le réarrangement 16pll.2, peuvent avoir un impact notable sur l'IMC. Notre but principal était d'explorer, à l'échelle pangénomique, les effets de rares CNVs sur l'IMC, le poids, la taille et le ratio taille-hanche. Une manière de détecter l'impact de tels événements rares, est d'accumuler les données sur les CNVs de centaines de milliers d'individus. Actuellement, de telles quantités de données ne sont disponibles qu'à partir de puces à SNPs, qui n'étaient pas faites à l'origine pour détecter des CNVs. Et même si de nombreuses méthodes pour la détection des CNVs ont été développées, elles restent sujettes aux faux positifs. Ainsi, la première partie de la thèse se concentre sur le développement d'une nouvelle estimation de la qualité des CNVs, afin d'améliorer la détection faite par le logiciel PennCNV. Cette mesure, appelée score de qualité (QS), est la transformation logistique d'une combinaison linéaire des différents paramètres de sortie de PennCNV. Les fonctions d'efficacité du récepteur ont démontré une aire sous la courbe supérieure à 0.8 et des simulations ont montré un gain jusqu'à 20% en puissance statistique en comparaison avec d'autres de filtres existants. Dans la seconde partie de la thèse, nous avons conduit une méta-analyse d'associations pangénomiques des CNVs avec l'IMC, le poids, la taille et le ratio taille-hanche. Dans ce but, nous avons intégré cette estimation de la qualité des CNVs dans un pipeline de détection de CNVs et d'association. Dans un premier temps, nous avons confirmé et décris plus en détails les effets des réarrangements de 600kb et 220kb de la région 16pll.2 sur l'IMC, le poids et la taille. Ensuite, nous avons découvert six nouveaux loci associés avec un ou plusieurs traits anthropométriques. Parmi eux, deux CNVs semblent être spécifiques à certaines aux populations britanniques et finlandaises. J'espère que le travail de cette thèse va ouvrir de nouvelles perspectives pour de futures recherches permettant de mieux comprendre l'impact des CNVs sur la santé humaine.
--
Several Genome-wide Association Studies (GWAS] have identified Single Nucleotide Polymorphims (SNPs) affecting Body Mass Index (BMI) and height, but so far the variance explained by the discovered genetic markers falls far off the one expected by twin studies (80% for height and 40-70% for BMI]. The 97 SNPs associated with BMI and the 697 SNPs associated with height explain cumulatively only 2.7% and 20% of the variance of the respective phenotypes. On the other hand, we have shown that rare and large Copy Number Variants (CNVs), such as the 16pll.2 rearrangement, can have substantial impact on BMI. Our major goal was to explore the effect of rare CNVs on BMI, weight, height and waist-hip ratio, genome-wide. One way to detect the impact of such rare events is to amass hundreds of thousands of samples with CNV information. Currently such sample sizes are available only by exploiting SNP array data, which were not primarily designed for CNV détection. Even though a plethora of CNV détection methods has been developed, they remain prone to false positive calls. Therefore, the first part of the thesis focuses on the development of a new CNV quality measure to improve CNV calls. This measure, called quality score (QS), is a logistic function transformed linear combination of différent quality metrics. Receiver operating characteristic analysis demonstrated an area under the curve higher than 0.8 and simulations showed an increase of up to 20% in statistical power when using QS in comparison to other filtering stratégies. In the second part of the thesis, we ran a genome-wide CNV association meta-analysis on BMI, weight, height and waist-hip ratio. For this purpose, we integrated the CNV quality estimation method into a CNV calling and association pipeline. We, first, confirmed and further characterized the effects of the 600kb and 220kb 16pll.2 rearrangements on BMI, weight and height. Then we discovered six new loci associated with one or more anthropométrie traits. Among them, two CNVs appear to be specific to British and Finnish populations. I hope that my PhD work will open new avenues for future research to better understand the impact of CNVs on human health.
--
De nombreuses associations pangénomiques (GWAS) ont identifié plusieurs polymorphismes nucléotidiques (SNPs) impactant l'indice de masse corporelle (IMC) et la taille, mais jusqu'à présent la variance expliquée par ces marqueurs génétiques reste loin des prévisions faites suite à des études sur les jumeaux [80% pour la taille et 40¬70% pour l'IMC). L'effet cumulé des 97 SNPs associés à l'IMC n'explique que 2.7% de la variance de ce phénotype, alors que ce chiffre monte à 20% pour les 697 SNPs associés à la taille. D'un autre côté, nous avons montré que de rares et larges variations du nombre de copies de l'ADN (CNV), tel que le réarrangement 16pll.2, peuvent avoir un impact notable sur l'IMC. Notre but principal était d'explorer, à l'échelle pangénomique, les effets de rares CNVs sur l'IMC, le poids, la taille et le ratio taille-hanche. Une manière de détecter l'impact de tels événements rares, est d'accumuler les données sur les CNVs de centaines de milliers d'individus. Actuellement, de telles quantités de données ne sont disponibles qu'à partir de puces à SNPs, qui n'étaient pas faites à l'origine pour détecter des CNVs. Et même si de nombreuses méthodes pour la détection des CNVs ont été développées, elles restent sujettes aux faux positifs. Ainsi, la première partie de la thèse se concentre sur le développement d'une nouvelle estimation de la qualité des CNVs, afin d'améliorer la détection faite par le logiciel PennCNV. Cette mesure, appelée score de qualité (QS), est la transformation logistique d'une combinaison linéaire des différents paramètres de sortie de PennCNV. Les fonctions d'efficacité du récepteur ont démontré une aire sous la courbe supérieure à 0.8 et des simulations ont montré un gain jusqu'à 20% en puissance statistique en comparaison avec d'autres de filtres existants. Dans la seconde partie de la thèse, nous avons conduit une méta-analyse d'associations pangénomiques des CNVs avec l'IMC, le poids, la taille et le ratio taille-hanche. Dans ce but, nous avons intégré cette estimation de la qualité des CNVs dans un pipeline de détection de CNVs et d'association. Dans un premier temps, nous avons confirmé et décris plus en détails les effets des réarrangements de 600kb et 220kb de la région 16pll.2 sur l'IMC, le poids et la taille. Ensuite, nous avons découvert six nouveaux loci associés avec un ou plusieurs traits anthropométriques. Parmi eux, deux CNVs semblent être spécifiques à certaines aux populations britanniques et finlandaises. J'espère que le travail de cette thèse va ouvrir de nouvelles perspectives pour de futures recherches permettant de mieux comprendre l'impact des CNVs sur la santé humaine.
--
Several Genome-wide Association Studies (GWAS] have identified Single Nucleotide Polymorphims (SNPs) affecting Body Mass Index (BMI) and height, but so far the variance explained by the discovered genetic markers falls far off the one expected by twin studies (80% for height and 40-70% for BMI]. The 97 SNPs associated with BMI and the 697 SNPs associated with height explain cumulatively only 2.7% and 20% of the variance of the respective phenotypes. On the other hand, we have shown that rare and large Copy Number Variants (CNVs), such as the 16pll.2 rearrangement, can have substantial impact on BMI. Our major goal was to explore the effect of rare CNVs on BMI, weight, height and waist-hip ratio, genome-wide. One way to detect the impact of such rare events is to amass hundreds of thousands of samples with CNV information. Currently such sample sizes are available only by exploiting SNP array data, which were not primarily designed for CNV détection. Even though a plethora of CNV détection methods has been developed, they remain prone to false positive calls. Therefore, the first part of the thesis focuses on the development of a new CNV quality measure to improve CNV calls. This measure, called quality score (QS), is a logistic function transformed linear combination of différent quality metrics. Receiver operating characteristic analysis demonstrated an area under the curve higher than 0.8 and simulations showed an increase of up to 20% in statistical power when using QS in comparison to other filtering stratégies. In the second part of the thesis, we ran a genome-wide CNV association meta-analysis on BMI, weight, height and waist-hip ratio. For this purpose, we integrated the CNV quality estimation method into a CNV calling and association pipeline. We, first, confirmed and further characterized the effects of the 600kb and 220kb 16pll.2 rearrangements on BMI, weight and height. Then we discovered six new loci associated with one or more anthropométrie traits. Among them, two CNVs appear to be specific to British and Finnish populations. I hope that my PhD work will open new avenues for future research to better understand the impact of CNVs on human health.
Create date
29/06/2018 14:11
Last modification date
20/08/2019 13:50