Integrative statistical analysis of-omics and GWAS data

Rüegger, Sina

Résumé

Complex traits such as human height or cardiovascular disease are highly polygenic, influenced by environmental factors and common in the population. By studying complex traits, we might be able to answer questions regarding the genetic contribution to a complex trait, gain insight into their genetic architecture and narrow down the responsible genetic variants. Such findings can ultimately lead to better treatment,prevention, diagnosis or prognosis of diseases.
Cost-effective DNA microarrays have made it possible to perform genetic studies at a large scale. A genome-wide association study (GWAS) aims to quantify the statistical association of each available genetic variant across the whole genome with a trait of interest in a group of individuals.
To eventually gain insight into the biological pathways underpinning traits, GWAS results (association summary statistics) can be used for follow-up studies by integrating summary statistics with
external –omics data and applying additional statistical methods. For example, the heritability explained by typed genetic variants can be estimated from GWAS association summary statistics. Another example is a Mendelian randomisation, a method that is able to estimate the causal effect of one trait on another, and vice versa.
These statistical follow-up methods often use either individual-level genotype data or summary statistics combined external sequencing data as input. However, because effect sizes of genetic variants involved in complex traits are typically small, studies with larger sample size have more statistical power, which creates the need for combining public summary statistics, because access to individual-level data is often limited. What is more, summary statistics-based methods require information for the same set of SNPs for each study. To impute summary statistics of untyped variants, summary statistics imputation is used.
Summary statistic imputation follows the intuition that parts of the genome tend to be inherited together, which creates sets of correlated SNPs in close proximity (”in linkage disequilibrium (LD)”). Having information about a subset of SNPs and knowing the local LD structure from external reference panels, we can infer the summary statistics of untyped SNPs.
During my PhD, I investigated the limitations and potential of summary statistic imputation. First, I first improved the measure of imputation quality. Second, I extended the method, to have higher accuracy for imputation in cosmopolitan population cohorts. Third, I compared summary statistic imputation to genotype imputation and identified groups of genetic variants that are hard to impute. Fourth, I applied summary statistic imputation in a case study and discovered 34 additional height associated variants (19 of which replicated).
--
Les traits complexes tels que la taille humaine, les maladies cardiovasculaires ou d’autres maladies souvent fréquentes dans la population, sont hautement polygéniques mais aussi influencés par des facteurs environnementaux. L’étude de ces traits complexes pourrait nous permettre de quantifier la contribution des facteurs génétique impliqués, de mieux comprendre leur architecture génétique et d’affiner l’identification des variants génétiques responsables. Ces résultats peuvent finalement conduire à améliorer à la fois le traitement, le diagnostic et le pronostic des maladies, mais également les stratégies de prévention mises en place.
L’arrivée sur le marché de puces à ADN à des prix accessibles a permis d’effectuer des études génétiques à grande échelle. Les études d’association pangénomique (GWAS) visent à mettre en évidence et à quantifier l’association statistique de chaque variant génétique (”Single Nucleotide Polymorphism” ou SNP) avec un trait d’intérêt dans un groupe d’individus (cohorte).
Pour obtenir un aperçu des mécanismes biologiques sous-jacents, les résultats de GWAS (statistiques synthétiques d’association) peuvent être utilisés pour des études additionnelles. Il est possible d’utiliser ces statistiques synthétiques pour appliquer des méthodes analytiques supplémentaires ou bien de les combiner avec des données -omiques externes. Par exemple, l’héritabilité expliquée par les variants génotypés peut être estimée à partir des statistiques synthétiques d’un GWAS. Un autre exemple d’analyse, appelé randomisation Mendélienne, permet d’estimer l’effet de causalité d’un trait sur un autre.
Ces méthodes d’analyses complémentaires nécessitent souvent des données génétiques au niveau individuel ou bien des statistiques synthétiques combinées avec des données de corrélation entre les SNPs. Cependant, les effets génétiques observés sont généralement modestes, et il est intéressant de combiner plusieurs cohortes pour augmenter la taille d’échantillon et ainsi obtenir une puissance statistique plus importante. C’est pourquoi les méthodes basées sur les statistiques synthétiques sont souvent préférées. En effet, l’accès aux données individuelles est limité, tandis que les statistiques synthétiques sont usuellement partagées publiquement. Néanmoins, pour pouvoir être combinées, ces statistiques synthétiques doivent être disponibles pour un même ensemble de variants génétiques. Afin d’imputer les statistiques synthétiques des variants non genotypés, et donc non disponibles dans certaines cohortes, l’imputation à partir de statistiques synthétiques est utilisée.
L’imputation à partir de statistiques synthétiques repose sur le fait que certaines parties du génome tendent à être héritées ensemble, ce qui crée des ensembles de SNPs, corrélés (en déséquilibre de liaison, ou LD). A partir des statistiques synthétiques d’association pour un sous-ensemble de SNP et d’informations sur la structure LD locale obtenue grâce à un panel de référence externe, il est possible d’inférer les statistiques synthétiques des SNPs non génotypés.
Pendant mon doctorat, j’ai étudié les limites et le potentiel de l’imputation à partir de statistiques synthétiques. Premièrement, j’ai amélioré la mesure de la qualité d’imputation de la méthode. Dans un second temps, j’ai également amélioré la méthode elle-même, de manière à obtenir une meilleure précision lors de l’imputation de cohortes multi-ethniques. Troisièmement, j’ai comparé l’imputation statistique à partir de statistiques synthétiques à l’imputation basée sur les données génomiques au niveau individuel et identifié des groupes de variants difficiles à imputer. Enfin, j’ai appliqué l’imputation à partir de statistiques synthétiques à une étude de cas sur la taille humaine, ce qui a permis d’identifier 34 nouveaux marqueurs génétiques associés avec les variations de taille humaine observées.

SERVAL

serveur académique lausannois

Integrative statistical analysis of-omics and GWAS data

Détails