Age-at-onset informed analysis of complex trait genetics

Ojavee, Sven Erik

Abstract

Genotyping and sequencing technologies have enabled the quantification and analysis of genomic information on an unprecedented scale. Modern-day biobanks aim to store information about tens to hundreds of millions of genetic variants for hundreds of thousands of individuals to describe the genetic background of traits. One of the promises of modern-day biobanks is to advance towards personalised medicine such that genetics could inform preventively about the dis- ease onset risk. Over the past 15 years, different methods have been applied and developed to discover trait-associated variants, under- stand genetic architecture and perform genomic prediction. However, much of the initial attention was aimed at understanding continuous or binary disease traits, and using age-at-onset has been given slightly less attention. Nevertheless, modelling and using age-at-onset traits could be an excellent alternative to using binary disease traits as they could be more informative about disease risk and address the conceptual problem of individuals who will have the diagnosis later in life. Furthermore, it is crucial also to have methods for right-censored non-disease traits such as age-at-menopause or age-at-death.
This thesis takes the approach of using age-at-onset information instead of binary disease traits when modelling the genetic associations. The first part of the thesis proposes a whole-genome regression model BayesW that enables analysing large genomic data sets assuming a Weibull distribution. The model describes the genetic architecture of age-at-onset traits and jointly estimates the effects for each of the genetic variants resulting in improved predictors compared to previous methods. The second part of the thesis uses the BayesW model to improve marginal association testing, demonstrating that age-at-onset information can yield more powerful association methods than binary disease information. The third part of the thesis discusses the concept of liability scale heritability for binary disease traits suggesting an alternative expression for low prevalence traits. The fourth part focuses on detecting age-specific marginal associations for age-at-onset phenotypes. The results indicate that age-at-onset can often be more informative about the genetic disease risk and that more complex models could result in a more accurate description of the underlying biological mechanisms.
--
Le génotypage et le séquençage ont permis l’analyse des données génomiques à une échelle sans précédent. Les biobanques modernes visent à stocker des informations sur des dizaines voire des centaines de millions de variantes génétiques pour des centaines de milliers d’individus afin d’investiguer l’étiologie génétique de traits cliniques, morphologiques ou comportementaux. L’une des possibilités qu’offre les biobanques modernes est de progresser vers une médecine person- nalisée, de sorte que l’analyse génétique puisse prévenir l’apparition d’une maladie. Au cours des quinze dernières années, différentes méthodes ont été appliquées et développées pour découvrir les variants associés aux traits, comprendre l’architecture génétique et réaliser la prédiction génomique. Cependant, une grande partie de l’attention initiale a été consacrée à la compréhension des traits continus ou binaires de la maladie, et l’âge au moment de l’apparition de la maladie a souvent été négligé. Néanmoins, la modélisation et l’utilisation de l’âge d’apparition constituent souvent une alternative prometteuse au statut binaire d’une maladie, car elles pourraient être plus informatives sur le risque de maladie et résoudre le problème conceptuel qu’un individu non-diagnostiqué à un moment donné le pourrait être plus tard dans sa vie. En outre, il est important de disposer de méthodes pour les traits censurés à droite qui ne sont pas des maladies, tels que l’âge à la ménopause ou l’âge au décès.
Cette thèse adopte l’approche consistant à utiliser des informations sur l’âge d’apparition de la maladie au lieu de caractéristiques binaires de la maladie pour modéliser les associations génétiques. La première partie de la thèse propose un modèle de régression du génome entier, BayesW, qui permet d’analyser de grands ensembles de données génomiques en supposant une distribution de Weibull. Le modèle décrit l’architecture génétique des traits de l’âge d’apparition et estime conjointement les effets de chacun des variants génétiques, ce qui permet d’obtenir des prédicteurs améliorés en comparaison aux méthodes précédentes. La deuxième partie de la thèse utilise le modèle BayesW pour améliorer les tests d’association marginaux, dé- montrant que les informations sur l’âge d’apparition peuvent donner lieu à des méthodes d’association plus puissantes que les informations binaires sur la maladie. La troisième partie de la thèse discute du concept d’héritabilité de l’échelle de responsabilité pour les traits de maladies binaires, suggérant une expression alternative pour les traits à faible prévalence. La quatrième partie se concentre sur la détection d’associations marginales temporelle pour les phénotypes de l’âge d’apparition. Les résultats indiquent que l’âge au moment de l’apparition de la maladie peut souvent être plus informatif sur le risque génétique de la maladie et que des modèles plus complexes pourraient aboutir à une représentation mathématique plus précise de la biologie.

SERVAL

serveur académique lausannois

Age-at-onset informed analysis of complex trait genetics

Details