Robust Causal Inference Methods to Assess Risk Factors for Common Diseases

Details

Ressource 1Download: thèse-DL.OK.pdf (28568.56 [Ko])
State: Public
Version: After imprimatur
License: Not specified
Serval ID
serval:BIB_9670460764B5
Type
PhD thesis: a PhD thesis.
Collection
Publications
Institution
Title
Robust Causal Inference Methods to Assess Risk Factors for Common Diseases
Author(s)
Darrous Liza
Director(s)
Kutalik Zoltán
Institution details
Université de Lausanne, Faculté de biologie et médecine
Publication state
Accepted
Issued date
2023
Language
english
Abstract
The study of complex traits, those influenced by multiple genetic and environmental factors, has long been a cornerstone of genetic research, where scientists have sought to untangle this complexity. These traits include a vast array of human characteristics, from molecular phenotypes to diseases.
The advent of Genome-Wide Association Studies (GWAS) following human genome sequencing marked an essential moment in this pursuit. These studies, characterised by their large sample size and examination of millions of genetic variants, have significantly advanced our understanding of the genetic architecture underlying complex traits. GWAS have unearthed numerous genetic markers associated with various traits, providing vital clues for further exploration.
GWAS have not only identified genetic associations to complex traits, but have also helped re- searchers explore the relationships between these traits. Understanding the causal relationships among traits is essential due to its potential to improve medical practices and public health interventions. In response, Mendelian Randomisation (MR) emerged as a genetically-informed version of previous causal inference methods, such as Randomised Control Trials (RCTs). MR uses genetic variants as instrumental variables to elucidate causal relationships between traits, distinguishing true causation from mere correlation. As a statistical method, MR comes with several assumptions that must hold for accurate estimation. However, validating some of these assumptions can be challenging, potentially introducing bias in the estimation of causal effects.
During my thesis, I investigated assumption violations that MR often faces, particularly in two scenarios: (i) the presence of unmeasured heritable confounding factors introducing spurious causal relationships and (ii) the heterogeneity of causal effects due to potential underlying pleiotropic pathways or confounder mechanisms.
To address the first assumption violation, I developed an extension to the MR model known as LHC-MR, which accounts for the presence of a Latent Heritable Confounder. LHC-MR is applicable to association summary statistics of trait pairs, allowing simultaneous estimation of bi-directional causal effects, direct heritabilities, and confounder effects on the pair.
For the second assumption violation, I proposed an approach, PWC-MR, that leverages Phenome-Wide association data across several traits to perform informative Clustering of the focal trait instruments. PWC-MR revealed that for body mass index (BMI), distinct clusters of instruments exist with heterogeneous causal effects on educational attainment.
Lastly, I explored indirect genetic effects using individual-level genetic data of sibling pairs. The aim was to estimate the causal effect of the parental environment/rearing on offspring traits in later life, using MR.
In summary, this journey from the study of complex traits to the emergence of GWAS and MR as tools for causal inference has reshaped our understanding of genetics. While MR offers great promise, its often-violated assumptions necessitate careful consideration, and my work aimed to address some of these challenges.
--
L’étude des traits complexes, qui sont influencés par de multiples facteurs génétiques et environnemen- taux, a toujours été un pilier de la recherche en génétique, où les scientifiques ont cherché à démêler cette complexité. Ces traits englobent une vaste gamme de caractéristiques humaines, comme des phénotypes moléculaires mais aussi certaines maladies courantes.
L’avènement des études d’association pangénomique (GWAS) à la suite du séquençage du génome humain, a marqué un moment essentiel dans cette quête. Ces études, caractérisées par leur grande taille d’échantillon et l’analyse de millions de variants génétiques, ont considérablement avancé notre compréhension de l’architecture génétique des traits complexes, en permettant d’identifier de nombreux marqueurs génétiques associés à divers traits, fournissant ainsi des indices essentiels pour de futures explorations.
Les GWAS ont non seulement permis d’identifier des associations génétiques, mais elles ont également aidé les chercheurs à explorer les relations entre ces traits. Il est essentiel de comprendre les relations de cause à effet entre les traits pour pouvoir améliorer les pratiques médicales et les interventions de santé publique. En réponse, la Randomisation Mendélienne (MR), version génétiquement informée des méthodes précédentes d’inférence causale, telles que les Essais Contrôlés Randomisés, a émergé. La MR utilise des variants génétiques en tant que variables instrumentales pour élucider les relations de cause à effet entre les traits, distinguant ainsi véritable causalité et simple corrélation. C’est une méthode statistique qui repose sur plusieurs hypothèses qui doivent être respectées afin d’obtenir une estimation précise. Cependant, la validation de certaines de ces hypothèses peut s’avérer difficile et leur violation peut introduire un biais dans l’estimation des effets de causalité.
Au cours de ma thèse, j’ai examiné les violations d’hypothèses auxquelles la MR est souvent confrontée, en particulier dans deux scénarios : (i) la présence de facteurs confondants héréditaires non mesurés introduisant des relations de causalité fallacieuses et (ii) l’hétérogénéité des effets de causalité due à d’éventuels effets pléiotropiques ou à des facteurs confondants.
Concernant la première violation d’hypothèse, j’ai développé une extension du modèle MR appelée LHC-MR, qui prend en compte la présence d’un facteur Confondant Héréditaire Latent. LHC-MR utilise des statistiques synthétiques issues des GWAS pour étudier la relation entre deux traits, via l’estimation simultanée d’effets de causalité bidirectionnels, d’héritabilités directes et des effets du facteur confondant sur chacun des traits.
Pour aborder le deuxième scénario, j’ai proposé une approche, PWC-MR, qui permet d’effectuer un regroupement informatif des instruments, sélectionnés pour leur association avec le facteur de risqué d’intérêt, en exploitant des données d’association génétique avec plusieurs autres traits. PWC-MR a révélé que, pour l’indice de masse corporelle (IMC), il existe des groupes distincts d’instruments avec des effets de causalité hétérogènes sur le niveau d’éducation. Enfin, j’ai exploré les effets génétiques indirects en utilisant des données génétiques d’individus issus d’une même fratrie. L’objectif était d’utiliser la MR pour estimer l’effet de causalité de l’environnement parental sur les traits des enfants à un stade ultérieur de leur vie.
En résumé, l’étude des traits complexes, depuis l’émergence des GWAS jusqu’à l’utilisation de la MR en tant qu’outil pour l’inférence de causalité, a remodelé notre compréhension de la génétique. Bien que la MR offre de grandes promesses, ses hypothèses souvent violées nécessitent une réflexion minutieuse, et mon travail de doctorat a permis de proposer des solutions pour relever certains de ces défis.
Create date
21/12/2023 11:27
Last modification date
31/01/2024 8:34
Usage data