Aperçu: G.M.
Au cours des dernières années, les progrès technologiques en matière de capture de la variation génétique dans de grandes populations ont conduit à l’identification d’un grand nombre de variants présumés ou pathogènes. Cependant, leur compréhension mécaniste est très en retard et a posé de nouveaux défis quant à leur pertinence pour les phénotypes de maladie, en particulier pour les troubles complexes courants.
Dans cette étude, nous proposons une conduite systématique permettant d'inférer la signification biologique à partir de variants génétiques, à savoir les variants rares en nombre de copies (VNC). Le pipeline se compose de trois modules qui visent
- 1) à améliorer la qualité des données génétiques en excluant les NVC de faible confiance,
- 2) à identifier les processus biologiques perturbés et
- 3) à regrouper des termes similaires de processus biologiques enrichis utilisant la similarité sémantique.
Le pipeline proposé a été appliqué aux VNC de personnes chez lesquelles on a diagnostiqué un trouble du spectre de l'autisme (TSA). Nous avons constaté que de rares VNC perturbant des gènes exprimés par le cerveau déréglementaient un large éventail de processus biologiques, tels que le développement du système nerveux et la polyubiquitination de protéines. Les processus biologiques perturbés identifiés chez les patients atteints de TSA étaient conformes aux résultats antérieurs. Cette cohérence avec la littérature indique la faisabilité du pipeline proposé pour interpréter le rôle biologique des variants génétiques dans le développement de maladies complexes. Le pipeline suggéré est facilement ajustable à chaque étape et son indépendance par rapport à un ensemble de données et à un logiciel spécifique en fait un outil efficace pour analyser les ressources génétiques existantes. Le pipeline FunVar est disponible sur https://github.com/lasigeBioTM/FunVar
et comprend des étapes de pré-traitement et de post-traitement permettant d’interpréter efficacement les mécanismes biologiques des variants génétiques présumés de maladies.
J Biomed Inform. 2019 Aug 24:103273. doi: 10.1016/j.jbi.2019.103273.
FunVar: A Systematic Pipeline to Unravel the Convergence Patterns of Genetic Variants in ASD, a Paradigmatic Complex Disease
Asif M1, Vicente AM2, Couto FM3.
Author information
- 1
- Instituto Nacional de Saúde Doutor Ricardo Jorge, Avenida Padre Cruz, 1649-016 Lisboa, Portugal; University of Lisboa, Faculty of Sciences, BioISI - Biosystems & Integrative Sciences Institute, Lisboa, Portugal; LASIGE, Departamento de Informática, Faculdade de Ciências, Universidade de Lisboa, 1749--016 Lisboa, Portugal.
- 2
- Instituto Nacional de Saúde Doutor Ricardo Jorge, Avenida Padre Cruz, 1649-016 Lisboa, Portugal; University of Lisboa, Faculty of Sciences, BioISI - Biosystems & Integrative Sciences Institute, Lisboa, Portugal.
- 3
- LASIGE, Departamento de Informática, Faculdade de Ciências, Universidade de Lisboa, 1749--016 Lisboa, Portugal. Electronic address: fcouto@di.fc.ul.pt.
Abstract
In
recent years, the technological advances for capturing genetic
variation in large populations led to the identification of large
numbers of putative or disease-causing variants. However, their
mechanistic understanding is lagging far behind and has posed new
challenges regarding their relevance for disease phenotypes,
particularly for common complex disorders. In this study, we propose a
systematic pipeline to infer biological meaning from genetic variants,
namely rare Copy Number Variants (CNVs). The pipeline consists of three
modules that seek to 1) improve genetic data quality by excluding low
confidence CNVs, 2) identify disrupted biological processes, and 3)
aggregate similar enriched biological processes terms using semantic
similarity. The proposed pipeline was applied to CNVs from individuals
diagnosed with Autism Spectrum Disorder
(ASD). We found that rare CNVs disrupting brain expressed genes
dysregulated a wide range of biological processes, such as nervous
system development and protein polyubiquitination. The disrupted
biological processes identified in ASD patients were in accordance with
previous findings. This coherence with literature indicates the
feasibility of the proposed pipeline in interpreting the biological role
of genetic variants in complex disease development. The suggested
pipeline is easily adjustable at each step and its independence from any
specific dataset and software makes it an effective tool in analyzing
existing genetic resources. The FunVar pipeline is available at
https://github.com/lasigeBioTM/FunVar and includes pre and post
processing steps to effectively interpret biological mechanisms of
putative disease causing genetic variants.
Copyright © 2019. Published by Elsevier Inc.
- PMID:31454647
- DOI:10.1016/j.jbi.2019.103273