Informations

Validation biologique de l'interaction gène-gène déterminée par ordinateur

Validation biologique de l'interaction gène-gène déterminée par ordinateur


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Comment une interaction génétique à trois voies déterminée par ordinateur peut-elle être validée biologiquement ? Quels types d'analyses ou de tests doivent être effectués à l'aide de modèles cellulaires/tissus et/ou murins pour prouver que les trois gènes peuvent effectivement avoir un effet conjoint ?

Disons qu'il est plus facile d'identifier et de valider les interactions géniques qui impliquent des facteurs de transcription comme FOXM1. Considérons une interaction génique à trois voies dans le cancer du sein - FOXM1-BUB1-CHEK1 - qui peut être testée pour des interactions directes via des tests de transfert de Western et de rapporteur. Mais de telles interactions peuvent ou non être intéressantes - étant donné que les facteurs de transcription peuvent affecter les niveaux d'expression d'autres gènes. La plupart des études informatiques sont axées sur l'identification des interactions géniques basées sur la coexpression ou la cooccurrence. Il existe de la littérature sur l'identification informatique des relations ET/OU entre les gènes en interaction. Je n'ai pas d'exemple spécifique à fournir mais, pour des raisons d'argumentation, si nous soupçonnions que trois gènes interagissent de manière ET, comment valider biologiquement cette découverte ? J'apprécierais également que vous ayez des commentaires sur l'utilité de telles découvertes, en particulier en ce qui concerne la conception de thérapies combinées plus efficaces contre une maladie".

Merci


Accrochez-vous, cette réponse grandira avec le temps.

Juste du haut de ma tête, je pense que nous pourrions écrire un petit livre (ou un très long article de synthèse) pour couvrir à la fois la profondeur et l'étendue de votre (vos) question(s).

Premièrement, nous devons définir et/ou clarifier certains termes. Le terme interaction signifie probablement différentes choses pour différents auteurs à différents moments. En fait, un auteur peut utiliser ce terme pour signifier différentes choses à différents moments. J'aimerais donc proposer que nous fassions des distinctions. Par exemple, je ferais une distinction entre une interaction génétique entre deux gènes (qui est généralement détectée dans l'un des organismes modèles, en utilisant un test génétique entre deux allèles de perte de fonction) et une interaction protéine-protéine (parfois appelée un PPI) entre les deux protéines codées par ces mêmes deux gènes. Les IPP ont été détectés classiquement par co-sédimentation dans un gradient de densité de saccharose, ou co-immunoprécipitation (co-IP), ou par chromatographie d'affinité. Plus récemment, des IPP ont été détectés par spectrométrie de masse (MS) (parfois couplée à une chromatographie d'affinité). Les IPP ont été déduits à l'aide de tests indirects, tels que le test de levure à deux hybrides (Y2H).

Les IPP peuvent également être détectés par des tests de résonance plasmonique de surface (SPR), et il pourrait bien y en avoir d'autres.

Alors, quand vous parlez d'interactions gène-gène, qu'entendez-vous précisément ?


Je vais essayer de couvrir autant de scénarios que possible :

  • Interaction génique ( = co-expression) :
    C'est probablement le plus facile à valider (par exemple par western blot comme vous l'avez mentionné) mais le plus difficile à interpréter. Sans une analyse plus approfondie des fonctions des gènes, vous n'avez aucune idée de l'effet que leur activité concomitante pourrait avoir. Si les gènes sont des enzymes métaboliques ou font partie d'une cascade de signaux, ce serait une bonne idée de vérifier à la fois leurs rôles individuels dans ces voies, mais aussi de vérifier les effets synergiques potentiels. La même chose est en principe également vraie pour les facteurs de transcription, mais dans ce cas, les « voies » ne sont souvent pas aussi bien comprises, optez plutôt pour :

  • Interaction génique ( = sur les mêmes cibles) :
    Dans le cas de facteurs de transcription (mais aussi, par exemple, les kinases/phosphatases) qui sont co-exprimés, il n'est peut-être pas déraisonnable qu'ils affectent également les mêmes cibles. Ici, vous devez à nouveau comparer les deux effets individuels (liste des gènes régulés à la hausse/à la baisse) avec les effets synergiques (par exemple, le gèneA empêche le fonctionnement normal du gèneB, le gèneC augmente plusieurs fois la fonction du gèneB). Pour l'analyse des facteurs de transcription, vous devez généralement analyser l'expression au niveau de l'ARNm (via qPCR) car le niveau de la protéine introduit (au moins) une autre couche de régulation.

  • Interactions protéiques :
    Un bon moyen de les prouver expérimentalement consiste à utiliser des expériences de co-IP (immuno-précipitation) : vous utilisez un anticorps pour retenir une protéine spécifique et tous ses partenaires de liaison (directs). Ensuite, vous montrez la présence des partenaires qui vous intéressent avec un western blot.
    Une mise en garde pour cette méthode avec des interactions à 3 voies (ou d'ordre supérieur) est que - en fonction de la force de liaison des protéines - il peut être très difficile d'empêcher que des partenaires d'interaction directs ne soient co-purifiés. Si vous voulez absolument prouver que deux protéines interagissent directement, une expérience levure-2-hybride (y2h) est mieux adaptée.


D'autres ont parcouru beaucoup plus de terrain, mais je vais ajouter quelques approches du côté de la spectroscopie puisque je les ai examinées récemment.

Le transfert d'énergie résonant bioluminescent (BRET) montre si les protéines se lient in vivo : « BRET mesure l'interaction des protéines à l'aide d'un donneur bioluminescent fusionné à une protéine d'intérêt et d'un récepteur fluorescent fusionné à son partenaire de liaison. Le donneur bioluminescent, généralement une luciférase, ne ne pas exciter le fluorophore à l'aide de la lumière, mais transfère l'énergie de résonance par couplage dipôle-dipôle. Pour transférer l'énergie de résonance, le donneur doit se trouver à moins de 10 nm du récepteur et dans la bonne orientation, ce qui rend la technique utile pour mesurer les protéines à proximité. (De https://www.promega.com/resources/pubhub/features/bret-nanoluc-luciferase-and-protein-protein-interactions/)

La résonance plasmonique de surface (SPR) montre également si les protéines se lient, mais in vitro : « SPR est sensible aux changements d'indice de réfraction à environ 150 nm de la surface du capteur. Pour étudier l'interaction entre deux partenaires de liaison, un partenaire est attaché à la surface. et l'autre est passé sur la surface dans un flux continu de solution d'échantillon. La réponse SPR est directement proportionnelle au changement de concentration massique près de la surface. Les systèmes Biacore peuvent être utilisés pour étudier les interactions impliquant (en principe) tout type de molécule , des candidats médicaments organiques aux protéines, acides nucléiques, glycoprotéines et même virus et cellules entières." (Extrait du manuel d'analyse Biacore)

Ce sont les deux façons de considérer l'interaction directe, c'est-à-dire la liaison. L'interaction fonctionnelle est une toute autre histoire.


Méthodes informatiques pour la reconstruction d'haplotypes à l'échelle des chromosomes

Des séquences d'haplotypes de haute qualité à l'échelle des chromosomes de génomes diploïdes, de génomes polyploïdes et de métagénomes fournissent des informations importantes sur la variation génétique associée aux maladies et à la biodiversité. Cependant, le séquençage à lecture courte du génome entier ne fournit pas d'informations sur les haplotypes couvrant directement les chromosomes entiers. L'assemblage informatique de fragments d'haplotypes plus courts est nécessaire pour la reconstruction d'haplotypes, ce qui peut être difficile en raison des longueurs de fragments limitées et de la variabilité élevée des haplotypes et des répétitions entre les génomes. Les progrès récents dans les technologies de séquençage à lecture longue et à l'échelle des chromosomes, ainsi que les innovations informatiques, améliorent la reconstruction des haplotypes au niveau des chromosomes entiers. Ici, nous passons en revue les progrès méthodologiques récents et discutons des perspectives dans ces domaines.


Identification de la cible

Identifier une cible biologique qui est « drugable » - une cible est qualifiée de « drugable » si son activité (comportement ou fonction) peut être modulée par un médicament - qu'il s'agisse d'un médicament à petite molécule ou d'un produit biologique. Les protéines et les acides nucléiques sont tous deux des exemples de cibles biologiques. 2

Mais qu'est-ce qui fait une « bonne » cible ?

  1. La cible a un rôle confirmé dans la physiopathologie d'une maladie et/ou est modificatrice de la maladie.
  2. L'expression de la cible n'est pas uniformément répartie dans tout le corps.
  3. La structure 3D de la cible est disponible pour évaluer l'aptitude à la drogue.
  4. La cible est facilement « évaluable » permettant un criblage à haut débit.
  5. La cible possède un profil de toxicité prometteur, les effets indésirables potentiels peuvent être prédits à l'aide de données phénotypiques.
  6. La cible proposée a un statut de propriété intellectuelle (PI) favorable. (pertinent pour les sociétés pharmaceutiques)

Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


Résultats

Analyse 1, tests d'interaction entre les SNP CVRF

À partir des sources de la littérature décrites ci-dessus, nous avons identifié 242 SNP indépendants signalés comme étant fortement associés aux CVRF ou aux paramètres cardiovasculaires. Ces SNP, les phénotypes signalés et les valeurs de p pour l'association avec l'IM dans l'étude MIGen sont présentés dans le fichier S1 À l'aide du test A, nous avons effectué 29 161 tests d'interaction par paires parmi ces 242 SNP de facteurs de risque (fichier S1 à l'appui de la figure 2), dont les résultats ne s'écartaient pas de manière significative de leur distribution empirique attendue (figure 2b). L'interaction la plus significative (p =𠂥.54휐 𢄦 voir le fichier S1 Tableau d'accompagnement 1) s'est produite entre les SNP initialement signalés comme étant associés aux taux de cholestérol LDL (rs2072183, dans PNJ1L1) et initiation au tabac (rs1013442, près BDNF). Ce résultat n'a pas dépassé le seuil de signification pour cette analyse (p =𠂡.51휐 𢄦 Figure 2a, fichier S1 à l'appui du tableau 2). Dans un modèle d'interaction avec des effets additifs ×, nous avons estimé que cette analyse avait une puissance élevée (80 %) pour détecter un rapport de cotes (OR) pour l'interaction entre 𢏁.6 et 𢏁.3 lorsque les deux SNP ont un MAF de 𢏀.2 et 𢏀.5, respectivement (Figure 2c Fichier S1 prenant en charge le tableau 3, Fichier S1 prenant en charge la figure 4).

Analyse 2, Tests d'interaction entre les SNP CVRF et les SNP marginaux (p� 𢄣 )

Nous avons sélectionné 656 SNP indépendants qui présentaient une association marginale modérée (p� 𢄣) avec l'IM dans l'étude MIGen et exclu 13 qui avaient été capturés dans l'analyse 1. À l'aide du test A, nous avons effectué 155 606 tests d'interaction entre les 643 SNP restants et les 242 SNP CVRF (fichier S1 à l'appui de la figure 2 ), dont les résultats ne s'écartaient pas significativement de leur distribution empirique attendue (fichier S1 à l'appui de la figure 3). Le résultat le plus significatif pour l'interaction était p =𠂩.48휐 𢄧 , entre les SNP associés aux taux de cholestérol HDL (rs3136441, dans LRP4) et MI (rs9990208, situé près de RFTN1 et DAZL sur le chromosome 3, p =𠂡.2휐 𢄤 dans MIGen). Ce résultat n'a pas dépassé le seuil de signification pour cette analyse (p =𠂣.13휐 𢄧 Fichier S1 à l'appui du tableau 2, fichier S1 à l'appui de la figure 3). Dans le cadre d'un modèle d'interaction additif additif ×, cette analyse a été estimée avoir une puissance élevée pour détecter les effets d'interaction entre 𢏁.7 et 𢏁.4 pour les SNP avec un MAF de 𢏀.2 et 𢏀. 5, respectivement (fichier S1 prenant en charge le tableau 3, fichier S1 prenant en charge la figure 4).

Analyse 3a, Tests d'interaction entre les SNP marginaux (p� 𢄣 )

Pour les 643 SNP indépendants qui ont atteint une valeur p de � 𢄣 pour l'association avec l'IM dans l'étude MIGen et qui n'ont pas été capturés dans l'analyse 1, nous avons effectué 201 537 tests d'interaction par paire en utilisant le test B (sur un test possible sur 206 403 paires non réalisable pour 4 866 paires (𢏂,35%) en raison des faibles fréquences alléliques, voir le fichier S1 Section 3.3, Fichier S1 à l'appui de la Figure 2). Les résultats de ces tests ne se sont pas écartés de manière significative de leur distribution empirique attendue (fichier S1 à l'appui de la figure 3). La valeur p la plus significative pour l'interaction était de 3,49휐 𢄦 , entre rs761174 (dans HHAT sur le chromosome 1, p =𠂡.75휐 𢄥 dans MIGen) et rs167490 (dans CHST11 sur le chromosome 12, p =𠂥.92휐 𢄤 dans MIGen), qui n'a pas dépassé le seuil de significativité pour cette Analyse (p =𠂢.93휐 𢄧 Fichier S1 Figure 3c). Dans le cadre d'un modèle d'interaction additif additif ×, cette analyse a été estimée avoir une puissance élevée pour détecter les effets d'interaction entre 𢏁.75 et 𢏁.4 pour les SNP avec un MAF de 𢏀.2 et 𢏀. 5, respectivement (fichier S1 prenant en charge le tableau 3, fichier S1 prenant en charge la figure 4).

Analyse 3b, Tests d'interaction entre les SNP marginaux (p� 𢄢 )

En assouplissant le seuil minimum des effets marginaux observés des SNP en interaction putatifs, nous avons sélectionné 6 066 SNP indépendants qui ont atteint une valeur p de � 𢄢 pour l'association avec l'IM dans l'étude MIGen et qui n'ont pas été capturés dans les analyses précédentes, et effectué 17 470 706 tests d'interaction, sur 18 180 305 paires possibles (rejeté de 214 840 tests déjà capturés par le test d'analyses précédent, impossible pour 709 599 (𢏃,9 %) paires supplémentaires en raison de la faible fréquence des allèles, voir le fichier S1 section 3.3, fichier S1 à l'appui de la figure 2). Les résultats de ces tests ne se sont pas écartés de manière significative de leur distribution empirique attendue (fichier S1 à l'appui de la figure 3). La valeur p la plus significative pour l'interaction était de 5,51휐 𢄨 , entre rs194243 (entre CYP26B1 et EXOC6B sur le chromosome 2, p =𠂣.97휐 𢄣 dans MIGen) et rs4589969 (dans CACNA2D3 sur le chromosome 3, p =𠂧.75휐 𢄣 dans MIGen), qui n'a pas dépassé le seuil de significativité pour cette Analyse (p =𠂣.57휐 𢄩 Fichier S1 Figure 3d). Dans le cadre d'un modèle à double additif, il a été estimé que cette analyse avait une puissance élevée pour détecter les effets d'interaction entre 𢏁.85 et 𢏁.45 pour les SNP avec un MAF de 𢏀.2 et 𢏀,5, respectivement (Fichier S1 prenant en charge le tableau 3, fichier S1 prenant en charge la figure 4).

Validation des meilleurs résultats des analyses 1𠄳 dans un échantillon indépendant

Alors que les valeurs p minimales observées dans chaque analyse étaient 𢏃� fois supérieures au seuil de signification correspondant, il est possible que des effets d'interaction réels soient présents mais n'aient pas pu être déclarés statistiquement significatifs en raison de la lourdeur des tests multiples. Par conséquent, nous avons cherché à valider nos résultats pour toutes les paires SNP qui ont atteint une valeur p pour l'interaction dans les 3 ordres de grandeur du seuil de signification requis dans chaque analyse (Fichier S1 Section 3.8). Dans un large échantillon de cas de coronaropathie et de contrôles du WTCCC (Fichier S1 Section 1), nous avons répliqué notre analyse pour 47, 49, 45 et 50 paires de SNP (sur 48, 52, 54 et 55 paires répondant à ce critère ) dans les analyses 1, 2, 3a et 3b, respectivement. Après correction pour plusieurs tests, aucune de ces paires n'a montré d'évidence nominalement significative d'interaction dans les données du WTCCC (Fichier S1 Tableau d'appui 2) pour les paires SNP de l'Analyse 1 (pmin =𠂠.0041 α𢒀.05/47𢒀.0011), Analyse 2 (pmin =𠂠.0392 α𢒀.05/49𢒀.001), Analyse 3a (pmin =𠂠.006 α𢒀.05/45𢒀.001) ou Analyse 3b (pmin =𠂠.012 α𢒀.05/50𢒀.001). De même, nous n'avons observé aucune preuve supplémentaire d'interaction après avoir effectué une méta-analyse des deux études (voir le fichier S1 Section 3.8 pour les méthodes et le fichier S1 Tableau d'appui 2 pour les résultats Analyse 1, p.min =𠂡.49휐 𢄥 Analyse 2, pmin =𠂡.41휐 𢄥 Analyse 3a, pmin =𠂡.01휐 𢄤 Analyse 3b, pmin =𠂧.01휐 𢄧 seuils de signification égaux à ceux des Analyses de découverte correspondantes, p =𠂡.51휐 𢄦 , p =𠂣.13&# x000d710 𢄧 , p =𠂢.93휐 𢄧 , p =𠂣.57휐 𢄩 , respectivement).


Résultats

Un exemple motivant.

Un défi majeur des analyses à l'échelle du génome est de savoir comment extraire des signaux clairsemés à partir d'ensembles de données à grande échelle, qui ont tendance à être hétérogènes et bruyants. Pour illustrer comment le niveau de bruit dans les données augmente la complexité de détection des gènes impliqués dans un processus biologique spécifique, nous avons réalisé une étude simple du processus métabolique du cholestérol en utilisant des mesures transcriptomiques à partir de 426 LCL (lignées cellulaires lymphoblastoïdes) dérivées des participants du CAP. (Cholesterol and Pharmacogenetics) essai clinique sur les statines (13) (CAP-LCL). C'est l'un des principaux ensembles de données que nous utilisons dans cet article pour démontrer les performances de notre méthode GeneFishing.

De Ensembl BioMart (https://www.ensembl.org/biomart/martview/7f44660a1147fceb60a6845325da0ca5), nous avons extrait 120 gènes qui sont annotés avec le terme GO BP (Gene Ontology biologique process) « GO:0008203 cholestérol métabolisme », dont 82 sont exprimés dans le jeu de données CAP-LCL. Nous avons d'abord mesuré la coexpression de toutes les paires de gènes en tant que valeur absolue de la corrélation de rang de Spearman des valeurs d'expression des gènes chez les sujets. Ainsi, nos données peuvent être considérées comme une matrice de coexpression du gène T × T (ici, T = 82). Nous avons ensuite effectué une analyse spectrale basée sur la matrice de coexpression pour projeter chaque gène sur l'espace des 2 premiers vecteurs propres non-0 de la matrice laplacienne normalisée et identifié un groupe serré de 21 gènes (Fig. 1UNE), dont 18 codent pour des enzymes de la voie de biosynthèse du cholestérol (14), les 3 autres gènes étant connus pour être impliqués dans la régulation transcriptionnelle de ces 18 gènes (c'est-à-dire, INSIG1 et SREBF2) ou des fonctions complémentaires (LDLR, le régulateur clé de l'absorption des lipoprotéines de basse densité [LDL]) (Annexe SI, fig. S1 et tableau S1). Pour tester si ce groupe serré persistait dans le contexte d'autres gènes, nous avons répété l'analyse en utilisant des ensembles de gènes composés des 21 gènes ainsi que de 100, 1 500 et 2 000 gènes aléatoires (Fig. 1 B à ). Étant donné que la majorité des gènes ne devraient pas être liés au métabolisme du cholestérol, nous nous attendons à ce que le nombre de paires de ces gènes l'emporte sur ceux qui montrent des relations structurées entre nos sujets. Comme le montre la figure 1B, les 21 gènes ont créé un cluster évident lorsqu'ils sont mélangés avec 100 gènes aléatoires. Cependant, ce groupe s'est obscurci en présence d'ensembles plus importants de gènes aléatoires, comme le montre la figure 1 C et . Ces résultats illustrent comment les informations fournies par les 21 gènes du cholestérol sont progressivement masquées par des motifs de bruit aléatoires avec un nombre croissant de gènes aléatoires.

Motivation et workflow de GeneFishing. (UNE à ) Graphique de regroupement spectral des 21 gènes d'appât (colorés en rouge) avec 61 autres gènes (colorés en bleu) associés au terme GO BP « processus métabolique du cholestérol » (UNE) et 100 (B), 1,500 (C) et 2 000 () gènes aléatoires (colorés en gris). (E) Flux de travail de GeneFishing.

La procédure GeneFishing.

Notre objectif est de développer une procédure efficace pour identifier les gènes pertinents aux processus biologiques connus à l'aide de données transcriptomiques. En tirant parti du regroupement des 21 gènes liés au cholestérol observés ci-dessus, nous développons GeneFishing, une procédure de regroupement semi-supervisée et non paramétrique basée sur une idée de type bagging pour reconstruire des portraits de processus biologiques d'intérêt dans des contextes variés. Les données d'entrée de GeneFishing sont une matrice M × T représentant les valeurs d'expression normalisées des gènes T chez M sujets ainsi qu'un petit ensemble de gènes pré-identifiés connus pour être pertinents pour le processus biologique d'intérêt (tels que les 21 gènes mentionnés dans la motivation Exemple). Cet ensemble de gènes peut être utilisé comme gènes « appâts » pour guider notre recherche de gènes supplémentaires potentiellement pertinents pour le processus biologique.

L'organigramme de GeneFishing est illustré à la Fig. 1E. Étant donné les gènes d'appât, l'étape 1, la réduction de l'espace de recherche, est la clé de notre méthode, facilitant l'extraction du « signal » du « bruit ». En particulier, les gènes candidats sont divisés au hasard en de nombreux sous-espaces de recherche de m gènes chacun (par exemple, m = 100). Les gènes d'appât sont ensuite ajoutés à chacun des sous-ensembles de gènes candidats. À l'étape 2, des matrices de coexpression sont construites pour les paires de gènes contenues dans chaque espace de sous-recherche, et l'algorithme de regroupement spectral a été appliqué à chaque matrice séparément. La mise en œuvre actuelle utilise la corrélation de rang Spearman pour générer des matrices de coexpression génique. D'autres mesures de coexpression peuvent être plus appropriées dans d'autres contextes, comme indiqué dans les références. 15 –17. Alors que dans la plupart des cas, les gènes d'appât se regroupent séparément des gènes candidats, dans certains cas, le ou les gènes candidats se regrouperont avec les gènes d'appât (par exemple, lorsqu'un point gris se regroupe dans les points rouges, comme le montre la figure 1B). Lorsque cela se produit, nous considérons que le gène candidat est « repêché ». Puisqu'un gène candidat peut co-cluster au hasard avec les gènes d'appât, nous répétons les étapes 1 et 2 (définir 1 tour de GeneFishing) m fois (par exemple, m = 1000). À l'étape 3, les résultats de tous les tours sont agrégés. Le résultat final est un tableau qui enregistre le « taux de fréquence de capture » (CFR le rapport du nombre de fois que chaque gène candidat a été repêché dans le m rondes de GeneFishing à m). Nous considérons les gènes repêchés avec de grandes valeurs de CFR comme des « découvertes ». Notez, cependant, que nous ne pouvons que conclure que ces découvertes sont probablement fonctionnellement liées aux gènes d'appât, et non qu'elles remplissent une fonction spécifique ou similaire à celle des gènes d'appât. Détails techniques complets de la procédure GeneFishing ainsi que le calcul de P les valeurs et les taux de fausses découvertes (FDR) sont fournis dans Méthodes et Annexe SI.

Évaluation de GeneFishing avec des ensembles de données réels et simulés.

Tous les modèles statistiques (ou méthodes) en génomique sont des approximations grossières de la réalité. Ils sont utilisés pour générer des procédures et fournir des mesures à l'aide d'inférences basées sur des modèles de la validité potentielle des résultats perçus. Dans le cas habituel où nous manquons de modèles fiables pour certains des systèmes biologiques d'intérêt, nous nous concentrons sur 3 exigences minimales : interprétabilité, réplicabilité et stabilité (18). Par interprétabilité, nous entendons que certains des résultats peuvent être liés à une biologie connue et, idéalement, orienter d'autres études expérimentales. La réplicabilité fait référence à la stabilité des conclusions lorsque la même méthodologie est appliquée à des ensembles de données indépendants similaires. La stabilité signifie que les conclusions devraient peu varier sous de petites perturbations statistiques des données et du modèle.

Interprétabilité.

Nous avons d'abord évalué si les découvertes dérivées de GeneFishing étaient biologiquement plausibles. Étant donné que les gènes impliqués dans le métabolisme des stérols sont eux-mêmes bien connus pour être corégulés par la transcription, nous avons utilisé les 21 gènes discutés dans notre exemple motivant comme gènes d'appât et appliqué GeneFishing à l'ensemble de données CAP-LCL. Nous avons noté que la distribution CFR de GeneFishing était fortement bimodale, ce qui indique une coupure très naturelle pour CFR (Fig. 2UNE). Enfin, nous avons identifié 27 gènes avec un CFR ≥ 0,99 (Annexe SI, tableau S2). Fait intéressant, 10 d'entre eux avaient des rôles connus dans le métabolisme des lipides ou des stérols et comprenaient TMEM55B, que nous avions précédemment identifié comme un gène régulateur du cholestérol grâce à son très haut degré de coexpression avec HMGCR, 1 des 21 gènes d'appât (19).

Évaluation de GeneFishing. (UNE) Distribution des valeurs CFR lorsque GeneFishing a été appliqué à l'ensemble de données CAP-LCL. (B) Pour chaque méthode, 2 listes de gènes classées ont été générées en appliquant la méthode aux ensembles de données CAP-LCL et GEUVADIS-LCL. Chaque courbe colorée correspond à une méthode de priorisation des gènes, traçant le nombre de gènes superposés entre les 2 listes jusqu'à une position de rang (oui axe) contre le rang (X axe). GBA est l'abréviation de culpabilité par association. (C) Diagrammes de dispersion des valeurs CFR lorsque GeneFishing a été appliqué à l'ensemble de données CAP-LCL brut et à 3 ensembles de données perturbés de manière aléatoire.

Réplicabilité.

Pour évaluer la réplicabilité, nous avons testé les performances de GeneFishing dans 2 autres ensembles de données LCL indépendants : l'ensemble de données GEUVADIS-LCL (20) (462 lignées cellulaires lymphoblastoïdes du projet Genetic European Variation in Disease) et l'ensemble de données GTEx-LCL (4) (118 lymphoblastoïdes lignées cellulaires du projet GTEx). Nous avons d'abord vérifié l'expression des 21 gènes d'appât dans les deux ensembles de données et observé à nouveau un regroupement clair des 21 gènes par analyse spectrale (Annexe SI, fig. S2 UNE et B). Nous avons ensuite appliqué GeneFishing à chaque ensemble de données en utilisant les 21 gènes comme appât et testé le chevauchement au sein des gènes t les plus pêchés (ordonnés par valeurs CFR avec t variant de 20 à 100) entre les 3 (CAP, GEUVADIS et GTEx). À des fins d'analyse comparative, nous avons également comparé GeneFishing avec d'autres méthodes, y compris WGCNA (21) (analyse de réseau de corrélation pondérée, une approche non supervisée pour trouver des groupes de coexpression de gènes) et 3 versions différentes d'approches de culpabilité par association (c'est-à-dire l'association entre un gène candidat et l'ensemble de gènes d'appât est évalué par la moyenne, la médiane et le maximum des corrélations de rang de Spearman entre le candidat et chacun des gènes d'appât, respectivement). Parmi les méthodes testées, GeneFishing avait la meilleure (ou tout aussi bonne) réplicabilité (Fig. 2B et Annexe SI, figure S2C).

Stabilité.

À l'aide de l'ensemble de données CAP-LCL, nous avons évalué la stabilité de GeneFishing dans les 3 scénarios suivants : (je) lorsque des gènes aléatoires sont inclus dans l'ensemble de gènes d'appât (c'est-à-dire qu'il y a du bruit dans l'ensemble d'appâts), (ii) lorsque seul un sous-ensemble des 21 gènes est utilisé comme appât, et (iii) lorsque la méthode est appliquée à des sous-échantillons de tous les sujets (par exemple, 80% des sujets ont été utilisés pour construire une matrice de coexpression gène-gène lors de l'exécution de GeneFishing). Comme le montre la figure 2C, les valeurs de CFR de chaque scénario étaient raisonnablement corrélées avec celles dérivées de l'ensemble de données CAP-LCL d'origine, en particulier pour les CFR élevés (par exemple, lorsque CFR > 0.9). Cela suggère que GeneFishing est assez robuste aux petites perturbations de l'ensemble de données d'entrée. Nous avons également effectué une étude de simulation pour approfondir l'étude de la stabilité de GeneFishing, et les résultats sont présentés dans Annexe SI.

L'application de GeneFishing au foie et une expérience de suivi en laboratoire humide impliquent GLO1 comme régulateur du métabolisme du cholestérol.

Étant donné que le foie est le principal organe qui a un impact sur le cholestérol plasmatique, nous avons appliqué GeneFishing à l'ensemble de données RNAseq du foie humain GTEx (119 échantillons). Après avoir confirmé le regroupement clair des 21 gènes d'appât (Annexe SI, illustration S3UNE), nous avons identifié 56 gènes avec un CFR ≥ 0,99 (Annexe SI, tableau S3). L'analyse d'enrichissement des termes GO (avec le package R GOStats) (22) a identifié un enrichissement substantiel pour plusieurs termes GO liés au métabolisme des stérols, y compris le « processus métabolique des lipides » (FDR = 7,56E-09) et le « processus de biosynthèse des lipides » (FDR = 5,29E -07). Ensuite, étant donné que de nombreux gènes impliqués dans le métabolisme du cholestérol sont eux-mêmes régulés transcriptionnellement par les stérols cellulaires, nous avons cherché à déterminer si l'un des 56 gènes présentait des signes de régulation des stérols. Nous avons effectué un séquençage à l'échelle du transcriptome sur des cellules HepG2 qui ont d'abord été appauvries en stérols (incubées avec 2 M de simvastatine + 10% de sérum déficient en lipoprotéines pendant 24 h), après quoi 50 g/mL de cholestérol à lipoprotéines de basse densité (LDLC) ont été rajoutés et incubé pendant 24 h supplémentaires. Sur les 56 gènes, les niveaux de transcription de 28 gènes ont été modifiés en réponse à l'épuisement des stérols (ajusté P valeur < 0.05), avec des effets inversés par LDLC add back (Annexe SI, tableau S3). Fait intéressant, 13 des 56 gènes ne semblaient pas être modifiés en réponse à la déplétion en stérols (P valeur > 0,5) 6 des 56 gènes n'étaient pas exprimés à un niveau suffisamment élevé dans les cellules HepG2 pour atteindre le seuil minimal d'expression. Plusieurs des gènes identifiés (par exemple, MMAB, SNAI3-AS1) semblaient partager des éléments promoteurs avec 1 des 21 gènes d'appât (Annexe SI, illustration S3B).

Parmi les gènes non impliqués auparavant dans le métabolisme du cholestérol, nous avons testé l'effet du knockdown de 11 de ces gènes sur les mesures du cholestérol intracellulaire. Nous avons délibérément sélectionné certains gènes qui n'ont montré aucune preuve de régulation des stérols (par exemple, GLO1, TDRKH, TTC39B, et C2orf82) (Fig. 3UNE), car la raison pour laquelle et/ou comment ces gènes ont pu être identifiés par GeneFishing n'était pas claire. Les cellules Huh7 ont été rétrotransfectées avec des ARNsi (ARN de silençage) ciblant chaque gène d'intérêt ou un ARNsi de contrôle non ciblé, et après 48 h, les changements dans l'expression génique et le cholestérol cellulaire ont été quantifiés par qPCR et via le test Amplex Red Cholestérol, respectivement (Fig. 3UNE). Knockdown de 2 gènes, GLO1 et RDH11, a eu un impact significatif sur les niveaux de transcription de SQLE, qui code pour une enzyme de la voie de synthèse du cholestérol (Fig. 3B). Ce changement a été confirmé dans une seconde lignée cellulaire d'hépatome humain, HepG2 (Fig. 3C). De plus, en cohérence avec l'augmentation des SQLE niveaux, nous avons constaté que GLO1 knockdown a significativement augmenté les esters de cholestérol cellulaire dans les cellules Huh7 et HepG2 (Fig. 3).

Effet du knockdown du gène candidat sur les niveaux de transcription des gènes liés au cholestérol. (UNE) Les niveaux de transcription (dans la lignée cellulaire Huh7) des gènes candidats ont été quantifiés par le test SYBR Green via qPCR pour évaluer le degré de précipitation du gène. (B) Niveau de transcription de SQLE (dans la lignée cellulaire Huh7) a été quantifié par le test SYBR Green pour tester si le knockdown des gènes candidats modulait son niveau d'expression. (C) Niveaux de transcription (dans la lignée cellulaire HepG2) de GLO1 et RDH11 ont été quantifiés par le test SYBR Green via qPCR pour évaluer le degré de knockdown du gène. Niveau de transcription de SQLE (dans la lignée cellulaire HepG2) a été quantifié par le test SYBR Green pour tester si GLO1 et RDH11 knockdown a modulé son niveau d'expression. Dans UNE à C, les données ont été analysées à l'aide de la méthode delta Ct (seuil de cycle) et normalisées à CLPTM1 niveaux de transcription comme contrôle de chargement. Tous les tests qPCR ont été effectués en triple. () Les taux de cholestérol cellulaire ont été quantifiés à l'aide du kit de dosage du cholestérol rouge Amplex avec des valeurs normalisées par rapport aux protéines cellulaires totales quantifiées par dosage de Bradford. Il y a 3 à 6 répétitions par condition de traitement. NTC, contrôle sans ciblage.

Analyse Pantissue GeneFishing.

Le processus métabolique du cholestérol fonctionne largement dans différents tissus humains. Motivés par le succès de GeneFishing dans l'application aux données du foie GTEx, nous avons ensuite cherché à déterminer si le fort regroupement des 21 gènes d'appât était également observé dans d'autres types de tissus. Plus en détail, étant donné un tissu, nous avons effectué la même analyse de regroupement spectral que sur la figure 1UNE et calculé 2 statistiques : l'étanchéité (définie comme le rapport entre la somme des carrés à l'intérieur du cluster et la somme des carrés totale) du cluster qui contient la plupart des 21 gènes et l'index de Jaccard entre le cluster et les 21 gènes d'appât. La plupart des tissus présentaient les 21 gènes en grappes serrées. Cependant, le module de 21 gènes n'était pas apparent dans certains tissus en raison d'une coexpression plus forte avec des gènes en dehors du module de 21 gènes (par exemple, la glande surrénale) ou d'une absence totale de coexpression (par exemple, le muscle squelettique) (Fig. 4B). Bien qu'il soit bien établi que les gènes de la voie de synthèse du cholestérol sont corégulés, le changement de leur schéma de coexpression que nous avons observé à travers différents tissus indique un degré étonnamment élevé de spécificité tissulaire d'une telle corégulation et, en attendant, peut informer leurs fonctions inconnues (ou des connexions intéressantes de la voie de synthèse du cholestérol à d'autres processus biologiques).

Analyse Pantissue GeneFishing. (UNE) Examen de la modularité des 21 gènes d'appât à travers les tissus GTEx. GeneFishing a été appliqué sur les 17 tissus à l'intérieur du cercle bleu. Les Encart montre les coordonnées détaillées des 17 tissus. (B) Le modèle de coexpression des gènes associés au processus métabolique du cholestérol à terme GO BP dans 6 tissus représentatifs. In each heat map, the row and column have identical gene orders, and the side bar indicates whether the gene belongs to the 21 bait genes (red means yes). (C) Visualization of pantissue GeneFishing results. Each row is associated with a gene, and each column is associated with a tissue (labeled with different colors). If the color of an entry is not gray, then it means that the CFR of the corresponding gene is higher than 0.9 in the corresponding tissue.

To construct a somewhat global picture of cholesterol metabolism as well as its potential cross-talk with other biological processes, we next applied GeneFishing to the 17 GTEx tissues in which the coexpression pattern of the 21 genes was well maintained. In the previous sections, when generating candidate gene lists for experimental validation, we used a very strict CFR ≥ 0.99 threshold here, we loosened the cutoff to 0.9, as the coexpression strength between bait genes and genes that are functionally linked to lipid metabolism are strongest in the liver as compared to other tissues. We discuss in Annexe SI that much lower cutoff points than 0.9 are still likely to correspond to very low FDR. In total, 329 genes were identified with a CFR larger than 0.9 in at least 1 tissue (Annexe SI, Table S4). Almost 74% (246 genes) of these were identified in only 1 tissue, while only 7.5% (28 genes) were identified in at least 8 tissues, illustrating that there is a high degree of tissue specificity. Tissue-specific GO enrichment analysis of the 329 genes identified 52 GO BP terms, each of which is significant in at least 1 tissue (FDR < 0.001). Interestingly, all of the 52 GO BP terms were child terms of the “GO:0008152 metabolic process” (Annexe SI, Table S5). As expected, “GO:0006629 lipid metabolic process” was enriched in the genes identified in all of the 17 tissues. We also performed hierarchical clustering based on the GO enrichment profile and found that 6 tissues (artery–aorta, artery–tibial, whole blood, thyroid, pancreas, and stomach) seemed to be distinct from the remaining 11 tissues due to a depletion of the GO terms that were broadly enriched in other tissues (Annexe SI, fig. S4). For example, while “GO:0006641 triglyceride metabolic process” was identified in 10 of the other 11 tissues, it was not enriched in any of the 6 tissues mentioned above.

Comparing GeneFishing with GIANT and ENDEAVOUR.

Two popular methods, GIANT and ENDEAVOUR, were proposed before our study, and both of them have been widely used for gene prioritization. Although differing in key aspects from GeneFishing, the 3 methods share identical input–output schema: they all accept a group of seed (or bait) genes that are related to a biological process as input and return a list of genes that have been ranked according to computed functional relevance. We ranked all GTEx liver-expressed genes with GIANT and ENDEAVOUR. Since liver is the tissue that plays an important role in lipid metabolism and the 21 bait genes are all related to cholesterol metabolism, it is reasonable to expect that, in the returned gene list from any of the 3 gene prioritization methods, lipid metabolism-related genes should have high rankings. We found that GeneFishing captured the highest number of genes associated with the GO BP term “lipid metabolic process” among its top-ranked genes, demonstrating its superiority to the other 2 methods, at least in this application (Fig. 5). When compared with ENDEAVOUR, GeneFishing did substantially better in the identification of lipid-related genes. Although a similarly high number of lipid-related genes is found among the first 25 genes as ranked by our method and GIANT separately, our method outperforms GIANT substantially from then on. Interestingly, we found that gene PCSK9, a promising drug target to lower the LDLC level (which is also an SREBF2 target gene) (23), was fished out (with CFR = 1) by GeneFishing, while its priority rank in the ranked list of candidate genes by GIANT was low (rank 6,102). In addition, the distribution of functional relevance measure returned by GIANT did not show as strong of bimodality as GeneFishing, suggesting that the calibration of the GIANT scores seems quite inferior to ours (Annexe SI, Fig. S5). We note that GIANT and ENDEAVOUR attempt to incorporate multiple sources of data (such as gene expression, protein–protein interaction, DNA sequence) to perform gene prioritization. They thus have large advantages in terms of broad applicability. However, as we demonstrate here, the generality of the information that they use may lead them to miss patterns specifically related to the biological question of interest. This is consistent with the phenomenon that we observed in Fig. 1 (in which inclusions of too much input data or noisy candidate genes obscure signal) and that we believe accounts for the mediocre performance of “all-purpose systems” in this task.

In both panels, each colored curve corresponds to a method, with X axis representing the rank and the oui axis representing the number of lipid metabolism genes among the top-ranked genes.


S1 Fig

The observed proportions of the nine possible SNP pair genotype combinations from models 5, 6, 8, 9, 10, 11, 12, 15, 16, 17, 18 and 20 are depicted in this figure, per cases and controls. Genotypes are ordered according to minor allele frequency, with the wildtype homozygote appearing first, and the rare homozygote appearing last.

S2 Fig

The frequencies of the four possible SNP pair allele combinations from models 5, 6, 8, 9, 10, 11, 12, 15, 16, 17, 18 and 20 are depicted in this figure, per cases and controls. The frequencies were estimated using an EM-algorithm.

S3 Fig

The logits of genotype combinations from models 5, 6, 8, 9, 10, 11, 12, 15, 16, 17, 18 and 20 are depicted in this figure. Genotypes are ordered according to minor allele frequency, with the wildtype homozygote appearing first, and the rare homozygote appearing last. Non-parallel lines are indicative of interaction effects. The effects were estimated by absorbing the marginal effects of the SNPs into the SNP × SNP interaction term, and adjusting for the covariates included in the model by averaging over them.

S4 Fig

The observed proportions of SNP pair genotype combinations from models 3, 5, 7, 8, 9, 16, 17 and 18 are depicted in this figure, per cases and controls. Recessive/dominant effects in these models may better explain the interactions observed in the cohort (smaller p-values were achieved compared to the genotypic models, and the best models with 1 or more recessive or dominant encodings listed in S5 Table are presented in this figure). Rare homozygotes and heterozygotes are combined to represent dominant encoding of alleles, and wild type homozygotes and heterozygotes are combined to represent recessive encoding of alleles. For dominant and recessive allelic encodings of SNPs, the last genotype presented therefore reflects an encoding of 1.

S1 Table

The table summarizes the total number of samples that were successfully genotyped in each candidate gene study and how many samples have complete confounder information (age, gender and ancestry).

S2 Table

P-values were calculated using logistic regression.

S3 Table

A summary listing web URLs, version information and important parameter settings of software used in this study.

S4 Table

A spreadsheet with two worksheets, showing the results of the top 250 SAC models and the 245 Gambian models that were used for validation.

S5 Table

This table provides a summary of each SNP’s individual minor allele frequency (MAF) and association with having TB.

S6 Table

The genotypic model p-values, which were used to select the top 20 models, are presented in this table. The p-values of the corresponding allelic interaction models that achieved the smallest p-values are also shown.


Méthodes

Participants

The study population consisted of 1,293 unrelated healthy Korean individuals. These were the same individuals included as controls in our previous study of bipolar disorder [16]. They consisted mostly of college students, nurses, and public officials, who were recruited after a brief psychiatric interview. Potential participants were excluded if they reported a history of a psychotic disorder, mood disorder, anxiety disorder, substance use disorder, brain trauma, or intellectual disability. All participants were informed of the purpose and methods of the study and provided informed consent before enrollment. The Ethics Committee of Eulji General Hospital approved the study protocol (IRB No. 2016-08-009).

Measurement of chronotype

Chronotype was measured using a self-reported questionnaire. The CS is a 13-item questionnaire, which assesses individual differences in the time of day a person prefers to carry out various activities it classifies people as morning, intermediate, or evening types [5]. Three items are scored on a five-point scale from 1 to 5 the other 10 items are scored on a four-point scale, from 1 to 4. Higher scores indicate morning preference. All participants completed the CS questionnaire.

Genotyping

The clock genes investigated in this study were BHLHB2, CLOCK, CSNK1E, NR1D1, PER1, PER2, PER3, et TIMELESS. These eight genes were analyzed for 19 different tag single nucleotide polymorphisms (SNPs) with minor allele frequencies exceeding 5% in Asian populations. DNA was extracted from blood and SNPs were genotyped using the TaqMan method (Applied Biosystems, Foster City, CA, USA). Table 1 presents a summary of the minor allele frequencies and chromosomal locations of the SNPs.

Tableau 1.

SNPs of clock genes and minor allele frequency

GèneSNP a BaseChrPositionFonctionMAF
BHLHB2rs6442925CT34972191Intron0.047
rs2137947CT34989276Noncoding transcript variant 0.323
CLOCKrs1801260CT4554352023'-UTR0.099
rs3805148CA455440643Intron0.349
rs12504300CG455482360Intron0.379
rs4864542CG455487920Intron0.351
rs12649507AG455514317Intron0.352
CSNK1Ers135745CG2238287631Rien0.223
rs1534891CT2238299094Intron0.093
rs2075984CA2238294883Intron0.408
NR1D1rs2314339CT1740096959Intron0.459
rs2269457AG1740098436Intron0.505
PER2rs2304672CG22382779485'-UTR0.063
rs2304669AG2238257022Synonymous0.116
PER3rs228669AG17809988Synonymous0.257
TIMELESSrs4630333AG1256443632Intron0.452
rs1082214AG1256452706Intron0.095

SNP, single nucleotide polymorphism Chr, chromosome MAF, minor allele frequency UTR, untranslated region.

Analyses statistiques

Individual SNPs were examined for Hardy-Weinberg equilibrium two SNPs violating Hardy-Weinberg equilibrium were removed. Each SNP association with CS score was analyzed by simple regression analysis. Haplotype association with CS was also analyzed by PLINK if more than two SNPs for each gene were included [17].

Gene-gene interactions were analyzed using the quantitative multifactor-dimensionality reduction (QMDR) method, an extension of the multifactor-dimensionality reduction (MDR) algorithm to work with quantitative or continuous phenotypes [18]. The MDR method is one a commonly used method for detection and characterization of high-order gene-gene or gene-environment interactions in case-control studies this comprises a nonparametric combinatorial approach that reduces the number of dimensions [19]. For each multi-locus genotype combination, QMDR calculates the mean value of phenotype and compares it to the overall mean to determine the genotype combination is high risk or low risk. By pooling all the genotypes into either high-risk or low-risk groups, a new binary attribute is created. The t-test is used to compare the means between high and low risk groups using a t-test and t-statistic is used as a training score to choose the best model. In QMDR, the training and testing score are defined by t-test statistic. The training score is used to determine the best K-order interaction model. QMDR use 10-fold cross-validation and cross-validation consistencies (CVCs) of each model chosen are recorded. The best overall QMDR model is selected as that with the maximum testing score and highest cross-validation consistency. To estimate the p-values of the chosen model, empirical null distribution is used [18].

In this study, interactions of up to three loci were tested using 10-fold cross-validation in a search considering all possible SNP combinations. SNP combination with maximum CVC was considered the best model. p-values were determined empirically by 1,000-fold permutations of case and control labels.


Introduction

In the context of interactions, a brief explanation of the function and all functional interactions can be used to accurately narrow down a large amount of data. Having sufficient knowledge about interactions is a prerequisite as it reveals a dimensional view of many potential functional activities. Consequently, the complete description of biological phenomenon directly designates the specific interaction between entities 1,2,3 . For large assemblies of entities, a three-dimensional view can be more meaningful.

Cellular modes may be determined by mass transport while the sequestration of signaling interactions and molecular actions may be regulated as well by “cooperative binding”. Based on the valuable insights of interactions, notes have been added that categorize interacting proteins into functional sets that are labeled similar to signaling pathways, physical complexes and a limited tightly linked ‘modules’ 4,5,6 . Nevertheless, the distribution of interactions into diverse complexes or pathways are divisible which are likely to prevent verification of the likelihood of crosstalk and dynamic states in the interacting domain 7 . One commonly employed approach is to avoid the subdividing of functions in a network, particularly creating a network that is based on topological outcomes of all types of known or predicted interactions. In the context of the network, a web-based system is considered outstanding when it accurately integrates numerous kinds of interactions that express stable physical partnerships, frequent attachment, chaining of a substrate, communication of data, and many others. The primary interaction repository 8,9,10,11,12 provides an organized experimental dataset that includes multiple genetic, biochemical and biophysical techniques 13,14 . Progressions have focused on biological interactions from predicted computational data that are mainly focused on several forecasted communications using numerous algorithms 15,16,17,18,19 . Furthermore, the prospect of comprehensive and detailed coverage was elucidated using couple of web-based means that offers information about the combination of identified and forecasted communications. These databases mainly include STRING, GeneMANIA 20 , FunCoup 17 , I2D 21 , ConsensusPathDB 22 and others that are based on specific necessities. The most flexible and stable online platform is the STRING database, which has allowed for confidential interactions, valuable scoring and detailed comprehensive analysis for many years. The primary interaction unit that is typically used for a specific and productive functional relationship regarding a protein interaction is a functional connotation. Interactions can be derived from various available sources, similar to known experimental interactions, counting primary databases, pathway data parsed within manually curated databases, automated text-mining for statistical or semantic connections in proteins, genomic and coexpression interactions’ analysis predicted de novo, and precomputed orthologs. Additionally, the interactions observed in one organism can be orderly transferred to another organism 22,23,24 .

The proposed WeiBI database predominantly focuses on gene (protein-yielding) alternative-loci splice isoforms or genes that are altered at the post-translational stage further alterations are not available but are collapsed for a gene locus. The highly ranked functional grouping familiarized through unautomated curated Kyoto Encyclopedia 4,25,26 of genes and genomes pathway maps provide the sources of interactions, and their declarations have been proven ideal. As stated earlier, WeiBI covers 115570 entries. To gain more knowledge of the biological phenomena, there are supplementary updates available for all the primary data resources, and aims to re-execute the text-mining pipeline with new and long technologies. Through extensive literature investigation, we examined many features and interfaces in other databases 27,28,29 . However, the data are not sufficient to be heavily banking on. Hence, we support ongoing studies that are focused on modifications and alternative additions to the database.


Informations sur l'auteur

Affiliations

Bioinformatics Center, Key Lab of Systems Biology, Shanghai Institutes for Biological Sciences, the Chinese Academy of Sciences, Shanghai, China

Changzheng Dong, Tieliu Shi & Yixue Li

Chinese National Human Genome Center at Shanghai, Shanghai, China

Changzheng Dong, Xun Chu, Ying Wang & Wei Huang

Graduate School of the Chinese Academy of Sciences, Beijing, China

MOE Key Laboratory of Contemporary Anthropology and Center for Evolutionary Biology, Fudan University, Shanghai, China

Rui Jin Hospital, School of Medicine, Shanghai Jiaotong University, Shanghai, China


Voir la vidéo: 2 3 Gene Environment Interactions and Correlations Video (Octobre 2022).