Informations

Qu'est-ce qu'un profil de numéro de copie segmenté


J'étudie la variation du nombre de copies. je suis en train de lire

CH Mermel, SE Schumacher, B. Hill, ML Meyerson, R. Beroukhim et G. Getz, « GISTIC2.0 facilite la localisation sensible et fiable des cibles de l'altération focale du nombre de copies somatiques dans les cancers humains », Genome Biol., vol. 12, non. 4, p. R41, 2011.

Ici, il est écrit que

Les profils de nombre de copies segmentés représentent le résultat additionné de tous les SCNA [altérations du nombre de copies somatiques] qui se sont produits au cours du développement du cancer. Une modélisation précise du taux de fond d'altération du nombre de copies nécessite une analyse des SCNA individuels. Cependant, étant donné que les SCNA peuvent se chevaucher, il est impossible de déduire directement les événements sous-jacents à partir du seul profil de nombre de copies segmenté final.

Il n'est pas clair pour moi comment un profil de nombre de copies segmenté représente le résultat additionné de tous les SCNA. Est-ce parce que différentes modifications peuvent être présentes dans le même échantillon, ou peuvent modifier le nombre de copies à différents moments, ou les deux ?

Et, se chevauchent-ils spatialement, temporellement ou les deux ?


Oui, un échantillon peut contenir différentes altérations. Pour chaque patient, il y a généralement un échantillon de tumeur qui est retiré. Cet échantillon peut être divisé en plusieurs échantillons (par exemple un pour le séquençage de l'ADN, un pour le séquençage de l'ARN, un pour la puce à méthylation et un pour la puce à variation du nombre de copies), cependant chaque échantillon contient des milliers de cellules individuelles et deux cellules adjacentes peuvent avoir différents CNV (selon leur ascendance clonale, etc.). En d'autres termes, une tumeur est un ensemble hétérogène de cellules. Pour certains types de tumeurs, des cellules saines peuvent même être mélangées.

Le terme dans la littérature est évolution clonale, il y a une belle image dans cet article : Hétérogénéité tumorale


Pour répondre directement au devis présenté,

Les profils de nombre de copies segmentés représentent le résultat additionné de tous les SCNA [altérations somatiques du nombre de copies] qui se sont produites au cours du développement du cancer.

À mesure qu'une tumeur progresse, l'instabilité génomique peut souvent augmenter. C'est-à-dire que de plus en plus de SCNA se produisent. Pour cette raison, un SCNA peut chevaucher un autre.

Par exemple, regardez la progression tumorale du chromosome ci-dessus. Disons que vous avez une perte sur ce chromosome (Événement 1 le chromosome MATERNEL). Cette perte peut se produire par de nombreux mécanismes que je n'aborderai pas. La tumeur prolifère, se divise plusieurs fois et les mutations s'accumulent. Ces mutations peuvent provoquer plus d'événements, et peut-être sur ce même bras chromosomique, la partie distale de la copie restante est dupliquée (Événement 2 le chromosome PATERNEL).

Dans le profil du nombre de copies, il semblera que vous ayez subi une perte uniquement sur une partie interstitielle du chromosome. Mais en regardant de près les données, vous pouvez voir que vous avez également perdu l'hétérozygotie sur la partie distale du chromosome (nous avons maintenant deux copies du chromosome PATERNAL et 0 copie du MATERNAL). Il s'agit d'un exemple simplifié, et de nombreux événements peuvent se produire le long du même bras chromosomique. Si le chromosome paternel porte une mutation, cela peut signifier un avantage sélectif pour la tumeur ou une résistance aux thérapies médicamenteuses.

Par conséquent, le profil CN représente un instantané dans le temps de ce qu'était l'état du numéro de copie à ce moment, sans aucune information explicite sur la façon dont cet état du numéro de copie a été obtenu.


Estimation du nombre de copies à partir des rapports de journal

Cependant, dans la pratique, le nombre de copies est difficile à estimer à partir des valeurs du rapport log2 d'un segment pour diverses raisons, par exemple, des problèmes liés aux échantillons tels que la polyploïdie, le mosaïcisme, la contamination avec des échantillons normaux, la nécrose tumorale, etc. des problèmes tels que la plage dynamique de la sonde, la qualité de l'hybridation, le dosage, etc.

Les baies Agilent ont une bonne plage dynamique tandis que les baies SNP comme Illumina ont une plage plus petite. Vous pouvez le voir dans nos paramètres par défaut pour le gain/perte d'une copie pour ces plates-formes (voir File->Settings et dérouler jusqu'à Illumina). La nouvelle plate-forme Affymetrix OSCHP peut estimer directement le nombre de copies.

Compte tenu de ces mises en garde, vous pouvez estimer le nombre de copies à l'aide de la valeur médiane de la sonde pour chaque appel. Dans Nexus, vous pouvez obtenir les valeurs médianes de la sonde à partir du tableau de données dans la fenêtre d'exploration des échantillons (fenêtre d'échantillon individuelle). Donc, si vos données sont dans l'espace log2, l'appel a une médiane de sonde d'environ 0,5-0,57 (=log2(3/2)), la plate-forme était Agilent, et ce n'est pas un échantillon de tumeur, vous pouvez dire que c'est un 1 gain de copie (3 copies/2) et si la valeur était d'env. 1.0 (=log2(4/2)), vous pouvez dire qu'il s'agit d'un gain de 2 copies (4 copies/2) et ainsi de suite, d'un gain de 3 copies=log2(5/2). Pour les tableaux SNP qui ont une plage dynamique plus petite, vous feriez les appels à des rapports de log légèrement inférieurs.


Résumé

Les technologies de séquençage de l'ADN unicellulaire permettent d'étudier les mutations et leurs trajectoires évolutives dans le cancer. Les aberrations somatiques du nombre de copies (CNA) ont été impliquées dans le développement et la progression de divers types de cancer. Un large éventail de méthodes de détection de l'ADN a été développé spécifiquement ou adapté aux données de séquençage de l'ADN unicellulaire. Il est très important de comprendre les forces et les limites propres à chacune de ces méthodes pour obtenir des profils précis du nombre de copies à partir des données de séquençage de l'ADN unicellulaire. Nous avons comparé trois méthodes largement utilisées - Ginkgo, HMMcopy et CopyNumber - sur des ensembles de données simulés et réels. Pour faciliter cela, nous avons développé un nouveau simulateur de l'évolution du génome unicellulaire en présence d'ANC. De plus, pour évaluer les performances sur des données empiriques où la vérité terrain est inconnue, nous introduisons une mesure basée sur la phylogénie pour identifier des inférences potentiellement erronées. Alors que le séquençage de l'ADN unicellulaire est très prometteur pour élucider et comprendre les CNA, nos résultats montrent que même la meilleure méthode existante ne dépasse pas 80% de précision. De nouvelles méthodes qui améliorent considérablement la précision de ces trois méthodes sont nécessaires. De plus, avec les grands ensembles de données générés, les méthodes doivent être efficaces en termes de calcul.


Qui, quoi, où, quand, pourquoi et comment utiliser les données de segment d'ADN

Êtes-vous prêt pour une incursion aventureuse dans les données de segments d'ADN et prêt à utiliser certains programmes pour les comprendre, les analyser et les utiliser dans vos recherches sur l'histoire de la famille ? Allons-y !

Vous avez peut-être déjà lu certains articles du blog Family Locket sur l'utilisation des données de segment d'ADN. Le navigateur de chromosomes : un outil pour visualiser les données de segment de Nicole, explique comment utiliser les navigateurs de chromosomes pour visualiser l'ADN que vous partagez avec vos correspondances d'ADN et trianguler les segments d'ADN autosomique partagés. Segment Triangulation: Proving an Ancestral Line, par Diana, explique comment utiliser les segments MyHeritage pour confirmer un ensemble de 2e arrière-grands-parents. Cartographie chromosomique - Visualisez votre ADN et identifiez les ancêtres qui vous l'ont transmis, écrit précédemment par moi, donne un aperçu de l'utilisation des données de segments d'ADN pour créer des cartes chromosomiques et effectuer un phasage visuel.

Pour commencer, regardons qui, quoi, où, quand, pourquoi et comment utiliser les données de segment d'ADN.

Quand vous explorez vos résultats d'ADN et les utilisez dans la recherche d'histoire familiale, qui est impliqué ?

– L'ADN correspond à – des parents avec des relations connues et inconnues

– Vos ancêtres communs – les ancêtres directs auxquels vous et une correspondance ADN êtes liés

Les images ci-dessous illustrent les voies relationnelles entre vous et vos correspondances ADN. Si vous êtes 3e cousins, vous partagez des arrière-arrière-grands-parents.

Si votre arrière-grand-parent est votre arrière-arrière-arrière-grand-parent correspondant à votre ADN, votre relation est un deuxième cousin une fois supprimée, ce qui est souvent abrégé en 2C1R.

L'objectif est d'identifier les segments d'ADN que vous avez hérités d'ancêtres spécifiques. Les informations sur les segments d'ADN vous aident à identifier/trouver/localiser de nouvelles connexions ancestrales ou à vérifier les relations connues.

N'oubliez pas que vous avez 2 copies de chaque chromosome. Vous avez hérité d'une copie de chaque chromosome de votre père et d'une copie de votre mère. Les segments qui se chevauchent doivent être sur le même chromosome pour être informatifs sur les ancêtres.

Si vous examinez les segments d'ADN que vous partagez avec vos correspondances ADN et que vous savez comment vous êtes apparenté et quel(s) ancêtre(s) commun(s) vous partagez, vous pouvez attribuer les segments à cet ancêtre. Une fois que le segment a été « attribué » ou identifié comme appartenant à un ou plusieurs ancêtres spécifiques, vous pouvez comparer les données du segment à partir de correspondances ADN supplémentaires. Si la ou les nouvelles correspondances d'ADN partagent également le même segment sur le même chromosome, cela indique quelle lignée ancestrale vous avez en commun et vous aide à apprendre comment vous et les nouvelles correspondances d'ADN êtes liés.

Au fur et à mesure que le temps passe et que de plus en plus de personnes testent leur ADN, vous avez la possibilité d'identifier de plus en plus d'ancêtres. Donc, si vous n'avez pas beaucoup de correspondances ADN aujourd'hui, ne vous sentez pas exclu. Au fil du temps, la probabilité d'avoir plus de correspondances ADN augmentera. C'est une bonne idée de vérifier périodiquement et de rechercher de nouvelles correspondances.

L'endroit où vous pourrez réellement comparer les données ADN est le « Où ». Mais d'abord, téléchargez ou copiez les données de segment à partir de 23andMe, FTDNA, MyHeritage et GEDmatch. Certains sites Web et outils tiers contribuent à rendre les données de segment significatives et utiles pour votre recherche d'histoire familiale. Certains des sites Web et outils sont l'outil Genetic Affairs AutoSegment, les cartes chromosomiques DNA Painter, DNA Gedcom, des feuilles de calcul, etc.

Les segments partagés avec les correspondances ADN ont été hérités d'ancêtres communs.

– Certains cousins ​​peuvent avoir plus d'informations sur l'histoire familiale de vos ancêtres communs que vous. Ils peuvent même connaître des ancêtres qui sont au-delà d'un « mur de briques » pour vous.

– L'identification des segments peut aider à discerner ou à confirmer des ancêtres hypothétiques, ou à confirmer des ancêtres connus.

Téléchargez des fichiers CSV de données de segment. Une fois que vous avez les données ADN, vous pouvez les analyser. Vous pouvez utiliser les données pour créer des cartes chromosomiques, trianguler et vérifier les relations. Vous pouvez importer les fichiers CSV dans l'outil Genetic Affairs AutoSegment et l'outil de carte chromosomique DNA Painter. D'autres options consistent à utiliser le client DNA Gedcom pour extraire les données des sociétés de test ADN, puis à utiliser les données dans JWorks et KWorks, ou à consulter les données dans une feuille de calcul.

J'ai essayé le nouvel outil AutoSegment chez Genetic Affairs, et je suis enthousiasmé par les possibilités ! Tout d'abord, j'ai sélectionné l'outil AutoSegment sur https://members.geneticaffairs.com/autosegment. Dans l'image ci-dessous, il y a un lien vers des instructions (https://members.geneticaffairs.com/img/AutoSegmentTutorial.pdf) sur la façon de collecter les données de segment nécessaires à l'analyse AutoSegment. Les sociétés auprès desquelles les données sectorielles peuvent être obtenues sont MyHeritage, Family Tree DNA, 23andMe et GEDmatch.

J'ai choisi MyHeritage car j'ai récemment téléchargé des données ADN brutes et je voulais voir les résultats.

Après avoir sélectionné MyHeritage, cette page s'est ouverte et m'a donné des instructions sur l'exportation du fichier de correspondances ADN et du fichier de segment d'ADN partagé. Il a fallu environ 15 minutes pour recevoir les deux fichiers de MyHeritage par e-mail. J'ai extrait les fichiers compressés, puis utilisé la case “Choose File” pour télécharger le fichier de correspondance, puis le fichier de segment.

Après avoir sélectionné “PERFORMER L'ANALYSE DE L'AUTOSEGMENT,” cet écran s'est ouvert et j'ai sélectionné “Oui, effectuer une analyse de l'AutoSegment.”

Après quelques minutes, j'ai reçu un e-mail de Genetic Affairs avec un fichier zippé en pièce jointe. Après avoir téléchargé et décompressé le fichier AutoSegment, j'ai ouvert le fichier HTML et choisi de classer les correspondances ADN par cluster. Cette image ouverte, c'est une analyse de cluster de segment qui ressemble à l'analyse AutoCluster que nous connaissons et aimons.

“Explication de l'analyse AutoSegment
AutoSegment organise vos correspondances en clusters qui représentent probablement des branches de votre famille. Chacune des cellules colorées représente une intersection entre deux de vos correspondances, ce qui signifie qu'elles vous correspondent toutes les deux en fonction d'un segment qui se chevauche. Ces cellules, à leur tour, sont regroupées à la fois physiquement et par couleur pour créer un graphique visuel puissant de vos clusters.

Chaque couleur représente un cluster. Les membres d'un cluster correspondent à vous et à la plupart ou à tous les autres membres du cluster. Tout le monde dans un cluster sera probablement sur la même lignée ancestrale, bien que le MRCA entre n'importe lequel des matchs et entre vous et n'importe quel match puisse varier. Le niveau générationnel des clusters peut également varier. L'une peut être la branche de votre grand-mère paternelle, une autre peut-être la branche du père de votre grand-père paternel.

Veuillez noter qu'une analyse AutoSegment est différente de l'analyse AutoCluster normale. L'analyse AutoCluster utilise des correspondances partagées pour former des grappes de correspondances. Certaines de ces correspondances partagées partageront également le même segment d'ADN avec vous. AutoSegment est basé sur des segments de correspondance d'ADN qui se chevauchent. Sur la base d'un segment de chevauchement de vos correspondances ADN, un lien entre ces correspondances ADN est créé. Cependant, veuillez garder à l'esprit ce qui suit :

Un segment qui se chevauche, tel qu'il est calculé, n'est pas la preuve d'un segment triangulaire !”

Navigateur de chromosomes AutoCluster

Il y a un navigateur de chromosomes sous les clusters qui montre avec qui vous partagez un certain segment d'ADN sur un chromosome spécifique. Si vous survolez une barre colorée sur un chromosome, une boîte contenant des détails sur ce segment s'ouvre. Les cases donnent des informations telles que : “segment du cluster 52 partageant 21,4 cM avec [DNA match] chr 22 : 32 950 104 – 45 651 045,” ce qui signifie que le segment du chromosome 22 est partagé avec une certaine correspondance d'ADN qui partage également cela même segment de 21,4 cm avec les personnes du cluster 52, et le point de départ est 32 950 104 avec le point final 45 651 045.”

Si vous cliquez sur un chromosome, il bascule en position verticale. Ensuite, vous pouvez survoler l'image chromosomique plus grande et déplacer la souris vers le bas pour voir les autres personnes qui partagent différents segments du chromosome avec vous.

Informations sur le cluster AutoSegment

Ensuite, il existe un tableau interactif répertoriant le numéro de cluster, les segments, les chromosomes, les points d'étoile et d'arrêt, le nombre de SNP, le nom de la correspondance, la société, la quantité d'ADN partagé dans ce segment et la quantité totale d'ADN partagé dans cM. Le tableau permet le tri et un lien pour envoyer la correspondance ADN via le système de messagerie de la société DNA dans ce cas, la société était MyHeritage.

Graphique des groupes de segments utilisant une visualisation des segments individuels

Sont également incluses dans le fichier des images interactives de chaque groupe coloré distinct montré dans l'image ci-dessus. Ces fichiers vous permettent de voir les informations de manière encore plus précise. L'image ci-dessous montre que les 7 premiers clusters de l'image globale du cluster sont présentés plus en détail. Le navigateur de chromosomes qui l'accompagne met en évidence les segments partagés dans le plus petit groupe de grappes.

Les informations du rapport AutoSegment indiquent les segments d'ADN que vous partagez avec d'autres correspondances ADN, et vous pouvez examiner et travailler pour discerner les ancêtres communs qui vous ont transmis ce segment d'ADN ainsi qu'à votre correspondance ADN. Si vous pouvez identifier 2 ou plusieurs correspondances d'ADN qui partagent le même segment du même ancêtre, [Triangulation], vous pouvez l'utiliser avec les enregistrements généalogiques traditionnels pour confirmer que vous êtes génétiquement lié à l'ancêtre qui vous a transmis ce segment d'ADN. .

Régions d'empilement

Une autre partie fascinante du rapport AutoSegment est la section sur les régions d'empilement. Dans mon graphique du chromosome 1, 14 personnes partagent le pic le plus élevé du graphique. Cela signifie que 14 personnes partagent le même petit segment d'ADN. Genetic Affairs AutoSegment vous permet de filtrer les segments d'ADN situés dans des régions d'accumulation connues.

Les régions d'empilement sont des segments d'ADN qui sont communs dans une population. Les segments ont été transmis à travers de nombreuses générations et ne sont pas révélateurs d'une ascendance partagée récente. L'algorithme Timber d'AncestryDNA supprime les régions d'empilement communément connues de son calcul de l'ADN partagé pour les correspondances qui partagent moins de 90 cM d'ADN.

Genetic Affairs a lancé la semaine dernière un outil d'analyse de segment supplémentaire appelé Hybrid AutoSegment. Cet outil combine les données de 23andMe, FTDNA, MyHeritage et GEDmatch pour compiler un rapport AutoSegment. C'est très excitant d'avoir maintenant la possibilité de comparer les segments d'ADN de 4 sociétés d'ADN et GEDmatch dans un seul rapport. Cela permet d'économiser du temps et de l'énergie dans les allers-retours entre les rapports et les feuilles de calcul pour comparer les segments d'ADN.

Les outils AutoSegment et Hybrid AutoSegment sont tous deux configurés pour permettre une intégration facile dans le site Web de DNA Painter. Wow, j'ai hâte d'explorer cela un peu plus et de partager les résultats avec vous !

Essayez AutoSegment –, c'est peut-être l'outil révolutionnaire que vous recherchez !


Résultats

Mesures rhéologiques

Dans le microviscoamylographe, l'impact de la salive sur la viscosité de l'amidon variait entre les individus de presque aucun impact à une baisse rapide de la viscosité de l'amidon en quelques secondes. La figure 1 présente les données de quatre sujets avec les diminutions globales les plus élevées de viscosité de 120 à 425 secondes et de quatre sujets avec les changements les plus faibles. Pour tous les sujets, 100 ul de salive fraîche ont été ajoutés à 100 g d'amidon gélifié à 6 % au temps « 0 ». Les courbes de décroissance de la viscosité se chevauchent pendant environ 10 secondes pour tous les individus, indiquant que l'amylase nécessite un mélange actif pour devenir efficace. Après mélange, cependant, l'activité amylolytique salivaire était hautement individualisée parmi les sujets (voir le tableau S1 dans le fichier S1). L'encart de la figure 1 représente les courbes de tous les sujets pour illustrer la gamme complète de l'activité salivaire.

Ce graphique représente les quatre sujets avec le moins de changement global de viscosité (courbes supérieures) et les quatre avec le plus grand changement global (courbes inférieures). Le graphique en médaillon montre les données de tous les échantillons de salive analysés dans le MVAG (n = 42). Dans les deux graphiques, les données de chaque sujet sont représentées par une ligne de couleur différente. 100 ul de la salive de chaque sujet ont été ajoutés à 100 g d'amidon à 37,5°C. La salive a été ajoutée à l'amidon au temps « 0 » et constituait environ 0,1 % de la solution d'amidon.

Mesures d'amylase salivaire

L'immunotransfert et un test enzymatique ont été utilisés pour quantifier indépendamment la quantité d'amylase/ml et l'activité/ml, respectivement, dans chaque échantillon de salive. Nous avons observé une variation significative entre les individus en termes de quantité et d'activité d'amylase produite par unité de salive (tableau S2 dans le fichier S1). La quantité moyenne (± ET) d'amylase était de 2,64 mg/ml (± 1,8), avec une plage de 0 à 7,5 mg/ml, tandis que la concentration moyenne par minute était de 5,7 mg/min (± 7,1) (plage de 0 à 42,8 mg/min). L'activité moyenne par unité de salive était de 93 U/ml (± 62), allant de 1 à 371 U/ml.L'activité moyenne par minute était de 177 U/min (±166), avec une plage de 2 à 900 U/min. Les mâles et les femelles ne différaient pas significativement ni dans leurs quantités d'amylase ni dans leur activité.

Les trois mesures salivaires (1. quantité d'amylase par ml de salive, 2. activité enzymatique par ml de salive, 3. réduction de la viscosité de l'amidon par 100 ul d'injection de salive dans le MVAG) étaient significativement corrélées les unes aux autres. La relation entre la quantité d'amylase (mg/ml) et le changement de viscosité global dans le MVAG (figure 2A) avait une valeur r de 0,58 (P<0.0001) et la corrélation entre l'activité de l'amylase (U/ml) et le changement de MVAG (figure 2B ) avait une valeur r de 0,67 (P<0,001). Comme le montre la figure 2C, la quantité et l'activité d'amylase étaient également significativement corrélées les unes aux autres (r = 0,61 P<0,001).

La quantité d'amylase salivaire/ml (A) et l'activité salivaire/ml (B) étaient significativement liées au changement global de viscosité mesuré par le MVAG. La quantité d'amylase salivaire/ml et l'activité salivaire/ml étaient également significativement corrélées entre elles (C). Notez que les échantillons de salive analysés dans le MVAG (n = 41) sont un sous-ensemble de ces échantillons analysés par Western blot et dosage enzymatique (n = 73).

AMY1 Nombre de copies de gènes et amylase salivaire

Des échantillons d'ADN ont été prélevés sur 62 sujets et analysés par qPCR pour déterminer le nombre de copies de gènes. Les valeurs ont été standardisées par rapport à un échantillon d'ADN humain avec un AMY1 numéro de copie du gène vérifié par Fiber FISH. Le nombre médian de AMY1 copies de gènes était de quatre (moyenne = 4,4 ± 2), avec une plage de 1 à 11 (tableau S2 dans le fichier S1). La quantité d'amylase salivaire/ml et le nombre de copies de gènes étaient significativement corrélés (r = 0,50 P<0,0001 Figure 3). L'activité de l'amylase salivaire/ml a également augmenté à mesure que le nombre de copies du gène augmentait (r = 0,52 P<0,0001) (non illustré), ce qui correspond à la corrélation entre la concentration d'amylase salivaire et l'activité des enzymes salivaires (figure 2C).

Il y avait une relation positive significative entre AMY1 nombre de copies diploïdes et quantité d'amylase/ml (n = 62).

Perception orale de la viscosité

Les fonctions moyennes de viscosité temps-intensité perçues des trois stimuli (amidon, gomme et eau) sont présentées sur la figure 4A (voir le tableau S3 dans le fichier S1 pour les données). Comme prévu, les sujets ont évalué l'eau comme ayant une viscosité perçue très proche de zéro, qui n'a pas fluctué pendant la mesure de 60 secondes. Après avoir atteint un pic, les notes pour le stimulus de la gomme xanthane ont légèrement diminué au cours de la période d'essai, très probablement en raison de l'amincissement volumétrique du mélange salivaire, mais sont restées stables dans le temps. La forme de la courbe d'évaluation de la viscosité de l'amidon suggérait un processus en deux étapes : une phase initiale de « mélange », dans laquelle le sujet manipulait le bolus dans sa bouche et le mélangeait avec de la salive (sur la figure 4A, environ 0 à 10 secondes) et une deuxième étape "d'activité amylolytique" caractérisée par une diminution s'accélérant négativement des cotes de viscosité de l'amidon au cours des 50 secondes restantes.

Cotes moyennes d'intensité de temps pour les trois stimuli (A). Comme le montrent les évaluations LMS de six personnes (chacune représentée par une ligne/une forme de couleur différente), les sujets étaient très variables dans leur utilisation de l'échelle LMS lors de l'évaluation de la viscosité de l'amidon au cours de l'essai (B). Les cotes LMS ont été normalisées à 100 à 5 secondes afin d'éliminer le bruit subjectif et de permettre l'observation des effets de l'amylase sur les cotes de viscosité (C). Notez que les panneaux B et C contiennent les données d'évaluation LMS des mêmes six sujets, chaque individu est représenté par la même ligne de couleur dans chaque panneau.

Il y avait de grandes différences individuelles dans les cotes de viscosité de l'amidon (figure 4B). Pour diminuer l'impact des évaluations subjectives, les évaluations LMS ont été normalisées à 100, en commençant à 5 secondes dans la fonction (figure 4C). Les données ont été analysées sur les 55 secondes restantes en calculant 1) le changement global des cotes du pic au nadir et 2) le moment auquel la courbe a atteint ½ cote de viscosité après le pic pour chaque courbe.

Afin d'évaluer la relation entre la quantité/l'activité de l'amylase salivaire au cours de la session d'essai de 60 secondes et les cotes de viscosité, le eLa concentration en enzyme/minute de flux de salive et l'activité/minute de flux ont été divisées en quartiles. Les sujets avec des concentrations d'amylase salivaire plus élevées (Figure 5A) (F (3,69) = 2,28, P<0,05) et une activité salivaire (Figure 5B) (F = 3,1, P<0,05) ont eu des changements globaux plus importants dans la viscosité perçue de l'amidon que les sujets avec des niveaux d'enzymes inférieurs. En outre, ces sujets ont également signalé des diminutions de viscosité significativement plus rapides au cours des 60 secondes suivantes (figures 5C et D) (F = 3,12, P<0,05 et 3,2, P<0,05, respectivement). Il est important de noter qu'il n'y avait pas de relation significative entre le changement global de la viscosité du stimulus de contrôle (gomme xanthane) et les niveaux d'amylase (mg/min P = 0,64) ou l'activité (U/min P = 0,51), ce qui démontre la spécificité de l'enzyme pour l'amidon .

Les sujets avec des concentrations d'amylase salivaire/ml (A) et une activité salivaire/ml (B) plus élevées présentaient des changements globaux plus importants de la viscosité perçue. Ces sujets ont également atteint la moitié des niveaux de viscosité perçue significativement plus rapidement (C et D). La ligne pointillée à l'intérieur de chaque case représente la valeur moyenne, tandis que les limites supérieure et inférieure de la case représentent respectivement les 75 e et 25 e centiles. Les barres d'erreur au-dessus et au-dessous de la case indiquent les 90 e et 10 e centiles. Les points avec des lettres différentes sont très différents les uns des autres. Quartiles Mg/min : 1 = 0 à 1,5 2 = 1,51 à 2,99 3 = 3 à 10 et 4 = >10 mg/min. Quartiles U/min : 1 = 0 à 60 2 = 61 à 120 3 = 121 à 220 et 4 = >220 U/min.

Il est également intéressant de noter que le in vivo Les cotes LMS de la viscosité de l'amidon à 60 secondes étaient significativement liées à la in vitro mesures de viscosité du MVAG à 7 minutes (r = 0,27 P<0,05). Ceci met en évidence que la perception de la viscosité de l'amidon lors de sa dégradation en bouche est directement liée à l'activité de l'amylase salivaire sur l'amidon, puisque c'est la seule variable mesurée par le microviscoamylographe.

La relation entre AMY1 le nombre de copies de gènes et la perception de la viscosité de l'amidon ont également été examinés. Le changement global de la viscosité perçue au fil du temps et le temps nécessaire pour atteindre la moitié de la viscosité perçue n'étaient pas significativement liés au nombre de copies de gènes dans cet ensemble de données (P = 0,19 et P = 0,54, respectivement) (non illustré).


INTRODUCTION

Des efforts de séquençage massifs, tels que ceux de The Cancer Genome Atlas (TCGA) et de l'International Cancer Genome Consortium (ICGC), ont généré une collection complète de génomes séquencés de patients atteints de cancer, ouvrant une nouvelle ère pour la génomique. Les analyses avancées des données de séquençage génomique nécessitent une estimation précise de la cellularité de l'ADN (pureté, 1 - mélange d'ADN) et de la ploïdie tumorale pour permettre un calcul comparatif approprié. Le mélange d'ADN fait référence à la quantité de cellules non cancéreuses dans un échantillon de tumeur, tandis que la ploïdie représente le nombre moyen de chromosomes définis dans une cellule. Les cellules saines humaines sont diploïdes, tandis que les cellules tumorales présentent souvent un nombre de ploïdie extrêmement variable, selon le type de tumeur (Chunduri & Storchova, 2019 Danielsen, Pradhan, & Novelli, 2016). L'impact des changements de ploïdie sur l'évolution et le pronostic des tumeurs n'est pas encore clair, mais des études récentes sur le cancer ont fait la lumière sur cette question. Dans une cohorte de tumeurs primitives pancancer du projet TCGA, la prolifération cellulaire et l'évasion immunitaire, deux caractéristiques du cancer, ont été dérégulées dans des échantillons à forte aneuploïdie (Davoli, Uno, Wooten et Elledge, 2017 Taylor et al., 2018 ). Dans une cohorte pan-cancer de 9 692 patients atteints d'une maladie avancée, l'aneuploïdie était associée à une faible survie (Bielski et al., 2018).

Une revue récente (Aran, Sirota et Butte, 2015) a souligné l'importance de l'estimation de la pureté dans l'analyse des données de séquençage. Par exemple, la reconstruction phylogénétique de l'évolution tumorale à partir de données de séquençage d'ADN multi-échantillons d'un seul patient repose strictement sur la quantification de la fraction allélique variant (VAF) des variants mononucléotidiques (SNV) (Gundem et al., 2015), qui est affectée à la fois par le mélange d'ADN (les cellules normales diluent les VAF de SNV) et la ploïdie (la polyploïdie augmente le nombre total d'allèles) de chaque échantillon de tumeur. Les mêmes problèmes affectent également la détermination du nombre absolu de copies d'un segment génomique dans un échantillon de tumeur (Carter et al., 2012 ). De nombreuses méthodes de calcul identifient les aberrations somatiques du nombre de copies à partir des quantités relatives d'ADN dans une tumeur et de son échantillon normal correspondant, mais une estimation précise du nombre entier de copies de chaque allèle nécessite des ajustements de pureté et de ploïdie (Bao, Pu et Messer, 2014 ).

Ces considérations appellent au développement d'outils informatiques pour quantifier la pureté et la ploïdie des tumeurs. À l'ère du pré-séquençage, plusieurs outils ont été développés pour les données de matrice de polymorphisme de nucléotide simple (SNP) à haute densité (par exemple, Carter et al., 2012 Van Loo et al., 2010) avec ceux-ci, généralement la tumeur à- Le rapport logarithmique du signal de contrôle (ci-après logR) et l'abondance des distributions de signaux spécifiques à l'allèle (fréquence de l'allèle B, BAF) sont analysés conjointement pour déduire le mélange d'ADN et la ploïdie. Cependant, les outils basés sur les puces sont limités par le nombre de bases génomiques analysées (principalement de l'ordre de 0,5 million à 2 millions de sites) et par la dynamique du signal. Les plateformes de séquençage de nouvelle génération surmontent ces limitations tout en préservant les mêmes caractéristiques de données à exploiter (Aran et al., 2015) : fraction allélique (AF) des loci SNP hétérozygotes hérités (ci-après appelés SNP informatifs) et la couverture de séquençage ressemblent respectivement aux données BAF et logR des matrices SNP. Les données statistiquement plus riches offertes par le séquençage permettent d'effectuer des analyses plus complexes telles que des estimations du nombre de copies et de la clonalité spécifiques à l'allèle.

En général, les méthodes disponibles pour estimer la ploïdie et le mélange d'ADN adoptent une approche globale, et les distributions des valeurs AF et logR sont conjointement utilisées pour déduire le mélange d'ADN et la ploïdie. Intuitivement, il est évident que l'AF des SNP informatifs est distribué autour de 0,5 dans un échantillon de tumeur mélangé à 100% (jusqu'au biais de cartographie de référence Degner et al., 2009), et des AF plus faibles impliquent un mélange d'ADN plus faible. Les données LogR sont utilisées comme covariable, car la FA dépend également du nombre d'allèles disponibles. Si aucune sous-population de cellules tumorales n'est présente (c'est-à-dire si le profil du nombre de copies d'un échantillon de tumeur est homogène, c'est-à-dire que le rapport délétions/amplifications sous-clonales est faible), les approches d'inférence globale capturent bien le contenu du mélange d'ADN. Cependant, en présence d'événements génomiques complexes, tels que la chromothripsis (Stephens et al., 2011 ) ou la chromoplexie (Baca et al., 2013 ), ou après de multiples traitements qui diversifient la population de cellules tumorales, les approches globales sont sous-optimales.

CLONET (CLONality Estimate in Tumor Prandi et al., 2014 ) est un outil autonome spécialement conçu avec une approche locale d'estimation de clonalité pour traiter des échantillons de tumeurs hétérogènes. En bref, considérons un échantillon de tumeur T avec une délétion hémizygote HeD et l'ensemble des SNP informatifs S se trouvant dans HeD. La valeur AF des SNP dans S est la convolution de l'AF des différentes populations cellulaires composant T. Si HeD est sous-clonal (c'est-à-dire que toutes les cellules tumorales n'abritent pas cette délétion), l'échantillon tumoral comprend trois populations cellulaires principales : (i) les cellules non tumorales contribuant au mélange d'ADN, avec des AF attendus des SNP dans S autour de 0,5 (ii) des cellules tumorales n'abritant pas de HeD, de sorte que les AF des SNP dans S ne peuvent pas être distingués de ceux des cellules non tumorales et (iii) des tumeurs cellules hébergeant HeD, dans lesquelles l'AF pourrait être égal à 1 (si l'allèle supprimé héberge la base alternative) ou à 0 (si l'allèle supprimé héberge l'allèle de référence). Sur la base de l'observation que le mélange d'ADN apparent est plus élevé dans les délétions sous-clonales que dans les délétions clonales, CLONET estime le mélange d'ADN à chaque délétion hémizygote, puis identifie les délétions les plus clonales pour finalement désigner l'échantillon de mélange d'ADN. Cela se traduit par une estimation plus précise du mélange d'ADN, qui serait autrement surestimé, dans les tumeurs avec une fraction significative de délétions sous-clonales.

Ici, nous présentons CLONET version 2 (CLONETv2), un package R (R Core Team, 2017) disponible sur The Comprehensive R Archive Network (https://cran.r-project.org/) qui inclut des améliorations significatives par rapport au CLONET original. la mise en oeuvre. Ceci est le résultat de son application à plusieurs cohortes cliniques, y compris des échantillons de tissus et de plasma, et à une variété de plates-formes de séquençage, telles que les panels de séquençage du génome entier, de l'exome entier et ciblé. Dans Carreira et al. (2014), CLONET a été utilisé pour estimer le mélange d'ADN à partir d'un panel de séquençage personnalisé de ∼ 40 kb conçu pour analyser l'ADN tumoral circulant d'échantillons de plasma de patients métastatiques, et l'algorithme a été modifié pour améliorer la sensibilité des échantillons contenant <10 % de cellules tumorales. Dans Beltran et al. (2016), CLONET a été étendu pour fournir des données de nombre de copies spécifiques à l'allèle à partir d'expériences de séquençage de l'exome entier pour chaque segment génomique dans chaque tumeur de la cohorte d'étude, l'étude rapporte le nombre de copies de chaque allèle en utilisant la ploïdie, le mélange d'ADN, le logR, et l'AF des SNP informatifs. Dans Faltas et al. (2016), la capacité d'analyse de clonalité de CLONET a été améliorée pour tenir compte des combinaisons complexes spécifiques aux allèles et des SNV. Depuis sa conception initiale et son application aux données de séquençage du génome entier (Baca et al., 2013 Prandi et al., 2014), les améliorations de CLONET ont été utilisées dans plusieurs études (y compris Beltran et al., 2015 Boysen et al., 2015 Cancer Réseau de recherche sur l'Atlas du génome, 2015 et Mu et al., 2017). Ici, nous présentons une version documentée de CLONETv2 pour mettre uniformément en évidence les fonctionnalités de l'approche et la proposer sous forme de package R pour rendre l'outil accessible à un public plus large.

Toutes les lectures d'une expérience de séquençage d'ADN humain de nouvelle génération qui se situent dans un segment génomique dérivent de l'un ou l'autre des chromosomes parentaux d'origine. Les lectures peuvent être divisées en deux ensembles : copie-numéro-neutre ensemble qui contient un nombre égal de lectures des chromosomes maternel et paternel, et un lectures actives ensemble qui comprend des séquences d'un seul parent. D'une manière générale, étant donné deux lectures aléatoires, il est impossible de déterminer si elles représentent ou non le même allèle cependant, si les deux lectures couvrent un SNP informatif, l'allèle d'origine peut être identifié. Pour les lectures sur des SNP informatifs, le nombre de lectures (couverture locale) supportant la référence ou le SNP alternatif représente le nombre de copies et l'origine des allèles présents dans l'échantillon tumoral. Chaque SNP informatif peut être caractérisé par sa fraction allélique (FA), qui dépend du contexte génomique. Par exemple, considérons les deux SNP informatifs au sein d'une délétion monoallélique du segment génomique noté A sur la figure 1A. À la position p1, seul l'allèle alternatif est présent et AF = 1, alors qu'à la position pm, l'allèle alternatif est supprimé et AF = 0. En revanche, dans le segment génomique de type sauvage B, les valeurs AF des SNP informatifs aux positions pm+1 et Pm sont distribués autour de 0,5, car les deux allèles contribuent à parts égales à la couverture locale. Maintenant, le pourcentage de lectures neutres (appelées bêta, ) à p1 et Pm est égal à 0, quel que soit l'allèle supprimé, alors qu'aux positions génomiques de type sauvage, pm+1 et Pm chacun approximativement 1, car aucune lecture active n'est présente. Dans l'ensemble, les SNP dans les segments somatiquement aberrants sont plus faciles à caractériser en utilisant les valeurs bêta par rapport aux AF, car le premier est indépendant de l'allèle supprimé. Dans un échantillon tumoral hétérogène, les distributions des AFs et bêtas résultent de la convolution de la distribution observée dans les segments basiques de type sauvage et monoalléliques délétés. À titre d'exemple, la figure 1B illustre la distribution de l'AF et le bêta associé des SNP informatifs dans les segments génomiques A et B dans le cas d'une cellule normale, tandis que les figures 1C et 1D montrent comment les distributions changent dans les cellules tumorales avec délétion monoallélique du seul segment génomique A, ou des deux A et B, respectivement. La figure 1E représente le cas d'un échantillon tumoral avec une cellule normale (Fig. 1B) et neuf cellules tumorales 1 (Fig. 1C). Le mélange d'ADN est de 1/10, et l'AF pourrait prendre des valeurs autour de 1/11 ou 10/11, alors que la bêta est de 2/11. Le segment génomique B n'est pas supprimé, et donc l'AF et le bêta sont comme dans la cellule normale. La figure 1F représente une situation plus complexe impliquant une cellule normale (Fig. 1B), trois « cellules tumorales 1 » (Fig. 1C) et six « cellules tumorales 2 » (Fig. 1D). L'AF et la bêta des SNP informatifs dans le segment génomique A sont comme sur la figure 1E, mais seules les six cellules tumorales 2 portent la délétion monoallélique du segment génomique B. Dans ce cas, les modes de distribution AF sont centrés sur 4/14 et 10/ 14, selon la base appauvrie, alors que bêta est de 8/14. La caractérisation complète du bêta est décrite par Prandi et al. ( 2014 ), et dans Beltran et al. (2016), nous avons défini les équations maîtresses CLONET qui décrivent le nombre de copies spécifiques à l'allèle des allèles maternels et paternels, cnM et cnP, en fonction du pourcentage de lectures neutres bêta, le log2 valeurs du rapport ajustées par la ploïdie logRp et le mélange d'ADN g, comme:

(1)

où les allèles maternel et paternel sont arbitrairement attribués. La figure 2 esquisse la transformation de la bûche2 espace de rapport impliqué par l'équation 1. La figure 2A présente l'histogramme du journal2 signal de rapport dans un échantillon de tumeur : les pics de la distribution correspondent à différents états de nombre de copies, tandis que les écarts par rapport à la position des pics attendus (ci-dessous) dépendent des valeurs de ploïdie et de mélange d'ADN. Il est difficile d'identifier le pic qui correspond aux segments de type sauvage en utilisant uniquement le log2 signal de rapport. Lorsque nous élargissons l'espace logR monodimensionnel avec bêta (Fig. 2B), les segments qui contribuent au même pic le long de la dimension logR forment des groupes différents dans l'espace bêta-vs.-logR. Il est à noter que le graphique bêta-vs.-logR reflète toujours la ploïdie et le mélange d'ADN, tandis que l'espace cnM et cnP (voir l'équation 1) permet une interprétation directe du nombre de copies et du statut de clonalité de chaque segment génomique.

  1. seg_tb : un tableau résultant de la segmentation de l'ADN pour chaque segment génomique, le tableau rapporte le chromosome, la position de début/fin et le log2 rapport de la tumeur sur la couverture normale, tel que défini dans l'algorithme de segmentation binaire circulaire (Olshen, Venkatraman, Lucito, & Wigler, 2004)
  2. pileup_normal , pileup_tumor : deux tableaux rapportant la fraction allélique et la couverture des SNP dans les échantillons tumoraux normaux et appariés, respectivement pour chaque SNP, chaque tableau rapporte les coordonnées génomiques (chromosome et position), la fraction allélique et la couverture
  3. min_af_het_snps , max_af_het_snps : pour chaque SNP de la table pileup_normal, définissez la fraction allélique minimale et maximale pour considérer le SNP comme informatif
  4. min_required_snps : le nombre minimum de SNP informatifs dans un segment génomique de seg_tb pour conserver le segment
  5. min_coverage : la couverture moyenne minimale des SNP informatifs pour conserver un segment.
  1. beta : valeur estimée pour le segment d'entrée
  2. nsnps : nombre de SNP informatifs dans le segment d'entrée
  3. cov : couverture moyenne des SNP informatifs dans le segment d'entrée
  4. n_beta : valeur estimée pour le segment d'entrée en considérant l'échantillon normal apparié. Cette valeur devrait être 1, sauf en cas de variation du nombre de copies de la lignée germinale ou d'erreurs liées au séquençage.
  1. nombre de segments traités : le nombre de segments dans la table d'entrée seg_tb
  2. nombre de segments avec une estimation bêta valide : le nombre de segments d'entrée pour lesquels la valeur bêta est calculée cette valeur est affectée par le nombre de SNP informatifs et leur couverture moyenne
  3. quantiles de longueurs de segments d'entrée : les quantiles de la distribution de la longueur des segments d'entrée la distribution attendue dépend de l'algorithme de segmentation utilisé pour produire la table seg_tb, mais en général de petites valeurs entraînent un faible nombre de SNP informatifs, alors que de grands segments peut indiquer une sous-segmentation qui à son tour affecte les estimations bêta
  4. quantiles de couverture des segments d'entrée des SNP informatifs : les quantiles de la distribution de la couverture moyenne des segments d'entrée la couverture attendue dépend de l'expérience de séquençage, mais une valeur faible peut indiquer des problèmes avec l'échantillon d'entrée
  5. quantiles du nombre de SNP informatifs par segment d'entrée : les quantiles de la distribution du nombre de SNP informatifs dans les segments d'entrée. la longueur des segments donne des informations sur la qualité des données d'empilement.

Ressources nécessaires

Matériel

Ordinateur 64 bits sous Linux avec ≥8 Go de RAM

Logiciel

La bibliothèque a été testée avec R version 3.5.2 et les bibliothèques R parallel 3.5.2, ggplot2 3.1.0, sets 1.0-18, arules 1.6-3 et ggrepel 0.8.0

1. Préparez les carambolages tumoraux et normaux comme décrit dans le protocole de support 1 ou avec d'autres outils de calcul. La sortie de cette étape comprend deux fichiers, tumor.pileup et normal.pileup .

2. Préparez les données segmentées de la tumeur dans le fichier tumor_segments.txt avec des colonnes compatibles avec le paramètre seg_tb décrit ci-dessus.

  • > seg_tb <- read.table(system.file("sample.seg", package = "CLONETv2"),header = T, as.is=T)
  • > pileup_tumor <- read.table(system.file("sample_tumor_pileup.tsv", package = "CLONETv2"),header = T, as.is=T)
  • > pileup_normal <- read.table(system.file("sample_normal_pileup.tsv", package = "CLONETv2"),header = T, as.is=T)
  • Table bêta calculée de l'échantillon « échantillon1 »
  • Nombre de segments traités : 65
  • Nombre de segments avec une version bêta valide : 49 (75 %)
  • Quantiles des longueurs de segment d'entrée :
    • 0%: 2860
    • 25%: 17504185
    • 50%: 38004799
    • 75%: 59311449
    • 100%: 147311449
    • 0%: 47.0000
    • 25%: 137.7893
    • 50%: 168.3820
    • 75%: 186.6769
    • 100%: 695.6145
    • 0%: 0
    • 25%: 12
    • 50%: 99
    • 75%: 213
    • 100%: 404

    Ce protocole décrit les étapes utilisées pour préparer les données d'empilement à partir d'un ensemble de SNP et de fichiers tumoraux et normaux .bam (BAM) appariés (Li et al., 2009). Les tables pileup_normal et pileup_tumor rapportent la fraction allélique et la couverture pour un ensemble de positions SNP. Les positions SNP candidates peuvent être téléchargées directement à partir du serveur FTP dbSNP (ftp://ftp.ncbi.nlm.nih.gov/snp/). Nous suggérons de partir du plus grand ensemble possible de SNP, car plus le nombre de SNP informatifs est grand, plus les estimations de CLONETv2 sont fiables. Les piles de fichiers BAM peuvent être obtenues à l'aide de plusieurs outils. Nous décrivons ici comment préparer des carambolages à l'aide d'ASEQ (Romanel, Lago, Prandi, Sboner, & Demichelis, 2015), un outil disponible gratuitement sur http://demichelislab.eu/tools/ASEQ.

    Ressources nécessaires

    Matériel

    Ordinateur 64 bits sous Linux avec ≥8 Go de RAM

    Logiciel

    Fichiers d'entrée

    • BAM fichiers tumor.bam et normal.bam contenant des lectures alignées à partir d'expériences de séquençage génomique d'échantillons d'ADN normaux et tumoraux appariés, respectivement
    • Fichier VCF (Degner et al., 2009 )known_snp_positions.vcf signalant les positions SNP connues ASEQ exige que le VCF d'entrée répertorie uniquement les SNP, c'est-à-dire que les colonnes ALT et REF doivent contenir l'une des valeurs A, C, G ou T. Paramètres ASEQ comprendre:
    1. mrq : qualité de lecture minimale (l'ASEQ ne considère pas comme faisant partie du pileup les lectures avec la qualité de lecture < mrq)
    2. mbq : qualité de base minimale (l'ASEQ ne considère pas comme faisant partie des bases d'empilement avec la qualité < mbq)
    3. mdc : profondeur de couverture minimale (la sortie ASEQ ne rapporte que les positions avec une couverture ≥ mdc)
    4. threads : nombre de threads disponibles pour le calcul ASEQ.

    Le code ASEQ sera disponible dans le sous-dossier binaires/linux64/ .

    Les exemples ASEQ seront disponibles dans le sous-dossier examples/VCF_samples/ .

    • $./binaries/linux64/ASEQ mode=PILEUP vcf=examples/VCF_samples/sample1.vcf bam=examples/BAM_samples/sample1.bam mbq=20 mrq=20 mdc=1 threads=1 out=.

    ASEQ produit le fichier sample1.PILEUP.ASEQ , rapportant la fraction allélique et la couverture de lecture à partir du fichier BAM sample1.bam , pour chaque position dans le fichier VCF sample1.vcf . Les paramètres mbq = 20 et mrq = 20 indiquent à ASEQ d'ignorer, respectivement, les bases et les lectures de qualité <20. Le paramètre mdc = 1 indique à ASEQ d'ignorer les positions dans le fichier BAM sans lecture. Les paramètres et le format du fichier de sortie .PILEUP.ASEQ sont compatibles avec les données d'empilement requises dans le protocole de base 1.

    Les algorithmes de segmentation divisent l'espace génomique d'entrée en segments avec une couverture homogène. Étant donné une paire d'échantillons tumoraux et normaux appariés, la valeur logR d'un segment génomique est le log2 du rapport entre la couverture tumorale et la couverture normale de l'échantillon au sein du segment. Pour tenir compte de la couverture moyenne différente dans différentes expériences de séquençage, le logR est normalisé sur le rapport entre la tumeur moyenne et la couverture normale moyenne, cela s'applique à la fois aux données du génome entier et de l'exome entier. Dans le cas d'une couverture plus élevée dans l'échantillon tumoral, si sans normalisation le rapport entre la tumeur moyenne et la couverture normale moyenne est X, un segment de type sauvage aurait logR = log2(X), alors que la valeur attendue est 0 (c'est-à-dire le même nombre d'allèles entre les échantillons tumoraux et normaux). La normalisation introduirait cependant un biais chaque fois que la différence de couverture moyenne entre la tumeur et l'échantillon normal était due à la présence d'un nombre anormal d'allèles dans le génome tumoral (aneuploïde). Dans ce cas, la normalisation conduit à un décalage du signal logR. La figure 3A montre un exemple d'un échantillon de génome diploïde avec une tumeur moyenne de 127 × et 69 × et une couverture normale moyenne, respectivement. Le signal logR est centré sur 0, comme prévu (ligne verte). La figure 3B met en évidence un cas plus complexe : la couverture tumorale et la couverture moyenne normale sont comparables (125× et 117×, respectivement), mais la position des segments de type sauvage (ligne orange) est décalée par rapport à la valeur attendue (ligne verte) . Le décalage est représentatif du nombre total d'allèles dans le génome, et la ploïdie peut être estimée comme :

    (2)

    La preuve (Équation 2) est rapportée dans l'article décrivant à l'origine CLONET (Prandi et al., 2014). L'exemple de la figure 3A a un décalage logR de 0 et une ploïdie de 2, tandis que l'exemple de la figure 3B a un décalage logR de -0,34 et une ploïdie de 2,53.

    1. beta_table : une table créée à l'aide de la fonction décrite dans Basic Protocol 1
    2. max_homo_dels_fraction (par défaut 0,05) : les suppressions homozygotes peuvent constituer un facteur de confusion dans la détermination de la ploïdie de l'échantillon le paramètre définit un pourcentage de segments génomiques qui ne seront pas utilisés pour le calcul de la ploïdie en tant que suppression homozygote putative, et la surestimation de cette valeur n'affecte pas le calcul de la ploïdie
    3. beta_limit_for_neutral_reads (par défaut 0.90) : en théorie, les lectures neutres correspondent à beta = 1, mais le bruit expérimental abaisse cette valeur donc seuls les segments avec beta au-dessus de la limite sont utilisés pour calculer la ploïdie
    4. min_coverage (par défaut 20) : seuls les segments génomiques avec une couverture moyenne d'au moins min_coverage sont utilisés pour calculer le mélange d'ADN
    5. min_required_snps (10 par défaut) : seuls les segments génomiques couvrant au moins les SNP informatifs min_required_snps sont pris en compte pour le calcul du mélange d'ADN.

    La fonction renvoie la ploïdie de l'échantillon d'entrée.

    Ressources nécessaires

    Matériel

    Ordinateur 64 bits sous Linux avec ≥4 Go de RAM

    Logiciel

    La librairie a été testée avec R version 3.5.2 et les librairies R parallel 3.5.2, ggplot2 3.1.0, sets 1.0-18, arules 1.6-3, ggrepel 0.8.0.

    2. Calculez la table bêta comme décrit dans le protocole de base 1.

    3: CALCUL DU MÉLANGE D'ADN

    1. beta_table : une table créée à l'aide de la fonction décrite dans Basic Protocol 1
    2. ploidy_table : une table créée à l'aide de la fonction décrite dans Basic Protocol 2
    3. min_coverage (par défaut 20) : seuls les segments génomiques avec une couverture moyenne d'au moins min_coverage sont utilisés pour calculer le mélange d'ADN
    4. min_required_snps (10 par défaut) : seuls les segments génomiques couvrant au moins les SNP informatifs min_required_snps sont pris en compte pour le calcul du mélange d'ADN
    5. error_tb : le nombre de SNP informatifs et la couverture du segment considéré affectent la précision de l'estimation du bêta d'une génomique. La table error_tb rapporte, pour chaque combinaison de nombre de SNP informatifs et de couverture, l'erreur attendue autour de l'estimation bêta. CLONETv2 embarque un error_tb pré-calculé (détails dans Prandi et al., 2014 ) précédemment testé dans plusieurs études (Beltran et al., 2015 Beltran et al., 2016 Faltas et al., 2016 ). Cependant, des paramètres expérimentaux spécifiques, tels que le séquençage ciblé ultra-profond ou le séquençage passe-bas du génome entier, peuvent nécessiter une table error_tb ad hoc.

    La fonction renvoie le mélange d'ADN estimé pour l'échantillon d'entrée ainsi que les valeurs de mélange d'ADN minimum et maximum représentant les erreurs autour des estimations bêta.

    Ressources nécessaires

    Matériel

    Ordinateur 64 bits sous Linux avec ≥4 Go de RAM

    Logiciel

    La bibliothèque a été testée avec R version 3.5.2 et les bibliothèques R parallel 3.5.2, ggplot2 3.1.0, sets 1.0-18, arules 1.6-3 et ggrepel 0.8.0

    2. Calculez la table bêta comme décrit dans le protocole de base 1.

    3. Calculez la table de ploïdie comme décrit dans le protocole de base 2.

    2: VISUALISATION ET INTERPRÉTATION DE LA TABLE BÊTA, DE LA PLOIDY ET DU MÉLANGE D'ADN

    Le protocole de base 1 décrit comment dériver la valeur de bêta pour un segment génomique. Un échantillon de tumeur est ensuite décrit comme un ensemble de valeurs (bêta, logR) étendant l'espace logR habituel et permettant le calcul de la ploïdie et du mélange d'ADN dans les protocoles de base 2 et 3, respectivement. Pour aider à interpréter les résultats des protocoles de base 1 à 3, CLONETv2 fournit la fonction check_ploidy_and_admixture qui trace l'espace bêta-vs.-logR pour un échantillon donné. Les figures 4A et 4B montrent les valeurs de bêta par rapport au logR des mêmes échantillons présentés dans les figures 3A et B, respectivement. Pour chaque segment génomique, le graphique rapporte le logR ainsi que le bêta calculé par la fonction compute_beta_table . Pour aider l'utilisateur, la fonction prédit l'attendu (bêta, logR) compte tenu de la ploïdie d'entrée et du niveau de mélange d'ADN selon les équations décrites dans l'article CLONET (Prandi et al., 2014). Les valeurs prédites sont calculées pour différentes combinaisons de nombres de copies spécifiques aux allèles (voir Protocole de base 4) et représentées par des cercles rouges. La comparaison des valeurs attendues (cercles rouges) et observées (points gris) facilite l'interprétation des estimations. Par exemple, les segments avec logR proche de 0 sur la figure 3B ne peuvent pas être de type sauvage, car leurs bêtas sont 0,8, une valeur compatible avec la présence de trois copies d'ADN.

    Ressources nécessaires

    Matériel

    Ordinateur 64 bits sous Linux avec ≥4 Go de RAM

    Logiciel

    La bibliothèque a été testée avec R version 3.5.2 et les bibliothèques R parallel 3.5.2, ggplot2 3.1.0, sets 1.0-18, arules 1.6-3 et ggrepel 0.8.0

    2. Suivez les protocoles de base 1, 2 et 3 pour calculer le tableau bêta bt , le tableau de ploïdie pl et le tableau de mélange d'ADN adm , respectivement.

    check_plot est un objet ggplot (Wickham, 2009) qui peut être personnalisé par l'utilisateur (par exemple, pour la taille de la police, la couleur, la largeur de la ligne).

    4: CALCUL DU NUMÉRO DE COPIE SPÉCIFIQUE À L'ALLÈLE

    1. beta_table : une table créée à l'aide de la fonction bt décrite dans le protocole de base 1
    2. ploidy_table : une table créée à l'aide de la fonction pl décrite dans le protocole de base 2
    3. admixture_table : une table créée à l'aide de la fonction adm décrite dans le protocole de base 3
    4. error_tb : le même error_tb utilisé dans la fonction compute_dna_admixture du protocole de base 3, étape 4
    5. allelic_imbalance_th (par défaut 0.5) : la fonction compute_allele_specific_scna_table renvoie également les valeurs entières cnA.int et cnB.int pour cnA et cnB, respectivement. La valeur cnA.int est la valeur arrondie de cnA si | cnA.int - cnA | < allelic_imbalance_th sinon cnA.int n'est pas défini. cnB.int est défini de la même manière par rapport à cnB.

    1. log2.corr : valeur logR ajustée par la ploïdie et la pureté : c'est-à-dire la valeur logR que le segment aurait dans un échantillon de tumeur diploïde 100% pur
    2. cnA , cnB : nombre de copies de l'allèle majeur (cnA) et mineur (cnB) les valeurs ne contiennent pas d'informations sur la ploïdie et la pureté — en effet, cnA + cnB est égal à 2 × 2 log2.corr
    3. cnA.int , cnB.int : nombre entier de copies des allèles majeurs et mineurs, respectivement.

    Ressources nécessaires

    Matériel

    Ordinateur 64 bits sous Linux avec ≥4 Go de RAM

    Logiciel

    La bibliothèque a été testée avec R version 3.5.2 et les bibliothèques R parallel 3.5.2, ggplot2 3.1.0, sets 1.0-18, arules 1.6-3 et ggrepel 0.8.0

    2. Suivez les protocoles de base 1, 2 et 3 pour calculer le tableau bêta bt , le tableau de ploïdie pl et le tableau de mélange d'ADN adm , respectivement.

    5 : CALCUL DE LA CLONALITE DU NUMERO DE COPIE SOMATIQUE

    1. beta_table : une table créée à l'aide de la fonction décrite dans Basic Protocol 1
    2. ploidy_table : une table créée à l'aide de la fonction décrite dans Basic Protocol 2
    3. admixture_table : une table créée à l'aide de la fonction décrite dans le protocole de base 3
    4. error_tb : le même error_tb utilisé dans la fonction compute_dna_admixture du protocole de base 3, l'erreur autour de la bêta est propagée à l'estimation de clonalité et utilisée dans sa discrétisation
    5. clonalité_seuil (par défaut = 0,85) : la fonction compute_scna_clonalité_table renvoie la clonalité minimale et maximale pour les segments génomiques d'entrée clonalité_seuil est utilisé pour discrétiser la clonalité comme décrit par Prandi et al. (2014)
    6. beta_threshold (par défaut = 0.9) : les valeurs bêta d'entrée inférieures à beta_theshold sont marquées comme potentiellement aberrantes et utilisées pour les estimations de clonalité.

    1. clonalité : valeur réelle représentant le pourcentage estimé de cellules tumorales avec un nombre de copies uniforme pour un segment génomique donné
    2. clonalité.min , clonalité.max : valeurs réelles représentant la clonalité estimée minimale et maximale compte tenu de la distribution des valeurs bêta et logR
    3. cloality.status : clonalité discrétisée.

    Ressources nécessaires

    Matériel

    Ordinateur 64 bits sous Linux avec ≥4 Go de RAM

    Logiciel

    La bibliothèque a été testée avec R version 3.5.2 et les bibliothèques R parallel 3.5.2, ggplot2 3.1.0, sets 1.0-18, arules 1.6-3 et ggrepel 0.8.0

    2. Suivez les protocoles de base 1, 2 et 3 pour calculer le tableau bêta bt , le tableau de ploïdie pl et le tableau de mélange d'ADN adm , respectivement.

    6 : CALCUL DE LA CLONALITE VARIANTE A UN SEUL NUCLEOTIDE

    1. snv_read_count : un tableau rapportant dans chaque ligne les coordonnées génomiques d'un SNV ainsi que les numéros de lectures de référence et alternatives couvrant la position mutée
    2. beta_table : une table créée à l'aide de la fonction décrite dans Basic Protocol 1
    3. ploidy_table : une table créée à l'aide de la fonction décrite dans Basic Protocol 2
    4. admixture_table : une table créée à l'aide de la fonction décrite dans le protocole de base 3
    5. error_tb : la même erreur error_tb utilisée dans la fonction compute_dna_admixture du protocole de base 3, l'erreur autour de la version bêta est propagée pour évaluer la limite d'estimation de clonalité et est à son tour utilisée pour sa discrétisation
    6. error_rate (par défaut = 0,05) : fraction de SNV à exclure en fonction de la distribution VAF ajustée.

    1. cnA, cnB : nombres de copies spécifiques à l'allèle du segment génomique contenant le SNV
    2. t_af_corr : VAF tumoral ajusté pour la ploïdie, le mélange et le nombre de copies spécifiques à l'allèle
    3. SNV.clonalité : pourcentage de cellules tumorales hébergeant le SNV
    4. SNV.clonalité.status : SNV.clonalité.discrétisée .

    Ressources nécessaires

    Matériel

    Ordinateur 64 bits sous Linux avec ≥4 Go de RAM

    Logiciel

    La bibliothèque a été testée avec R version 3.5.2 et les bibliothèques R parallel 3.5.2, ggplot2 3.1.0, sets 1.0-18, arules 1.6-3 et ggrepel 0.8.0

    2. Suivez les protocoles de base 1, 2 et 3 pour calculer le tableau bêta bt , le tableau de ploïdie pl et le tableau de mélange d'ADN adm , respectivement.

    • > read.table(system.file("sample_snv_read_count.tsv", package = "CLONETv2"),header = T, as.is=T, comment.char = "", check.names = F, na.strings = " -")

    Perte fœtale

    34.3.2 Schéma des anomalies chromosomiques observées dans les grossesses avortées

    La grande majorité des anomalies chromosomiques observées chez les fœtus avortés évaluées par bandes G sont numériques, y compris les trisomies autosomiques, la polyploïdie, la monosomie des chromosomes sexuels et les doubles trisomies (26) . Une étude de 2009, combinant G-banding avec MLPA et aCGH (27) sur 115 fausses couches du premier trimestre, en ont trouvé 69 (60 %) anormales sur le plan chromosomique. Parmi ceux-ci, 69 % avaient une trisomie autosomique (dont 2 % avec double trisomie), 12 % étaient polyploïdes (principalement triploïdie) et 10 % avaient une monosomie des chromosomes sexuels (45,X), avec seulement 1 % présentant des anomalies structurelles et le reste présentant des erreurs n'impliquant pas des chromosomes entiers, telles que des duplications ou des délétions. Des résultats similaires ont été rapportés en combinant l'analyse du caryotype avec le réflexe FISH (28) , qui a observé 61 % de trisomie, 15 % de polyploïdie (principalement triploïdie), 14 % de monosomie des chromosomes sexuels et 7 % d'anomalies structurelles. Il n'est pas surprenant que les anomalies les plus fréquemment observées soient les trisomies autosomiques, comme cela a été reconnu dès 1984 par Hassold et Chiu (5) que le risque de fausse couche et l'incidence de la trisomie résultant d'une non-disjonction maternelle augmentent avec l'âge de la mère et sont donc susceptibles de se produire simultanément. Nos propres données (non publiées) montrent que les anomalies chromosomiques les plus fréquentes dans les pertes fœtales vraisemblablement sporadiques sont la triploïdie, la monosomie des chromosomes sexuels et les trisomies (21, 22, 15, 18, 13 et 16 par ordre décroissant (Figure 34-1)). Un schéma légèrement différent a été observé chez les femmes ayant des antécédents de fausse couche, les anomalies les plus fréquentes étant la triploïdie et les trisomies 22, 16, 15 et 21. Fait intéressant, le schéma associé à la perte sporadique est similaire à celui dû à la méiotique. les erreurs (9) , tandis que le modèle observé chez les femmes présentant une perte récurrente a été associé à des erreurs mitotiques observées dans les embryons de FIV en mosaïque.La rareté relative de la monosomie des chromosomes sexuels parmi les pertes récurrentes pourrait être liée à l'âge légèrement avancé (37,3 contre 36,2 ans) dans ce groupe, car la monosomie des chromosomes sexuels est le plus souvent due à la non-disjonction chez les hommes, et ne serait donc pas nécessairement liée à âge maternel. Les doubles trisomies, qui, sauf dans de très rares cas impliquant la présence d'un chromosome sexuel supplémentaire, ne sont pas viables, ne sont pas rares dans les échantillons d'avortement, représentant environ 1 à 2 % de ces cas (29) . Ils sont presque toujours le résultat d'une non-disjonction maternelle (30) et sont également associés à un âge maternel plus avancé. Il convient de noter que bien que les études sur les embryons préimplantatoires (voir plus haut) rapportent souvent une monosomie autosomique, culminant au stade de huit cellules environ, de tels caryotypes sont inviables et aucune monosomie autosomique n'a été rapportée dans les spécimens d'avortement.

    FIGURE 34-1. Fréquence relative des anomalies chromosomiques observées dans les POC cytogénétiquement anormaux chez les femmes ayant signalé des antécédents de fausses couches à répétition par rapport à celles ayant signalé des fausses couches sporadiques. L'âge moyen de la mère était de 37,3 ans dans le groupe récurrent et de 36,2 ans dans le groupe sporadique. Nombre de chromosomes impliqués présentés sur l'axe X avec 23 = double trisomie, 24 = monosomie X, 25 = triploïdie, 26 = tétraploïdie. Les anomalies considérées comme viables (trisomie 13, 18 et 21 et monosomie X) sont toutes plus fréquentes dans le groupe des pertes sporadiques, les trisomies 15, 16 et 22 étant plus fréquentes chez les pertes récurrentes.


    Données d'abonné

    Pour chaque condition de segmentation que nous montrons ici, vous trouverez une brève description de ce qu'elle contrôle et un tableau qui affiche toutes les options dans les menus déroulants. Dans la plupart des cas, il n'y a que trois choix à faire, mais pour certains types de conditions, un quatrième menu déroulant apparaîtra.

    Dans presque tous les cas, vous ne verrez pas toutes les options qui apparaissent sur cette page dans le menu déroulant de votre compte. Les menus déroulants qui apparaissent dans votre compte sont limités aux données disponibles dans l'audience avec laquelle vous travaillez.

    Activité d'automatisation

    Les données du rapport d'automatisation sont disponibles dans les options de segmentation, vous pouvez donc extraire des segments d'abonnés selon qu'ils ont commencé ou terminé une certaine automatisation d'e-mails.

    Activité de campagne

    Créez des segments en fonction de la façon dont les abonnés ont interagi avec vos campagnes par e-mail. Par exemple, utilisez une combinaison de critères de segmentation pour cibler les abonnés qui ont reçu des campagnes récentes mais ne les ont pas ouvertes.

    • L'une/l'ensemble des 5 dernières campagnes

    Voici quelques exemples de fonctionnement des segments d'activité de campagne.

    • Activité de campagne | a été envoyé | Toutes les 5 dernières campagnes
      Abonnés ayant reçu les cinq dernières campagnes par e-mail
    • Activité de campagne | n'a pas été envoyé | Toutes les 5 dernières campagnes
      Abonnés qui n'ont reçu aucune des cinq dernières campagnes d'e-mails
    • Activité de campagne | n'a pas été envoyé | N'importe laquelle des 5 dernières campagnes
      Abonnés qui n'ont pas reçu une ou plusieurs des cinq dernières campagnes d'e-mails
    • Activité de campagne | a été envoyé | N'importe laquelle des 5 dernières campagnes
      Abonnés ayant reçu une ou plusieurs des cinq dernières campagnes d'e-mails
    • Activité de campagne | n'a pas ouvert | N'importe laquelle des 5 dernières campagnes
      Abonnés qui n'ont pas ouvert une ou plusieurs des cinq dernières campagnes d'e-mails
    • Activité de campagne | n'a pas ouvert | Toutes les 5 dernières campagnes
      Abonnés qui n'ont ouvert aucune des cinq dernières campagnes d'e-mails
    • Activité de campagne | ouvert | N'importe laquelle des 5 dernières campagnes
      Abonnés ayant ouvert une ou plusieurs des cinq dernières campagnes d'e-mails
    • Activité de campagne | ouvert | Toutes les 5 dernières campagnes
      Abonnés qui ont ouvert les cinq dernières campagnes d'e-mails

    Noter: Soyez prudent lors de l'envoi à des segments d'activité basés sur des campagnes planifiées, rédigées ou suspendues. Le nombre total de destinataires de votre segment ne sera pas finalisé avant l'envoi de votre campagne.

    Activité carte postale

    Utilisez la condition Activité de carte postale pour segmenter vos contacts selon qu'ils ont reçu ou non une campagne de cartes postales. Les segments d'activité des cartes postales n'incluent pas les personnes ayant reçu une carte postale avec notre outil de recherche d'audience similaire, car cet outil n'ajoute pas de contacts à votre audience.

    • n'a pas été envoyé de carte postale spécifique

    Évaluation de contact

    Utilisez la condition Contact Rating pour créer un segment de vos abonnés les plus ou les moins engagés.

    Activité de conversation

    La fonction Conversations de Mailchimp suit les réponses par e-mail de vos abonnés. Utilisez cette condition pour segmenter les abonnés qui ont répondu aux campagnes par e-mail. Les campagnes envoyées et les campagnes brouillons sont disponibles. Toutes les campagnes récentes extrait les données des 500 campagnes les plus récentes envoyées à votre audience.

    • N'importe laquelle des 5 dernières campagnes

    Date ajoutée

    Utilisez la condition Date d'ajout pour créer un segment en fonction de la date à laquelle un abonné s'inscrit ou est importé dans votre audience. L'opérateur Date d'ajout convertit automatiquement l'heure d'inscription de chaque contact en temps universel coordonné (UTC), de sorte que les segments de date d'ajout peuvent parfois sembler renvoyer des résultats en dehors de la période choisie.

    • une campagne spécifique a été envoyée

    * Pour les opérateurs intra, saisissez une valeur entière pour le paramètre « dernier nombre de jours ». Notez que chaque jour est de 24 heures, décompté à partir du moment où vous créez le segment. Par exemple, si vous choisissez est à l'intérieur, et saisissez 3 jours, nous trouverons les abonnés qui ont rejoint votre audience au cours des 72 dernières heures.

    Client de messagerie

    Si vous avez des conceptions de campagne différentes pour les personnes qui utilisent différentes applications de messagerie, vous pouvez segmenter en fonction du client de messagerie. Un seul client peut être sélectionné par condition, mais jusqu'à cinq conditions peuvent être sélectionnées pour n'importe quel segment.


    Résultats

    VCF2CNA peut être exécuté via une simple interface Web (Fig. 1A) ou en tant qu'outil en ligne de commande. Pour l'interface Web, la seule entrée est un fichier VCF (ou un fichier dans l'un des autres formats de fichier de variantes pris en charge) à partir d'une analyse WGS ou WXS tumeur-normale appariée, qui est téléchargé via l'interface vers un serveur Web où l'application s'exécute. Les résultats sont renvoyés à une adresse e-mail fournie par l'utilisateur. Pour l'outil de ligne de commande, le pipeline est exécuté en appelant une seule commande d'exécution. VCF2CNA se compose de deux modules principaux : (1) la récupération et le traitement des informations SNP à partir des données d'entrée et (2) la segmentation récursive basée sur le partitionnement à l'aide du nombre d'allèles SNP (Fig. 1B). Le temps d'exécution réel pour un échantillon WGS typique est d'environ 30 à 60 minutes, selon la complexité du génome.

    Présentation du processus VCF2CNA. (UNE) Interface utilisateur avec paramètres. (B) Pipeline côté serveur. Un parallélogramme représente les fichiers d'entrée ou de sortie, un rectangle représente un processus analytique et un losange représente la condition d'un processus de suivi.

    Pour évaluer l'utilité de VCF2CNA, nous l'avons exécuté sur 192 ensembles de données WGS tumorales normales et 15 ensembles de données WXS tumorales normales. Ces séquences comprenaient 46 glioblastomes adultes WGS (GBM) de l'ensemble de données The Cancer Genome Atlas (TCGA-GBM) 10 , séquencés par la technologie Illumina, et 146 neuroblastomes pédiatriques WGS (NBL) de Therapeutically Applicable Research to Generate Effective Treatments (TARGET-NBL) jeu de données 11 , séquencé par la technologie Complete Genomics, Inc. (CGI). En moyenne, VCF2CNA a utilisé environ 2,8 millions de SNP de haute qualité par échantillon (plage médiane de 2 811 245, 2 029 467 à 3 519 454 dans les données TARGET-NBL) pour dériver les profils CNA. Nous avons en outre évalué la cohérence entre WGS et WXS en utilisant 15 échantillons de rhabdomyosarcome qui ont été séquencés sur les deux plates-formes 12 et estimé la pureté tumorale dans ces échantillons.

    Analyse CNA des données TCGA-GBM

    Les données TCGA-GBM pour adultes téléchargées à partir de dbGaP (numéro d'accès : phs000178.v8.p7) comprenaient 46 échantillons. Nous avons d'abord évalué la résistance de VCF2CNA aux artefacts de construction de bibliothèques en utilisant 24 échantillons de cet ensemble, qui ont été précédemment identifiés comme ayant un modèle de génome fracturé par CONSERTING et d'autres algorithmes CNA 7 . En effet, VCF2CNA a produit des profils CNA qui sont globalement cohérents avec ceux des profils CNA dérivés des matrices SNP (téléchargés à partir de TCGA, Supplementary File s1) et plus robustes au bruit que ceux produits par CONSERTING. Plus précisément, VCF2CNA a entraîné une réduction moyenne de 59,4 fois du nombre de segments prédits par rapport à CONSERTING (médiane, plage de 46,2 : 16,2 à 285,7 p = 3,0 × 10 -6 par le test de rang signé de Wilcoxon, figure 2A et fichier supplémentaire s1).

    Un tracé Circos qui affiche les CNA trouvés par CONSERTING (anneau extérieur), VCF2CNA (anneau du milieu) et le tableau SNP (anneau intérieur) pour (UNE) Échantillon fracturé TCGA-GBM 41-5651-01A et (B) TCGA-GBM échantillon non fracturé 06-0125-01A. Des chromosomes gris et noirs alternés sont utilisés pour le contraste. Les régions jaunes représentent les lacunes de séquençage, tandis que les régions rouges représentent l'emplacement du centromère. Les segments bleus représentent la perte du nombre de copies et les segments rouges indiquent le gain du nombre de copies. La légende représente la plage CNA pour chaque piste.

    Nous avons utilisé un F1 notation métrique 13 pour mesurer la cohérence entre les profils CNA dérivés de VCF2CNA et CONSERTING dans les 22 paires d'échantillons de haute qualité restantes (Fig. 2B et fichier supplémentaire s2). Ces programmes ont identifié environ 700 Mb des régions CNA dans chaque échantillon (plage, 92-2299 Mb) avec une cohérence élevée (moyenne F1 score, plage de 0,9941, 0,9699 à 0,9995) (tableau 1).

    Nous avons évalué le chevauchement segmentaire entre les sorties CONSERTING et les sorties VCF2CNA pour chaque échantillon. Un segment CNA détecté par CONSERTING était classé comme corroboré si 90 % des bases du segment recevaient le même type d'appel CNA du VCF2CNA (tableau 2). La comparaison montre que VCF2CNA récapitulait fidèlement les segments CNA moyens à grands (≥100 kb), tandis que CONSERTING avait une plus grande puissance pour identifier les CNA focaux (<100 kb) de faible amplitude (changement de rapport log2 absolu <1.0) (p = 1,306 × 10 −5 par le test des rangs signés de Wilcoxon). De plus, l'analyse segmentaire a révélé que la puissance de détection était moins affectée dans les CNA focaux avec de grandes amplitudes (rapport log2 3,0) (Fig. 3).

    Tracé de violon stratifié par taille de segment et intensité de CNA pour les 22 échantillons non fracturés de TCGA-GBM. Le diamant d'or représente la fraction moyenne des segments correspondants entre VCF2CNA et CONSERTING.

    Pour tester davantage si VCF2CNA capture avec précision les modèles CNA dans les échantillons avec des artefacts de bibliothèque, nous avons appliqué l'algorithme cghMCR 14 . Ce package dans R Bioconductor fournit des fonctions pour identifier les régions génomiques d'intérêt sur la base des données de nombre de copies segmentées provenant de plusieurs échantillons. Nous avons utilisé cette fonctionnalité pour décrire ces gains et pertes communs sur les 46 échantillons des profils VCF2CNA ou des profils CNA dérivés de la matrice SNP (téléchargés à partir de TCGA). Les résultats sont quantifiés par un score de gain ou de perte de segment (SGOL). Bien que le signal de VCF2CNA contenait moins de bruit que le signal de la matrice SNP dans la plupart des échantillons (Fichier supplémentaire s1), les deux profils révèlent des régions communes amplifiées et/ou perdues de manière récurrente (Fig. 4). Ces changements comprenaient des changements au niveau des chromosomes (c.-à-d. des amplifications de chr7 et une perte de chr10) et des CNA segmentaires (c. CDKN2A/B lieu sur chr9p) 15 . De plus, VCF2CNA a identifié des pertes récurrentes dans ERBB4 sur chr2q et GRIK2 sur chr6q qui étaient absents des profils de matrice SNP. ERBB4 code pour une kinase réceptrice transmembranaire essentielle au développement neuronal 16 . Il est fréquemment muté chez les patients atteints d'un cancer du poumon non à petites cellules 17 , et le silence de ERBB4 par hyperméthylation de l'ADN est associée à un mauvais pronostic dans les tumeurs primitives du sein 18 . De la même manière, GRIK2 est un gène suppresseur de tumeur candidat qui est fréquemment supprimé dans la leucémie lymphoïde aiguë 19 et réduit au silence par l'hyperméthylation de l'ADN dans le cancer gastrique 20 .

    Un tracé chgMCR de 46 échantillons TCGA-GBM. (UNE) les données du tableau SNP et (B) Les données VCF2CNA sont affichées.

    Les amplifications telles que les chromosomes double minute et les régions de coloration homogène représentent un mécanisme courant de surexpression d'oncogènes dans les tumeurs 21 . Parmi les 46 échantillons TCGA-GBM analysés, le VCF2CNA a identifié des chromosomes double minute dans 34 échantillons affectant le EGFR 22 , MDM2 23 , MDM4 24 , PDGFRA 25 , HGF 26 , GLI1 27 , CDK4 28 et CDK6 29 gènes (Fig. 5 et fichier supplémentaire s3). Ces événements consistaient en des amplifications de haut niveau dans 21 échantillons avec des modèles de génome potentiellement fracturés (Fichier supplémentaire s3a) et 13 échantillons précédemment rapportés (Fichier supplémentaire s3b) 7,30.

    Un tracé Circos de VCF2CNA (anneau extérieur) et CONSERTING (anneau intérieur), représentant des segments CNA focaux de haute amplitude dans l'échantillon TCGA-GBM 06-0152-01A. Inclus dans ces segments sont les gènes du cancer connus EGFR, CDK4, et MDM2. La plage CNA est spécifiée pour chaque échantillon.

    Analyse CNA des données TARGET-NBL

    Nous avons appliqué VCF2CNA à l'ensemble de données TARGET-NBL 11 téléchargé depuis dbGap (numéro d'enregistrement : phs000467). Cet ensemble de données se compose de 146 tumeurs avec des échantillons WGS normaux appariés, séquencés avec la technologie CGI. Étant donné que la technologie CGI basée sur la ligature présente des différences notables dans la détection des variants nucléotidiques simples (SNV) et des insertions/suppressions (indels) par rapport aux systèmes Illumina 31 , cet ensemble de données a permis d'évaluer la robustesse de VCF2CNA à l'aide de différentes plates-formes de séquençage.

    Nous avons utilisé VCF2CNA pour effectuer une analyse cghMCR avec des profils CNA et observé un modèle de génome similaire à celui rapporté pour les plates-formes de réseau SNP (Fig. 6A) 32 . En plus de la perte de grandes régions sur chr1p, 3p et 11q et un large gain de chr17q, VCF2CNA a trouvé des amplifications focales fréquentes de MYCN dans les tumeurs NBL et plusieurs CNA potentiels liés au cancer, y compris des amplifications de haut niveau de CDK4 (1 tumeur), et ALK (2 tumeurs) (Fig. 6B).

    Analyse de l'ensemble de données TARGET-NBL, composé de 146 tumeurs. (UNE) Un tracé chgMCR dans lequel le vert représente les régions de gain de nombre de copies et le rouge représente les régions de perte de nombre de copies. (B) Un tracé de Circos montrant un gain focal sur le chromosome 2 pour MYCN et ALK5 pour l'échantillon PARETE-01A-01D. La plage CNA est spécifiée.

    Amplification de haut niveau de MYCN est un conducteur oncogène connu trouvé dans

    25% des patients pédiatriques atteints de NBL, et est associé à des tumeurs agressives et de mauvais pronostic 33 . Un sous-ensemble de 32 tumeurs de la cohorte TARGET-NBL contient des amplifications cliniquement validées de MYCN. Bien que le modèle Markov CNA caché de CGI (non publié) ait rapporté MYCN amplifications dans 15 de ces 32 tumeurs, VCF2CNA a identifié avec succès des amplifications de haut niveau dans 31 tumeurs. Dans le cas cliniquement validé MYCN-échantillon amplifié qui n'a pas été détecté par VCF2CNA, un examen de suivi a révélé que l'hétérogénéité tumorale et le biais d'échantillonnage ont très probablement contribué à l'écart. De plus, VCF2CNA a prédit deux autres MYCN des événements d'amplification parmi les échantillons de tumeurs restants, indiquant que VCF2CNA peut identifier les CNA cliniquement pertinents qui n'ont pas été détectés par les méthodes traditionnelles de détection des CNA. La concordance de haut niveau avec les données validées cliniquement fournit une forte indication que VCF2CNA est applicable à plusieurs types de tumeurs collectées à partir de différentes plates-formes de séquençage.

    Analyse de l'AIIC des données de rhabdomyosarcome pour comparer WXS et WGS

    Bien que WGS fournisse des mesures de couverture impartiales à travers le génome, le séquençage de l'exome entier (WXS) offre une caractérisation des régions codantes du génome (2% du génome) à une profondeur beaucoup plus élevée, ce qui constitue une alternative pratique et peu coûteuse au WGS et a été largement adopté dans les projets de profilage du génome à grande échelle et dans les milieux cliniques. En raison de différences de conception majeures entre les deux plates-formes, nous avons évalué la cohérence de la détection d'altération du nombre de copies entre le séquençage de l'exome entier et du génome entier, en utilisant un ensemble d'échantillons de rhabdomyosarcome qui ont été séquencés sur les deux plates-formes 12 . Nous avons observé des profils CNA très cohérents entre les plates-formes WGS et WXS (score moyen F1 de 0,97 sur un ensemble de 15 échantillons de xénographes de rhabdomyosarcome). Alors que les changements focaux sont plus susceptibles d'être manqués dans la plate-forme WXS par rapport à la plate-forme WGS, VCF2CNA détecte de manière fiable les grands CNA des plates-formes WGS et WXS (Fig. 7, Fichier supplémentaire s5).

    CNA somatiques calculés à l'aide de VCF2CNA pour un échantillon de xénographe de rhabdomyosarcome apparié d'exome entier et de génome entier SJRHB000026_X1_G1.

    Estimation de la pureté basée sur le CNA

    En utilisant le résultat du nombre de copies absolu pour chaque segment identifié par VCF2CNA, et les fréquences des allèles B (FBA) calculées à partir du fichier VCF apparié à la tumeur normale, nous avons développé un algorithme pour estimer la pureté de la tumeur à l'aide de segments avec un seul gain ou perte de nombre de copies dans VCF2CNA. En bref, pour les polymorphismes nucléotidiques hétérogènes de la lignée germinale (SNP, base BAF de 0,5), l'étendue de la perte d'hétérozygotie (LOH) peut être mesurée par la différence absolue entre la fraction d'allèle B dans la tumeur et celle dans l'échantillon de la lignée germinale. La LOH est le résultat d'une altération du nombre de copies et/ou d'une copie neutre de LOH dans les cellules tumorales. Nous avons utilisé des signaux LOH dans des régions de gain/perte neutres ou à copie unique (entre la perte de chromosomes à copie unique et le gain de chromosomes à copie unique) pour estimer la pureté de la tumeur.

    À l'aide d'estimations de pureté de diverses régions du génome, nous avons effectué une analyse de clustering non supervisée à l'aide du package mclust (version 5.4) dans R (version 3.4.0). La pureté tumorale de l'échantillon a été définie comme la valeur de centre de cluster la plus élevée parmi tous les clusters. Nous avons estimé la pureté de la tumeur pour 15 échantillons de rhabdomyosarcome WGS xénographes normaux appariés. (Tableau 3). Tous les cas sauf un avaient une prédiction de pureté tumorale proche de 100 %, ce qui correspond à l'idée que les lectures les plus dérivées de la souris ne seront pas mappées sur l'assemblage du génome humain 34,35. L'échantillon SJRHB010468_X1_G1 a montré des CNA sous-clonaux étendus sur plusieurs chromosomes (Fichier supplémentaire s5). Alors que les CNA sous-clonaux n'indiquent pas une faible pureté, les segments de nombre de copies sous-clonales étendus entraînent une estimation incorrecte de la pureté tumorale (0,533), ce qui constitue une limitation de l'algorithme. Le graphique de densité de la fraction allèle mutante (MAF) pour les variations somatiques d'un seul nucléotide (SNV) détectées dans les régions diploïdes, a révélé un sous-clone dans 50 % des cellules tumorales, qui abrite plus de 75 % des SNV détectés (Fichier supplémentaire s6).


    Afficher et modifier la requête brute

    Le concepteur de segment fournit une interface graphique pour créer la logique d'un segment dynamique. Lorsque vous travaillez avec les paramètres, vous créez en fait une requête textuelle en arrière-plan. Il s'agit de la requête que le système exécutera réellement sur votre base de données. En général, vous n'avez pas besoin d'utiliser la requête pour quoi que ce soit, mais cela peut parfois aider au dépannage. Vous pouvez également copier/coller des requêtes dans le concepteur, que vous pouvez utiliser pour créer une copie d'un segment existant ou pour partager une conception de requête par courrier électronique.

    Pour rechercher, afficher et modifier la requête, faites défiler jusqu'en bas de la page et ouvrez le Vue requête onglet ici.


    Voir la vidéo: Introduction aux Qu-est-ce quun SIG (Janvier 2022).