Informations

Quel est le meilleur test pour le clustering SNV ?

Quel est le meilleur test pour le clustering SNV ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je recherche une méthode pour regrouper des polymorphismes nucléotidiques uniques basée sur des données clinicopathologiques (principalement l'immuno-istochimie des récepteurs). Jusqu'à présent, je n'en ai trouvé que deux qui gèrent des variables factices tant que je souhaite examiner la présence ou l'absence d'allèles mineurs;

  • Analyse des composants principaux
  • A priori (règles d'association)

Connaissez-vous des articles soutenant les méthodes mentionnées ci-dessus, ou suggérez-vous peut-être une alternative ?


Analyse des variations génomiques et transcriptomiques comme signature pronostique de l'adénocarcinome pulmonaire

Fond: Le cancer du poumon est la principale cause du plus grand nombre de décès dans le monde et l'adénocarcinome pulmonaire est la forme la plus courante de cancer du poumon. Afin de comprendre la base moléculaire de l'adénocarcinome pulmonaire, des analyses intégratives ont été réalisées en utilisant la génomique, la transcriptomique, l'épigénomique, la protéomique et les données cliniques. En outre, des signatures pronostiques moléculaires ont été générées pour l'adénocarcinome pulmonaire en utilisant les niveaux d'expression génique dans des échantillons de tumeur. Cependant, nous avons besoin de signatures comprenant différents types de données moléculaires, voire des biomarqueurs de cohorte ou de patients qui sont les candidats du ciblage moléculaire.

Résultats: Nous avons construit un pipeline R pour effectuer une méta-analyse intégrée des altérations génomiques, y compris les variations d'un seul nucléotide et les variations du nombre de copies, les variations transcriptomiques par RNA-seq et les données cliniques des patients atteints d'adénocarcinome pulmonaire dans le projet The Cancer Genome Atlas. Nous avons intégré des gènes importants, notamment des variations d'un seul nucléotide ou des variations du nombre de copies, des gènes exprimés de manière différentielle et ceux des sous-réseaux actifs pour construire une signature pronostique. Le modèle de risques proportionnels de Cox avec pénalité Lasso et LOOCV a été utilisé pour identifier la meilleure signature génétique parmi différentes catégories de gènes. Nous avons déterminé une signature de 12 gènes (BCHE, CCNA1, CYP24A1, DEPTOR, MASP2, MGLL, MYO1A, PODXL2, RAPGEF3, SGK2, TNNI2, ZBTB16) pour la prédiction du risque pronostique basée sur la durée de survie globale des patients atteints d'adénocarcinome pulmonaire. Les patients des données d'entraînement et de test ont été regroupés en groupes à haut risque et à faible risque en utilisant les scores de risque des patients calculés sur la base de la signature génétique sélectionnée. La probabilité de survie globale de ces groupes à risque était très significativement différente pour les ensembles de données d'entraînement et de test.

Conclusion : Cette signature de 12 gènes pourrait prédire le risque pronostique des patients atteints d'adénocarcinome pulmonaire dans la TCGA et ils sont des prédicteurs potentiels du regroupement de risques basé sur la survie des patients atteints d'adénocarcinome pulmonaire. Ces gènes peuvent être utilisés pour regrouper les patients en fonction de leur nature moléculaire et les meilleurs candidats de médicaments pour les groupes de patients peuvent être proposés. Ces gènes ont également un potentiel élevé pour le traitement ciblé du cancer des patients atteints d'adénocarcinome pulmonaire.

Mots clés: Sous-réseau actif CNV Régression des risques proportionnels de Cox Expression différentielle Adénocarcinome pulmonaire Cancer du poumon SNV Signature Survival TCGA.


Que sont les TNC, MNC, CD34+ et CFU, et pourquoi devrais-je m'en soucier ?

Ce sont toutes des façons de compter les types de cellules, et elles vous indiquent si votre collection de sang de cordon contient beaucoup de cellules souches et si elles sont en bonne santé.

Les cellules souches sont Cellules mononucléaires ou MNC: quand vous les regardez au microscope, il n'y a qu'un seul noyau. Malheureusement, l'un des aspects les plus difficiles de la biologie des cellules souches est que vous ne pouvez pas identifier une cellule souche simplement en la regardant. Il existe d'autres types de cellules sanguines qui sont également des MNC, comme les globules rouges nucléés. La seule preuve qu'une cellule est une cellule souche vient de la façon dont elle se comporte lorsqu'elle se multiplie.

Les scientifiques ont travaillé pendant des années pour développer divers colorants chimiques qui ont une grande affinité pour les cellules souches. Le marqueur le plus connu des cellules souches hématopoïétiques est qu'elles sont positives au CD34, une protéine présente à la surface des cellules souches. Mais, CD34+ compte ne sont pas une mesure précise des cellules souches : les résultats de CD34+ varient d'un laboratoire à l'autre, ils peuvent varier au sein d'un même laboratoire, et seulement 1 à 2 % des MNC qui ont CD34+ sont en fait des cellules souches.

Les Nombre total de cellules nucléées ou TNC est le test le plus souvent rapporté comme mesure du nombre de cellules après le traitement du sang de cordon. Le principal avantage de la mesure du TNC est que le comptage est hautement reproductible au sein et entre les laboratoires, de sorte qu'il peut être utilisé avec précision dans toute la communauté des banques de sang. Mieux encore, le comptage TNC peut être automatisé à l'aide d'un appareil appelé cytomètre en flux.

Maintenant Unités formant colonie ou UFC sont considérées comme la meilleure mesure pour savoir si les cellules souches sont « viables » ou franchement vivantes. Le nombre de TNC comprend à la fois les cellules vivantes et mortes. Dans le test CFU, une petite partie est surveillée dans des conditions contrôlées pour voir si les cellules souches se divisent et forment des colonies. C'était une mesure subjective, mais récemment, elle a été normalisée avec la technologie pour imager les cellules et compter les colonies dans l'image. Le seul problème restant avec le test est qu'il faut des jours pour que les colonies se développent.


Résumé

Diversité fonctionnelle de l'antigène leucocytaire humain hautement polymorphe de classe I (HLA-I) sous-tend le contrôle immunologique réussi des maladies infectieuses et du cancer. L'hypothèse de l'avantage allélique divergent dicte qu'un HLA-I génotype avec deux allèles avec des séquences plus divergentes permet la présentation d'immunopeptidomes plus diversifiés 1𠄳 . Cependant, l'effet de la divergence de séquence entre HLA-I allèles—une mesure quantifiable de HLA-L'évolution de l'efficacité du traitement par inhibiteur de point de contrôle immunitaire (ICI) pour le cancer reste inconnue. Dans la présente étude, la divergence évolutive (HED) de la lignée germinale HLA-I des patients atteints d'un cancer traités avec des ICI a été déterminée en quantifiant la divergence de séquence physicochimique entre HLA-I allèles du génotype de chaque patient. HED était un déterminant important de la survie après un traitement avec des ICI. Même chez les patients totalement hétérozygotes à HLA-I, les patients avec un HED dans le quartile supérieur répondent mieux aux ICI que les patients avec un HED bas. De plus, HED a un impact important sur la diversité des dons tumoraux, viraux et auto-immunopeptidomes et des récepteurs intratumoraux des cellules T. Semblable à la charge de mutation tumorale, HED est une mesure fondamentale de la diversité au niveau du complexe majeur d'histocompatibilité-peptide, qui dicte l'efficacité de l'ICI. La liaison de données divergente HLA avantage allèle à l'efficacité de l'immunothérapie et dévoiler comment la réponse ICI repose sur l'efficacité évoluée de HLA-immunité médiatisée.

Les immunothérapies anti-PD-1, anti-PD-L1 et anti-CTLA-4 ont révolutionné le traitement des cancers à un stade avancé, mais seule une minorité de patients y répondent. Un déterminant essentiel de la réponse ICI est la charge mutationnelle tumorale (TMB), un indicateur du nombre de néo-antigènes dérivés de tumeurs qui peuvent être présentés à la surface cellulaire par les molécules du complexe majeur d'histocompatibilité (CMH) et ensuite reconnus par les cellules T cytotoxiques 4𠄹 . Un autre facteur génétique qui détermine la réponse ICI est l'hétérozygotie au niveau hautement polymorphe. HLA-I loci 10 . Selon l'avantage hétérozygote, initialement observé dans les études sur les maladies infectieuses, les hétérozygotes HLA-Les génotypes I facilitent la présentation d'un ensemble plus diversifié d'antigènes tumoraux aux cellules T 10�.

Chaque individu’s HLA-Le génotype I consiste en une paire d'allèles à chacun des gènes classiques de classe I—HLA-A, -B et -C𠅎t leur polymorphisme est concentré dans leurs domaines de liaison aux peptides 16,17. L'ensemble de peptides liés par chaque molécule du CMH de classe I (CMH-I) est collectivement appelé son immunopeptidome, et HLA-I allèles ont différentes spécificités de liaison aux peptides avec un chevauchement variable selon la divergence de séquence physicochimique entre les allèles 1,18,19. La diversité concomitante de HLA-I génotypes et spécificités de liaison aux peptides donne une variabilité interindividuelle marquée dans la diversité des immunopeptidomes 1,19. Cette variation peut affecter la capacité du système immunitaire de chaque individu à reconnaître les antigènes tumoraux et peut donc influencer la réponse à l'ICI. De plus, des études récentes ont montré que la HLA génotype façonne le paysage des mutations oncogènes observées dans les tumeurs, et que la perte somatique de HLA-I est un mécanisme possible par lequel les tumeurs échappent au contrôle immunitaire 10,20� .

Motivée par l'avantage allélique divergent proposé il y a trois décennies 1,2, la présente étude émet l'hypothèse que l'effet de HLA-I hétérozygotie sur la réponse aux ICIs peut être modulée par la quantité de divergence de séquence entre les domaines de liaison peptidique du patient HLA-Je allèles. Une divergence de séquence élevée entre les domaines de liaison peptidique des allèles affecte fortement les propriétés combinées de liaison peptidique des molécules MHC-I correspondantes 2,3,24,25. Ainsi, les patients hétérozygotes avec des allèles plus divergents peuvent présenter un ensemble plus large de peptides pour la reconnaissance des cellules T que les patients hétérozygotes avec moins de divergences. HLA-I allèles 2,3,25 .

HED a d'abord été déterminé en utilisant HLA-I génotypes dans plusieurs cohortes de patients atteints de mélanome métastatique ou de cancer du poumon non à petites cellules (NSCLC) traités avec anti-CTLA-4 ou anti-PD-1/-PD-L1 (Fig. 1a, et voir les tableaux supplémentaires 1 et 2). Pour chaque patient, le HED a été calculé à chacun des HLA-A, HLA-B et HLA-C en mesurant la distance de Grantham 3,26 entre les domaines de liaison peptidique des deux allèles. La distance de Grantham est une métrique classique qui permet de quantifier les différences physicochimiques entre les séquences d'acides aminés des protéines, en tenant compte de la composition, de la polarité et du volume. Pour explorer le paysage des HED dans l'ensemble de données de la présente étude, le regroupement hiérarchique des HED par HLA-I locus a été réalisé pour toutes les combinaisons d'allèles par paires. Le regroupement hiérarchique des HED a démontré des groupes distincts de divergence élevée et faible entre les allèles ( Fig. 1b et Extended Data Fig. 1 ), cohérents avec les interrelations connues de HLA-A, HLA-B et HLA-C lieux 17,27 . HLA-B les divergences par paires étaient plus élevées par rapport à HLA-A et HLA-C ( Fig. 1c ), conformément aux rapports antérieurs selon lesquels HLA-B est la plus ancienne et la plus diversifiée des trois HLA-I loci 17,27 . De plus, HLA-C allèles avaient les divergences par paires les plus faibles, conformément aux études antérieures qui HLA-C a évolué le plus récemment 17,27,28 (Fig. 1c). Ensuite, pour chaque patient, le HED moyen a été calculé comme la moyenne des trois divergences par paires de HLA-A, HLA-B et HLA-C, en supposant que chaque locus contribue également à la présentation des peptides antigéniques. Les distributions moyennes de HED chez les patients des cohortes de la présente étude étaient similaires à celles observées dans The Cancer Genome Atlas (TCGA) (Fig. 1d, ​,e). e). Une comparaison préalable de la distance de Grantham avec d'autres mesures courantes de divergence de séquences a montré que la distance de Grantham captait le mieux les propriétés fonctionnelles des molécules HLA-I 3 . La distance de Grantham est une métrique bien connue qui a été appliquée pour mesurer le polymorphisme des acides aminés dans des études sur l'évolution comparative, le cancer, les maladies infectieuses et l'immunité 29&# x0201334 . De plus, dans une analyse de HLA-I paires d'allèles et peptides élués naturellement dérivés de la spectrométrie de masse et des lignées cellulaires monoalléliques 35, une association a été détectée entre HED et la diversité des peptidomes (Fig. supplémentaire 1). Prises ensemble, ces données vérifient que la distance de Grantham est une mesure appropriée de HLA-I polymorphisme dans les cohortes de patients.

une, Schéma de conception expérimentale. Les HED sont calculés entre les domaines de liaison peptidique à l'aide de la distance de Grantham, puis utilisés pour stratifier les patients traités par ICI . Les néopeptides prédits sont appelés en utilisant le séquençage de l'exome entier à partir de la tumeur du patient, comptés et corrélés avec HED. Les peptides viraux et auto prédits étaient également corrélés avec HED. b, Regroupement hiérarchique de HED à HLA-A, HLA-B et HLA-C (HLA-JE). La carte thermique montre une HED normalisée par score z pour tous les allèles de toutes les cohortes de patients. Le dégradé de couleur du bleu au rouge indique un HED faible entre les paires d'allèles à un HED élevé entre les paires d'allèles, respectivement. c, Distributions de HED pour chaque HLA-A, HLA-B et HLA-C génotype hétérozygote. HLA-A (m = 279 patients minimum = 1,08, médiane = 7,62, maximum = 13,20) versus HLA-B (m = 300 patients minimum = 0,53, médiane = 8,10, maximum = 14,33) (P = 0.001) HLA-A contre HLA-C (m = 281 patients minimum = 0,56, médiane = 5,60, maximum = 7,58 P < 0,0001) HLA-B contre HLA-C (P < 0,0001 test de Mann-Whitney bilatéral). ré, Distribution de la HED moyenne des patients dans toutes les cohortes de mélanomes traités par ICI (mélanome ICI) et TCGA (mélanome TCGA). e, Distribution de la HED moyenne des patients dans toutes les cohortes de cancer du poumon traitées par ICI (ICI lung) et TCGA (TCGA lung).

Ensuite, il a été demandé si HED est associé à la réponse aux ICI. Les patients ont été stratifiés par HED moyenne dans une cohorte de 100 patients atteints de mélanome traités par anti-CTLA-4 8 (ci-après dénommée cohorte 1). Une amélioration de la survie globale a été observée après les ICI chez les patients avec un HED moyen élevé, où haut était défini comme un HED moyen supérieur ou égal au quartile supérieur, et bas était défini comme un HED moyen inférieur au quartile supérieur (P = 0,0072, risque relatif (HR) = 0,47, intervalle de confiance à 95 % (IC) = 0,26𠄰.82) (voir données étendues Fig. 2a). Ces résultats étaient similaires pour différentes métriques (c'est-à-dire somme, médiane ou moyenne géométrique) utilisées pour combiner les divergences par paires de HLA-A, HLA-B et HLA-C allèles (voir le tableau supplémentaire 3). Il a également été constaté que l'effet du HED moyen sur la survie était indépendant de la TMB et d'autres variables génomiques et cliniques, lorsque celles-ci étaient incluses dans un modèle de régression de Cox multivariable de survie (voir Données étendues Fig. 2d). Enfin, il a été constaté que l'effet à la fois d'un HED moyen élevé et d'un TMB élevé sur la survie globale après les ICI était plus prononcé que l'effet de l'un ou de l'autre seul, comme en témoigne la réduction de la fréquence cardiaque (généralement considérée comme la taille de l'effet dans les analyses de survie). 36,37 en considérant les deux variables (voir Extended Data Fig. 2a - ​ -cc ).

Des études antérieures sur l'avantage allélique divergent ont suggéré que la diversité des immunopeptidomes de complètement hétérozygotes HLA-I génotypes varie avec la divergence de séquence 1,3. Par conséquent, il a été émis l'hypothèse que, même parmi les patients totalement hétérozygotes à HLA-I, la réponse aux ICI peut également varier avec HED. De manière frappante, il a été constaté qu'une HED moyenne élevée était associée à une amélioration de la survie après les ICI chez les 78 patients totalement hétérozygotes de la cohorte 1 (réf. 8 ) (P = 0,0094, HR = 0,43, IC à 95 % = 0,22𠄰.83) (Fig. 2a). Dans une deuxième cohorte de 76 patients totalement hétérozygotes atteints de CBNPC traités principalement par anti-PD-1 (réf. 7,10), il a également été constaté qu'un HED moyen élevé était associé à une meilleure survie globale (P = 0,049, HR = 0,32, IC à 95 % = 0,10𠄱.06) (Fig. 2b). La même chose a été observée dans une troisième cohorte supplémentaire de 95 patients totalement hétérozygotes atteints de mélanome métastatique traités par anti-PD-1/-PD-L1 (réf. 10,38) (P = 0,025) (Fig. 2c). Dans une analyse combinée des trois cohortes, une relation négative a été notée entre le HED moyen et le HR, indiquant qu'en général, une augmentation du HED moyen correspond à une amélioration de la survie globale (voir Données étendues Fig. 3 ). Au-delà de la survie, la réponse clinique aux ICI était également associée à un HED moyen élevé en considérant tous les patients (HLA-I homozygotes ou hétérozygotes) (57,4% versus 32,0%, P = 0,003, odds ratio (OR) = 0,35) (Fig. 2d), ou uniquement des patients totalement hétérozygotes (55,6% versus 35,3%, P = 0,03, OR = 0,44) ( figure 2e ) dans toutes les cohortes.

une, Association d'une HED moyenne élevée (rouge) avec une survie améliorée après traitement anti-CTLA-4 dans une cohorte de patients atteints de mélanome métastatique totalement hétérozygotes à HLA-I (P = 0,0094 test du log-rank bilatéral). Les graphiques de densité indiquent la distribution et la valeur seuil pour le HED moyen utilisé dans les courbes de survie. TQC, seuil du quartile supérieur. b, Association d'une HED moyenne élevée (rouge) avec une survie améliorée après un traitement anti-PD-1 dans une cohorte indépendante de patients atteints de CBNPC totalement hétérozygote à HLA-I (P = 0,049 test du log-rank bilatéral). c, Association d'une HED moyenne élevée (rouge) avec une survie globale améliorée dans une cohorte indépendante de patients atteints de mélanome totalement hétérozygote à HLA-I traités par anti-PDI (P = 0,025 test du log-rank bilatéral). ré, Association d'une HED moyenne élevée pour les patients avec une réponse clinique (rouge) aux ICI, y compris tous les patients (homozygotes et hétérozygotes au HLA-I) pour qui les données de réponse clinique étaient disponibles auprès de a-c (P = 0,003 OR = 0,35 test exact bilatéral de Fisher). Les chiffres sur les camemberts indiquent le nombre de patients bénéficiant d'avantages cliniques ou aucun avantage clinique. e, Association d'une HED moyenne élevée avec une réponse clinique (rouge) aux ICI, y compris uniquement les patients totalement hétérozygotes à HLA-I pour lesquels des données de réponse clinique étaient disponibles à partir de a-c (P = 0,03, OR = 0,44 test exact bilatéral de Fisher). Les chiffres sur les camemberts indiquent le nombre de patients bénéficiant d'avantages cliniques ou aucun avantage clinique.

Pour déterminer si HED pourrait simplement refléter un facteur pronostique général du cancer, l'association de HLA-I hétérozygotie ou HED avec survie globale a été examinée chez les patients atteints de mélanome et NSCLC qui n'ont pas reçu de traitement ICI, et aucun effet n'a été observé (voir données étendues Fig. 4 et ​ et 5). 5 ). Cela suggère que la HED moyenne est prédictive de la réponse aux ICI et peut ne pas être pronostique chez les patients atteints d'un cancer avancé non traités par les ICI.

Toutes les cohortes de la figure 2 ont été examinées pour étudier l'effet combiné du HED moyen et du TMB sur la réponse aux ICI. Il a été constaté que l'effet du HED moyen sur l'amélioration de la survie après les ICI (Fig. 3a) était indépendant des autres variables cliniques dans l'analyse de régression multivariable de Cox (voir données étendues Fig. 6a), et qu'un HED élevé n'a pas eu lieu simultanément. avec des mutations connues dans les gènes qui ont été rapportées pour avoir un impact sur la réponse aux ICI (voir Données étendues Fig. 7 ). En outre, il a été constaté que l'effet combiné d'un HED élevé et d'un TMB élevé sur la survie globale après les ICI était plus fort que l'effet de l'un ou l'autre seul, comme en témoigne la réduction du HR lors de la stratification des patients par les deux variables 36,37 ( Fig. 3a – c ). Cet effet combiné a également été observé lors de l'analyse uniquement des patients totalement hétérozygotes (Fig. 3d – f, et voir Extended Data Fig. 6b). De plus, l'effet est resté robuste sur une large gamme de points de coupure pour HED et TMB (Fig. 3g et voir Extended Data Fig. 8a) utilisé pour stratifier les patients en groupes pour l'analyse de survie. HED élevé à chacun des HLA-A et HLA-B était associée à une amélioration de la survie après l'administration d'ICI, en considérant tous les patients ou uniquement les patients totalement hétérozygotes (Fig. 3h). Lors d'une analyse multivariée, il a été constaté qu'un HED élevé aux deux HLA-A et HLA-B était indépendamment associée à une amélioration de la survie (voir données étendues Fig. 8b), suggérant que la divergence au niveau des loci individuels de classe I peut affecter différemment l'efficacité de l'ICI. De plus, l'effet d'une HED moyenne élevée sur l'amélioration de la survie globale après ICI a été détecté dans un ensemble de données supplémentaires sur le cancer de plus de 1 000 patients (voir Données étendues Fig. 9).

une, Association d'une HED moyenne élevée (rouge) avec une survie globale améliorée après ICI chez tous les patients (HLA-I homozygote ou hétérozygote) de la Fig. 2 pour qui le TMB était disponible (P = 0,0034 test du log-rank bilatéral). Le graphique de densité indique la distribution et le seuil pour le HED moyen utilisé dans les courbes de survie. b, Association d'une TMB élevée (rouge) avec une amélioration de la survie globale après ICI chez tous les patients P = 0,03 test du log-rank bilatéral). Le graphique de densité indique la distribution et le seuil de TMB utilisés dans les courbes de survie. c, Survie des patients présentant à la fois un HED moyen élevé et un TMB élevé (rouge) après traitement ICI chez tous les patients (P = 0,01 test du log-rank bilatéral). ré, Association d'une HED moyenne élevée (rouge) avec une amélioration de la survie globale après ICI chez des patients totalement hétérozygotes à HLA-I de la Fig. 2 pour qui le TMB était disponible (P = 0,001 test du log-rank bilatéral). e, Association d'une TMB élevée avec une amélioration de la survie globale après ICI chez des patients totalement hétérozygotes (P = 0,02 test du log-rank bilatéral). F, Survie des patients présentant à la fois un HED moyen élevé et un TMB élevé après traitement ICI parmi les patients totalement hétérozygotes (P = 0,007 test du log-rank). g, Analyse de seuil montrant l'association à la fois d'un HED moyen élevé et d'un TMB élevé avec une amélioration de la survie après les ICI (m = 248 moyenne haute HED : minimum = 0,27 médiane = 0,67 maximum = 1,01 haute TMB : minimum = 0,42 médiane = 0,64 maximum = 2,38 haute moyenne HED et TMB : minimum = 0,11 médiane = 0,47 maximum = 1,02). Les données montrent une réduction de la fréquence cardiaque en combinant HED et TMB par rapport à l'une ou l'autre des variables seules. h, Analyse de régression de Cox univariée montrant l'association d'un HED élevé (quartile supérieur) au niveau individuel HLA-I loci avec une survie améliorée après les ICI (𠆊ll’, HLA-Je suis homozygote ou hétérozygote 𠆎ntièrement het.’, entièrement hétérozygote à HLA-JE m = nombre de patients). P les valeurs ont été calculées à l'aide d'un test du log-rank bilatéral. Les lignes horizontales représentent 95% Cl.

Ensuite, il a été émis l'hypothèse qu'un HED élevé peut être associé à une diversité accrue du répertoire néopeptidique présenté par HLA-JE. Dans une analyse exploratoire limitée aux patients totalement hétérozygotes à chaque locus, il a été constaté que le nombre de néopeptides candidats liés par des génotypes hétérozygotes est en corrélation avec le HED moyen (Fig. 4a). De plus, le HED moyen n'était pas corrélé avec le TMB ( Fig. 4b ), indiquant que la diversité dans HLA-I peptide-binding domains reflète spécifiquement la diversité des néopeptides liés à HLA-I molécules, plutôt que la diversité de toutes les mutations tumorales. De plus, des associations ont été détectées entre HED et la diversité du répertoire néopeptidique au niveau des loci individuels de classe I (voir données étendues Fig. 10a - ​ -c). c). Conformément à ces résultats, HED était également corrélé avec l'abondance de peptides viraux dérivés d'un certain nombre d'agents pathogènes (Fig. 4c, et voir Extended Data Fig. 10d - ​ -ff et Tableau supplémentaire 4).

une, Corrélation du HED moyen avec le nombre de néopeptides uniques liés aux allèles de chaque génotype de patient en utilisant tous les patients totalement hétérozygotes à HLA-I de la figure 2 pour lesquels des données sur les néopeptides étaient disponibles (m = 103 P = 0,04 corrélation unilatérale de rang de Kendall). Chaque point représente un génotype HLA-I du patient (HLA-A, -B et -C) l'axe des y représente le nombre moyen de néopeptides liés à travers HLA-A, -B et -C (voir Méthodes). b, Corrélation du HED moyen avec le TMB (m = 103 P = 0,46 corrélation bilatérale des rangs de Kendall&# x02019). c, Corrélation du HED moyen avec le nombre de peptides viraux uniques liés aux allèles de chaque génotype HLA-I (m = 103 P = 2,41 × 10 𢄩 corrélation unilatérale des rangs de Kendall’). ré, Corrélation du HED moyen avec le nombre d'auto-peptides uniques du protéome humain liés aux allèles de chaque génotype HLA-I (m = 103 P = 6,46 × 10 𢄦 corrélation bilatérale des rangs de Kendall’). Les oui l'axe représente le nombre moyen d'auto-peptides liés à travers HLA-A, -B et -C. e, Association de la HED moyenne avec la clonalité intratumorale TCR CDR3β (m = 19 P = 0,02 corrélation de Pearson bilatérale). La ligne rouge indique la ligne de meilleur ajustement linéaire. F, Schéma illustrant les effets du HED et du TMB sur la diversité des immunopeptidomes et la réponse aux ICI. Un représentant HLA-I locus avec HED élevé entre les allèles est représenté.

Ensuite, il a été émis l'hypothèse que HED peut être associé à la diversité de l'auto-immunopeptidome humain total, dont une fraction peut potentiellement générer des néoépitopes. Tous les peptides uniques de longueur neuf de l'ensemble du protéome humain ont été générés par ordinateur pour permettre un auto-protéome de référence commun à tous les patients, et HLA-I liaison prédictions effectuées. Il a été constaté que HED était corrélé à la diversité de l'auto-immunopeptidome prédit (Fig. 4d et Extended Data Fig. 10g - ​ -i). je ). Puis HED a été déterminé dans une cohorte indépendante de 18 individus pour lesquels HLA-A et HLA-B les génotypes et les données sur les peptides élués naturellement étaient disponibles 39 et une association a été observée entre HED et la diversité auto-immunopeptidome (voir Fig. 2 supplémentaire). Un ensemble de données supplémentaires de peptidomes dérivés de la spectrométrie de masse à partir de cellules monoalléliques a été analysé 35 , qui comprend des données peptidiques pour 10 HLA-A et 6 HLA-B allèles. HEDs et le nombre de peptides liés par toutes les paires possibles de HLA-A et HLA-B allèles ont été calculés (m = 120), et une corrélation négative significative a été trouvée entre HED et le chevauchement des peptides liés par les deux allèles d'une paire donnée (voir Fig. 1a supplémentaire). Ces données indiquent que les plus divergentes HLA-I sont les allèles, plus les peptides qu'ils présentent sont distincts. Une corrélation négative similaire a également été détectée en considérant HLA-A allèles seuls (voir Fig. 1b supplémentaire), ou HLA-B allèles seuls (voir Fig. 1c supplémentaire). En outre, il a été constaté que HED était positivement corrélé avec l'abondance de peptides liés à des paires d'allèles à chaque locus individuel (voir la figure supplémentaire 1d, e). Dans l'ensemble, ces données suggèrent qu'une divergence de séquence accrue d'un génotype HLA-I est associée à une diversité accrue d'immunopeptidomes auto, tumoraux et viraux.

Ensuite, il a été étudié si l'association d'une HED élevée avec un répertoire néopeptidique plus large augmenterait la probabilité de reconnaissance des néoantigènes par les cellules T infiltrant la tumeur, et influencerait par la suite l'expansion clonale des cellules T. En conséquence, dans un sous-ensemble de patients traités par thérapie ICI pour lesquels un séquençage profond de nouvelle génération des régions déterminant la complémentarité du TCR (CDR3) était disponible 40 , une corrélation positive a été trouvée entre la HED moyenne et la clonalité des TCR CDR3 (Fig. 4e). Cependant, des données supplémentaires seront nécessaires pour valider ce résultat. Il est important de noter que les TCR interagissent avec les auto-peptides présentés par chaque individu HLA-I molécules lors de la sélection thymique, HED peut affecter la diversité du répertoire TCR des cellules T dans le sang périphérique. Bien que le sang pour le séquençage du TCR n'ait pas été disponible chez les patients analysés dans la présente étude, on espère que cette hypothèse sera évaluée dans un proche avenir.

Prises ensemble, ces données montrent que HED&# x02014as mesuré par la divergence de séquence entre les allèles d'un HLALe génotype I est associé à la réponse à l'immunothérapie par blocage des points de contrôle chez les patients traités pour un cancer, et à la diversité des immunopeptidomes tumoraux, viraux et humains. Par rapport au TMB, qui peut être difficile à estimer avec précision en raison de la pureté de la tumeur ou de la fraction clonale, le HED peut être déduit de manière fiable à partir du séquençage de l'ADN des tissus normaux. De plus, les résultats de la présente étude suggèrent que les patients présentant à la fois un TMB élevé et un HED élevé sont les plus susceptibles de bénéficier des ICI. Il est important de noter que HED et TMB sont deux variables génétiques qui affectent l'immunité anti-tumorale. De manière critique, la HED est différente de la charge de néoantigènes, qui ne représente qu'un sous-ensemble de peptides tumoraux pouvant potentiellement être présentés par les molécules MHC-I d'un patient. De plus, les estimations de la charge de néoantigène souffrent d'algorithmes de prédiction de liaison peptide-HLA imparfaits. Nous proposons que, contrairement à la charge de néo-antigènes, HED est une métrique granulaire de la diversité HLA fonctionnelle et, avec le TMB, détermine le potentiel de contrôle tumoral à médiation par les cellules T (Fig. 4f). Par conséquent, le TMB et le HED doivent être pris en compte dans la conception des futurs essais cliniques. D'autres études examineront l'effet de la HED sur l'évolution tumorale et le répertoire du TCR hôte.


7.1 Paramètres généraux

7.1.1 Format des données d'entrée

Il existe deux formats différents de données d'entrée. La première est représentée sous la forme d'une matrice dans laquelle chaque valeur peut inclure plusieurs modifications sous la forme d'une chaîne compliquée. Dans l'exemple suivant, "g1" dans "s1" a deux types de modifications qui sont "snv" et "indel".

Dans ce cas, nous devons définir une fonction pour extraire différents types d'altération de ces longues chaînes. La définition d'une telle fonction est toujours simple, elle accepte la chaîne compliquée et renvoie un vecteur de types d'altération.

Pour mat , nous pouvons définir la fonction comme :

Ainsi, si les modifications sont codées en tant que snv|indel , vous pouvez définir la fonction en tant que function(x) strsplit(x, "|")[[1]] . Cette fonction auto-définie est affectée à l'argument get_type dans oncoPrint() .

Puisque dans la plupart des cas, les séparateurs ne sont que des caractères uniques, Si les séparateurs sont dans :,| , oncoPrint() crache automatiquement les chaînes de modification afin que vous n'ayez pas besoin de spécifier explicitement get_type dans la fonction oncoPrint().

Pour un gène dans un échantillon, étant donné que différents types d'altération peuvent être dessinés dans une même grille dans la carte thermique, nous devons définir comment ajouter les graphiques en fournissant une liste de fonctions auto-définies à l'argument alter_fun. Ici, si les graphiques n'ont pas de transparence, l'ordre d'ajout des graphiques est important. Dans l'exemple suivant, snv sont d'abord dessinés, puis les indel. Vous pouvez voir que les rectangles pour les indels sont en fait plus petits ( 0.4*h ) que ceux pour snvs ( 0.9*h ) afin que vous puissiez visualiser à la fois les snvs et les indels s'ils sont dans la même grille. Les noms de la liste de fonctions doivent correspondre aux types de modification (ici, snv et indel ).

Pour la fonction graphique auto-définie (les fonctions dans alter_fun , il devrait y avoir quatre arguments qui sont les positions des grilles sur l'oncoPrint ( x et y ), et les largeurs et hauteurs des grilles ( w et h , qui est mesurée en npc Les valeurs appropriées pour les quatre arguments sont envoyées automatiquement à ces fonctions depuis oncoPrint() .

Les couleurs pour les différentes modifications sont définies dans la col . Il doit s'agir d'un vecteur nommé dont les noms correspondent aux types d'altération. Il est utilisé pour générer les barplots.

Vous pouvez voir que l'ordre dans les barplots correspond également à l'ordre défini dans alter_fun . Les graphiques en légende sont basés sur les fonctions définies dans alter_fun .

Si vous ne savez pas comment générer la matrice, il existe une deuxième méthode. Le deuxième type de données d'entrée est une liste de matrice pour laquelle chaque matrice contient une valeur binaire représentant si l'altération est absente ou présente. La liste doit avoir des noms qui correspondent aux types de modification.

oncoPrint() s'attend à ce que toutes les matrices de mat_list aient les mêmes noms de lignes et de colonnes.

Passez mat_list à oncoPrint() :

Dans les parties suivantes de ce chapitre, nous utilisons toujours le format matriciel unique pour spécifier les données d'entrée.

7.1.2 Définir le alter_fun()

alter_fun est une liste de fonctions qui ajoutent des graphiques couche par couche (c'est-à-dire d'abord dessiner pour snv , puis pour indel ). Les graphiques peuvent également être ajoutés dans un style grille par grille en spécifiant alter_fun en tant que fonction unique. La différence par rapport à la liste des fonctions est maintenant que alter_fun doit accepter un cinquième argument qui est un vecteur logique. Ce vecteur logique montre si différentes altérations existent pour le gène actuel dans l'échantillon actuel.

Supposons que dans une grille il n'y ait qu'un événement snv, alors v pour cette grille est :

Si alter_fun est défini comme une fonction unique, la personnalisation peut être plus flexible. Dans l'exemple suivant, les rectangles bleus peuvent avoir une hauteur différente dans une grille différente.

Voici un exemple compliqué pour alter_fun où des triangles sont utilisés :

Dans certains cas, vous devrez peut-être définir alter_fun pour de nombreux types de modification. Si vous n'êtes pas sûr de l'effet visuel de votre alter_fun , vous pouvez utiliser test_alter_fun() pour tester votre alter_fun . Dans l'exemple suivant, nous avons défini sept fonctions de modification :

For the combination of alteration types, test_alter_fun() randomly samples some of them.

test_alter_fun() works both for alter_fun as a list and as a single function.

7.1.3 Background

If alter_fun is specified as a list, the order of the elements controls the order of adding graphics. There is a special element called background which defines how to draw background and it should be always put as the first element in the alter_fun list. In following example, backgrond color is changed to light green with borders.

Or just remove the background (don’t set it to NULL . Setting background directly to NULL means to use the default style of background whch is in grey):

7.1.4 Complex alteration types

It is very easy to have many more different alteration types when integrating information from multiple analysis results. It is sometimes difficult to design graphics and assign different colors for them (e.g. see plot in this link. On the other hand, in these alteration types, there are primary classes of alteration types which is more important to distinguish, while there are secondary classes which is less important. For example, we may have alteration types of “intronic snv”, “exonic snv”, “intronic indel” and “exonic indel”. Actually we can classify them into two classes where “snv/indel” is more important and they belong to the primary class, and “intronic/exonic” is less important and they belong to the secondary class. Reflecting on the oncoPrint, for the “intronic snv” and “exonic snv”, we want to use similar graphics because they are snvs and we want them visually similar, and we add slightly different symbols to represent “intronic” and “exonic”, E.g. we can use red rectangle for snv and above the red rectangles, we use dots to represent “intronic” and cross lines to represent “exonic”. On the barplot annotations which summarize the number of different alteration types, we don’t want to separate “intronic snv” and “exonic snv” while we prefer to simply get the total number of snv to get rid of too many categories in the barplots.

Let’s demonstrate this scenario by following simulated data. To simplify the example, we assume for a single gene in a single sample, it only has either snv or indel and it can only be either intronic or exonic. If there is no “intronic” or “exonic” attached to the gene, it basically means we don’t have this gene-related information (maybe it is an intergenic snv/indel).

Now in m , there are four different alteration types: snv , indel , intronic and exonic . Next we define alter_fun for the four alterations.

For the alteration types in the primary class ( snv and indel ), we use colorred rectangles to represent them because the rectangles are visually obvious, while for the alteration types in the secondary class ( intronic and exonic ), we only use simple symbols (dots for intronic and crossed diagonal lines for exonic ). Since there is no color corresponding to intronic and exonic , we don’t need to define colors for these two types, and on the barplot annotation for genes and samples, only snv and indel are visualized (so the height for snv in the barplot corresponds the number of intronic snv plus exonic snv).

7.1.5 Simplify alter_fun

If the graphics are only simple graphics, e.g., rectangles, points, the graphic functions can be automatically generated by alter_graphic() function. One of previous example can be simplied as:

7.1.6 Other heatmap-related settings

Column names are by default not drawn in the plot. It is can be turned on by setting show_column_names = TRUE .

Row names and percent texts can be turned on/off by setting show_pct and show_row_names . The side of both according to the oncoPrint is controlled by pct_side and row_names_side . Digits of the percent values are controlled by pct_digits .

The barplot annotations on the both side are controlled by anno_oncoprint_barplot() annotation function. Customization such as the size and the axes can be set directly in anno_oncoprint_barplot() . More examples of setting anno_oncoprint_barplot() can be found in Section 7.2.3.

Some people might want to move the right barplots to the left of the oncoPrint:

OncoPrints essentially are heatmaps, thus, there are many arguments set in Heatmap() can also be set in oncoPrint() . In following section, we use a real-world dataset to demonstrate more use of oncoPrint() function.


Matériaux et méthodes

Nanopore sequencing and datasets

Nanopore sequencing data for NA19240 [26], NA12878 [24], and Ashkenazi trio [29] human cell lines are publicly available. A complete description of the datasets, their base calling, mapping, and usage in our study are provided in additional file 1 along with the link to the sources.

We also sequenced the Colo829BL B-lymphoblast cell line using one nanopore PromethION flow cell and Illumina paired-end sequencing at 30× coverage. A complete description of nanopore and Illumina sequencing protocols and data obtained is also provided in Additional file 1.

CpG methylation calling from nanopore data

To call CpG methylation, we benchmarked three model-based approaches: Nanopolish [10], Megalodon [14], and DeepSignal [15]. Nanopolish uses a hidden Markov model to call CpG methylations from raw nanopore data while Megalodon and DeepSignal use neural networks. We called CpG methylation using these tools (with the default parameters) for 12 flow cells of NA12878 publicly available data (Additional file 1) and compared the results with WGBS data from ENCODE project (ENCFF835NTC) [51] and Human Methylation 27 (27k) array from Fraser et al. [25].

Variant calling

We used Clair to call SNVs [22]. We called variants for each chromosome using clair.py callVarBam --threshold 0.2 et le HG122HD34 maquette. Indels were filtered out. To evaluate variant calling, we compared SNVs called by Clair from nanopore data to those from 1KGP phase 3 [30] (GRCh37 coordinates). Clair’s variant calls were lifted over to GRCh37 human reference genome coordinates using CrossMap [52] for comparison to 1KGP data.

For our in-house Colo829BL sample, we compared Clair variant calls to Strelka [53] v 2.9.10 calls made from paired-end Illumina reads (Additional file 1).

Model training to improve SNV calling

We calculated average qualities and mutation frequencies for each position of each 5-mer window containing an SNV. Mutation frequencies were calculated as the number of instances over coverage for each genomic position in the 5-mer window. Base qualities for a given position were calculated as the average of all base qualities mapped to the position. We used these as inputs to a fully connected artificial neural network classifier composed of four hidden layers with a relu activation function. The first hidden layer is six times larger than the input layer and the size of subsequent hidden layers decreases through a factor two.

We trained three models to compare the classifier using different coverages. NA12878 20 flow cells (24×), NA12878 all flow cells (44×), and HG003 (80×) were used for training. First, we called variants for each dataset using Clair and then determined true and false positives using high-quality variants using the Genome in a Bottle database (GIAB) [27]. Using NA12878 20 flow cell data, a randomly selected balanced dataset of 25 million 5-mers was used for training and 4 million unseen randomly selected 5-mers were used as the validation set. For the NA12878 whole dataset and HG003 sample, the training datasets were 18M and 14.9M, respectively, and validation sets were 2.5M and 2M, respectively (Additional file 2: Fig. S6). The NA12878 20 flow cell model was used for < 30× coverage data, NA12878 all flow cells for 30×–45× coverage data, and HG003 model for > 45 coverage data.

Phasing single nucleotide variants detected from nanopore sequencing

In order to phase nanopore reads and CpG methylation, we first called SNVs for both samples (NA19240 run 1 and Colo829BL) using Clair [22], then used SNVoter to normalize the quality scores and filter out false positives (Fig. 2e and Table 1). Finally, we used WhatsHap [23, 31] v0.18 with the default parameters and --ignore-read-groups on to determine haplotype status for each SNV.

Phasing of nanopore reads and CpG methylations

Phased SNVs and CpG methylation calls were leveraged to phase reads along their CpG methylation to diploid haplotypes. After filtering out a considerable number of false-positive SNVs using SNVoter, we still noticed 10–20% false-positive SNV calls in the datasets (Table 1). These unfiltered false-positive calls, in addition to sequencing errors, can result in reads incorrectly mapping to the SNVs from haplotype 1 when the read would actually belong to the haplotype 2 and vice versa. We noticed reads presenting SNVs from both haplotypes when mapping them to phased SNVs. In NA19240 run 0, out of

3M reads which mapped to at least one phased SNV,

2M reads had SNVs from both haplotypes (Additional file 2: Fig. S7a). To further overcome false positives and the sequencing error problem, we made several filtering steps to account for remnant false-positive SNVs and haplotype ratio (number of SNVs from HP1/HP2 or HP2/HP1). As we analyzed NA19240 run 0, we noticed a lower base quality distribution for false-positive SNVs compared to true positives that could not be filtered out by SNVoter (Additional file 2: Fig. S7b). Therefore, we assigned a minimum base quality threshold to successfully map each read at a phased SNV position. To manage reads containing SNVs from both haplotypes, we defined another threshold, the haplotype ratio, which ensures the reads are assigned to a single haplotype. Based on the quality distribution of SNVs (Additional file 2: Fig. S7b), the proportion of false positives which is between 10 and 20% (Table 1) and haplotype ratios (Additional file 2: Fig. S7a), and also based on empirical phasing at a few known imprinted regions, we used seven as the minimum base quality and 0.75 as haplotype ratio. We also used two as the minimum number of phased SNVs a read must present to be considered for phasing. In order to assign a read to a defined haplotype, a read must satisfy the following criteria:

As the reads are separated to different haplotypes, their associated CpG methylations from processed methylation call file are also separated to the corresponding haplotypes. We have integrated all the steps and filters in our python3 command-line tool, NanoMethPhase. Users can input methylation call data from Nanopolish, phased variant calling file, alignment file, and reference genome to NanoMethPhase (Fig. 3c). NanoMethPhase will output phased reads in aligned format, phased mock WGBS converted format for visualization (see the “Visualization” section Fig. 4c, d), phased methylation calls, and methylation frequency files. The latter can be used for differential methylation analysis to detect DMRs between haplotypes.

Differential methylation analysis

After phasing reads and CpG methylation to haplotypes, NanoMethPhase can perform DMA to detect mono-allelic methylated regions. It uses the DSS R package [36] for DMA. Users can perform all analyses in a command-line interface and directly perform DMA using the dma module of NanoMethPhase on the output phased methylation frequency data to detect DMRs.

Visualisation

NanoMethPhase can convert phased reads into separate mock-WGBS bam files using the processed methylation call file from its methyl_call_processor module. Each cytosine in each CpG in each read is converted to a T, A, or N depending on the CpG being called as methylated, unmethylated, or uncalled. These pairs of files can be loaded into a genome browser such as IGV [34] in bisulfite mode for visualization (Fig. 4c, d).


First Principal Component Analysis - PCA1 Section

The first principal component is strongly correlated with five of the original variables. The first principal component increases with increasing Arts, Health, Transportation, Housing and Recreation scores. This suggests that these five criteria vary together. If one increases, then the remaining ones tend to increase as well. This component can be viewed as a measure of the quality of Arts, Health, Transportation, and Recreation, and the lack of quality in Housing (recall that high values for Housing are bad). Furthermore, we see that the first principal component correlates most strongly with the Arts. In fact, we could state that based on the correlation of 0.985 that this principal component is primarily a measure of the Arts. It would follow that communities with high values tend to have a lot of arts available, in terms of theaters, orchestras, etc. Whereas communities with small values would have very few of these types of opportunities.


Méthodes

First, SNVs are called from processed RNA-seq files using Genome Analysis Toolkit (GATK) [58]. Calls are then filtered by SNPiR tools [64] to remove SNVs that may result from sequencing noise and/or alignment errors. After data transformation, sPLS-DA models are trained on SNVs limited by region of origin. Following the empirical estimation of the optimal number of selected features to be included in the model, performance is evaluating using 10-fold cross-validation. Finally, top predictive SNV features are characterized to determine their relevance to the cancer phenotype in question.

Variant calling pipeline

The variant calling and filtering pipeline, SNPiR, has been shown to obtain accurate SNVs with minimal false-positives from RNA-Seq data [64]. For each sample, the pipeline consists of several steps: pre- and post-processing, filtering, alignment, and variant calling. Burrows-Wheelers Aligner (BWA) [48] is used with default parameters to map reads as single-end sequences to the human genome (hg19), which is concatenated with exons with known splice junctions as per SNPiR protocol. Samtools and Picardtools are used to remove duplicate and unmapped reads, while GATK [58] is used for indel realignment, base calibration and variant calling using the reference SNP database, dbSNP (NCBI hg19 build 141). SNPiR tools are then used to remove mismatches from the first 6 bp of aligned reads, as well as to remove variant calls from repetitive regions, intronic sites within 4 bp of splice junctions, homopolymer runs, and ambiguously mapped reads determined by BLAT [42].

The resulting output is a BED file containing SNVs with their genomic coordinates and allele fractions. RADAR is first used to determine if SNVs are located at RNA-editing sites [67]. The SNV annotation program, ANNOVAR (v2014jul14), is then used to annotate unique SNVs using default parameters [79]. For each SNV, ANNOVAR provides information on the gene and region of origin, which include exonic, intronic, 5’ or 3’ UTR, intergenic, up/downstream, and non-coding RNA (ncRNA). ANNOVAR defines intergenic variants to those that are at least 2 kb distal from a coding sequence, whereas the ncRNA category contains variants that do not overlap coding transcript annotations and is used by ANNOVAR to encapsulate both annotated non-coding RNA, such as known miRNA and lncRNA, as well as unannotated loci in the genome. Lastly, Bedtools genomecov [66] is used to determine loci with adequate read coverage using hg19 as reference.

Data transformation and filtering

The total set of variants is transformed into a matrix SNVM, where SNVM je,j is the allele fraction of the je-th SNV in sample j. Allele fraction, or read-frequency, is defined as the amount of reads supporting the variant allele over the total amount of reads covering that nucleotide position. Read coverages are determined for every SNVM je,j. Those SNVM je,j values that do not reach the threshold read coverage (default 10) are given a non-available (NA) value. Sub-models can then be generated by limiting SNVs to those located in a region of interest, such as exonic positions, and/or by requiring a minimum number of non-zero features.

SPLS-DA and optimal number of features

Predictive models are created using sPLS-DA, which is implemented in the mixOmics R package [13, 15]. PLS-DA is a supervised, multivariate modeling technique used to determine the variation within X, the SNV data, that is correlated to Y, the class labels (e.g. disease-free versus relapse). The sparse version of the technique, sPLS-DA, seeks to identify the best K features that provides the best discrimination between two classes, ignoring all other features. sPLS-DA thus provides a framework for both feature selection and classification.

Nested cross-validations are used to determine the amount of features, K, utilized by sPLS-DA that result in the best predictive performance. For every iteration of 10-fold cross-validation, sub-cross-validations are performed across a range of values for K. For each K, the model is trained on 10-fold sub-training sets and evaluated. La valeur de K with the best performance for each iteration of the parent cross-validation is then stored. This process is repeated 15 times to more accurately estimate the distribution of optimal Ks from 150 values. The optimal K is then determined as the rounded value of K that corresponds to the maximum of the estimated kernel density of the distribution of selected K’s, as represented in Fig. 1.

Selection of Optimal K. A kernel density is estimated from the distribution of Ks selected within the nested cross-validations during the creation of each model. La valeur de K that corresponds to the max of the density is chosen as the optimal value of K. The example shown is the distribution of Ks that maximized internal cross validations in the breast cancer exonic SNV model

Construction of gene expression models

To compare the performance of the proposed methodology with traditional gene expression classifiers, models were created using gene expression values as input. For the NSCLC dataset, Bowtie (v1.2.18) [46] and RSEM (v1.2.18) [47] were used with default parameters to align reads to the transcriptome and quantify reads, respectively. For the breast cancer dataset, BWA (v0.7.12) [48] and featureCounts (v1.4.6) [49] was used with default parameters to align reads to the genome and quantify reads, respectively. For both datasets, read counts were normalized via DESeq2 (v1.10.0) [54]. Herein, adjusted p-values reported by DESeq2 will simply be referred to as p-valeurs. Models were trained on subsequent gene expression matrices using the same parameters as those used in the creation of SNV models. For each dataset, the distribution of performance statistics are compared to that of the corresponding SNV model to identify the similarity of performance between the proposed methodology and the traditional approach.

Evaluation

After the empirical estimation of the optimal value of K, the model is then evaluated using fifteen 10-fold cross-validations to determine performance via its predictive accuracy, classification sensitivities, and area under the receiver operating characteristic curve (AUC), which seeks to quantify the relationship between true and false positive rates. Though sPLS-DA is able to train a model on features that include NA values, missing data in the test set is not compatible with the resulting model. Therefore, NA values are replaced with the mean of the means of the centered and standardized AF values for each feature within each group in the training set. For example, the mean of the normalized AF values for feature X in group UNE is averaged together with the mean of normalized AF values for feature X in group B disregarding samples from the test set. This value is then used as a proxy for the missing data in the test set.

To determine if the proposed methodology is discriminant towards the true grouping of disease phenotype, permutation tests are repeated 1000 times to construct the null distribution of model performance (i.e., no relation to phenotype) for each model. The true model performance is then compared to this null distribution to determine significance, with a significantly discriminant model outperforming the majority of permutation test models.Otherwise, it could be said that model performance is independent of the true grouping and is, thus, insignificant. For each test, one iteration of a 10-fold cross-validation is used to train and test models with randomly permuted sample group labels using the optimal K that was used in the true model. The number of models with AUC greater than or equal to the true model AUC is divided by the number of tests to determine permutation test p-valeurs.

Lastly, to obtain the final set of putative SNV features, the model is trained using all samples and the optimal value of K. The selected features are then ranked by the absolute values of their predictive coefficients (or loadings) as determined by sPLS-DA. In order to assay the utility of the proposed methodology, a Friedman rank sum test is used to compare the rankings of selected features to those of traditional approaches — the univariate non-parametric tests, Fisher’s exact and Wilcoxon rank sum.

The Fisher’s exact test is implemented by the production of a 2 ×4 table for each SNV locus, where each value corresponds to the number of samples in each group with detectable levels of each allele in (A, C, G, T), while disregarding samples with sub-threshold read coverage (<10) at that locus. As the presence of an allele is binary in this case, the test only takes into account the differential abundance of the alleles across groups. Whereas, Wilcoxon rank sum test p-values are produced by comparing the distributions of continuous allele fractions and do not directly include information on their differential abundance across samples.

To determine if the proposed methodology selects SNVs that lie in genes that have significant allele-specific expression, selected SNVs were analyzed using MBASED: a method that combines evidence across multiple SNVs to identify gene-level ASE [56]. Though the method was designed for the integration of expression data with exonic SNV calls from WES and/or WGS, we applied the methodology on SNVs selected during the creation of our SNV genic models: exonic, intronic, and 3’UTR. To determine if genes from which selected SNVs are located are enriched for ASE, we compared the number of significant ASE gene/sample pairs to those found in equally sized random subsets of genes from which the total set of SNVs were called. One thousand subsets were evaluated to determine the null distribution from which enrichment p-values can be computed.

Finally, the top 15 features selected by SNV-DA are characterized by their relevance to cancer phenotype and are analyzed via hierarchical clustering to visualize the co-occurrence of features.

Études de cas

Disease outcome in non-small cell lung cancer

NSCLC is the leading cause of cancer-related mortality in the US. Adenocarcinoma, the most frequent histological subtype, accounts for 40 % of such deaths [74]. RNA samples were collected from 21 different lung adenocarcinoma tumors with known clinical outcomes obtained from the American College of Surgery Oncology Group (ACOSOG). Since the RNA specimens were received from ACOSOG with no personal identifying information, the local IRB has considered the proposed project “not human subject research” after reviewing the protocol (IRB Pro00013739). Ten of the RNA samples were derived from patients who developed cancer recurrence within three years of their initial surgical resection (Relapse R). The remaining eleven patients had remained disease free (DF) after three years. Using these samples, we sought to determine the ability of the proposed methodology to identify and prioritize candidate biomarkers that may help predict relapse phenotype in NSCLC.

RNA integrity was verified on an Agilent 2200 Bioanalyzer (Agilent Technologies, Palo Alto, CA). One hundred to two hundred ng of total RNA was used to prepare RNA-Seq libraries using the TruSeq RNA Sample Prep Kit following the protocol as described by the manufacturer (Illumina, San Diego, CA). Three samples per lane were clustered on a cBot as described by the manufacturer (Illumina, San Diego, CA). Clustered RNA-Seq libraries were paired-end sequenced with 2 ×100 cycles on a HiScanSQ. Demultiplexing was performed utilizing CASAVA to generate the Fastq files. Each sample produced approximately 25 million reads after sequencing. One sample from the relapse group was removed from subsequent analysis after being identified in our previous study as an outlier based on principle component analyses of expression and alternative splicing [2]. The removal of this sample is additionally supported by the iLOO outlier detection algorithm [27]. Using normalized counts from DESeq2[54] of all relapse samples, the algorithm identified 567 outlying gene features in the suspect sample − 5.74 standard deviations greater than the distribution of the number of outlying features in the other samples (mean = 143.44, standard deviation = 73.82).

Hormone receptor status in breast cancer

To further validate our model, we obtained a dataset from the publicly available SRA database (SRP042620), which was provided by Varley et al., 2014 [78]. In their publication, the authors sought to identify read-through transcripts that are significantly correlated with breast cancer and/or hormone receptor status. RNA-Seq was obtained from 42 ER+ and 42 TR- primary tumors using poly-A capture and Tn-RNA-Seq for library construction. Libraries were sequenced on the Illumina HiSeq 2000 using 50 bp paired-end reads, which produced 50 million reads on average. Instead of trying to predict some future outcome of the patients from which these tumors were sampled, we sought to identify SNV features that co-occur with hormone receptor status. Selected SNVs may thus provide insight into molecular mechanisms differentiating these two subgroups of breast cancer.


Silicon Saxony on the march

Bosch's new plant will add to the larger Dresden area's reputation as one of Europe's most significant microelectronics hubs. It has come to be called Silicon Saxony in a nod to its much bigger brother, Silicon Valley, in the US.

Silicon Saxony is also the name of an industry association on the ground. Its managing director, Frank Bösenberg, told the DPA news agency earlier this month that the Dresden semiconductor chip technology cluster had "seen continuous growth since 2009," mentioning some 2,300 companies with roughly 60,000 employees active in the industry in Saxony and generating revenues of some €16.5 billion last year.

Robots are indispensable helpers in Bosch's production of wafers and microchips in its Dresden plant

Several big players already on the ground are currently planning to invest a lot more to boost production in response to the rising demand for chips.

US chipmaker Globalfoundries, which absorbed the former AMD Saxony in Dresden, has said it's willing to spend €400 million on expanding its clean rooms. The firm boasts an output of 400,000 wafers a year right now and hopes to double this soon.

Further investments of €1.1 billion in its Dresden facilities over the next five years have been announced by Infineon, a Munich-based listed DAX company and another world leader in microelectronics.

In addition, Silicon Saxony executives hope semiconductor giant Intel may also join the Dresden cluster as the company is currently on the lookout for a suitable European location to invest billions of dollars.

"We are among Europe's largest semiconductor-producing locations," Silicon Saxony chief Frank Bösenberg told German public broadcaster MDR. "This concentration of similar industry players should give us a competitive edge."

The Dresden microelectronics cluster is something of an outlier in Europe, with the only significant competitor being the larger Grenoble area in France with a similar density of chipmakers, engineering companies and research institutions.


Principal Component Analysis and k-means Clustering to Visualize a High Dimensional Dataset

Key insights:

  • There are clusters in the National Health and Nutrition Exam Survey (combined diet, medical, and exam datasets, 2013- 2014) which are only visible via dimensionality reduction.
  • PCA in conjunction with k-means is a powerful method for visualizing high dimensional data.

I recently learned about principal component analysis (PCA) and I was eager to try to put it into p ractice, so I downloaded data from the National Health and Nutrition Examination Survey and began my analysis. The data contained nearly 200 features (columns) and there was no way in hell I could get a broad overview of all of them through traditional methods of visualization. Luckily, this is what doing PCA is all about. You take a ton of features, project them onto a lower-dimensional space, reduce them down to just a few important principal ones, and visualize them. Alternatively, it’s possible to use these reduced components in a machine learning pipeline, but that’s a topic for a different post.

To better understand the magic of PCA, let’s dive right in and see how I did it with my dataset in three basic steps.

Step 1: Reduce Dimensionality

In this step, we will find the optimal number of components which capture the greatest amount of variance in the data. In my case, as seen in Fig. 1 below, that number is three.

Fig. 1 shows that the first three components explain the majority of the variance in our data. For this visualization use case, we will quickly plot just the first two. We do this to notice if there are any clear clusters.

Fig. 2 shows at least two clearly distinguishable clusters. This factoid tells us that the observations in the dataset can be grouped. Because each observation in the data is a diet, lab, and physical exam for one person, we could say that the clusters represent different groups of people. It’s important to note that we do not have a target variable by which to label these groups, so we do not know exactly what these labels are. In a utopian situation, this type of analysis would let us see the sample population segregated by health condition. Fig. 2 does not show all the meaningful principal components, however. To visualize the rest of the reduced dataset with much greater granularity, we will use k-means clustering.

Step 2: Find the Clusters

In this step, we will use k-means clustering to view the top three PCA components. In order to do this, we will first fit these principal components to the k-means algorithm and determine the best number of clusters. Determining the ideal number of clusters for our k-means model can be done by measuring the sum of the squared distances to the nearest cluster center aka inertia. Much like the scree plot in fig. 1 for PCA, the k-means scree plot below indicates the percentage of variance explained, but in slightly different terms, as a function of the number of clusters.

Fig. 3 shows that after 4 clusters at (the elbow) the change in the value of inertia is no longer significant and most likely, neither is the variance of the rest of the data after the elbow point. Therefore we can discard everything after k=4 and proceed to the last step in the process.

Step 3: Visualize and Interpret the Clusters

I did this project with a basic question in mind: can people be grouped based on features like physical examination results, complete blood counts, and diet records? Reducing all those features down to principal components and then visualizing the clusters in those principal components using k-means hints that the answer to my question is most likely yes.

Figure 4 was made with Plotly and shows some clearly defined clusters in the data. I did not label the dataset, so we do not know the names of the clusters. This does not mean that we couldn’t go back and label these groups, however. Now that we know how many clusters there are in our data, we have a better sense of how many groups we can label the population with. As an example, it’s possible to come up with a model that grades well-being in this population on four grades. Introducing these labels back into the reduced dataset on the unique id of each sample will allow us to visualize them by cluster.

The ability to notice otherwise unseen patterns and to come up with a model to generalize those patterns onto observations is precisely why tools like PCA and k-means are essential in any data scientist’s toolbox. They allow us to see the big picture while we pay attention to the details.


Voir la vidéo: Unsupervised Learning. Clustering and Association Algorithms in Machine Learning. @edureka! (Décembre 2022).