Informations

Pourquoi et comment plusieurs allèles sont-ils signalés lors de l'appel de variantes dans vcf ?


Cela pourrait être une question très fondamentale pour beaucoup ici. Avec la compréhension de base de l'hérédité, même s'il existe une possibilité de génotypes multiples dus à plusieurs allèles, le génotype résultant ne peut avoir que deux allèles (paternel et maternel) de cette façon, après l'appel variant, un allèle à une position peut être homozygote ou hétérozygote. Il peut donc y avoir au maximum deux allèles, mais pourquoi voyons-nous plusieurs allèles à une position donnée dans le VCF. J'essaie de comprendre la science derrière cela. S'il vous plaît aider. Merci!

chr5 127640782 . AG A,AA… GT:AD:DP 1/2:0,28,409:437

Dans votre exemple, la 4ème colonne contient l'allèle de référence sur la position donnée. Il n'est pas dit que votre échantillon a ceci. La 5ème colonne contient tous les allèles alternatifs trouvés sur la position donnée.

Les allèles présents dans votre échantillon sont indiqués dans la dernière colonne par1/2. Cela signifie que vous avez un allèle avec la première valeur dans la 5ème colonne et un allèle avec la deuxième valeur donnée dans la 5ème colonne. Vous voyez, que votre échantillon a exactement des allèles, mais aucun d'entre eux n'est la référence. Cela serait indiqué par un0.


Un vcf peut contenir plusieurs colonnes représentant les données d'allèles pour plusieurs échantillons. Je ne vois également aucune raison pour laquelle vous ne pourriez pas représenter les données d'un échantillon tétraploïde dans un vcf. On peut aussi avoir un mélange d'organismes dans un échantillon, comme une population mélangée de bactéries. Si vous pouviez faire en sorte que votre appelant SNP appelle un SNP tri-allélique, le format vcf peut le gérer.


L'autre possibilité que je peux imaginer est que le format est conçu pour s'adapter à l'hétérogénéité entre les cellules individuelles d'un échantillon et aux inévitables erreurs de séquençage.

Si vous séquencez un échantillon d'un organisme qui (principalement) a deux allèles à un locus (par exemple A et G), il peut toujours y avoir des cellules individuelles qui ont un C ou un T à ce locus, et il peut également y avoir des erreurs de séquençage introduisant un C ou T dans les lectures qui étaient en fait un A ou un G. Le format VCF serait alors toujours capable de représenter les appels à faible probabilité, en plus de ceux à plus forte probabilité.


Voir la vidéo: Rôle de la méiose et de la fécondation dans le brassage des allèles et le maintien du caryotype (Janvier 2022).