Informations

Quel nucléotide comme point de départ pour un maximum de parcimonie ?


Fond
Un maximum de parcimonie est utilisé pour construire un arbre évolutif en choisissant le "plus simple". Je vois beaucoup d'exemples sur la façon dont cela devrait être fait. Par exemple:

Question
Par contre c'est pas clair pour moi LEQUEL nucléotide doit être utilisé comme point de départ? Considérons le premier arbre (de la figure ci-dessus) :

Nucléotidega été choisi comme point de départ résultant en une mutation, cependant si nous choisissonsTnous aurions deux mutations et si nous choisissonsUNEnous en aurions trois. Alors, qu'est-ce qui détermine le nucléotide qui doit être utilisé pour commencer ?


Le « point de départ », ou état ancestral, est choisi de manière à obtenir l'arbre le plus parcimonieux.

La parcimonie est utilisée à la fois pour choisir la topologie et pour choisir les états ancestraux pour une topologie donnée :

1) Le score de parcimonie pour une topologie donnée est calculé pour l'ensemble des états ancestraux minimisant le nombre de transformations.

2) Ensuite, la topologie minimisant ce nombre minimisé de transformations est choisie comme l'arbre le plus parcimonieux.


16.2 : Détermination des relations évolutives

  • Contribution d'OpenStax
  • Concepts de biologie à OpenStax CNX

Les scientifiques collectent des informations qui leur permettent d'établir des liens évolutifs entre les organismes. Semblable au travail de détective, les scientifiques doivent utiliser des preuves pour découvrir les faits. Dans le cas de la phylogénie, les investigations évolutives se concentrent sur deux types de preuves : morphologiques (forme et fonction) et génétiques.


Contenu

La parcimonie maximale fait partie d'une classe de méthodes d'estimation d'arbres basées sur les caractères qui utilisent une matrice de caractères phylogénétiques discrets pour déduire un ou plusieurs arbres phylogénétiques optimaux pour un ensemble de taxons, généralement un ensemble d'espèces ou des populations isolées sur le plan de la reproduction d'une seule espèce . Ces méthodes fonctionnent en évaluant les arbres phylogénétiques candidats selon un critère d'optimalité explicite, l'arbre ayant le score le plus favorable est considéré comme la meilleure estimation des relations phylogénétiques des taxons inclus. La parcimonie maximale est utilisée avec la plupart des types de données phylogénétiques jusqu'à récemment, c'était la seule méthode d'estimation d'arbre basée sur les caractères largement utilisée pour les données morphologiques.

L'estimation des phylogénies n'est pas un problème anodin. Un grand nombre d'arbres phylogénétiques possibles existent pour tout ensemble de taxons de taille raisonnable, par exemple, une dizaine d'espèces donne plus de deux millions d'arbres non racinés possibles. Ces possibilités doivent être recherchées pour trouver un arbre qui correspond le mieux aux données selon le critère d'optimalité. Cependant, les données elles-mêmes ne conduisent pas à une solution arithmétique simple au problème. Idéalement, nous nous attendrions à ce que la distribution de tous les caractères évolutifs (tels que les traits phénotypiques ou les allèles) suive directement le modèle de ramification de l'évolution. Ainsi, nous pourrions dire que si deux organismes possèdent un caractère commun, ils devraient être plus étroitement liés l'un à l'autre qu'à un troisième organisme dépourvu de ce caractère (à condition que ce caractère ne soit pas présent dans le dernier ancêtre commun des trois, auquel cas ce serait une symplésiomorphie). Nous pourrions prédire que les chauves-souris et les singes sont plus étroitement liés les uns aux autres que l'un ou l'autre ne l'est avec un poisson, car ils possèdent tous deux des cheveux - une synapomorphie. Cependant, nous ne pouvons pas dire que les chauves-souris et les singes sont plus étroitement liés les uns aux autres qu'aux baleines car ils partagent des cheveux, car nous pensons que le dernier ancêtre commun des trois avait des cheveux.

Cependant, les phénomènes bien compris d'évolution convergente, d'évolution parallèle et de renversements évolutifs (collectivement appelés homoplasie) ajoute une ride désagréable au problème de l'estimation de la phylogénie. Pour un certain nombre de raisons, deux organismes peuvent posséder un trait non présent dans leur dernier ancêtre commun : si nous considérions naïvement la présence de ce trait comme preuve d'une relation, nous reconstruirions un arbre incorrect. Les données phylogénétiques réelles incluent une homoplasie substantielle, avec différentes parties des données suggérant des relations parfois très différentes. Les méthodes utilisées pour estimer les arbres phylogénétiques sont explicitement destinées à résoudre le conflit au sein des données en choisissant l'arbre phylogénétique qui correspond le mieux à toutes les données globales, en acceptant que certaines données ne conviendront tout simplement pas.

Les données qui ne correspondent pas parfaitement à un arbre ne sont pas simplement du "bruit", elles peuvent contenir un signal phylogénétique pertinent dans certaines parties d'un arbre, même si elles sont en conflit avec l'arbre dans son ensemble. Dans l'exemple de baleine donné ci-dessus, le manque de poils chez les baleines est homoplastique : il reflète un retour à l'état présent chez les anciens ancêtres des mammifères, qui manquaient de poils. Cette similitude entre les baleines et les ancêtres des mammifères anciens est en conflit avec l'arbre que nous acceptons, car elle implique que les mammifères à poils doivent former un groupe excluant les baleines. Cependant, parmi les baleines, le retournement à l'absence de poils associe en réalité correctement les différents types de baleines (dont les dauphins et les marsouins) au groupe des cétacés. Pourtant, la détermination de l'arbre le mieux adapté - et donc des données qui ne correspondent pas à l'arbre - est un processus complexe. La parcimonie maximale est une méthode développée pour ce faire.


Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


[24] Déduire des phylogénies à partir de séquences de protéines par des méthodes de parcimonie, de distance et de vraisemblance

Ce chapitre se concentre sur la déduction de phylogénies à partir de séquences protéiques par des méthodes de parcimonie, de distance et de vraisemblance. L'ensemble des états d'acides aminés possibles dans l'algorithme de parcimonie des protéines (PROTPARS) compte 23 membres, ce sont les 20 acides aminés plus les possibilités d'un espace et d'un codon d'arrêt. La sérine est comptée non pas comme un acide aminé mais comme deux, correspondant aux deux îlots de codons sérine dans le code génétique. Les méthodes de matrice de distance calculent pour chaque paire de séquences une estimation de la longueur de branche les séparant, où la longueur de branche est le produit du temps et du taux d'évolution. Le chapitre traite également du développement de méthodes de maximum de vraisemblance pour déduire des phylogénies à partir de données sur les protéines. Ces méthodes utilisaient le modèle hautement simplifié du changement symétrique entre les acides aminés, et elles ne pouvaient pas traiter plus de trois ou quatre séquences dans l'arbre d'une manière raisonnablement exacte. Les chercheurs sur l'analyse des séquences d'ARN ont découvert qu'il existe une synergie entre les inférences de phylogénie, d'alignement et de structure. Les modèles de Markov cachés basés sur la structure (HMM) ont été utilisés pour améliorer l'alignement des séquences des protéines, sans toutefois prendre en compte la phylogénie.


Résultats

Lorsque tous les transcrits d'ARNm RefSeq humains (m = 25 556) ont été alignés sur leurs orthologues putatifs, le résultat a été un alignement écartelé de 36 Mb. Cependant, les orthologues de la plupart des gènes n'ont pas pu être trouvés pour les 14 taxons. Par conséquent, les analyses n'incluaient que les loci pour lesquels notre méthode pouvait attribuer des séquences orthologues pour les 14 taxons. Cet ensemble de données réduit consistait en un alignement de séquences multiples de 1 698 loci codant pour des protéines avec une longueur d'alignement de 1 443 825 pb, y compris les insertions et les suppressions. La composition moyenne des bases nucléotidiques dans cet alignement était la suivante : T = 22,8 %, C = 23,8 %, A = 27,8 % et G = 25,6 %. Un tableau montrant la composition des bases nucléotidiques à chaque position de codon pour chaque taxon ainsi que le nombre de nucléotides analysés est inclus dans les informations complémentaires (SI) Tableau 3. Notamment, pour chaque base à chacune des trois positions de codon, il y a au plus seulement de très petites différences de composition parmi les 14 taxons. Une feuille de calcul récapitulative des orthologues putatifs utilisés dans les analyses principales (SI Tableau 4), ainsi que les fichiers d'alignement qui l'accompagnent sont disponibles en tant que SI.

La figure 2 représente le modèle de ramification phylogénétique optimal parmi les taxons, qu'une méthode de reconstruction d'arbre phylogénétique bayésienne, ML ou MP soit utilisée avec les données de séquence de nucléotides codantes ou les données d'acides aminés de parcimonie. Les longueurs de branches de la figure 2 ont été obtenues par analyse ML. La figure 3 représente les arbres NJ optimaux. L'arbre nucléotidique MP a une longueur de 267 158 pas et les scores ML pour la topologie de l'arbre sont -lnL 7 238 023,807 (PAUP*) et -lnL 7 240 210,130 (PhyML). Les valeurs de prise en charge des branches pour chacun des clades sont de 100 % (pourcentage d'amorçage MP et PhyML) ou 1,0 (probabilité bayésienne postérieure) à tous les nœuds de l'arbre à la seule exception du clade Atlantogenata, qui avait une valeur d'amorçage de parcimonie de 95 %. dans l'analyse des nucléotides. Les longueurs de branches relativement courtes observées chez le catarrhin et, plus précisément, le clade des singes fournissent également une preuve supplémentaire de l'hypothèse du ralentissement des hominidés (20, 21).

Relations phylogénétiques entre les principaux groupes placentaires. Topologie arborescente optimale obtenue par MP en utilisant les première et deuxième positions de codon (267 158 étapes), PAUP* ML (-ln L = 7 238 023,807), PhyML ML (-ln L = 7 240 210,130) et approches bayésiennes, basées sur l'alignement de 1 443 825 pb. Le bootstrap PhyML prend en charge l'égalité à 100 % pour tous les nœuds. Les probabilités postérieures bayésiennes sont égales à 1,0 pour tous les nœuds. MP bootstrap prend en charge une valeur égale à 100 % pour tous les nœuds, à l'exception d'une valeur de 95 % sur un nœud. Les longueurs de branches reflètent les distances de vraisemblance calculées par PAUP* Ver. 4.0b10 en utilisant le modèle GTR + I + Γ choisi par ModelTest.

Analyses NJ d'ensembles de données d'acides aminés et de nucléotides. Topologie d'arbre et longueurs de branches optimales obtenues par des analyses NJ de nucléotides (La gauche) en utilisant la distance de vraisemblance composite maximale et l'acide aminé (Droit) en utilisant la distance JTT. Les valeurs d'amorçage de tous les nœuds étaient de 100 % pour 1 000 réplicats, sauf lorsqu'indiqué par * (=97 %). Une topologie arborescente identique à celle montrée pour les acides aminés a été obtenue lorsque seules les première et deuxième positions de codon ont été utilisées.

L'arbre NJ confirme la présence du clade Atlantogenata avec un support bootstrap de 100%, bien qu'il diffère des trois autres méthodes en ne supportant pas Euarchontoglires ou Glires comme monophylétique, indiquant les rongeurs comme le premier clade placentaire ramifié et décrivant Laurasiatheria comme le groupe frère à primates (Fig. 3). Les résultats de parcimonie et de NJ des séquences d'acides aminés traduites représentent tous deux une division basale entre Atlantogenata et Boreoeutheria. Alors que les résultats des données de parcimonie des acides aminés et des séquences de nucléotides montrent une topologie identique, l'arbre d'acides aminés du NJ représente un clade boréoeutherien non détecté à l'aide des données de séquence nucléotidique et indique que Lagomorpha est le frère d'un clade qui comprend le reste de Boreoeutheria (Fig. 3). Notamment, avec les séquences nucléotidiques, lorsque seules les positions des premier et deuxième codons (positions moins susceptibles d'être saturées par des mutations superposées) sont conservées, l'arbre NJ représente à nouveau la divergence placentaire basale entre Atlantogenata et Boreoeutheria.

Nous avons effectué des tests de topologie de parcimonie et de vraisemblance sur les arbres phylogénétiques construits en utilisant les données de séquences nucléotidiques codantes (tableaux 1 et 2). Les tests de vraisemblance indiquent clairement l'arbre représenté sur les Fig. 1 C et 2 est l'arbre optimal (P < 0,0001 Tableau 1). Les arbres représentés sur la figure 1 UNE, B, et sont rejetés comme étant sous-optimaux. Les résultats des tests de parcimonie rejettent également les topologies représentées sur la figure 1 UNE et en faveur de la figure 1 C (Tableau 2) cependant, la topologie de la Fig. 1 B ne peut pas être rejeté (P = 0,0897 test de Templeton). Les scores de parcimonie de ces deux topologies ne diffèrent que de 73 étapes.

Tests de vraisemblance des topologies alternatives

Tests de parcimonie des topologies alternatives


Les références

Benner SA, Chamberlin SG, Liberles DA, Govindarajan S, Knecht L: Inférences fonctionnelles à partir de la biologie évolutive reconstruite impliquant des bases de données rectifiées - une approche fondée sur l'évolution de la génomique fonctionnelle. Rés. Microbiole. 2000, 151 : 97-106. 10.1016/S0923-2508(00)00123-6.

Benner SA, Ellington AD : Interprétation du comportement des enzymes But ou pedigree ?. Critique CRC. Rév. Biochem. 1988, 23 : 369-426.

Kimura M : Polymorphisme des protéines d'évolution moléculaire et théorie neutre. Berlin : Springer-Verlag,. 1982

Li WH, Wu CI, Luo CC : Une nouvelle méthode pour estimer les taux de substitution de nucléotides synonymes et non synonymes compte tenu de la probabilité relative de changements de nucléotides et de codons. Mol.Biol.Evol. 1985, 2 : 150-174.

Pamilo P, Bianchi NO : Evolution des gènes Zfx et Zfy : taux et interdépendance entre les gènes. Mol.Biol.Evol. 1993, 10 : 271-281.

Trabesinger-Ruef N, Jermann TM, Zankel TR, Durrant B, Frank G, Benner SA : Pseudogenes in ribonuclease evolution : A source of new biomacromolecular function ?. FEBS Lett. 1996, 382 : 319-322. 10.1016/0014-5793(96)00191-3.

Messier W, Stewart CB : Evolution adaptative épisodique des lysozymes de primates. La nature. 1997, 385 : 151-154. 10.1038/385151a0.

Makalowski W, Boguski MS : Paramètres évolutifs du génome mammifère transcrit : Une analyse de 2820 séquences orthologues de rongeurs et humains. Proc. Natl. Acad. Sci., États-Unis. 1998, 95 : 9407-9412. 10.1073/pnas.95.16.9407.

Dahlhoff EP, Rang NE : Conséquences fonctionnelles et physiologiques de la variation génétique à la phosphoglucose isomérase : L'expression de la protéine de choc thermique est liée au génotype de l'enzyme chez un coléoptère des montagnes. Proc. Natl. Acad. Sci., États-Unis. 2000, 97 : 10056-10061. 10.1073/pnas.160277697.

Zhang J, Ziqian H, Tame JRH, Lu G, Zhang R, Gu X : La structure cristalline d'une espèce d'hémoglobine à haute affinité pour l'oxygène. hémoglobine d'oie à tête barrée sous forme oxy. J. Mol. Biol. 1996, 255 : 484-493. 10.1006/jmbi.1996.0040.

Nei M, Gu X, Sitnikova T : évolution par le processus de naissance et de mort dans les familles multigéniques du système immunitaire des vertébrés. Proc. Natl. Acad. Sci., États-Unis. 1997, 94 : 7799-7806. 10.1073/pnas.94.15.7799.

Crandall KA, Kelsey CR, Imamichi H, Lane HC, Salzman NP : évolution parallèle de la résistance aux médicaments dans le VIH : échec du ratio de taux de substitution non-synonyme/synonyme pour détecter la sélection. Mol. Biol. Évol. 1999, 16 : 372-382.

Wigger M : Synthèse combinatoire assistée par récepteur. RACS.- Une nouvelle approche pour la chimie combinatoire. Zuerich : Thèse de doctorat #12929 Institut fédéral suisse de technologie,. 1998

Fitch WM : Vers une définition du cours de l'évolution : changement minimum pour une topologie d'arbre spécifique. Syst.Zool. 1971, 20 : 406-416.

Page RDM, Holmes EC : évolution moléculaire, une approche phylogénétique. Oxford : Blackwell Sciences,. 1998

Peltier MR, Raley LC, Liberles DA, Benner SA, Hansen PJ : histoire évolutive des serpines utérines. J. Exp. Zoo. 2000, 288 : 165-174. 10.1002/1097-010X(20000815)288:2<165::AID-JEZ7>3.3.CO2-I.

Duret L, Mouchiroud D, Guoy M : HOVERGEN : une base de données de gènes de vertébrés homologues. Recherche sur les acides nucléiques. 1994, 22 : 2360-2365.

Bateman A, Birney E, Durbin R, Eddy SR, Howe KL, Sonnhammer ELL : la base de données des familles de protéines Pfam. Recherche sur les acides nucléiques. 2000, 28 : 263-266. 10.1093/nar/28.1.263.

Endo T, Ikeo K, Gojobori T : Recherche à grande échelle de gènes sur lesquels une sélection positive peut opérer. Mol. Biol. Évol. 1996, 13 : 685-690.

Bode W, Renatus M : activateur du plasminogène de type tissulaire : des variantes et des structures cristal/solution délimitent les déterminants structurels de la fonction. Cour. Avis. Struct. Biol. 1997, 7 : 865-872. 10.1016/S0959-440X(97)80159-5.

Nakashima KI, Nobuhisa I, Deshimaru M, Nakai M, Ogawa T, Shimohigashi Y, Fukumaki Y, Hattori M, Sakaki Y, Hattori S, Ohno M: L'évolution accélérée dans les régions codant pour les protéines est universelle dans la phospholipase A des glandes de venin de serpent Crotalinae (2) gènes d'isoenzymes. Proc. Natl. Acad. Sci., États-Unis. 1995, 92 : 5605-5609.

Hughes AL, Net M: Les modèles de substitution de nucléotides aux loci de classe I du complexe majeur d'histocompatibilité révèlent une sélection surdominante. La nature. 1988, 335 : 167-170. 10.1038/335167a0.

Lee SJ, McPherron AC : La myostatine et le contrôle de la masse musculaire squelettique. Cour. Avis. Dév. 1999, 9 : 604-607. 10.1016/S0959-437X(99)00004-0.


Un guide pour débutants pour faire un arbre phylogénétique

J'ai réalisé cette vidéo (sous le pli) pour illustrer les étapes de fabrication d'un arbre phylogénétique. Les étapes de base consistent à :

Dans le cours que j'enseigne, nous fabriquons ces arbres afin de comparer les séquences de notre expérience de métagénomique avec les multiples copies des gènes de l'ARN ribosomique (ARNr) 16S que l'on peut trouver dans des génomes bactériens uniques. Les bactéries contiennent entre 2 et 13 copies de gènes d'ARNr 16S et nous souhaitons savoir à quel point elles diffèrent les unes des autres. Plus tard, nous comparerons les gènes de l'ARN ribosomique 16S de plusieurs espèces de bactéries pour voir à quel point ces gènes diffèrent entre une variété de bactéries.

Qu'y a-t-il dans la vidéo ?
La vidéo dure environ 14 minutes, voici donc une brève description de ce qu'elle contient.

Nous commençons par obtenir des données et créer un ensemble de données. Certaines de nos données de classe proviennent de nos ensembles de données métagénomiques. Nous obtenons d'autres données du NCBI. La vidéo montre comment nous obtenons toutes les séquences de tous les gènes de l'ARNr 16S à partir de génomes uniques.

Ensuite, nous modifions l'ensemble de données pour supprimer les caractères de paragraphe et raccourcir certaines des descriptions de séquence. La plupart du temps que nous passons à faire de la bioinformatique dans la vie réelle est consacré à l'édition et au formatage des données.

Après cela, nous utilisons JalView, un programme client-serveur, pour nous connecter à un service Web de l'Université de Dundee où les séquences sont alignées par ClustalW. J'ai déjà écrit sur JalView, maintenant vous pouvez le voir en action.

Faire l'arbre est la partie la plus simple. Lorsque ClustalW aligne les séquences, il effectue également les calculs qui peuvent guider la construction de l'arbre. Nous utilisons la méthode de jointure de voisins dans cette vidéo. Les arbres voisins regroupent les séquences par le nombre de différences d'acides aminés ou de nucléotides. Les séquences les plus similaires sont placées les plus proches les unes des autres sur l'arbre.

METTRE À JOUR: Je veux clarifier quelques choses. Cette vidéo ne montre qu'une méthode simple et rapide. Les mérites des différents types de programmes de construction d'arbres ne sont pas discutés.

Autres sujets qui ne sont pas inclus :

Tous ces sujets seraient importants si nous voulons construire un arbre et le publier. Si nous voulons juste étudier les relations, la méthode de la vidéo suffira.

Plus comme ça

"Les séquences les plus similaires sont placées le plus près les unes des autres sur l'arbre."

Cela n'en fait-il pas un phénogramme plutôt qu'un cladogramme ?

Comment les biologistes moléculaires établissent-ils qu'une transition de paire de bases donnée reflète la phylogénie plutôt que la similarité ? Y a-t-il vraiment des raisons de penser que toutes les positions de codage se ressemblent en ce qui concerne leur probabilité de changer ?

Je n'ai jamais compris le penchant que les biologistes moléculaires ont pour les voisins se joignant.

Je n'avais jamais entendu parler d'un phénogramme auparavant, et j'ai dû parcourir quelques livres pour le trouver. J'ai finalement trouvé une définition dans Molecular Evolution and Phylogenetics (Nei et Kumar, 2000, Oxford University Press).Ils définissent un phénogramme comme « un arbre construit par la méthode des groupes de paires non pondérées (UPGMA) » et déclarent ensuite qu'il représente une similarité phénotypique. Cela a du sens pour moi.

Un cladogramme peut être construit à partir d'informations phénotypiques ou, comme dans notre cas, génotypiques. Donc, je dirais qu'un phénogramme est un type de cladogramme.

Maintenant, pour la probabilité qu'une mutation change une base en une autre. Les changements ne sont pas également probables. La biochimie des bases et notre expérience montrent que certains changements se produisent plus souvent que d'autres. Certains modèles évolutifs, comme le Maximum de Vraisemblance, et certains programmes bayésiens prennent en compte ces probabilités.

Ce tutoriel est destiné à une analyse simple et rapide pour une classe. Il n'entre pas dans tous les détails de la méthode qui est la meilleure.

Alex : les biologistes aiment les modèles qui s'appuient sur des données expérimentales. Je devrai écrire à ce sujet un jour, mais il y a eu des expériences qui ont testé la capacité des programmes de construction d'arbres à prédire les arbres corrects, là où l'histoire de l'évolution était connue.

Il s'est avéré que la parcimonie était la pire, le maximum de vraisemblance, le meilleur, et la jointure entre voisins était généralement assez bonne et donnait généralement des résultats similaires aux prédictions du maximum de vraisemblance.

D'autres raisons sont que la jointure entre voisins est rapide et pose moins de problèmes de calcul que le maximum de vraisemblance. Si j'utilise de grands ensembles de données provenant d'études SNP et que j'essaie d'utiliser le programme de probabilité maximale de Phylip, avec bootstrapping, etc., je peux planter mon ordinateur Mac OS X assez facilement ou au moins le bloquer pendant quelques heures. Si j'utilise la jointure par voisins, j'ai une réponse assez bonne en peu de temps.

Enfin, les biologistes aiment utiliser les méthodes standard que d'autres biologistes utilisent. En microbiologie, les arbres de jonction voisins sont une méthode standard.

Je suppose que vous avez raison de dire que le choix de la méthode est une question culturelle. Dans ce cas, les microbiologistes utilisent une méthode inférieure simplement parce que tout le monde le fait.

Nous, systématiciens, avons nos propres problèmes culturels, bien sûr. Bien que nous soyons innovants avec des algorithmes phylogénétiques et des astuces de données sophistiquées, la plupart des systématiciens ont au moins 5 ans de retard sur la technologie des bancs moléculaires. Alors que le reste de la biologie est en train de rassembler des EST et des puces à ADN, nous effectuons toujours la PCR des mêmes gènes ribosomiques stupides avec les mêmes amorces utilisées il y a 15 ans.

J'utilise NJ tout le temps pour les travaux préliminaires. C'est super pour vérifier la contamination. Mais aucune revue de phylogénétique à comité de lecture n'accepterait de nos jours un arbre exclusivement NJ, pour une bonne raison. Les méthodes de distance compressent la plupart des informations de vos données et limitent considérablement ce que vous pouvez réellement faire avec un arbre.

Et si vous éteignez votre ordinateur quelques heures ? Bon sang, ce n'est rien. Si vous allez passer des mois sur le banc pour obtenir les données, quel est le problème de passer une semaine supplémentaire pour utiliser la meilleure analyse disponible ?

1. Ce n'est pas destiné à créer des arbres qui peuvent être publiés dans des revues de phylogénétique, bien qu'il soit assez facile de trouver des publications dans des revues de microbiologie qui ont des arbres voisins. Il s'agit d'une méthode simple et rapide que nous pouvons utiliser en classe.

2. Je serais un peu prudent avec ces ARNr 16S. Certaines bactéries ont jusqu'à 14 copies différentes de gènes d'ARNr, et souvent, elles sont toutes différentes.

3. Je suis d'accord avec vous sur l'utilisation de la meilleure méthode d'analyse possible lorsque vous répondez à des questions de recherche, mais les méthodes qui nécessitent des calculs intensifs ne conviennent pas à une salle de classe. Si vous disiez aux élèves que leur ordinateur allait travailler sur un problème pendant quelques heures et qu'ils ne pourraient pas l'utiliser, ils paniqueraient !

"Si j'utilise la jointure par les voisins, j'ai une réponse assez bonne en peu de temps."

Comment décidez-vous de ce qui est « assez bon » en l'absence d'un résultat attendu (phylogénie) ? Existe-t-il des études suggérant que les résultats auxquels vous avez fait allusion plus tôt (la jointure des voisins se comporte comme les méthodes de probabilité maximale) se généralisent réellement ?

On pourrait également se demander si dans ces expériences où la réponse était « connue » et que celles-ci étaient très proches de courtes accumulations de poussées de changements mutationnels stochastiques sous sélection artificielle, le succès des méthodes de probabilité maximale ne serait-il pas attendu ? L'accumulation de petits changements aléatoires sur de courtes périodes de temps serait le plus susceptible de s'adapter au modèle de « mouvement brownien » sous-jacent aux méthodes de probabilité maximale. Dans de telles circonstances, ils auraient plus de chances de réussir à capturer le "vrai" arbre. Étant donné des délais plus (phylogénétiquement réalistes) pour l'accumulation de changements non indépendants entre les positions, le modèle de mouvement brownien pourrait ne pas s'appliquer aussi facilement. Par conséquent, ne pourrait-on pas s'attendre à ce que d'autres modèles reflètent potentiellement plus étroitement « la vraie phylogénie » dans de telles circonstances ?

Par conséquent, la question pourrait se reposer : comment les biologistes moléculaires testent-ils les conséquences potentielles d'un changement de position non indépendant ? Ici, je ne parle pas simplement de substitutions de pyrimidine à pyrimidine par rapport à pyrimidine à purine, car les rapports ou les facteurs nécessaires pour corriger les différentes fréquences de tels changements peuvent dépendre de l'échantillon. C'est-à-dire, en fonction des groupes d'organismes que l'on échantillonne pour obtenir des différences observées de fréquence entre les transitions et les transversions. Il semble dans ce cas que des facteurs de correction et des justifications très différents de leur utilisation aient été appliqués.

Je n'essaie pas d'être difficile, mais je suis plutôt intéressé à établir les hypothèses fondamentales que les biologistes moléculaires utilisent pour faire des inférences phylogénétiques à partir de leurs données, puis soutiennent que ces résultats se généralisent à d'autres organismes, arrivant ainsi à des arbres " phylogénétiquement informatifs ", vraisemblablement " vrais ". .

Il a été dit que les biologistes moléculaires aiment utiliser
« méthodes standard ». Certes, la répétabilité est essentielle à une bonne science. Cependant, se pourrait-il que les méthodes standard découlent également de l'utilisation de modèles plus simples et plus rapides sur le plan informatique et pas nécessairement le résultat de fondements conceptuels qui se généralisent à tous les taxons, car, comme certains l'ont dit, les réponses semblent « assez bonnes » ?

"2. Je serais un peu prudent avec ces ARNr 16S. Certaines bactéries ont jusqu'à 14 copies différentes de gènes d'ARNr, et souvent, elles sont toutes différentes."

C'est intéressant, pourriez-vous avoir une citation.

En tant que PS, je voudrais dire que j'apprécie certainement vos efforts pour fournir des outils d'éducation. Il s'agit d'un domaine scientifique complexe et en évolution rapide et il est difficile d'y pénétrer pour le lecteur non averti. J'essaie simplement d'apprendre moi-même et de suggérer que le fait de décrire les diverses hypothèses formulées fournit un guide qui peut inciter certains étudiants à en savoir plus sur les détails.

Je vais devoir répondre en morceaux.

Tout d'abord, la question de ce qui est « assez bien » ?

Nous utilisons la phylogénétique comme l'un des nombreux outils pour examiner les gènes de l'ARN ribosomique 16S à partir d'un ensemble diversifié de séquences obtenues à partir de bactéries vivant soit près d'un ruisseau, soit dans une forêt.

Dans une expérience, nous comparons les gènes de l'ARNr 16S au sein de génomes uniques les uns aux autres pour voir à quel point ils sont similaires ou différents. Par exemple, B. thuringensis possède 14 gènes d'ARNr différents. Sont-ils identiques, différents, à quel point ?

Le voisin joignant les arbres en combinaison avec les données d'alignement multiple nous donne la réponse.

La question suivante, est-ce que nous avons correctement identifié nos bactéries inconnues ? Tombe-t-il dans la section appropriée de l'arbre? Pour cette partie, nous comparerons une séquence d'un échantillon que nous avons étudié à un ensemble de diverses séquences d'ARNr 16S et verrons où elle aboutit.

Quels sont nos objectifs pour cette enquête ? Certains sont énumérés ci-dessous :

  • 1. Que les élèves comprennent ce qu'un arbre essaie de montrer.
  • 2. Que les élèves sachent qu'un arbre montre le nombre de changements et que les séquences ancestrales sont d'un côté et les séquences plus jeunes de l'autre.
  • 3. Que les élèves voient que des espèces similaires sont regroupées.
  • 4. Que les élèves commencent à apprendre à interpréter les informations contenues dans un arbre.
  • 5. Que les élèves apprennent à évaluer l'information dans plusieurs alignements de séquences.
  • 6. Que les élèves apprennent à trouver des données et à construire des ensembles de données.

Je suppose que vous pourriez citer GenBank ou regarder le film. Dans le film, je montre comment accéder au NCBI, localiser la base de données du projet Genome, rechercher Bacillus thuringensis et trouver tous les gènes d'ARNr 16S dans le génome.

Cependant, vous devrez peut-être consulter plusieurs enregistrements. Je ne me souviens pas quelle souche avait 14 gènes d'ARNr 16s, tous les génomes Bt sont différents, même au sein de la même espèce.

et répondre à d'autres questions :

Existe-t-il des études suggérant que les résultats auxquels vous avez fait allusion plus tôt (la jointure des voisins se comporte comme les méthodes de probabilité maximale) se généralisent réellement ?

Ceux que je connais ont généralement regardé au sein d'organismes uniques - comme le VIH, ou un phage, E. coli, ou de grands mammifères, comme les chats.

Pourquoi est-ce que je pense qu'on devrait pouvoir généraliser d'une espèce à l'autre ?

1. Les acides nucléiques sont régis par les mêmes règles chimiques partout où ils se trouvent.
L'ADN se comporte toujours comme l'ADN et l'ARN comme l'ARN. La composition peut affecter la forme et la flexion mais pas la tendance à muter.

2. La plupart des organismes ont des enzymes aux propriétés similaires qui sont impliquées à la fois dans les mutations et dans la réparation de l'ADN.

Ainsi, les événements de mutation et la réparation des mutations sont susceptibles d'être similaires dans différents organismes, pas identiques, mais similaires.

Par conséquent, la question pourrait être posée, comment les biologistes moléculaires testent-ils les conséquences potentielles d'un changement de position non indépendant ?

Je suis confus par l'expression "changement de position non indépendant".

Je suis également confus par la déclaration ci-dessous:

Compte tenu de délais plus (phylogénétiquement réalistes)

Un délai réaliste peut être plus rapide que vous ne le pensez. En fait, cela peut se produire en quelques jours ou semaines, selon le temps de génération de l'organisme que vous étudiez.

Merci d'avoir pris le temps de répondre.

Ce à quoi je fais référence sous la rubrique "changement de position non indépendant" est donné deux sites (positions) présumés homologues sur un brin d'ADN/ARN, c'est la probabilité de mutation et de changement (peut-être une mutation sans réparation ou une mutation avec réparation incorrecte) équiprobable d'une position à l'autre, ou peut-il y avoir certains sites (disons une série dans une région alambiquée ou pliée ou critique pour une fonction particulière qui pourrait devoir rester conservatrice, ou plus fidèlement réparée, ou peut-être réparée d'une manière qui plus susceptibles de maintenir une base spécifique par opposition à une autre, ou peut-être un tronçon qui est lié aux histones d'une manière qui pourrait les protéger différemment de la mutation. Par conséquent, ils semblent être plus conservateurs en ce qui concerne la mutation, qui elle-même pourrait agir Par conséquent, on pourrait envisager deux types différents de changement non indépendant (celui dû à la position seule et qui pourrait s'accumuler sur plusieurs sites g a agi simultanément, bien que l'effet ne puisse pas être facilement différencié.

Si de telles considérations sont des possibilités réalistes, alors on ne peut pas nécessairement présumer que le décompte des différences de paires de bases (étapes dans le langage des algorithmes de parcimonie) refléterait la « même » quantité de changement.

D'après ce que j'ai compris, tous les sites présumés « informatifs sur le plan phylogénétique » sont traités comme étant également capables de changer aux fins de compter les étapes pour la plupart des algorithmes. La « non-indépendance » potentielle dans peut-être des « lignes mieux protégées » pourrait fournir une meilleure idée de la sélection stabilisatrice même si elles peuvent à peine varier au sein d'un groupe, par rapport aux positions auxquelles plus de dissemblance est évidente. Ainsi, l'ironie pourrait être que les sites hautement conservés semblent être moins informatifs sur le plan phylogénétique puisqu'ils ne varient pas de manière appréciable par rapport à des sites plus labiles, mais que lorsqu'ils changent, un tel changement peut être plus biologiquement (et phylogénétiquement) significatif.

Je reconnais que les facteurs que je suggère sont en grande partie spéculatifs et au mieux mal compris (certainement par moi). Cependant, je ne comprends pas pourquoi les phylogénies moléculaires ignorent largement la possibilité d'un changement de position hautement non aléatoire sur un brin d'acide nucléique et la probabilité de changement à n'importe quel endroit du brin est considérée comme équiprobable (ou du moins c'est ma compréhension actuelle ).

Je peux certainement comprendre la traçabilité mathématique qu'une telle hypothèse fournit. Je suppose que j'essaie de comprendre comment il est conclu que cette hypothèse est justifiée, sur la base de ce qui est connu sur la mutation, la réparation de l'ADN, les problèmes de conformation, etc. et le changement phylogénétique présumé.

Existe-t-il de bonnes sources primaires pour de telles questions sur lesquelles la plupart des biologistes moléculaires se sont appuyés ?

Pour poursuivre sur un autre détail plus tôt, en général, on peut adopter une notion plus générale d'un phénogramme qui pourrait refléter une "relation" basée sur des attributs phénotypiques en utilisant n'importe quel algorithme aglomératif ou de division, pas nécessairement seulement UPGMA. Par conséquent, les états primitifs partagés seraient pondérés ainsi que les états dérivés partagés. En revanche, un cladogramme est utilisé pour afficher une topologie arborescente dérivée de l'hypothèse que l'on ne considère que les "états d'avance partagée" pour établir un critère de proximité. La sympléisiomorphie serait exclue.

Ah, je vois ce que tu veux dire maintenant. J'aurai le temps de mieux répondre dans quelques heures, pour le moment, vous aimeriez peut-être y jeter un œil.

D'accord - je peux aborder une partie de la réponse.

Premièrement, je ne pense pas tout les programmes de phylogénétique prennent en compte la biologie sauf lorsqu'ils utilisent des matrices, comme BLOSUM, dérivées de données expérimentales concernant la probabilité observée qu'un acide aminé en remplace un autre.

1. Il existe des points chauds où les mutations se produisent plus fréquemment que d'autres. C'est bien connu. Beaucoup d'entre eux sont connectés à l'ADN mobile comme les transposons, ou à l'ADN avec certains types de structure secondaire, ou à l'ADN répétitif.

2. Si des mutations se produisent dans certaines positions, l'organisme ne sera pas viable, c'est-à-dire ne vivra pas - nous ne verrions donc pas ces mutations.

3. Nous ne pouvons pas mesurer les révertants, donc nos chiffres seront toujours quelque peu décalés.

4. Un arbre phylogénétique est une inférence. Ce n'est pas la vraie façon dont quelque chose s'est passé. Nous n'avons peut-être pas besoin d'un tel degré de précision.

Troisièmement, pourquoi cette information n'est-elle pas utilisée en phlylogénie ? Me bat. C'est peut-être difficile à faire.

Peut-être aussi que nous n'avons pas besoin de ce niveau de détail pour beaucoup de choses. Je connais surtout l'utilisation des arbres en épidémiologie moléculaire. Si nous essayons de déterminer si une souche de E. coli provenait d'une bouteille de jus de pomme biologique, nous pouvons le découvrir avec les outils que nous avons sous la main. Si nous essayons de savoir si les infirmières ont pu contaminer les enfants avec le VIH, nous avons déjà les outils à portée de main.

Ce que tout le monde semble oublier ici, c'est que l'analyse NJ n'est PAS une analyse phylogénétique ! Neighbor-joining est une méthode de cluster basée sur la similitude globale des données, et dans ce cas, les séquences. Il ne reflète en aucun cas l'histoire évolutive du groupe, il vous dit seulement à quel point vos séquences sont « similaires ». Les caractères dans NJ ne sont pas évalués comme étant ancestraux et/ou dérivés, synapomorphies ou apomorphies, etc. La longueur des branches ne représente que le pourcentage de différence de séquence. Plus elles sont longues, plus vos séquences sont "différentes". La méthode phylogénétique «réelle» la plus simple aurait été une parcimonie maximale, que vous auriez dû utiliser, et non une jointure voisine.

Merci d'avoir remis les pendules à l'heure, Vazrick.

On dirait que quelqu'un s'est laissé emporter par "NJ" et d'autres jargons de l'évolution moléculaire.

d'ailleurs, « phylogénie » est l'un des mots les plus abusés en biologie de nos jours, les gens peuvent vouloir revenir à la littérature de l'époque d'Ernst Haeckel lorsque ces termes ont été inventés (phylétique, phénétique, phylogénie, phylogenèse, ontogenèse, ontogenèse, etc. . en fait, ils ont d'abord été proposés en allemand).

J'aime mieux les méthodes théoriques lorsqu'elles sont étayées par des données expérimentales. Dans les articles que j'ai lus, (et je suppose que je vais devoir bloguer à leur sujet à un moment donné) ML est le mieux pris en charge, NJ, le meilleur suivant et MP, le moins.

Les données ont une façon de poser des problèmes aux théories les plus élégantes.

Être pris en charge au mieux ou au moins ne change pas le fait que la façon dont les données sont traitées dans NJ par rapport à toutes les autres méthodes est différente. Il faut comprendre la différence fondamentale entre une analyse phénétique [cluster] (c. NJ ne se soucie pas du tout de l'évolution, et juste parce que le résultat de l'analyse NJ ressemble à un arbre, cela n'en fait pas une phylogénie. NJ prend deux séquences, compte le nombre de différences entre elles, divise par la longueur totale et vola - vous donne une différence en pourcentage. Dans une phylogénie qui reflète l'évolution, cependant, les changements de caractère sont importants. Il est vrai que la parcimonie n'est pas toujours la meilleure, mais c'est la plus rapide de toutes les méthodes cladistiques car elle suppose que la meilleure réponse est celle qui nécessite le moins de changement et donc rejette toute autre variation. Les méthodes de vraisemblance (y compris l'inférence bayésienne) sont les plus puissantes simplement parce qu'elles fonctionnent avec des modèles de substitution de nucléotides qui prennent en compte autant de variation que théoriquement possible, et c'est ce qui les rend gourmandes en calculs.
Vous pouvez amorcer vos données avec n'importe quel arbre produit par n'importe quelle méthode et obtenir des valeurs de support, cela ne change rien au fait que l'arbre NJ n'a rien à voir avec l'histoire évolutive de votre groupe d'intérêt.

Où commencer? Je pense que c'est formidable que vous enseignez cela aux étudiants. Puisqu'il y a un débat ici et là sur le fonctionnement des méthodes et les définitions de certains termes, j'ai pensé que je dirigerais les gens vers un chapitre en ligne de mon nouveau manuel Evolution que les gens devraient pouvoir lire sur

Une chose que je voudrais réfuter est un commentaire de Vazrick sur l'adhésion des voisins. La jointure entre voisins est en effet une méthode phylogénétique au sens propre du terme. C'est une méthode pour prendre des distances et déduire un arbre phylogénétique. Ce n'est en fait PAS une méthode de clustering, bien qu'elle présente de nombreuses similitudes avec les méthodes de clustering.

Cela ressemble à une excellente ressource!

Super article! Pour ceux qui sont intéressés, j'ai rédigé il y a quelque temps un court article sur le logiciel de phylogénétique Mac OS X. http://www.jacksofscience.com/biology/mac-os-x-phylogenetics-software-m…

Merci Kieran ! Une chose que vous voudrez peut-être corriger, PHYLIP n'est pas un programme unique. C'est un package avec environ 30 programmes différents.

Les bactéries contiennent entre 2 et 13 copies de gènes d'ARNr 16S.

Clarification: Nitrosomonas les espèces ont 1 opéron rrn.

Ouais, je devrais dire plus les bactéries ont entre 2 et 13 copies.

Juste une remarque, vous trouverez peut-être qu'il est considérablement plus facile de manipuler (ou d'importer) des séquences en utilisant eBioX plutôt que MS Word. )

Bonjour, votre clip est bon et cela me permet de mieux comprendre comment construire un arbre phylogénétique.Cependant, j'essayais de créer un arbre phylogénétique pour les sulfotransférases (qui est un alignement de protéines). Lorsque je recherche dans NCBI, je ne parviens pas à trouver le lien pour la région d'ADN au format FASTA. Donc, je clique sur l'icône "structure" et je ne peux trouver qu'une superfamille Acultransferase où la superfamille comprenait un ensemble de modèles de domaine conservés, à partir d'une ou plusieurs bases de données sources. Dois-je inclure toutes les sources d'une seule espèce de micro-organisme ? Ou? Pouvez-vous s'il vous plaît suggérer.

Je ne sais pas quelle est votre question.

Essayez-vous de trouver les séquences d'ADN qui codent vos protéines ?

Oui, j'essaie de trouver les séquences d'ADN qui codent les protéines, ce qui ressemble à ceci "mkvlvlggdg fcgwpcavnl" Suis-je toujours capable de construire l'arbre phylogénétique ?

Si vous avez les séquences protéiques, il serait préférable de construire votre arbre phylogénétique avec les séquences protéiques.

Si vous trouvez que les séquences de protéines sont trop similaires, vous devrez alors trouver les séquences d'ADN correspondantes. Cela peut être un peu délicat, mais si vous voulez savoir comment faire, faites le moi savoir. Décrire ce processus nécessitera un article de blog entier.

J'ai essayé d'utiliser les séquences protéiques pour construire l'arbre phylogénétique, mais ce n'est pas la même chose que ce que j'ai lu dans la revue de littérature. Pensez-vous qu'il y aura des différences dans l'utilisation de la protéine ou de la séquence d'ADN pour construire l'arbre phylogénétique ? Ou pouvez-vous s'il vous plaît m'apprendre comment utiliser la séquence d'ADN correspondante pour construire l'arbre phylogénétique. Merci beaucoup.

Tu as demandé: Pensez-vous qu'il y aura des différences dans l'utilisation de la protéine ou de la séquence d'ADN pour construire l'arbre phylogénétique ?

Oui, je peux penser à de nombreuses raisons pour lesquelles vous pourriez obtenir des résultats différents.

1. La littérature pourrait se tromper.
2. Vous utilisez peut-être le mauvais groupe externe.
3. Vous pourriez inclure des gènes paralogues par erreur au lieu de restreindre votre analyse aux orthologues. Les orthologues sont le gène équivalent dans un organisme différent. Les paralogues sont des membres différents de la même famille de gènes.
4. S'il existe un épissage alternatif et que vous comparez des protéines fabriquées par différentes isoformes
5. Si vous utilisez un algorithme différent pour générer les arbres. Si l'arbre publié a été généré par parcimonie ou probabilité multiple et que vous utilisez l'algorithme de jointure de voisins, vous pourriez avoir des résultats différents
6. Enfin, de nombreux algorithmes (parcimonie et vraisemblance multiple, par exemple) produisent des arbres multiples. Déterminer quel arbre est correct n'est pas toujours une tâche triviale.

Je vais essayer d'écrire un article de blog à ce sujet dans les semaines à venir.

SALUT. Je suis assez nouveau dans ce domaine de recherche. J'ai séquencé mon produit PCR et suivi la recherche BLAST.
Je ne comprends pas comment je peux dessiner l'arbre phylogénétique.
Quelqu'un peut-il aider la méthode étape par étape?

La chose la plus simple que vous puissiez faire est de faire une recherche BLAST par rapport aux séquences que vous aimeriez avoir dans votre arbre, puis, dans la section supérieure des résultats BLAST, sélectionnez le lien qui dit "Arbre de résultats à distance". Un arbre apparaîtra.

salut! problème avec le formatage de fichier pour MEGA! j'utilisais le MEGA, j'essayais de formater les fichiers fasta dans le .meg, le processus de saisie des données suivait les règles (du moins je pense qu'il n'y a rien de mal avec mon processus de saisie), le système a converti le fasta en .meg, mais quand je l'ai ouvert et essayé de construire l'arbre, le système m'a montré ceci : (les séquences alignées doivent être de longueurs égales (à la ligne 56)), la ligne 56 est le nom de la souche, cela n'a rien à voir avec les séquences. puis j'ai supprimé toute la ligne 56 et sa séquence avec, pour voir si le problème n'était qu'un problème individuel. J'ai ouvert à nouveau le fichier, puis la même erreur à la même ligne 56 ! que dois-je faire avant de devenir fou !

J'ai moi aussi eu le même problème aujourd'hui. Je n'ai jamais rencontré cela auparavant. Je vais essayer de résoudre ce problème et revenir bientôt.

salut j'ai un problème de création d'un modèle d'arbre phylogénétique

Est-il possible de comparer les séquences protéiques des vaccins antigrippaux avec les virus prévalents au cours d'une année donnée ?

Oui. Vous pouvez comparer tous les groupes de séquences que vous souhaitez.

Le NCBI a une excellente base de données sur la grippe ici : http://www.ncbi.nlm.nih.gov/genomes/FLU/

Vous pouvez trouver des séquences par année et télécharger des séquences de protéines ou de nucléotides au format FASTA.

Moi aussi j'ai eu le même problème aujourd'hui. Je n'ai jamais rencontré cela auparavant. Je vais essayer de résoudre ce problème et revenir bientôt.

J'apprécie de me dire comment lire et interpréter l'arbre phylogénétique des souches virales de l'influenza aviaire.

Quels sont les nombres au nœud? que signifient-ils?
que sont les 0,1 soulignés au bas de l'arbre et qu'est-ce que cela signifie ?

Comment dire que les deux souches virales sont homologues ?

Salut! J'avais également des problèmes avec le message "Les séquences alignées doivent être de longueurs égales" et je devais simplement supprimer un "?" c'était dans l'un de mes noms de séquence. Alors peut-être que des caractères étranges dans les noms causent le problème. J'espère que cela t'aides.

Je voulais vraiment demander,
pour arbre NJ,
à quoi reflète la longueur de la branche ?
Est-ce que plus la branche est longue, plus l'évolution s'est produite ? et les espèces peuvent-elles être dites dérivées ?

L'arbre NJ aura-t-il un terminal d'arbre inégal, n'est-ce pas ?

et à quelle position des points de nœud reflète-t-elle?

J'ai cherché pendant deux jours le manuel pour interpréter l'arbre mais je n'arrive qu'à trouver la méthode de l'arbre reconstruite que je ne pouvais pas comprendre..Je veux juste savoir comment interpréter l'arbre..Pouvez-vous s'il vous plaît donner un guide ou manuel ? Merci beaucoup

La longueur de la branche correspond au nombre de différences entre les séquences, vous pouvez donc la considérer comme reflétant la quantité d'évolution.

Je pense que ce site de Berkeley a un guide assez clair pour interpréter les arbres : http://evolution.berkeley.edu/evolibrary/article/side_0_0/evo_05

La vidéo comment construire un arbre phylogénétique ne semble plus être sur VIMEO. Est-il possible d'en obtenir une copie directement auprès de vous ?
Je voudrais l'utiliser dans ma classe.

Je suis resté bloqué à un moment donné dans la construction de l'arbre ML à l'aide de Phylip. J'ai généré un arbre à l'aide de la méthode ML mais je n'ai pas pu obtenir les distances des arbres qui y apparaissent.
Pourriez-vous s'il vous plaît me donner des conseils par étapes pour obtenir les distances d'arbre sur l'arbre ML créé par Phlip3.6.

Pour info : j'ai remplacé le code d'intégration vidéo - il fonctionne maintenant.

Dulan : En ce qui concerne les distances entre les branches, essayez de visualiser votre arbre dans un programme de visualisation d'arbres comme NJ plot ou JalView. Il y a un réglage dans ces deux programmes pour montrer les distances de branchement.

Vous pouvez également essayer d'autres programmes pour générer des arbres ML. Mega est assez convivial.

Faire un don

ScienceBlogs est l'endroit où les scientifiques communiquent directement avec le public. Nous faisons partie de Science 2.0, une organisation à but non lucratif d'enseignement scientifique opérant en vertu de la section 501(c)(3) de l'Internal Revenue Code. Veuillez faire un don déductible des impôts si vous appréciez la communication scientifique indépendante, la collaboration, la participation et le libre accès.

Vous pouvez également faire vos achats en utilisant Amazon Smile et même si vous ne payez rien de plus, nous obtenons un petit quelque chose.


Apparences trompeuses

Certains organismes peuvent être très étroitement liés, même si un changement génétique mineur a causé une différence morphologique majeure pour les rendre très différents. De même, des organismes non apparentés peuvent être apparentés de façon éloignée, mais se ressemblent beaucoup. Cela se produit généralement parce que les deux organismes avaient des adaptations communes qui ont évolué dans des conditions environnementales similaires. Lorsque des caractéristiques similaires se produisent en raison de contraintes environnementales et non en raison d'une relation évolutive étroite, on parle d'analogie ou d'homoplasie. Par exemple, les insectes utilisent des ailes pour voler comme les chauves-souris et les oiseaux, mais la structure des ailes et l'origine embryonnaire sont complètement différentes. Celles-ci sont appelées structures analogues ([Figure 2]).

Des traits similaires peuvent être soit homologues, soit analogues. Des structures homologues partagent une origine embryonnaire similaire. Des organes analogues ont une fonction similaire. Par exemple, les os de la nageoire avant d'une baleine sont homologues aux os du bras humain. Ces structures ne sont pas analogues. Les ailes d'un papillon et les ailes d'un oiseau sont analogues mais non homologues. Certaines structures sont à la fois analogues et homologues : les ailes d'un oiseau et les ailes d'une chauve-souris sont à la fois homologues et analogues. Les scientifiques doivent déterminer quel type de similitude présente une caractéristique pour déchiffrer la phylogénie des organismes étudiés.

Figure 2 : L'aile (c) d'une abeille a une forme similaire à celle d'une aile d'oiseau (b) et d'une aile de chauve-souris (a) et elle remplit la même fonction. Cependant, l'aile d'abeille n'est pas composée d'os et a une structure et une origine embryonnaire nettement différentes. Ces types d'ailes (insecte contre chauve-souris et oiseau) illustrent une analogie : des structures similaires qui ne partagent pas une histoire évolutive. (crédit a : modification de l'œuvre par Steve Hillebrand, USFWS crédit b : modification de l'œuvre par U.S. DOI BLM crédit c : modification de l'œuvre par Jon Sullivan)


Contenu

Les arbres phylogénétiques générés par la phylogénétique computationnelle peuvent être soit enraciné ou sans racine en fonction des données d'entrée et de l'algorithme utilisé. Un arbre enraciné est un graphe orienté qui identifie explicitement un ancêtre commun le plus récent (MRCA), [ citation requise ] généralement une séquence entrée qui n'est pas représentée dans l'entrée. Les mesures de distance génétique peuvent être utilisées pour tracer un arbre avec les séquences d'entrée en tant que nœuds foliaires et leurs distances par rapport à la racine proportionnelles à leur distance génétique par rapport au MRCA hypothétique. L'identification d'une racine nécessite généralement l'inclusion dans les données d'entrée d'au moins un « exogroupe » connu pour n'être que très éloigné des séquences d'intérêt.

En revanche, les arbres non racinés tracent les distances et les relations entre les séquences d'entrée sans faire d'hypothèses concernant leur descendance. Un arbre non enraciné peut toujours être produit à partir d'un arbre enraciné, mais une racine ne peut généralement pas être placée sur un arbre non enraciné sans des données supplémentaires sur les taux de divergence, telles que l'hypothèse de l'hypothèse de l'horloge moléculaire. [3]

L'ensemble de tous les arbres phylogénétiques possibles pour un groupe donné de séquences d'entrée peut être conceptualisé comme un « espace arborescent » multidimensionnel défini de manière discrète à travers lequel les chemins de recherche peuvent être tracés par des algorithmes d'optimisation. Bien que compter le nombre total d'arbres pour un nombre non trivial de séquences d'entrée puisse être compliqué par des variations dans la définition d'une topologie d'arbre, il est toujours vrai qu'il y a plus d'arbres enracinés que non enracinés pour un nombre donné d'entrées et de choix de paramètres. [4]

Les arbres phylogénétiques enracinés et non enracinés peuvent être davantage généralisés aux réseaux phylogénétiques enracinés ou non enracinés, qui permettent la modélisation de phénomènes évolutifs tels que l'hybridation ou le transfert horizontal de gènes.

Analyse morphologique Modifier

Le problème de base en phylogénétique morphologique est l'assemblage d'une matrice représentant une cartographie de chacun des taxons comparée à des mesures représentatives pour chacune des caractéristiques phénotypiques utilisées comme classificateur. Les types de données phénotypiques utilisées pour construire cette matrice dépendent des taxons comparés pour les espèces individuelles, elles peuvent impliquer des mesures de la taille moyenne du corps, des longueurs ou des tailles d'os particuliers ou d'autres caractéristiques physiques, ou même des manifestations comportementales. Bien sûr, étant donné que toutes les caractéristiques phénotypiques possibles ne peuvent pas être mesurées et codées pour l'analyse, la sélection des caractéristiques à mesurer est un obstacle inhérent majeur à la méthode. La décision des traits à utiliser comme base pour la matrice représente nécessairement une hypothèse sur les traits d'une espèce ou d'un taxon supérieur qui sont pertinents sur le plan de l'évolution. [5] Les études morphologiques peuvent être confondues par des exemples d'évolution convergente des phénotypes. [6] Un défi majeur dans la construction de classes utiles est la forte probabilité de chevauchement inter-taxon dans la distribution de la variation du phénotype. L'inclusion de taxons éteints dans l'analyse morphologique est souvent difficile en raison de l'absence ou d'enregistrements fossiles incomplets, mais il a été démontré qu'elle avait un effet significatif sur les arbres produits dans une étude, seule l'inclusion d'espèces de singes éteintes a produit un arbre morphologiquement dérivé qui était cohérent avec celui produit à partir des données moléculaires. [1]

Certaines classifications phénotypiques, en particulier celles utilisées lors de l'analyse de groupes de taxons très divers, sont des organismes discrets et sans ambiguïté. Cependant, la représentation la plus appropriée de mesures phénotypiques variant en continu est un problème controversé sans solution générale. Une méthode courante consiste simplement à trier les mesures d'intérêt en deux ou plusieurs classes, rendant la variation continue observée comme discrètement classifiable (par exemple, tous les exemples avec des os humérus plus longs qu'un seuil donné sont notés comme membres d'un état, et tous les membres dont l'humérus les os sont plus courts que le seuil sont notés comme membres d'un deuxième état). Cela se traduit par un ensemble de données facilement manipulable, mais a été critiqué pour le mauvais rapport de la base des définitions de classe et pour le sacrifice d'informations par rapport aux méthodes qui utilisent une distribution pondérée continue des mesures. [7]

Parce que les données morphologiques sont extrêmement laborieuses à collecter, que ce soit à partir de sources bibliographiques ou d'observations sur le terrain, la réutilisation de matrices de données précédemment compilées n'est pas rare, bien que cela puisse propager des défauts dans la matrice d'origine dans de multiples analyses dérivées. [8]

Analyse moléculaire Modifier

Le problème du codage des caractères est très différent dans les analyses moléculaires, car les caractères des données de séquences biologiques sont immédiats et définis de manière discrète - des nucléotides distincts dans les séquences d'ADN ou d'ARN et des acides aminés distincts dans les séquences de protéines. Cependant, la définition de l'homologie peut être difficile en raison des difficultés inhérentes à l'alignement de séquences multiples. Pour un MSA écartelé donné, plusieurs arbres phylogénétiques enracinés peuvent être construits qui varient dans leurs interprétations dont les changements sont des « mutations » par rapport aux caractères ancestraux, et quels événements sont des mutations d'insertion ou des mutations de délétion. Par exemple, étant donné seulement un alignement par paires avec une région de brèche, il est impossible de déterminer si une séquence porte une mutation d'insertion ou l'autre porte une délétion. Le problème est amplifié dans les MSA avec des écarts non alignés et non chevauchants. En pratique, des régions importantes d'un alignement calculé peuvent être écartées dans la construction d'arbres phylogénétiques pour éviter d'intégrer des données bruitées dans le calcul de l'arbre.

Les méthodes d'analyse phylogénétique à matrice de distance reposent explicitement sur une mesure de la « distance génétique » entre les séquences en cours de classification et, par conséquent, elles nécessitent un MSA en entrée. La distance est souvent définie comme la fraction des discordances aux positions alignées, les écarts étant soit ignorés, soit comptés comme des discordances. [3] Les méthodes de distance tentent de construire une matrice tout-à-tout à partir de l'ensemble de requêtes de séquence décrivant la distance entre chaque paire de séquences. A partir de là est construit un arbre phylogénétique qui place des séquences étroitement apparentées sous le même nœud intérieur et dont les longueurs de branches reproduisent fidèlement les distances observées entre les séquences. Les méthodes de matrice de distance peuvent produire des arbres enracinés ou non enracinés, selon l'algorithme utilisé pour les calculer. Ils sont fréquemment utilisés comme base pour des types progressifs et itératifs d'alignements de séquences multiples. Le principal inconvénient des méthodes de matrice de distance est leur incapacité à utiliser efficacement les informations sur les régions locales à forte variation qui apparaissent sur plusieurs sous-arbres. [4]

UPGMA et WPGMA Modifier

L'UPGMA (Méthode des groupes de paires non pondérées avec moyenne arithmétique) et WPGMA (Méthode de groupe de paires pondérées avec moyenne arithmétique) produisent des arbres enracinés et nécessitent une hypothèse de taux constant - c'est-à-dire qu'elles supposent un arbre ultramétrique dans lequel les distances de la racine à chaque extrémité de branche sont égales. [9]

Voisinage Modifier

Les méthodes de jointure de voisins appliquent des techniques générales d'analyse de clusters à l'analyse de séquences en utilisant la distance génétique comme métrique de clustering. La méthode simple de jointure des voisins produit des arbres non racinés, mais elle ne suppose pas un taux d'évolution constant (c'est-à-dire une horloge moléculaire) à travers les lignées. [dix]

Méthode Fitch-Margoliash Modifier

La méthode de Fitch-Margoliash utilise une méthode des moindres carrés pondérés pour le regroupement en fonction de la distance génétique. [11] Les séquences étroitement liées reçoivent plus de poids dans le processus de construction de l'arbre pour corriger l'imprécision accrue dans la mesure des distances entre les séquences éloignées. Les distances utilisées comme entrée de l'algorithme doivent être normalisées pour éviter de gros artefacts dans le calcul des relations entre des groupes étroitement liés et éloignés. Les distances calculées par cette méthode doivent être linéaires le critère de linéarité pour les distances exige que les valeurs attendues des longueurs de branches pour deux branches individuelles doivent être égales à la valeur attendue de la somme des distances des deux branches - une propriété qui s'applique aux séquences biologiques uniquement lorsque ils ont été corrigés pour la possibilité de rétro-mutations sur des sites individuels. Cette correction se fait par l'utilisation d'une matrice de substitution telle que celle dérivée du modèle Jukes-Cantor d'évolution de l'ADN. La correction de distance n'est nécessaire en pratique que lorsque les taux d'évolution diffèrent selon les branches. [4] Une autre modification de l'algorithme peut être utile, en particulier en cas de distances concentrées (veuillez signaler le phénomène de concentration de mesure et la malédiction de la dimensionnalité) : cette modification, décrite dans [12] s'est avérée améliorer l'efficacité du algorithme et sa robustesse.

Le critère des moindres carrés appliqué à ces distances est plus précis mais moins efficace que les méthodes de jointure par voisins. Une amélioration supplémentaire qui corrige les corrélations entre les distances qui résultent de nombreuses séquences étroitement liées dans l'ensemble de données peut également être appliquée à un coût de calcul accru. Trouver l'arbre optimal des moindres carrés avec n'importe quel facteur de correction est NP-complet, [13] donc des méthodes de recherche heuristiques comme celles utilisées dans l'analyse de parcimonie maximale sont appliquées à la recherche dans l'espace arborescent.

Utilisation des groupes externes Modifier

Des informations indépendantes sur la relation entre les séquences ou les groupes peuvent être utilisées pour aider à réduire l'espace de recherche d'arborescence et à enraciner les arbres non racinés. L'utilisation standard des méthodes de matrice de distance implique l'inclusion d'au moins une séquence d'exogroupe connue pour n'être liée qu'à distance aux séquences d'intérêt dans l'ensemble de requêtes. [3] Cet usage peut être vu comme un type de contrôle expérimental. Si l'exogroupe a été choisi de manière appropriée, il aura une distance génétique beaucoup plus grande et donc une longueur de branche plus longue que toute autre séquence, et il apparaîtra près de la racine d'un arbre enraciné. Le choix d'un groupe externe approprié nécessite la sélection d'une séquence qui est modérément liée aux séquences d'intérêt. Une relation trop étroite va à l'encontre de l'objectif de l'exogroupe et trop éloigné ajoute du bruit à l'analyse. [3] Le soin devrait également être pris pour éviter des situations dans lesquelles les espèces desquelles les séquences ont été prises sont lointainement apparentées, mais le gène codé par les séquences est hautement conservé à travers les lignées.Le transfert horizontal de gènes, en particulier entre des bactéries par ailleurs divergentes, peut également confondre l'utilisation de l'exogroupe.

La parcimonie maximale (MP) est une méthode d'identification de l'arbre phylogénétique potentiel qui nécessite le plus petit nombre total d'événements évolutifs pour expliquer les données de séquence observées. Certaines façons de noter les arbres incluent également un « coût » associé à des types particuliers d'événements évolutifs et tentent de localiser l'arbre avec le coût total le plus petit. Il s'agit d'une approche utile dans les cas où tous les types d'événements possibles ne sont pas également probables - par exemple, lorsque des nucléotides ou des acides aminés particuliers sont connus pour être plus mutables que d'autres.

La façon la plus naïve d'identifier l'arbre le plus parcimonieux est l'énumération simple - en considérant successivement chaque arbre possible et en recherchant l'arbre avec le score le plus petit. Cependant, cela n'est possible que pour un nombre relativement faible de séquences ou d'espèces car le problème d'identification de l'arbre le plus parcimonieux est connu pour être NP-difficile [4]. Par conséquent, un certain nombre de méthodes de recherche heuristiques d'optimisation ont été développées pour localiser un arbre parcimonieux, sinon le meilleur de l'ensemble. La plupart de ces méthodes impliquent un mécanisme de minimisation de type descente la plus raide fonctionnant sur un critère de réarrangement d'arbre.

Brancher et lié Modifier

L'algorithme branch and bound est une méthode générale utilisée pour augmenter l'efficacité des recherches de solutions quasi optimales de problèmes NP-difficiles appliqués pour la première fois à la phylogénétique au début des années 1980. [14] Branch and bound est particulièrement bien adapté à la construction d'arbres phylogénétiques car il nécessite intrinsèquement de diviser un problème en une structure arborescente car il subdivise l'espace du problème en régions plus petites. Comme son nom l'indique, il nécessite en entrée à la fois une règle de branchement (dans le cas de la phylogénétique, l'ajout de l'espèce ou de la séquence suivante à l'arbre) et une limite (une règle qui exclut certaines régions de l'espace de recherche de considération, en supposant que la solution optimale ne peut pas occuper cette région). L'identification d'une bonne limite est l'aspect le plus difficile de l'application de l'algorithme à la phylogénétique. Une façon simple de définir la limite est un nombre maximum de changements évolutifs supposés autorisés par arbre. Un ensemble de critères connus sous le nom de règles de Zharkikh [15] limitent sévèrement l'espace de recherche en définissant des caractéristiques communes à tous les arbres candidats « les plus parcimonieux ». Les deux règles les plus élémentaires exigent l'élimination de toutes les séquences redondantes sauf une (pour les cas où plusieurs observations ont produit des données identiques) et l'élimination des sites de caractères auxquels deux états ou plus ne se produisent pas chez au moins deux espèces. Dans des conditions idéales, ces règles et leur algorithme associé définiraient complètement un arbre.

Algorithme de Sankoff-Morel-Cedergren Modifier

L'algorithme de Sankoff-Morel-Cedergren a été l'une des premières méthodes publiées à produire simultanément un MSA et un arbre phylogénétique pour les séquences nucléotidiques. [16] La méthode utilise un calcul de parcimonie maximum en conjonction avec une fonction de notation qui pénalise les écarts et les inadéquations, favorisant ainsi l'arbre qui introduit un nombre minimal de tels événements (un autre point de vue considère que les arbres à privilégier sont ceux qui maximisent le quantité de similarité de séquence qui peut être interprétée comme une homologie, un point de vue qui peut conduire à différents arbres optimaux [17] ). Les séquences imputées aux nœuds intérieurs de l'arbre sont notées et additionnées sur tous les nœuds de chaque arbre possible. La somme de l'arbre de score le plus faible fournit à la fois un arbre optimal et un MSA optimal compte tenu de la fonction de score. Parce que la méthode est très gourmande en calculs, une méthode approximative dans laquelle les suppositions initiales pour les alignements intérieurs sont affinées un nœud à la fois. La version complète et la version approximative sont en pratique calculées par programmation dynamique. [4]

MALIGN et POY Modifier

Les méthodes d'arbre phylogénétique/MSA plus récentes utilisent des heuristiques pour isoler les arbres à score élevé, mais pas nécessairement optimaux. La méthode MALIGN utilise une technique de parcimonie maximale pour calculer un alignement multiple en maximisant un score de cladogramme, et son compagnon POY utilise une méthode itérative qui couple l'optimisation de l'arbre phylogénétique avec des améliorations de la MSA correspondante. [18] Cependant, l'utilisation de ces méthodes dans la construction d'hypothèses évolutives a été critiquée comme biaisée en raison de la construction délibérée d'arbres reflétant des événements évolutifs minimes. [19] Ceci, à son tour, a été contré par l'opinion que de telles méthodes devraient être considérées comme des approches heuristiques pour trouver les arbres qui maximisent la quantité de similarité de séquence qui peut être interprétée comme une homologie. [17] [20]

La méthode du maximum de vraisemblance utilise des techniques statistiques standard pour déduire des distributions de probabilités afin d'attribuer des probabilités à des arbres phylogénétiques possibles particuliers. La méthode nécessite un modèle de substitution pour évaluer approximativement la probabilité de mutations particulières, un arbre qui nécessite plus de mutations aux nœuds intérieurs pour expliquer la phylogénie observée sera évalué comme ayant une probabilité plus faible. Ceci est largement similaire à la méthode de parcimonie maximale, mais le maximum de vraisemblance permet une flexibilité statistique supplémentaire en permettant des taux d'évolution variables à travers les lignées et les sites. En fait, la méthode exige que l'évolution sur différents sites et le long de différentes lignées soit statistiquement indépendante. Le maximum de vraisemblance est donc bien adapté à l'analyse de séquences éloignées, mais on pense qu'il est difficile à calculer en raison de sa dureté NP. [21]

L'algorithme "d'élagage", une variante de la programmation dynamique, est souvent utilisé pour réduire l'espace de recherche en calculant efficacement la vraisemblance des sous-arbres. [4] La méthode calcule la vraisemblance pour chaque site de manière « linéaire », en commençant par un nœud dont les seuls descendants sont des feuilles (c'est-à-dire les extrémités de l'arbre) et en remontant vers le nœud « inférieur » dans des ensembles imbriqués. Cependant, les arbres produits par la méthode ne sont enracinés que si le modèle de substitution est irréversible, ce qui n'est généralement pas le cas des systèmes biologiques. La recherche de l'arbre à maximum de vraisemblance comprend également un composant d'optimisation de la longueur des branches qu'il est difficile d'améliorer par rapport aux outils d'optimisation globale algorithmiquement généraux tels que la méthode Newton-Raphson qui sont souvent utilisés.

Certains outils qui utilisent le maximum de vraisemblance pour déduire des arbres phylogénétiques à partir de données de fréquence allélique variant (VAF) incluent AncesTree et CITUP. [22] [23]

L'inférence bayésienne peut être utilisée pour produire des arbres phylogénétiques d'une manière étroitement liée aux méthodes du maximum de vraisemblance. Les méthodes bayésiennes supposent une distribution de probabilité a priori des arbres possibles, qui peut être simplement la probabilité d'un arbre quelconque parmi tous les arbres possibles qui pourraient être générés à partir des données, ou peut être une estimation plus sophistiquée dérivée de l'hypothèse que des événements de divergence tels que car la spéciation se produit sous forme de processus stochastiques. Le choix de la distribution a priori est un point de discorde parmi les utilisateurs de méthodes phylogénétiques d'inférence bayésienne. [4]

Les implémentations des méthodes bayésiennes utilisent généralement des algorithmes d'échantillonnage Monte Carlo à chaîne de Markov, bien que le choix de l'ensemble de mouvements varie. Les sélections utilisées en phylogénétique bayésienne incluent la permutation circulaire des nœuds feuilles d'un arbre proposé à chaque étape deux arbres liés. [25] L'utilisation de méthodes bayésiennes en phylogénétique a été controversée, en grande partie en raison de la spécification incomplète du choix de l'ensemble de mouvements, du critère d'acceptation et de la distribution préalable dans les travaux publiés. [4] Les méthodes bayésiennes sont généralement considérées comme supérieures aux méthodes basées sur la parcimonie. [27]

Alors que les méthodes de vraisemblance trouvent l'arbre qui maximise la probabilité des données, une approche bayésienne récupère un arbre qui représente les clades les plus probables, en s'appuyant sur la distribution postérieure. Cependant, les estimations de la probabilité postérieure des clades (en mesurant leur « support ») peuvent être assez larges, en particulier dans les clades qui ne sont pas extrêmement probables. A ce titre, d'autres méthodes ont été proposées pour estimer la probabilité a posteriori. [28]

Certains outils qui utilisent l'inférence bayésienne pour déduire des arbres phylogénétiques à partir de données de fréquence allélique variant (VAF) incluent Canopy, EXACT et PhyloWGS. [29] [30] [31]

Les méthodes de phylogénétique moléculaire reposent sur un modèle de substitution défini qui code une hypothèse sur les taux relatifs de mutation à divers sites le long des séquences de gènes ou d'acides aminés étudiées. Dans leur forme la plus simple, les modèles de substitution visent à corriger les différences de taux de transitions et de transversions dans les séquences nucléotidiques. L'utilisation de modèles de substitution est rendue nécessaire par le fait que la distance génétique entre deux séquences n'augmente linéairement que peu de temps après que les deux séquences ont divergé l'une de l'autre (alternativement, la distance n'est linéaire que peu de temps avant la coalescence). Plus le laps de temps après la divergence est long, plus il est probable que deux mutations se produisent sur le même site nucléotidique. De simples calculs de distance génétique sous-estimeront ainsi le nombre d'événements de mutation qui se sont produits dans l'histoire de l'évolution. L'étendue de ce sous-dénombrement augmente avec l'augmentation du temps écoulé depuis la divergence, ce qui peut conduire au phénomène d'attraction de branches longues, ou à la mauvaise affectation de deux séquences distantes mais évoluant de manière convergente comme étroitement liées. [32] La méthode de parcimonie maximale est particulièrement sensible à ce problème en raison de sa recherche explicite d'un arbre représentant un nombre minimum d'événements évolutifs distincts. [4]

Types de modèles Modifier

Tous les modèles de substitution attribuent un ensemble de poids à chaque changement d'état possible représenté dans la séquence. Les types de modèles les plus courants sont implicitement réversibles car ils attribuent le même poids, par exemple, à une mutation nucléotidique G>C qu'à une mutation C>G. Le modèle le plus simple possible, le modèle Jukes-Cantor, attribue une probabilité égale à chaque changement d'état possible pour une base nucléotidique donnée. Le taux de changement entre deux nucléotides distincts sera d'un tiers du taux de substitution global. [4] Des modèles plus avancés font la distinction entre transitions et transversions. Le modèle réversible dans le temps le plus général possible, appelé modèle GTR, comporte six paramètres de taux de mutation. Un modèle encore plus généralisé connu sous le nom de modèle général à 12 paramètres brise la réversibilité temporelle, au prix d'une complexité supplémentaire dans le calcul des distances génétiques cohérentes entre plusieurs lignées. [4] Une variation possible sur ce thème ajuste les taux de sorte que le contenu global en GC - une mesure importante de la stabilité de la double hélice de l'ADN - varie au fil du temps. [33]

Les modèles peuvent également permettre la variation des taux avec des positions dans la séquence d'entrée. L'exemple le plus évident d'une telle variation découle de l'arrangement des nucléotides dans les gènes codant pour les protéines en codons à trois bases. Si l'emplacement du cadre de lecture ouvert (ORF) est connu, les taux de mutation peuvent être ajustés pour la position d'un site donné dans un codon, car il est connu que l'appariement des bases oscillantes peut permettre des taux de mutation plus élevés dans le troisième nucléotide d'un codon donné sans affecter la signification du codon dans le code génétique. [32] Un exemple moins fondé sur des hypothèses qui ne repose pas sur l'identification ORF attribue simplement à chaque site un taux tiré au hasard à partir d'une distribution prédéterminée, souvent la distribution gamma ou la distribution log-normale. [4] Enfin, une estimation plus prudente des variations de taux connue sous le nom de méthode de covarion permet des variations de taux autocorrélées, de sorte que le taux de mutation d'un site donné est corrélé entre les sites et les lignées. [34]

Choisir le meilleur modèle Modifier

La sélection d'un modèle approprié est essentielle pour la production de bonnes analyses phylogénétiques, à la fois parce que les modèles sous-paramétrés ou trop restrictifs peuvent produire un comportement aberrant lorsque leurs hypothèses sous-jacentes sont violées, et parce que les modèles trop complexes ou surparamétrés sont coûteux en calcul et les paramètres peuvent être surajustés. . [32] La méthode la plus courante de sélection de modèle est le test du rapport de vraisemblance (LRT), qui produit une estimation de la vraisemblance qui peut être interprétée comme une mesure de la « qualité de l'ajustement » entre le modèle et les données d'entrée. [32] Cependant, il faut être prudent dans l'utilisation de ces résultats, car un modèle plus complexe avec plus de paramètres aura toujours une probabilité plus élevée qu'une version simplifiée du même modèle, ce qui peut conduire à la sélection naïve de modèles trop complexes. . [4] Pour cette raison, les programmes informatiques de sélection de modèles choisiront le modèle le plus simple qui n'est pas significativement pire que les modèles de substitution plus complexes. Un inconvénient important du LRT est la nécessité de faire une série de comparaisons par paires entre les modèles. Il a été démontré que l'ordre dans lequel les modèles sont comparés a un effet majeur sur celui qui est finalement sélectionné. [35]

Une méthode alternative de sélection de modèle est le critère d'information d'Akaike (AIC), formellement une estimation de la divergence de Kullback-Leibler entre le vrai modèle et le modèle testé. Elle peut être interprétée comme une estimation de vraisemblance avec un facteur de correction pour pénaliser les modèles surparamétrés. [32] L'AIC est calculé sur un modèle individuel plutôt que sur une paire, il est donc indépendant de l'ordre dans lequel les modèles sont évalués. Une alternative connexe, le critère d'information bayésien (BIC), a une interprétation de base similaire mais pénalise plus lourdement les modèles complexes. [32]

Un protocole complet étape par étape sur la construction d'un arbre phylogénétique, y compris l'assemblage de séquences contiguës d'ADN/d'acides aminés, l'alignement de séquences multiples, le test de modèle (test des modèles de substitution les mieux adaptés) et la reconstruction de la phylogénie à l'aide de la vraisemblance maximale et de l'inférence bayésienne, est disponible sur Protocole Nature [36]

Une manière non traditionnelle d'évaluer l'arbre phylogénétique est de le comparer avec le résultat du clustering. On peut utiliser une technique de mise à l'échelle multidimensionnelle, appelée jointure interpolative pour effectuer une réduction de dimensionnalité afin de visualiser le résultat de regroupement pour les séquences en 3D, puis mapper l'arbre phylogénétique sur le résultat de regroupement. Un meilleur arbre a généralement une corrélation plus élevée avec le résultat du clustering. [37]

Comme pour toute analyse statistique, l'estimation des phylogénies à partir des données de caractères nécessite une évaluation de la confiance. Un certain nombre de méthodes existent pour tester la quantité de support pour un arbre phylogénétique, soit en évaluant le support pour chaque sous-arbre dans la phylogénie (support nodal) ou en évaluant si la phylogénie est significativement différente des autres arbres possibles (tests d'hypothèse d'arbre alternatif ).

Support nodal Modifier

La méthode la plus courante pour évaluer le support de l'arbre consiste à évaluer le support statistique pour chaque nœud de l'arbre. En règle générale, un nœud avec un support très faible n'est pas considéré comme valide dans une analyse plus approfondie et peut être visuellement réduit en une polytomie pour indiquer que les relations au sein d'un clade ne sont pas résolues.

Arbre de consensus Modifier

De nombreuses méthodes d'évaluation du soutien nodal impliquent la prise en compte de plusieurs phylogénies. L'arbre de consensus résume les nœuds qui sont partagés entre un ensemble d'arbres. [38] Dans un *consensus strict*, seuls les nœuds trouvés dans chaque arbre sont affichés, et le reste est réduit en une polytomie non résolue. Les méthodes moins conservatrices, telles que l'arbre *consensus de la règle de la majorité*, considèrent les nœuds qui sont pris en charge par un pourcentage donné d'arbres considérés (comme au moins 50 %).

Par exemple, dans l'analyse de parcimonie maximale, il peut y avoir de nombreux arbres avec le même score de parcimonie. Un arbre de consensus strict montrerait quels nœuds se trouvent dans tous les arbres également parcimonieux, et quels nœuds diffèrent. Les arbres de consensus sont également utilisés pour évaluer le support des phylogénies reconstruites par inférence bayésienne (voir ci-dessous).

Bootstrapping et jackknifing Modifier

En statistique, le bootstrap est une méthode permettant d'inférer la variabilité des données dont la distribution est inconnue à l'aide de pseudo-réplications des données d'origine. Par exemple, étant donné un ensemble de 100 points de données, un pseudo-réplicat est un ensemble de données de même taille (100 points) échantillonné au hasard à partir des données d'origine, avec remise. C'est-à-dire que chaque point de données d'origine peut être représenté plus d'une fois dans le pseudo-réplicat, ou pas du tout. Le support statistique consiste à évaluer si les données d'origine ont des propriétés similaires à celles d'un grand nombre de pseudo-réplications.

En phylogénétique, le bootstrap est réalisé en utilisant les colonnes de la matrice de caractères. Chaque pseudo-réplicat contient le même nombre d'espèces (lignes) et de caractères (colonnes) échantillonnés au hasard à partir de la matrice d'origine, avec remise. Une phylogénie est reconstruite à partir de chaque pseudo-réplicat, avec les mêmes méthodes que celles utilisées pour reconstruire la phylogénie à partir des données d'origine. Pour chaque nœud de la phylogénie, le support nodal est le pourcentage de pseudo-réplicats contenant ce nœud. [39]

La rigueur statistique du test de bootstrap a été évaluée empiriquement en utilisant des populations virales avec des histoires évolutives connues, [40] concluant que 70 % de support bootstrap correspond à une probabilité de 95 % que le clade existe. Cependant, cela a été testé dans des conditions idéales (par exemple, aucun changement dans les taux d'évolution, phylogénies symétriques). En pratique, les valeurs supérieures à 70 % sont généralement soutenues et laissées au chercheur ou au lecteur pour évaluer la confiance. Les nœuds dont la prise en charge est inférieure à 70 % sont généralement considérés comme non résolus.

Le jackknifing en phylogénétique est une procédure similaire, sauf que les colonnes de la matrice sont échantillonnées sans remise. Les pseudo-réplicats sont générés en sous-échantillonnant aléatoirement les données - par exemple, un "jackknife à 10 %" impliquerait un échantillonnage aléatoire de 10 % de la matrice plusieurs fois pour évaluer le support nodal.

Probabilité postérieure Modifier

La reconstruction des phylogénies à l'aide de l'inférence bayésienne génère une distribution postérieure d'arbres hautement probables compte tenu des données et du modèle évolutif, plutôt qu'un seul « meilleur » arbre. Les arbres de la distribution postérieure ont généralement de nombreuses topologies différentes. Lorsque les données d'entrée sont des données de fréquence allélique variant (VAF), l'outil EXACT peut calculer exactement les probabilités des arbres, pour de petites tailles d'arbres biologiquement pertinentes, en recherchant de manière exhaustive tout l'espace de l'arbre. [29]

La plupart des méthodes d'inférence bayésienne utilisent une itération de Monte Carlo à chaîne de Markov, et les étapes initiales de cette chaîne ne sont pas considérées comme des reconstructions fiables de la phylogénie. Les arbres générés au début de la chaîne sont généralement rejetés en tant que burn-in. La méthode la plus courante pour évaluer le support nodal dans une analyse phylogénétique bayésienne consiste à calculer le pourcentage d'arbres dans la distribution postérieure (post-burn-in) qui contiennent le nœud.

Le support statistique d'un nœud dans l'inférence bayésienne devrait refléter la probabilité qu'un clade existe réellement compte tenu des données et du modèle évolutif. [41] Par conséquent, le seuil d'acceptation d'un nœud comme supporté est généralement plus élevé que pour l'amorçage.

Méthodes de comptage de pas Modifier

Le support Bremer compte le nombre d'étapes supplémentaires nécessaires pour contredire un clade.

Lacunes Modifier

Ces mesures ont chacune leurs faiblesses. Par exemple, les clades plus petits ou plus grands ont tendance à attirer des valeurs de support plus importantes que les clades de taille moyenne, simplement en raison du nombre de taxons qu'ils contiennent. [42]

La prise en charge du bootstrap peut fournir des estimations élevées de la prise en charge des nœuds en raison du bruit dans les données plutôt que de l'existence réelle d'un clade. [43]

En fin de compte, il n'y a aucun moyen de mesurer si une hypothèse phylogénétique particulière est exacte ou non, à moins que les véritables relations entre les taxons examinés soient déjà connues (ce qui peut arriver avec des bactéries ou des virus dans des conditions de laboratoire). Le meilleur résultat qu'un phylogénéticien empirique puisse espérer atteindre est un arbre avec des branches bien étayées par les preuves disponibles. Plusieurs pièges potentiels ont été identifiés :

Homoplasie Modifier

Certains caractères sont plus susceptibles d'évoluer de manière convergente que d'autres logiquement, de tels caractères devraient avoir moins de poids dans la reconstruction d'un arbre. [44] Des poids sous la forme d'un modèle d'évolution peuvent être déduits d'ensembles de données moléculaires, de sorte que le maximum de vraisemblance ou des méthodes bayésiennes peuvent être utilisés pour les analyser. Pour les séquences moléculaires, ce problème est exacerbé lorsque les taxons étudiés ont considérablement divergé. Au fur et à mesure que le temps écoulé depuis la divergence de deux taxons augmente, la probabilité de substitutions multiples sur le même site, ou de rétromutations, augmente également, ce qui entraîne toutes des homoplasies. Pour les données morphologiques, malheureusement, le seul moyen objectif de déterminer la convergence est la construction d'un arbre - une méthode quelque peu circulaire. Néanmoins, la pondération des caractères homoplasiques [ comment? ] conduit en effet à des arbres mieux soutenus. [44] Un raffinement supplémentaire peut être apporté en pondérant les changements dans une direction plus haut que les changements dans une autre, par exemple, la présence d'ailes thoraciques garantit presque le placement parmi les insectes ptérygotes car, bien que les ailes soient souvent perdues secondairement, il n'y a aucune preuve qu'elles ont été acquise plus d'une fois. [45]

Transfert horizontal de gènes Modifier

En général, les organismes peuvent hériter des gènes de deux manières : le transfert de gène vertical et le transfert de gène horizontal. Le transfert vertical de gènes est le passage de gènes du parent à la progéniture, et le transfert horizontal (également appelé latéral) de gènes se produit lorsque des gènes sautent entre des organismes non apparentés, un phénomène courant, en particulier chez les procaryotes. échange de gènes entre diverses bactéries conduisant à des espèces bactériennes multirésistantes. Il y a également eu des cas bien documentés de transfert horizontal de gènes entre eucaryotes.

Le transfert horizontal de gènes a compliqué la détermination de la phylogénie des organismes, et des incohérences dans la phylogénie ont été signalées parmi des groupes spécifiques d'organismes en fonction des gènes utilisés pour construire des arbres évolutifs. La seule façon de déterminer quels gènes ont été acquis verticalement et lesquels horizontalement est de supposer avec parcimonie que le plus grand ensemble de gènes qui ont été hérités ensemble ont été hérités verticalement, cela nécessite d'analyser un grand nombre de gènes.

Hybrides, spéciation, introgressions et tri de lignées incomplètes Modifier

L'hypothèse de base sous-jacente au modèle mathématique de la cladistique est une situation dans laquelle les espèces se divisent nettement en bifurquant. Bien qu'une telle hypothèse puisse être valable à plus grande échelle (à l'exception du transfert horizontal de gènes, voir ci-dessus), la spéciation est souvent beaucoup moins ordonnée. Les recherches menées depuis l'introduction de la méthode cladistique ont montré que la spéciation hybride, autrefois considérée comme rare, est en fait assez courante, en particulier chez les plantes. [46] [47] Aussi la spéciation paraphylétique est commune, rendant l'hypothèse d'un modèle bifurquant inappropriée, conduisant à des réseaux phylogénétiques plutôt qu'à des arbres. [48] ​​[49] L'introgression peut aussi déplacer des gènes entre des espèces autrement distinctes et parfois même des genres, ce qui complique l'analyse phylogénétique basée sur les gènes. [50] Ce phénomène peut contribuer au "tri de lignée incomplet" et est considéré comme un phénomène courant dans un certain nombre de groupes. Dans l'analyse au niveau de l'espèce, cela peut être traité par un échantillonnage plus important ou une meilleure analyse du génome entier. [51] Souvent, le problème est évité en limitant l'analyse à moins de spécimens non étroitement apparentés.

Échantillonnage de taxons Modifier

Grâce au développement de techniques avancées de séquençage en biologie moléculaire, il est devenu possible de rassembler de grandes quantités de données (séquences d'ADN ou d'acides aminés) pour inférer des hypothèses phylogénétiques. Par exemple, il n'est pas rare de trouver des études avec des matrices de caractères basées sur des génomes mitochondriaux entiers (

16 000 nucléotides, chez de nombreux animaux). Cependant, des simulations ont montré qu'il est plus important d'augmenter le nombre de taxons dans la matrice que d'augmenter le nombre de caractères, car plus il y a de taxons, plus l'arbre phylogénétique résultant est précis et robuste. [52] [53] Cela peut être en partie dû à la rupture de longues branches.

Signal phylogénétique Modifier

Un autre facteur important qui affecte la précision de la reconstruction de l'arbre est de savoir si les données analysées contiennent réellement un signal phylogénétique utile, un terme qui est généralement utilisé pour indiquer si un caractère évolue suffisamment lentement pour avoir le même état dans des taxons étroitement liés au lieu de varier au hasard. . Des tests de signal phylogénétique existent. [54]

Caractères continus Modifier

Les caractères morphologiques qui échantillonnent un continuum peuvent contenir un signal phylogénétique, mais sont difficiles à coder en tant que caractères discrets. Plusieurs méthodes ont été utilisées, dont l'une est le codage par écart, et il existe des variations sur le codage par écart. [55] Dans la forme originale du codage des écarts : [55]

Les moyennes de groupe pour un caractère sont d'abord classées par taille. L'écart type au sein du groupe est calculé . et les différences entre les moyennes adjacentes. sont comparés par rapport à cet écart type. Toute paire de moyennes adjacentes est considérée comme différente et reçoit des scores entiers différents. si les moyennes sont séparées par un « écart » supérieur à l'écart type intra-groupe . fois une constante arbitraire.

Si plus de taxons sont ajoutés à l'analyse, les écarts entre les taxons peuvent devenir si petits que toutes les informations sont perdues. Le codage généralisé des écarts contourne ce problème en comparant des paires individuelles de taxons plutôt que de considérer un ensemble contenant tous les taxons. [55]

Données manquantes Modifier

En général, plus il y a de données disponibles lors de la construction d'un arbre, plus l'arbre résultant sera précis et fiable. Les données manquantes ne sont pas plus préjudiciables que le simple fait d'avoir moins de données, bien que l'impact soit plus important lorsque la plupart des données manquantes concernent un petit nombre de taxons. La concentration des données manquantes sur un petit nombre de caractères produit un arbre plus robuste. [56]

Parce que de nombreux caractères impliquent des caractères embryologiques, des tissus mous ou moléculaires qui (au mieux) ne se fossilisent presque jamais, et l'interprétation des fossiles est plus ambiguë que celle des taxons vivants, les taxons éteints ont presque invariablement des proportions de données manquantes plus élevées que les taxons vivants. Cependant, malgré ces limitations, l'inclusion de fossiles est inestimable, car ils peuvent fournir des informations dans les zones clairsemées d'arbres, brisant de longues branches et contraignant les états de caractère intermédiaires. Ainsi, les taxons fossiles contribuent autant à la résolution des arbres que les taxons modernes. [57] Les fossiles peuvent également contraindre l'âge des lignées et ainsi démontrer à quel point un arbre est cohérent avec l'enregistrement stratigraphique [58] la stratocladistique intègre des informations d'âge dans des matrices de données pour les analyses phylogénétiques.