Informations

2.9 : Génomes organellaires - Biologie


Chez les eucaryotes, l'ADN et les gènes existent également en dehors des chromosomes trouvés dans le noyau. Les deux chloroplaste et mitochondrie ont des chromosomes circulaires (Figure (PageIndex{22})). Chez la plupart des espèces à reproduction sexuée, chromosomes organellaires sont hérités d'un seul parent, généralement celui qui produit le plus gros gamète. Ainsi, chez les mammifères, les angiospermes et de nombreux autres organismes, les mitochondries et les chloroplastes ne sont hérités que par la mère (maternellement).

Ces organites sont probablement les restes d'endosymbiotes procaryotes qui sont entrés dans le cytoplasme d'anciens progéniteurs des eucaryotes d'aujourd'hui (théorie des endosymbiotes). Ces endosymbiotes avaient leurs propres chromosomes circulaires, comme la plupart des bactéries qui existent aujourd'hui. Les chloroplastes et les mitochondries ont généralement des chromosomes circulaires qui se comportent plus comme des chromosomes bactériens que comme des chromosomes eucaryotes, c'est-à-dire que ces génomes organellaires ne subissent pas de mitose ou de méiose.


Génomique organellaire : un outil utile pour étudier les relations évolutives et l'évolution moléculaire chez les Gracilariaceae (Rhodophyta)

Gracilariaceae a une distribution mondiale comprenant de nombreuses espèces économiquement importantes. Nous avons appliqué un séquençage à haut débit pour obtenir des génomes organellaires (mitochondries et chloroplastes) de 10 espèces de Gracilariaceae et, combinés avec des génomes publiés, pour déduire des phylogénies et comparer l'architecture du génome parmi les espèces représentant les principales lignées. Nous avons obtenu des topologies similaires entre les phylogénies des génomes chloroplastiques et mitochondriaux. Cependant, la phylogénie des chloroplastes était mieux résolue avec un soutien total. Dans cette phylogénie, Melanthalia intermedia est sœur d'un clade monophylétique comprenant Gracilaria et Gracilariopsis, qui ont tous deux été résolus en tant que genres monophylétiques. Les génomes mitochondriaux et chloroplastiques étaient hautement conservés dans la synthèse des gènes, et la variation se produisait principalement dans les régions où des insertions de séquences dérivées de plasmides (PDS) ont été trouvées. Dans les génomes mitochondriaux, des insertions de PDS ont été observées dans deux régions où la direction de transcription change : entre les gènes cob et trnL, et trnA et trnN. Dans les génomes chloroplastiques, les insertions PDS étaient dans des positions différentes, mais se trouvaient généralement entre les gènes psdD et rrs. Gracilariaceae est un bon système modèle pour étudier l'impact du PDS dans l'évolution du génome en raison de la présence fréquente de ces insertions dans les génomes organellaires. De plus, l'opéron bactérien leuC/leuD a été trouvé dans les génomes chloroplastiques de Gracilaria tenuistipitata, G. chilensis et M. intermedia, et dans le plasmide extrachromosomique de G. vermiculophylla. Les arbres phylogénétiques montrent deux origines différentes de leuC/leuD : les gènes trouvés dans le chloroplaste et le plasmide ont été placés avec des protéobactéries, et les gènes codés dans le noyau étaient proches de Viridiplantae et des cyanobactéries.

Mots clés: chloroplaste gène synténie architecture du génome mitochondries phylogénomique séquences dérivées de plasmides plasmides.


Fond

Les génomes organellaires sont largement utilisés comme source d'information génétique dans les études évolutives, principalement en raison du caractère haploïde et de la présence en centaines à milliers de copies dans chaque cellule [1, 2]. Dans la majorité des organismes connus, les mitogénomes et les plastomes sont hérités de la mère, ce qui entraîne la présence uniquement d'haplotypes uniques de ces génomes dans l'organisme. Plusieurs études ont décrit l'hétéroplasmie des génomes des plastes [3], cependant, la plupart des études n'ont pas révélé de polymorphisme intraindividuel [4, 5] soutenant les génomes organellaires comme ressources pour les études évolutives.

Les séquences de génomes mitochondriaux complets sont principalement utilisées en phylogénétique, phylogéographie et génétique des populations d'animaux et de champignons [6,7,8], tandis que dans les sciences végétales, les génomes de plastes sont principalement utilisés à ces fins.

Par rapport aux plantes à graines, les génomes organellaires et surtout plastidiques sont peu explorés chez les bryophytes. À ce jour, seules 15 séquences de plastes et 48 séquences complètes du génome mitochondrial sont connues pour les genres de bryophytes. De plus, la plupart des génomes séquencés appartiennent à seulement quatre familles de mousses Funariaceae [9], Grimmiaceae [10, 11], Orthotrichaceae [12,13,14,15] et Sphagnaceae [16].

Les génomes mitochondriaux des premières plantes terrestres sont connus pour leur structure stable par rapport aux plantes à graines [12, 17]. Les hépatiques sont la plus ancienne lignée évolutive de plantes sporophytiques et la plus diversifiée génétiquement. Cependant, malgré une variation élevée des nucléotides au niveau inter et intragénérique, le contenu et l'ordre des gènes restent presque inchangés depuis les nœuds les plus profonds de la diversification des hépatiques [18,19,20]. Les seuls changements observés étaient les pertes d'intron de atp1 et barreur1 dans le groupe des hépatiques à feuilles [20] et pseudogénisation du gène nad7 dans la majorité des hépatiques à l'exception de Treubia lacunosa [18].

Cette stabilité semble être associée à l'absence de séquence répétitive dans les mitogénomes des plantes terrestres précoces, qui sont courantes chez les plantes à graines [12]. Cependant, les mitogénomes des hépatiques sont mal explorés, même en comparaison avec les mousses, où les séquences complètes à jour des génomes mitochondriaux de 6 genres sont connues.

Les données disponibles sont encore plus rares dans le cas des génomes chloroplastiques, limités aux genres Marchantia, Pellia, Aneure et Ptilidium.

L'hépatique Gymnomitrion concinnatum (Lightf.) Corda appartient à la famille des Gymnomitriacées H. Klinggr. Ce groupe comprend dix genres (Acrolophose, Apomarsupella, Gymnomitrion, Herzogobryum, Marsupella, Nanomarsupella, Nothogymnomitrion, Paramomitrion, Poeltia, et Prasanthus), dont les plus nombreux sont Gymnomitrion (27 espèces) et Marsupella (26 espèces) [21]. Historiquement, seuls deux genres répandus (Gymnomitrion et Marsupella) étaient considérés comme faisant partie des Gymnomitriacées. Basé sur la circonscription du genre Gymnomitrion présenté par Váňa et al. [21], il y a sept espèces enregistrées en Pologne et en Slovaquie. La plupart d'entre eux poussent dans les montagnes Tatra (Carpates occidentales). Gymnomitrion concinnatum est acidophilus, hépatique épilithique et épigéique qui pousse sur le magma (granit) et les roches métamorphiques (principalement gneissiques) et les ardoises cristallines. Le plus souvent, il se produit sur les étagères et les crevasses des parois rocheuses, moins souvent dans les prairies alpines (et subnivales) lâches et les lits de neige avec une prédominance de bryophytes [22]. D'Europe centrale, les phytocénoses à forte occurrence de G. concinnatum ont été décrits comme Gymnomitrietum concinnati Herzog 1943 ex Philippes 1956 (classe : Grimmietea alpestris Hadac et Vondraček dans Ježek et Vondráček 1962) (comparer [22,23,24,25]). Les ressources génétiques connues des Gymnomitriacées se limitent aux séquences d'ITS et à trois loci chloroplastiques [26, 27] des genres Gymnomitrion, Herzogobryum, Marsupella et Prasanthus.

Dans la présente étude, nous avons séquencé, assemblé, annoté et analysé les génomes organellaires de Gymnomitrion concinnatum, qui fournissent de nouvelles informations sur l'évolution des mitogénomes et des plastomes dans les hépatiques.


Forces maintenant les génomes organellaires : est-ce qu'il y en a d'aussi fort que la disparité du code génétique ou l'hydrophobie ?

Département de génétique, Université de Cambridge, Downing Street, Cambridge CB2 3EH, Royaume-Uni.

Department of Genetics, University of Cambridge, Downing Street, Cambridge CB2 3EH, UK.Rechercher d'autres articles de cet auteur

Département de génétique, Université de Cambridge, Downing Street, Cambridge CB2 3EH, Royaume-Uni.

Department of Genetics, University of Cambridge, Downing Street, Cambridge CB2 3EH, UK.Rechercher d'autres articles de cet auteur

Résumé

Il reste controversé pourquoi les mitochondries et les chloroplastes conservent les gènes codant pour un petit sous-ensemble de leurs protéines constitutives, malgré le transfert de tant d'autres gènes vers le noyau. Deux obstacles potentiels au transfert de gènes, suggérés il y a longtemps, sont que le code génétique de certains génomes mitochondriaux diffère du code nucléaire standard, de sorte qu'un gène transféré coderait une séquence d'acides aminés incorrecte, et que les protéines les plus fréquemment codées dans les mitochondries sont généralement très hydrophobe, ce qui peut gêner leur importation après synthèse dans le cytosol. Plus récemment, il a été suggéré que ces deux interprétations souffrent de graves « faux positifs » et « faux négatifs » : les gènes qu'ils prédisent devraient être facilement transférés mais qui ne l'ont jamais été (ou rarement), et les gènes dont le transfert a eu lieu souvent ou tôt. , même si cela s'annonce très difficile. Ici, je considère la gamme complète connue de tels gènes apparemment problématiques, avec une référence particulière aux séquences d'événements qui auraient pu conduire à leur emplacement actuel. Je montre que cette analyse détaillée de ces cas révèle qu'ils sont en fait tout à fait cohérents avec l'hypothèse selon laquelle la disparité des codes et l'hydrophobie sont des barrières bien plus puissantes que toute autre au transfert fonctionnel de gènes. La popularité du point de vue contraire a conduit à la recherche d'autres barrières qui pourraient retenir les gènes dans les organites encore plus fortement que la disparité de code ou l'hydrophobie. Une proposition concernant le rôle des protéines dans les processus redox a reçu un large soutien. Je conclus que cet abandon des explications originales de la rétention des génomes organellaires a été prématuré. Plusieurs autres obstacles, relativement mineurs, au transfert de gènes existent certainement, contribuant à la rétention de relativement nombreux gènes organellaires dans la plupart des lignées par rapport à l'ADNmt animal, mais il n'y a aucune preuve d'obstacles aussi graves que la disparité des codes ou l'hydrophobie. Un corollaire de cette conclusion est qu'il n'y a actuellement aucune raison de supposer que l'ingénierie des versions nucléaires des gènes mitochondriaux mammifères restants, un exploit qui peut avoir une pertinence biomédicale généralisée, devrait nécessiter autre chose que des altérations de séquence évitant la disparité des codes et provoquant des réductions modestes de l'hydrophobie. sans perte de fonction enzymatique. BioEssays 27:436-446, 2005. © 2005 Wiley périodiques, Inc.


Résultats et discussion

Tous les codons fortement édités codent des acides aminés avec une hydrophobie et une taille moléculaire significativement différentes de celles des codons pré-édités, et l'édition augmente considérablement l'hydrophobie des protéines

L'hydrophobie et la taille moléculaire sont deux propriétés physico-chimiques fondamentales des acides aminés qui déterminent la structure et la fonctionnalité des protéines, et elles influencent naturellement considérablement le taux de remplacement des acides aminés au cours de l'évolution des protéines [47]. Dans nos analyses des fréquences d'édition des codons et des changements d'acides aminés correspondants impliqués, nous avons constaté que les changements des codons Ser → Leu représentent la classe de conversions la plus élevée pour l'édition de la 2 e position du codon dans les chloroplastes et les mitochondries, et que les changements de Les codons Ser → Phe et Pro → Leu occupent les deux places suivantes dans le classement par fréquence d'édition.

Ensemble, ces trois classes représentent 73 à 98 % des événements d'édition aux 2 e positions de codon et 49 à 68 % de tous les événements d'édition dans les deux organites (Figures 1, 2). Pour l'édition de la position du premier codon, les changements des codons Arg → Trp prennent toujours la tête, avec ceux des codons Arg → Cys, Pro → Ser et His → Tyr représentant une grande partie des événements d'édition restants, encore une fois dans les deux organites. Tous ces changements d'acides aminés impliquent de grandes différences d'hydrophobie et de taille moléculaire telles que mesurées par l'indice de Grantham [47] et l'échelle d'hydrophobie de Kyte-Doolittle [48].

De plus, une tendance similaire est observée à travers le

15-44 sites d'édition C→U trouvés dans les génomes chloroplastiques des plantes à graines [15, 22, 26, 30-37].

Pour l'édition inversée dans les chloroplastes des deux A. formosae et A. capillus-veneris, la classe de conversions la plus élevée implique trois codons d'arrêt, qui sont convertis en codons Arg ou Gln après édition à la première position du codon, et ils représentent 60 % et 77 % de tous les événements d'édition inversée à cette position de codon. L'importance de cette classe d'édition sur la fonctionnalité des protéines est évidente. Les changements des codons Cys → Arg et Leu → Pro représentent la plupart des événements d'édition restants aux 1 ère et 2 ème positions de codon, respectivement. Il existe quelques autres classes de changements de codons résultant de l'édition qui impliquent également des changements d'acides aminés fonctionnellement très différents, mais ils se produisent à des fréquences beaucoup plus basses que celles mentionnées ci-dessus. Enfin, il existe un petit nombre d'événements d'édition qui provoquent des changements d'acides aminés fonctionnellement similaires ou ne modifient pas du tout l'identité des acides aminés (Figures 1, 2). Cependant, nous n'avons trouvé aucun cas d'édition lourde pour les substitutions de codons qui sont silencieuses sur le plan de la traduction ou impliquaient peu de changements des propriétés physico-chimiques des acides aminés.

Ces données suggèrent clairement et systématiquement que l'édition de l'ARN joue un rôle fonctionnel important dans la minimisation de l'effet des mutations qui auraient considérablement altéré la structure des protéines par le remplacement des acides aminés impliquant des changements drastiques d'hydrophobie et de taille moléculaire. Des études antérieures ont rapporté la restauration des acides aminés conservés en éditant [3-5, 11, 13, 15, 16], mais les modèles, et de plus la cohérence de ces modèles, à la fois dans les génomes chloroplastiques et mitochondriaux de plantes terrestres aussi diverses montrées ici sont vraiment frappants, et ils sont basés sur des données beaucoup plus étendues que ces études antérieures.

Auparavant, il a également été démontré que l'édition dans les transcrits de gènes d'ARNt, de séquences de Shine-Dalgarno putatives et d'introns du groupe II améliore le repliement structurel ou l'appariement de bases de ces molécules [8, 11, 13, 49, 50].

Récemment, Mower et Palmer [14] ont également découvert que dans le génome mitochondrial de B. vulgaris, l'édition partielle était beaucoup plus répandue sur les sites silencieux (58,5 %) que sur les sites non silencieux (8,0 %), un phénomène qui avait été signalé plus tôt sur des gènes uniques [51, 52]. Même si une édition partielle peut représenter une édition en cours dans les produits de réaction intermédiaires [53], la différence entre les sites silencieux et non silencieux est plus cohérente avec une explication fonctionnelle. Par conséquent, ces données et observations d'études précédentes soutiennent sans ambiguïté un rôle de la sélection naturelle dans le maintien de l'activité d'édition de l'ARN dans les organites végétaux [24].

Une autre observation que nous avons faite à partir de ces données est que dans les chloroplastes ou les mitochondries de ces cinq plantes, l'édition augmente uniformément l'hydrophobie des protéines lorsque nous avons examiné les changements d'acides aminés des événements d'édition à l'aide de l'échelle d'hydropathie d'acides aminés de Kyte-Doolittle [48]. Même dans A. formosae où presque un nombre égal d'événements d'édition directe et inverse ont été signalés, cette augmentation de l'hydrophobie des protéines est toujours valable car une grande proportion d'événements d'édition inverse ont été impliqués dans la résurrection des codons d'arrêt internes et n'ont pas compensé l'augmentation de l'hydrophobie générée par les événements d'édition directe (Figure 1a, b). Ce phénomène a déjà été observé dans les mitochondries de A. thaliana [8] et dans les chloroplastes de A. formosae [11]. Maintenant, il semble raisonnable de suggérer que le phénomène est plus répandu dans les plantes terrestres qu'on ne le savait auparavant et peut s'appliquer à la plupart des événements d'édition d'ARN dans les organites de la plupart des plantes terrestres. Si tel est le cas, on peut se demander s'il existe une raison fonctionnelle derrière ce schéma de changements d'acides aminés médiés par l'édition d'ARN, ce qui pourrait nous rapprocher de la réponse à l'énigme de l'origine de l'édition d'ARN dans les organites végétaux.

Les génomes organellaires végétaux contiennent des pourcentages disproportionnés de gènes codant pour des protéines liées à la membrane riches en acides aminés hydrophobes

Après leurs origines endosymbiotiques de cyanobactéries et de protéobactéries, les chloroplastes et les mitochondries sont devenus des organites dans des cellules eucaryotes spécialisées dans le métabolisme énergétique. Ils contiennent tous deux deux grands ensembles de gènes, l'un codant pour des protéines pour la photosynthèse ou la respiration aérobie et l'autre codant pour des protéines pour le traitement de l'information, à savoir la transcription, l'épissage et la traduction des gènes [27, 54, 55].

Alors que les protéines impliquées dans le traitement de l'information, le cycle de Calvin dans les chloroplastes et le cycle de Krebs dans les mitochondries sont des protéines solubles situées dans le stroma ou la matrice (en fait la plupart des gènes codant ces protéines ont déjà été transférés dans le noyau après des endosymbioses), ceux impliqués dans la capture de photons (photosystème protéines) et la photophosphorylation (porteurs d'électrons et ATPase) dans les chloroplastes et la phosphorylation oxydative (porteurs d'électrons et ATPase) dans les mitochondries sont toutes intégrées dans les membranes bicouches phospholipidiques. Par conséquent, il est clair que ces deux organites abritent des pourcentages beaucoup plus importants de gènes codant pour des protéines liées à la membrane que leurs ancêtres bactériens libres ou le noyau de la cellule eucaryote [27, 54, 55].

Lorsque nous avons examiné les fréquences d'occurrence de 20 acides aminés dans deux classes de protéines codées par les génomes chloroplastiques et mitochondriaux de A. formosae et B. vulgaris, respectivement, nous avons constaté que les acides aminés hydrophobes tels que Leu, Ile, Phe, Val, Gly, Ser et Ala étaient utilisés beaucoup plus fréquemment que les acides aminés hydrophiles comme His, Trp, Arg et Lys dans les protéines liées à la membrane (Figure 3) . Leu s'est régulièrement classé parmi les 20 acides aminés les plus élevés dans les protéines liées à la membrane des deux organites. Dans les protéines solubles, aucun biais aussi prononcé dans l'utilisation des acides aminés n'a été observé, et à la place des acides aminés hydrophiles tels que Arg et Lys ont été utilisés autant que des acides aminés hydrophobes comme Leu et Ile (Figure 3). Ces données correspondent aux attentes de la chimie physique de base dans la mesure où l'abondance de protéines liées à la membrane dans les chloroplastes et les mitochondries dicte naturellement l'utilisation fréquente d'acides aminés hydrophobes dans la synthèse de ces protéines. Étant donné que le contenu des gènes dans les deux génomes organellaires a été conservé au cours de l'évolution dans toutes les plantes terrestres, le modèle ci-dessus d'utilisation des acides aminés observé chez les deux espèces peut être supposé représenter le modèle général d'utilisation des acides aminés dans les deux organites de toutes les plantes terrestres.

L'examen du tableau des codes génétiques montre que tous les codons avec U en 2ème position codent pour des acides aminés hydrophobes : Leu, Ile, Phe, Val et Met. Le fait que Leu a la fréquence d'occurrence la plus élevée dans les deux protéomes codés par des organites montrés ci-dessus (Figure 3) et est codé par six codons, tous avec U en 2ème position, peut maintenant expliquer pourquoi les changements de codons Ser → Leu et Pro → Leu représentent les deux classes d'événements de montage les plus fréquentes observées dans notre étude (Figures 1, 2). Ces données démontrent sans équivoque la base fonctionnelle de l'édition d'ARN dans les génomes organellaires des plantes.

Les sites d'édition d'ARN se produisent plus fréquemment dans les séquences ancestrales riches en T, qui sont plus abondantes dans les gènes codant pour des protéines liées à la membrane avec de nombreux acides aminés hydrophobes

Pour comprendre l'environnement de séquence dans lequel les sites d'édition d'ARN ont évolué, nous avons étudié la corrélation entre la fréquence d'édition et la distance T-A et C-G à travers différents gènes. Ce dernier mesure la quantité d'excès de T sur A et de C sur G, à certaines positions de codon, en supposant que les séquences d'ADN dans un génome évoluent vers T = A et C = G conformément à la « règle de la deuxième parité » [ 56]. Pour l'analyse des gènes mitochondriaux dans A. thaliana, B. vulgaris, et O. sativa nous ne présentons que les résultats B. vulgaris car les corrélations étaient très similaires en amplitude et en distribution (Figure 5, fichier supplémentaire 1).

La corrélation de la fréquence de montage et de la distance T-A au 2 sd et 1 st positions des codons dans le génome mitochondrial de B. vulgaris (un B). Les gènes codant pour les protéines liées à la membrane sont indiqués par des points rouges, tandis que les gènes codant pour les protéines solubles sont présentés sous forme de triangles bleus. Les résultats de la régression sont significatifs pour toutes les analyses présentées (p < 0.01) avec des détails indiqués dans chaque figure.

Aux 2 e positions du codon, il y avait une corrélation positive entre ces deux paramètres dans les trois génomes que nous avons examinés : les génomes chloroplastiques de A. formosae et A. capillus-veneris et le génome mitochondrial de B. vulgaris (Figures 4a, b, 5b). En d'autres termes, dans les gènes qui présentaient des distances T-A plus grandes ou avaient un excès de T sur A dans leurs séquences, il y avait plus d'événements d'édition. Cette corrélation positive entre la fréquence d'édition et la distance T-A a également été observée aux positions du 1 er codon dans le génome mitochondrial (figure 5a). Comme prévu, une corrélation négative significative entre la fréquence de l'édition inverse et la distance T-A a été trouvée aux positions du 1 er codon dans le génome chloroplastique de A. capillus-veneris (Figure 4c), mais pas dans celui de A. formosae (Fichier supplémentaire 1). Ces découvertes ne sont pas inattendues, car lorsqu'il y avait une abondance de T dans un gène, on s'attendrait à plus de mutations T→C, qui seraient alors fixées et subiraient plus tard des changements C→U pendant l'édition en raison de l'existence de la machinerie d'édition. Fait intéressant, la distance T-A pour les positions du 3e codon n'a montré aucune corrélation entre toutes les comparaisons de fréquence d'édition (Fichier supplémentaire 1).

L'autre observation que nous avons faite à partir de ces données était que les gènes codant pour les protéines liées à la membrane ont tendance à avoir des distances T-A plus grandes dans leurs séquences et donc plus d'événements d'édition (figures 4, 5). Tous les gènes situés aux extrémités hautes des parcelles de corrélation codent pour des protéines liées à la membrane, tandis que la plupart de ceux situés aux extrémités inférieures des parcelles codent pour des protéines solubles. Ces données sont à nouveau cohérentes avec l'idée que nous avons formulée ci-dessus selon laquelle la forte proportion de protéines liées à la membrane dans les protéomes codés par des organites végétaux semble être responsable de la prévalence de l'édition d'ARN dans ces deux génomes.

Dans ces analyses de corrélation, les séquences de transcrits matures ont été utilisées, ce qui était basé sur une hypothèse implicite selon laquelle la séquence éditée représentait une condition ancestrale et la séquence prééditée représentait une condition dérivée. En d'autres termes, on a supposé que l'édition d'ARN avait évolué récemment dans l'évolution eucaryote. De nombreuses études antérieures ont en effet observé que l'édition restaure généralement les acides aminés conservés au cours de l'évolution [3-5, 11, 13, 15, 16]. Il a également été montré que seul un petit nombre de sites d'édition sont conservés de manière évolutive à travers les plantes terrestres dans le génome chloroplastique [7, 13, 15, 26]. Il en est de même dans les génomes mitochondriaux de A. thaliana, B. vulgaris et O. sativa seulement 118 sites (21 %) sur un total de 561 sites d'édition étaient partagés par ces trois angiospermes divers selon notre examen. Ainsi, l'hypothèse que nous avons utilisée dans les analyses de corrélation semble être valide.

Les sites d'édition se trouvent plus fréquemment dans les gènes contraints de manière sélective

En raison de la base fonctionnelle claire de l'édition d'ARN démontrée ci-dessus, nous avons soupçonné que l'édition d'ARN augmenterait en fonction de la contrainte de sélection sur les gènes. Nous avons ensuite examiné la corrélation possible des taux d'évolution spécifiques aux gènes, à la fois synonymes ( S) et non synonyme ( N), avec une fréquence totale d'édition d'ARN. Ces analyses ont été effectuées sur les gènes de A. formosae, A. capillus-veneris, A. thaliana, B. vulgaris, et O. sativa (Illustration 6). Les données de fréquence d'édition comprenaient toutes les positions de codon, et les données d'édition chloroplastiques combinaient à la fois les fréquences d'édition avant et arrière.

La corrélation de la fréquence d'édition totale et des taux d'évolution moléculaire spécifiques aux gènes à des niveaux non synonymes ( N) (a, c) et synonyme ( S) (b, d) sites dans les génomes chloroplastiques de A. formosae et A. capillus-veneris (a, b) et les génomes mitochondriaux de A. thaliana , B. vulgaris , et O. sativa (c, d). Les points pleins (rouge) signifient les protéines liées à la membrane, tandis que les points ouverts (bleu) représentent les protéines solubles. Données pour A. formosae sont représentés par des triangles, tandis que A. capillus-veneris est présenté sous forme de cercles (a, b). Données pour A. thaliana, B. vulgaris, et O. sativa sont présentés respectivement sous forme de carrés, de triangles et de cercles (c, d).

Initialement, les corrélations ont été confondues par l'effet des sites d'édition eux-mêmes, qui, lorsqu'ils sont inclus dans l'estimation des taux d'évolution moléculaire, invoqueraient la circularité par rapport à la fréquence d'édition. De plus, de fréquents codons d'arrêt dans le cadre dans de nombreux gènes chloroplastiques ont interféré avec l'analyse. Pour surmonter ces problèmes, nous avons supprimé les sites d'édition des analyses en convertissant les sites en bases ancestrales.

Les résultats obtenus pour les deux génomes suggèrent que les gènes liés à la membrane fréquemment modifiés sont soumis à une contrainte de sélection plus forte que ceux des protéines solubles (Figure 6a, c).

Nous avons également déterminé qu'il y a peu de relation entre la fréquence d'édition et les taux de synonymes (Figure 6b, d), qui est une approximation du taux de mutation neutre.

Ces résultats corroborent l'observation d'une fréquence d'édition réduite dans les génomes chloroplastiques de deux plantes parasites [15], dans lesquels de nombreux gènes conservés ont subi une pression de sélection réduite chez deux espèces différentes des mêmes lignées [57].

L'édition de l'ARN dans les génomes organellaires des plantes est-elle issue de la sélection naturelle ou de la dérive génétique ?

Depuis les découvertes de l'édition de l'ARN dans les génomes organellaires des plantes [3-6], les généticiens et les évolutionnistes moléculaires ont été intrigués par la question de savoir comment l'édition de l'ARN a évolué en premier lieu [8, 24-26]. Récemment, Tillich et al. [26] ont découvert un modèle appelé « contexte de séquence préférée » dans lequel il peut y avoir une préférence pour les pyrimidines immédiatement en amont et les purines immédiatement en aval d'un site d'édition. Un tel modèle pourrait être important pour la reconnaissance du site par la machinerie d'édition d'ARN. Dans une étude antérieure, Covello et Gray [24] ont disséqué avec perspicacité la question complexe en trois parties : 1) l'origine de l'activité d'édition de l'ARN, 2) la fixation des mutations sur les sites modifiables et 3) le maintien de l'activité d'édition de l'ARN. De plus, ils ont émis l'hypothèse que la dérive génétique jouait un rôle clé dans les deux premiers processus et que la sélection naturelle contribuait au troisième. Certains auteurs ont un point de vue encore plus neutre sur l'origine de l'édition d'ARN que ces deux auteurs, par exemple, Lynch et al. [25]. Ci-dessous, nous présentons nos idées sur la question de savoir si l'édition de l'ARN est issue de la sélection naturelle ou de la dérive génétique sur la base des analyses présentées ci-dessus. Pour rendre l'argument plus facile à construire en fonction de la force des données, nous suivons une séquence inverse des trois étapes proposées par [24].

Maintien de l'activité d'édition d'ARN

En accord avec [24], nous pensons que les données sont accablantes pour soutenir un rôle de la sélection naturelle dans le maintien de l'activité d'édition de l'ARN dans les organites des plantes, malgré une mauvaise compréhension de sa nature biochimique jusqu'à présent. Sans édition, le remplacement de tant d'acides aminés avec des propriétés physico-chimiques très différentes modifierait considérablement les structures des protéines, sinon rendrait ces protéines complètement dysfonctionnelles (Figures 1, 2). Le cas le plus extrême est le génome chloroplastique de A. formosae, où les événements d'édition directe et inverse affectent plus de la moitié des gènes du génome [11]. De plus, les codons d'arrêt et de démarrage sont souvent créés ou supprimés par édition [11, 13, 14]. De même, les ARNt, les introns du groupe II et les séquences putatives de Shine-Dalgarno qui contiennent des sites d'édition sont également susceptibles d'être affectés si l'activité d'édition est perdue [8, 11, 13, 49, 50]. Par conséquent, nous ne développerons pas davantage ce point ici.

Fixation des mutations sur les sites modifiables

C'est le point de départ où notre point de vue diffère de celui de [24] sur l'évolution de l'édition d'ARN. Si les mutations sur les sites modifiables étaient corrigées par dérive génétique, on s'attendrait à ce que leurs schémas de distribution soient complètement aléatoires lorsqu'ils sont examinés par rapport aux positions des codons, aux types de codons et aux types de gènes. Cependant, nos analyses ont fourni de nombreuses données pour contredire ce scénario. Premièrement, nous avons constaté que les sites d'édition étaient principalement distribués aux 2 e et 1 er positions de codon (Figures 1, 2), comme indiqué par des études précédentes [8, 10, 11, 13-15, 20] et trouvés ici corrélés entre gènes pour tous les taxons examinés (Fichier supplémentaire 1).

Deuxièmement, l'édition a affecté les codons qui ont entraîné une plus grande hydrophobie et des changements de taille moléculaire beaucoup plus fréquemment que ceux avec peu de changements impliqués, et une édition lourde a uniformément augmenté l'hydrophobie des protéines (Figures 1, 2). En fait, il y avait un manque flagrant de codons fortement modifiés qui étaient silencieux sur le plan de la traduction ou impliqués dans un petit changement d'hydrophobie et de taille moléculaire. Enfin, l'édition s'est produite plus fréquemment dans les gènes contraints sélectivement codant pour les protéines liées à la membrane que ceux codant pour les protéines solubles, car ces gènes contenaient de nombreux codons riches en U codant pour les acides aminés hydrophobes (Figures 4, 5, 6). Ces données soutiennent toutes un rôle de la sélection naturelle dans la fixation des mutations sur des sites modifiables et sont fondamentalement incompatibles avec une explication neutraliste invoquant la dérive génétique.

Un point que nous voulons clarifier est que le point de discorde exact dans notre exposition est légèrement différent de celui de [24]. Notre argument est plus large que le leur en ce sens que nous soutenons qu'à la fois la fixation des sites d'édition et la fixation des mutations aux sites éditables ont été réalisées par sélection naturelle. Théoriquement, à l'origine de l'activité d'édition, tout site avec T ou C pourrait muter en C ou T (c'est-à-dire, tout site avec T ou C pourrait tomber dans la catégorie des « sites modifiables ») car il pourrait toujours revenir à son état d'origine après l'édition ou édition inversée. En réalité, seuls certains sites pourraient être autorisés à le faire, car il pourrait y avoir des motifs de séquence impliqués dans la fixation des sites d'édition comme suggéré par certains auteurs [8, 11, 32].

Fondamentalement, l'apparition de la machinerie d'édition a relâché la pression de sélection sur les mutations T↔C. Les données sur la distribution des sites d'édition parmi les positions de codons, les codons et les gènes telles que présentées ci-dessus démontrent clairement que la fixation des sites d'édition et la fixation des mutations aux sites modifiables suivaient un schéma de sélection fonctionnelle.

Origine de l'activité d'édition d'ARN

Il a été généralement reconnu que l'origine des gènes codant pour les enzymes impliquées dans l'édition d'ARN représente une étape critique dans l'origine de l'édition d'ARN [8, 24]. A ce jour, la nature biochimique de la machinerie d'édition reste mal caractérisée même si un gène nucléaire codant pour une protéine essentielle à l'édition d'ARN dans les chloroplastes a été identifié dans Arabidopsis récemment [58].

Il a également été suggéré que la machinerie d'édition a probablement évolué dans les premières plantes terrestres [7, 9, 13, 26], et que la même machine pourrait être responsable de l'édition dans les deux organites [7, 9]. La question fondamentale dans toute l'histoire de l'évolution de l'édition d'ARN est de savoir si l'origine de la machinerie d'édition était simplement un accident historique ou si elle représentait une innovation évolutive de nécessité. La dérive génétique a été invoquée pour cet événement [24] face au manque de données étendues et de toute explication fonctionnelle évidente. Avec beaucoup plus de données et des analyses approfondies, nous sommes enclins à adopter un point de vue différent ici.

Bien que nous soyons d'accord sur le fait que l'origine de l'activité d'édition de l'ARN elle-même est clairement un événement neutre, nous suggérons qu'elle peut conférer une certaine aptitude aux génomes organellaires. Sinon, il est inconcevable qu'une telle mutation se soit fixée puis maintenue dans les génomes des organites des plantes terrestres au cours d'une évolution de plus de quatre cents millions d'années. Nous proposons ci-dessous une hypothèse.

One basic fact we want to point out is that editing allows a higher GC content in the genome, because forward editing permits fixation of C in the sense strand and G in the antisense strand, and genes in organellar genomes are distributed on both strands of a circular molecule. Perhaps there is an upper limit of AT% that is permitted in a genome and this upper limit may have promoted fixation of the genes encoding enzymes involved in RNA editing.

To strengthen this argument, we remind readers that the genetic code table and start and stop codons in this table mandate presence of all four nucleotides in a genome. Thus, AT content in any genome certainly cannot exceed 100%, and no genome consisted of less than all four nucleotides has ever been reported. Still, we acknowledge that a link between the base composition of a genome and RNA editing frequency is weak even though the two phenomena are compatible. Further, reverse editing, which occurs frequently in the chloroplast genome of A. formosae, and is correlated strongly with the frequency of forward editing (Additional file 1), poses a problem to our explanation. However, if organellar genomes were under pressure, not only to reduce AT, but also to equilibrate the overall nucleotide composition under the second parity rule [56], then a reduction of T would also reduce A, and an increase in C would likewise increase G. Figure 7 shows the dramatic convergence of nucleotide composition toward the equilibrium value (25%) during the early evolution of land plants. This pattern is observed both at whole genome level and across conserved protein-coding genes in both mitochondria and chloroplasts, and may signify a 'drive' for convergence of the four nucleotides toward the equilibrium (Figure 7, Additional file 3). One extreme example of nucleotide convergence can be observed in the chloroplast genome of the lycophyte Selaginella uncinata (Figure 7a, c) [59], in which C→U editing affects

5% of the total coding region (S. Tsuji, pers. comm.).

Nucleotide frequencies across streptophytes for whole genomes of chloroplasts (a) and mitochondria (b), and combined codon positions for the conserved proteomes of chloroplasts (c) (57 genes) and mitochondria (d) (13 genes). Nucleotides are represented by filled circles for T, open circles for A, open triangles for G, and filled triangles for C. The convergence of nucleotide composition can be observed across whole genomes and conserved proteomes. Taxa with available RNA editing data are duplicated and designated as "edit-repaired" by an asterisk. Taxa are arranged according to a phylogenetic sequence of [46] and divergence times are not considered. Broad taxonomic groupings are indicated on the X-axis below brackets. Taxonomic abbreviations are described in Additional file 3.

The most difficult part of the RNA editing story to explain is the lineage-specific occurrence of a good number of editing sites, as many of them seem to have evolved rather recently [7, 13, 26, this study]. Colonization of land by charophytic algal ancestors of land plants, life history characteristics of individual species, the evolutionary history of particular lineages, lineage-specific GC contents in organellar genomes, different substitution rates in chloroplast and mitochondrial genomes of some plants, different degrees of asymmetrical distribution of genes on two strands in the circular organellar genomes, DNA polymerase infidelity and dNTP pool imbalances, and varying intragenomic rearrangement rates in different plant lineages may have all or partly contributed to the origin of editing activity. Especially, the first three processes could result in species undergoing bottleneck periods during which genetic drift could play a large role in fixing random mutations. However, explicit data are needed to tie any of these factors to evolution of RNA editing before a hypothesis favoring any one of them can be seriously entertained.


Conclusion

GetOrganelle is a fast and versatile toolkit for de novo assembly of complete and accurate organelle genomes using low coverage WGS data. Our evaluations show that the GetOrganelle toolkit can efficiently and accurately assemble different types of organelle genomes from a broad range of organisms. In general, compared with NOVOPlasty, GetOrganelle has far better success rates for assembling plastomes while consuming similar or even less computational resources. Additionally, GetOrganelle-reassembled plastomes generally have much higher accuracy than those reassembled by NOVOPlasty or published ones that were assembled by various tools in accordance with the read mapping evaluation. GetOrganelle can also generate all possible configurations when plastomes or mitogenomes have flip-flop configurations or other isomers mediated by repeats.

Potential applications of GetOrganelle include quickly extracting organelle genomes from whole genome assemblies and evaluating organelle genome quality. Assembling organelle genomes from metagenomic data would also be possible by using a customized database and scheme. The maximum extending length option enables rough control of the length of the target assembly, which could be used to quickly assemble interesting loci or genes from the metagenomic and transcriptomic data. Additionally, the Python Classes and Functions defined in GetOrganelleLib could be used to manipulate and disentangle non-organelle assembly graphs.

Currently, GetOrganelle exports all possible configurations without using library information of the paired-end reads. However, the long insert size library or long-read sequencing data can be used for repeat resolution and configuration verification. A function that could use this information and estimate the proportion of all the potential isomers (configurations) is expected in a future version of GetOrganelle. Improvements in the seed databases and the label databases are also expected, which should result in better parameter estimation and higher success rates in assembling mitogenomes.


Remerciements

We thank Sudarshan Pinglay, and members of the Ehrenreich lab for helpful input regarding this manuscript. I.M.E. also thanks to the JCVI Synthetic Biology and Bioenergy Minimal Cell team, in particular Dan Gibson, Clyde Hutchison III, John Glass, Chuck Merryman, Hamilton Smith, Yo Suzuki, and Kim Wise, for a sabbatical that motivated this paper. This paper was supported by grant R35GM130381 from the National Institutes of Health (I.M.E.), funds from the University of Southern California (I.M.E.), and National Institutes of Health Chemistry–Biology Interface training grant fellowship (T32GM118289 C.B.H.).


Present address: Biomacromolecules Research Team, RIKEN Center for Sustainable Resource Science, Saitama, Japan

These authors contributed equally: Masaki Odahara, Kensuke Nakamura.

Affiliations

Department of Life Science, Rikkyo (St. Paul’s) University, Tokyo, Japan

Masaki Odahara & Yasuhiko Sekine

Department of Life Science and Informatics, Maebashi Institute of Technology, Gunma, Japan

Department of Biotechnology, Toyama Prefectural University, Toyama, Japan

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Contributions

M.O., K.N. and T.O. performed experiments, M.O., K.N., Y.S. and T.O. analyzed data, and M.O., K.N. and T.O. a écrit le papier.

Auteurs correspondants


Voir la vidéo: Diversification et Endosymbiose # 4 - SVT Terminale S - Mathrix (Janvier 2022).