Informations

Comment évolue le contenu GC ?


Fond

Le contenu GC fait référence à la fréquence des paires de bases qui sont soit C ou G dans le génome, ou en d'autres termes le nombre de paires de bases GC divisé par l'addition du nombre de paires de bases GC plus le nombre de paires de bases AT.

$$GCcontent = frac{N_{GC}}{N_{AT}+N_{GC}}$$

Question

Comment évolue le contenu GC et pourquoi le contenu GC diffère-t-il entre les populations/espèces/lignées ? Évolue-t-il uniquement sous dérive génétique ? Sous sélection ? Intuitivement, je dirais que le rapport des probabilités de mutation de A ou T à G ou C devrait être un facteur important guidant l'évolution du contenu en GC. Est-ce que c'est? Le taux de mutation global influence-t-il le contenu en GC ? Quels autres traits/forces influencent l'évolution du contenu en GC ?


Je pense que le travail clé ici est « évoluer ». Les rapports GC/AT globaux changent par mutations, dont le taux est constant. La probabilité qu'étant donné un événement de mutation qu'une base soit remplacée par une autre a été modélisée de plusieurs manières où les probabilités de différentes mutations peuvent être ou ne pas être les mêmes.

Globalement, la teneur en GC tendra à avoisiner les 50 %. Ce qui fait que les génomes riches en GC deviennent riches en GC (60-70 %), c'est que les mutations des paires de bases GC ont des avantages sélectifs soit dans les régions, soit dans le génome dans son ensemble qui faire en sorte qu'ils soient conservés. Le taux de mutation peut ne pas être différent (ou même inférieur) dans les organismes riches en GC (beaucoup d'entre eux sont profondément souterrains ou sous l'eau profonde. Les génomes riches en GC se produisent parce que les mutations AT->GC confèrent un avantage et restent.

Les raisons pour lesquelles le contenu en GC migre de 50 % entrent dans deux catégories que j'appellerai entropiques et sélectives.

Par entropique Je veux dire spécifiquement que les séquences codant pour les gènes et d'autres caractéristiques telles que les sites de liaison sur l'ADN ou d'autres caractéristiques telles que les centromères, ce qui fera varier le rapport global de 1 car la séquence est limitée par les informations qu'elle contient. Alors que les régions de codage ont un rapport supérieur à 1, la teneur en GC a tendance à osciller autour de 54 %. Les eucaryotes ont des îlots GC, etc., mais cela ne change pas non plus globalement le contenu GC

Ainsi, les génomes riches en gènes et les caractéristiques fonctionnelles typiques du génome n'expliquent pas vraiment certaines des teneurs en GC spectaculairement élevées trouvées ; jusqu'à 70%. Bien que le lien ci-dessus examine le biais GC dans les régions codantes, il est évident que toute partie du génome qui n'est qu'un espaceur entre des éléments ayant des fonctions spécifiques variera librement en GC si elle est utile.

Sélectif les facteurs de teneur élevée en GC incluent par exemple des environnements à haute pression et température, qui généralement biaisent fortement vers une teneur élevée en GC par ce mécanisme. Vous pouvez imaginer comment cela fonctionne : les génomes à haute teneur en GC sont thermodynamiquement plus stables et peuvent survivre plus facilement aux collisions extra-moléculaires d'énergie plus élevée de ces environnements.

Les génomes riches en GC ne sont pas de simples adaptations avec lesquelles vivre. Tous les gènes pour les processus orientés ADN tels que la transcription, l'emballage chromosomique, l'ADN polymérase doivent s'ajuster beaucoup. Au fur et à mesure que l'organisme s'adapte à des températures plus chaudes ou à des pressions plus élevées, chaque protéine individuelle produite devra également changer pour être stable et fonctionner dans les nouvelles conditions. En tant que tels, ces changements ne se produisent que sur de longues périodes d'évolution. C'est probablement une bonne partie de la raison pour laquelle les niches d'archées n'ont pas été remplacées par des eubactéries depuis plus d'un milliard d'années depuis que la vie est sur Terre.


Contenu GC

Contenu GC (ou teneur en guanine-cytosine), en biologie moléculaire, est le pourcentage de bases azotées sur une molécule d'ADN qui sont soit de la guanine soit de la cytosine (parmi une possibilité de quatre différentes, comprenant également l'adénine et la thymine). [1] Cela peut faire référence à un fragment spécifique d'ADN ou d'ARN, ou à celui du génome entier. Lorsqu'il fait référence à un fragment du matériel génétique, il peut désigner le contenu en GC d'une partie d'un gène (domaine), d'un gène unique, d'un groupe de gènes (ou de groupes de gènes) ou même d'une région non codante. G (guanine) et C (cytosine) subissent une liaison hydrogène spécifique alors que A (adénine) liaisons spécifiques avec T (thymine). La paire GC est liée par trois liaisons hydrogène et AT appariée par deux liaisons hydrogène, et donc les paires GC sont plus thermostables que les paires AT. [2] Malgré la thermostabilité plus élevée conférée au matériel génétique, il est envisagé que les cellules avec un ADN GC élevé subissent une autolyse, réduisant ainsi la longévité de la cellule en soi. [3] En raison de la robustesse du matériel génétique des organismes à GC élevé, il était communément admis que la teneur en GC jouait un rôle vital dans les températures d'adaptation, une hypothèse qui a récemment été réfutée. [4]

Dans les expériences de PCR, la teneur en GC des amorces est utilisée pour déterminer leur température d'hybridation avec l'ADN matrice. Un niveau de teneur en GC plus élevé indique une température de fusion plus élevée.

Connaissances supplémentaires recommandées

La plage de pesée sûre garantit des résultats précis

Vérification quotidienne de l'équilibre visuel

Comment vérifier rapidement les pipettes ?


Tous les codes de classification des revues scientifiques (ASJC)

  • APA
  • Auteur
  • BIBTEX
  • Harvard
  • Standard
  • SIF
  • Vancouver

Résultats de recherche : Contribution à la revue › Article › peer-review

T1 - Les modèles d'évolution de la séquence d'introns chez la drosophile dépendent de la longueur et du contenu en GC.

N2 - CONTEXTE : Les introns comprennent une grande partie des génomes eucaryotes, mais leur signification fonctionnelle est mal connue. Des éléments régulateurs ont été cartographiés sur certains introns, bien qu'on pense que ceux-ci ne représentent qu'une petite fraction de l'ADN intronique à l'échelle du génome. Aucun modèle cohérent n'a émergé des études qui ont étudié les niveaux généraux de contrainte évolutive dans les introns. RÉSULTATS : Nous examinons la relation entre la longueur des introns et les niveaux de contrainte évolutive en analysant la divergence interspécifique à 225 fragments d'introns chez Drosophila melanogaster et Drosophila simulans, échantillonnés à partir d'une large distribution de longueurs d'intron. Nous documentons une corrélation fortement négative entre la longueur et la divergence des introns. Fait intéressant, nous constatons également que la divergence des introns est négativement corrélée avec le contenu en GC. Cependant, cette relation ne tient pas compte de la corrélation entre la longueur et la divergence des introns et peut simplement refléter une variation locale des taux de mutation ou des biais. CONCLUSION : Les introns courts ne constituent qu'une petite fraction de l'ADN intronique total du génome. Notre découverte selon laquelle les introns longs évoluent plus lentement que la moyenne implique que, alors que la majorité des introns du génome de la drosophile peuvent subir peu ou pas de contrainte sélective, la plupart de l'ADN intronique du génome est susceptible d'évoluer sous une contrainte considérable. Nos résultats suggèrent que les éléments fonctionnels peuvent être omniprésents dans les introns plus longs et que ces introns peuvent avoir un rôle plus général dans la régulation de l'expression des gènes qu'on ne le pensait auparavant. Notre découverte selon laquelle le contenu et la divergence de GC sont négativement corrélés dans les introns a des implications importantes pour l'interprétation de la corrélation entre la divergence et les niveaux de biais de codon observés chez la drosophile.

AB - CONTEXTE : Les introns constituent une grande partie des génomes eucaryotes, mais leur signification fonctionnelle est mal connue. Des éléments régulateurs ont été cartographiés sur certains introns, bien qu'on pense que ceux-ci ne représentent qu'une petite fraction de l'ADN intronique à l'échelle du génome. Aucun modèle cohérent n'a émergé des études qui ont étudié les niveaux généraux de contrainte évolutive dans les introns. RÉSULTATS : Nous examinons la relation entre la longueur des introns et les niveaux de contrainte évolutive en analysant la divergence interspécifique à 225 fragments d'introns chez Drosophila melanogaster et Drosophila simulans, échantillonnés à partir d'une large distribution de longueurs d'intron. Nous documentons une corrélation fortement négative entre la longueur et la divergence des introns. Fait intéressant, nous constatons également que la divergence des introns est négativement corrélée avec le contenu en GC. Cependant, cette relation ne tient pas compte de la corrélation entre la longueur et la divergence des introns et peut simplement refléter une variation locale des taux de mutation ou des biais. CONCLUSION : Les introns courts ne constituent qu'une petite fraction de l'ADN intronique total du génome. Notre découverte selon laquelle les introns longs évoluent plus lentement que la moyenne implique que, alors que la majorité des introns du génome de la drosophile peuvent subir peu ou pas de contrainte sélective, la plupart de l'ADN intronique du génome est susceptible d'évoluer sous une contrainte considérable. Nos résultats suggèrent que les éléments fonctionnels peuvent être omniprésents dans les introns plus longs et que ces introns peuvent avoir un rôle plus général dans la régulation de l'expression des gènes qu'on ne le pensait auparavant. Notre conclusion selon laquelle le contenu et la divergence de GC sont négativement corrélés dans les introns a des implications importantes pour l'interprétation de la corrélation entre la divergence et les niveaux de biais de codon observés chez la drosophile.


Résultats et discussion

Les niveaux de divergence sont corrélés à la longueur de l'intron

Nous avons étudié les niveaux de divergence sur un total de 225 introns (un mélange d'introns courts complets et de plusieurs centaines de fragments de paires de bases d'introns plus longs) dispersés à travers le Drosophile génome. La relation entre la longueur des introns et la divergence des nucléotides pour tous les introns complets et fragments d'intron étudiés est illustrée à la figure 1. Une corrélation fortement négative entre la longueur et la divergence des introns est apparente (coefficient de corrélation de Spearman R s= -0.388, P < 10 -4 ). Nous avons également divisé les données en deux classes de taille en fonction de la taille médiane des introns de 86 pb dans Drosophile [14] petits (≤86 pb) introns et grands (>86 pb) introns. La classe des grands introns a montré des divergences significativement plus faibles que la classe des petits introns (statistique du test à deux échantillons de Wilcoxon W = 17079,5, P < 10 -4 ). La corrélation entre la longueur et la divergence des introns est un peu plus faible, mais toujours significative au sein de la classe des introns les plus longs (R s= -0.278, P = 0.006).

La relation entre la longueur de l'intron et le niveau de divergence entre D. melanogaster et D. simulans pour l'ensemble de données combiné de 225 introns. Une corrélation significativement négative est trouvée pour tous les introns (coefficient de corrélation de Spearman R s= -0.388, P < 10 -4 ), premiers introns (R s= -0.451, P < 10 -4 ) et les non premiers introns (R s= -0.304, P < 10 -4 ).

Il a été noté que les introns hébergeant des éléments régulateurs ont tendance à être les premiers introns [6, 8], et que les premiers introns ont tendance à être plus longs dans Drosophile [17]. Ainsi, une relation entre la taille des introns et la divergence ne peut être attendue que pour les premiers introns [16]. En effet, les études précédentes n'ont pas réussi à trouver des preuves de contrainte en dehors des premiers introns [16, 18]. Sur la figure 1, nous montrons que la forte corrélation entre divergence et longueur d'intron n'est pas spécifique aux premiers introns (premiers introns R s= -0.451, P < 10 -4 non premiers introns R s= -0.304, P < 10 -4 ). Les divergences moyennes n'étaient pas significativement différentes entre les premiers et les non-premiers introns par rapport aux classes de taille courte et longue (tableau 1). Ces résultats suggèrent que les éléments régulateurs peuvent être suffisamment communs à tous les introns plus longs pour que la contrainte soit indépendante de la position d'un intron dans un gène.

Bien que cela soit une preuve solide de la contrainte évolutive sur les introns plus longs, les introns courts ne semblent pas évoluer beaucoup plus lentement que les sites synonymes dans Drosophile. Pour illustrer cela, la figure 2 montre des estimations de divergence moyenne (avec deux erreurs standard) pour les sites synonymes de 102 régions codantes [19] par rapport à celles des classes de taille petite (≤86 bp) et grande (>86 bp) des introns. La divergence moyenne sur les sites non-synonymes [19] est également indiquée à titre de comparaison. La divergence du site synonyme est significativement plus élevée que les niveaux de divergence pour les grands introns (Wilcoxon deux échantillons W = 7745,5, P < 10 -4 ) mais pas de petits introns (Wilcoxon à deux échantillons W = 15115,5, P = 0,617). Ce résultat est en accord avec les conclusions de Halligan et al. [9] que les introns et les sites synonymes évoluent à des rythmes similaires, étant donné que leur ensemble de données contenait peu d'introns longs. La moitié des introns du génome ont moins de 86 paires de bases de long, mais ceux-ci ne représentent qu'environ 5 % de l'ADN intronique total du génome [14]. Ainsi, ironiquement, alors que la majorité des introns dans le Drosophile le génome peut évoluer sous peu ou pas de contrainte sélective, la plupart de l'ADN intronique dans le génome est susceptible d'évoluer sous une contrainte considérable.

Divergences moyennes pour les sites non synonymes, les sites synonymes et les introns petits et grands. Niveaux moyens de divergence entre D. melanogaster et D. simulans pour les sites non-synonymes et synonymes de données de codage, les introns 86 pb et les introns >86 pb. Les barres d'erreur indiquent deux erreurs standard. La divergence du site synonyme est significativement plus grande que grande (statistique du test à deux échantillons de Wilcoxon W = 7745,5, P < 10 -4 ) mais pas petit (W = 15115,5, P = 0,6173) divergences d'intron. La petite divergence d'intron est significativement plus grande que la grande divergence d'intron (W = 17079,5, P < 10 -4 ).

Divergence et composition en bases des introns

Les introns sont plus riches en AT que les sites synonymes dans Drosophile [20] (Tableau 1). Des niveaux de divergence inférieurs pourraient-ils alors être un artefact du contenu local en GC ? Il existe une relation significativement négative entre la divergence et la teneur en GC dans l'ensemble de données intron (R s= -0.345, P < 10 -4 ) (Figure 3a), et une relation significativement positive entre la longueur de l'intron et la teneur en GC (R s= 0.237, P < 10 -3 ) (Figure 3b). Le coefficient de corrélation partielle pour la divergence par rapport à la longueur, en contrôlant le contenu en GC, est de -0,132 (intervalle de confiance bootstrap à 95 % : -0,192/-0,089). Les corrélations partielles pour la divergence par rapport au contenu GC (contrôle de la longueur) et le contenu GC par rapport à la longueur (contrôle de la divergence) étaient de -0,292 (-0,410/-0,168) et 0,030 (-0,037/0,120), respectivement. Ces résultats suggèrent que la relation entre la longueur de l'intron et la divergence n'est pas un effet de confusion du contenu en GC, malgré la corrélation négative entre la divergence et le contenu en GC.

La relation entre la teneur en GC du fragment d'intron et à la fois la divergence et la longueur. (une) La relation entre la teneur en GC des fragments d'intron et la divergence entre D. melanogaster et D. simulans (coefficient de corrélation de Spearman R s= -0.345, P < 10 -4 ). (b) La relation entre la teneur en GC des fragments d'intron et la longueur de l'intron (R s= 0.237, P < 10 -3 ).

Semblable au modèle que nous observons dans les introns, une association négative entre les taux de substitution de sites synonymes et le contenu en GC à la troisième position des codons a déjà été notée dans Drosophile [21] et chez les mammifères [22]. Ce modèle sur des sites synonymes a été cité comme preuve de sélection pour le biais d'utilisation des codons, car les codons préférés sont généralement riches en GC [21, 23] cependant, la sélection sur l'utilisation des codons ne peut évidemment pas expliquer le même modèle dans les introns. La relation négative entre la divergence et la teneur en GC dans les introns pourrait plutôt refléter une variation locale dans l'étendue des taux de mutation ou des biais [22, 24], ou les effets d'une conversion génique biaisée favorisant la GC par rapport à l'AT, qui imite l'effet de la sélection en faveur de Les nucléotides GC [25].

Le rôle possible du biais mutationnel peut être examiné en utilisant la méthode suivante. Il résulte du modèle standard de dérive et de mutation réversible que, si AT mute en GC au taux vous et GC mute en AT au taux ku la fréquence d'équilibre de GC pour les sites neutres (en négligeant les sites polymorphes) est approximée par p = 1/(1 + k), et le taux d'équilibre des substitutions est K = 2Royaume-Uni/(1+k) [26, 27]. Cela donne la relation K = 2vous(1 - p), de sorte que le taux de substitution à l'équilibre est négativement et linéairement lié à la teneur en GC. Cette formule prédit que l'interception (divergence à teneur nulle en GC) est égale à la valeur absolue de la pente, et donc cette hypothèse est testable. Le coefficient de régression de divergence sur le contenu en GC dans l'ensemble de données complet est de -0,180 (-0,254/-0,106), et l'intersection correspondante est de 0,157 (0,115/0,163), ce qui à première vue est cohérent avec l'hypothèse selon laquelle la variation du niveau de le paramètre de biais mutationnel, k, est suffisant pour rendre compte de la relation entre la divergence et la teneur en GC.

La relation entre la divergence et la longueur, cependant, rend le test ci-dessus problématique, compte tenu de la grande variation de la longueur des introns. Si seuls les 127 introns courts (longueur ≤ 86 pb) sont utilisés, qui sont de longueur beaucoup plus uniforme, la régression de divergence sur le contenu en GC est quasiment inchangée à -0,116 (-0,207/-0,023), et l'interception est de 0,150 ( 0,142/0,162). Notez, cependant, qu'il existe une corrélation partielle significative de 0,166 (0,041/0,345) entre le contenu GC et la longueur pour les introns courts, mais pas pour les introns longs, il existe donc toujours une relation résiduelle entre la longueur et le contenu GC dans les introns courts. Bien que nous ne puissions pas exclure la possibilité qu'une conversion génique et/ou une sélection biaisée en faveur de GC par rapport à AT explique la relation entre le contenu en GC et la divergence, notre analyse suggère que la variation du biais mutationnel peut être suffisante. Si ce processus explique également la relation entre la divergence des sites synonymes et le contenu en GC, les tests de sélection sur le biais de codon basés sur des corrélations négatives entre le biais de codon et la divergence (récemment discutés par Bierne et Eyre-Walker [28] et Dunn et al. [29]) perdent leur force. Ceux-ci ont été critiqués sur d'autres bases théoriques par Eyre-Walker et Bulmer [26].

La densité des éléments fonctionnels dans les introns

Les analyses de corrélation suggèrent fortement que les introns plus longs présentent des niveaux de divergence plus faibles, et que cela n'est pas simplement causé par des différences de taux de mutation liées au contenu en GC, bien que d'autres sources de différences de taux de mutation ne puissent bien sûr pas être exclues. Alors pourquoi des introns plus longs pourraient-ils être soumis à des niveaux de contrainte plus élevés ? Les introns sont connus pour contenir des éléments régulateurs (pour des exemples, voir [30, 31] et voir [32] pour une revue récente de la littérature sur les mammifères), il est donc possible que les introns plus longs soient plus contraints car ils contiennent plus de ces éléments. .

Les éléments régulateurs putatifs dans les introns plus longs sont-ils des entités discrètes (telles que des groupes de sites de liaison pour les facteurs de transcription) ou cette fonction régulatrice est-elle plus diffuse ? Si les éléments régulateurs introniques se produisent en grappes, entourés de régions non contraintes, nous pouvons nous attendre à trouver des niveaux de divergence plus élevés dans les régions courtes de plusieurs centaines de paires de bases d'introns très longs (comme ceux étudiés ici), par rapport aux introns de taille intermédiaire. , à condition qu'ils aient des quantités totales similaires de séquences régulatrices. La raison en est que, si des éléments régulateurs contraints sont regroupés dans une région, il est peu probable que des fragments courts d'introns très longs coïncident par hasard avec un élément fonctionnel, tandis que des régions de taille similaire provenant d'introns de longueur intermédiaire seraient plus susceptibles de coïncider. avec de tels éléments. Un tel regroupement est possible, étant donné que les sites de liaison aux facteurs de transcription et les éléments régulateurs peuvent avoir une taille allant de quelques paires de bases à plusieurs centaines de paires de bases (pour des exemples, voir [33-36]). Si la proportion de séquence régulatrice est similaire dans les introns longs et intermédiaires, cependant, aucune différence dans la divergence moyenne n'est attendue, mais le regroupement entraînerait une variance plus élevée de la divergence dans les introns très longs par rapport aux introns de longueur intermédiaire (après avoir supprimé la variance d'échantillonnage binomiale). Si les éléments régulateurs dans les introns sont largement dispersés, cependant, il n'y a aucune raison de s'attendre à de plus grands moyens ou variances de divergence dans les fragments d'introns très longs. En fait, la divergence moyenne pour le petit nombre de fragments d'intron à partir d'introns de plus de 4 500 pb est de 0,054 (SE = 0,004, n = 9). Ceci est significativement plus petit que pour la petite classe d'intron (≤86 pb) (divergence moyenne = 0,110, n = 127, Wilcoxon à deux échantillons W = 252, P = 0,001) et légèrement significativement plus faible que pour les introns de taille intermédiaire (entre 87 pb et 4 500 pb : divergence moyenne = 0,072, n = 89, W = 4494, P = 0,044). L'écart type non binomial de divergence est estimé à 0,0056 pour les introns très longs, contre 0,023 pour les 38 introns de taille intermédiaire pour lesquels des fragments d'au moins 20 pb plus courts que les introns ont été utilisés pour estimer la divergence (cela garantit que les deux les classes représentent des échantillons plutôt que des séquences complètes). C'est le schéma opposé à ce qui est attendu avec un fort regroupement de séquences régulatrices. Les niveaux de contrainte, et donc la densité d'éléments régulateurs supposés fonctionnels, semblent donc être relativement uniformes sur des introns plus longs.

Une densité uniforme de fonctions régulatrices est inattendue si celles-ci impliquent souvent des groupes de, par exemple, des sites de liaison de facteurs de transcription. Cependant, on pourrait s'attendre, par exemple, si les fonctions de régulation des introns impliquent souvent la formation de structures secondaires complexes. Les preuves suggérant que la séquence et la longueur des introns affectent la structure secondaire de l'ARN messager précurseur (pré-ARNm) s'accumulent. Si cette structure secondaire joue un rôle régulateur, elle est susceptible d'être conservée. Plusieurs études ont trouvé des preuves de la sélection épistatique sur les introns pour maintenir la structure secondaire pré-ARNm [37-39], et il existe également des preuves d'un rôle fonctionnel de la structure secondaire de l'ARN dans l'épissage [40, 41] et l'expression des gènes [42, 43 ]. Par exemple, Chen et Stephan [44] ont découvert que des mutations perturbant une structure en épingle à cheveux dans l'intron 1 du D. melanogaster Adh gène réduire l'efficacité de l'épissage et diminuer la production de la Adh protéine. Ces auteurs montrent que les mutations compensatoires qui restaurent la structure secondaire aboutissent à un mutant indiscernable du type sauvage en termes d'efficacité d'épissage et de production de protéines. Une structure en épingle à cheveux dans le deuxième intron de ce gène montre également une conservation structurelle frappante chez dix espèces dans trois sous-genres de Drosophile [45]. Notre découverte selon laquelle la densité des séquences contraintes ne semble pas être fonction de la longueur de l'intron (au sein de la classe des introns longs) suggère que la structure secondaire du pré-ARNm peut être un mécanisme plus courant de médiation de la régulation des gènes que des éléments régulateurs discrets tels que les amplificateurs de transcription introniques. .


Introduction

La génomique comparative est une clé fondamentale du fonctionnement interne des génomes. L'identification des gènes et d'autres éléments fonctionnels tels que les régions régulatrices, ainsi que la compréhension de leur influence sur la fitness des organismes reposent essentiellement sur la détection de signatures de sélection naturelle au sein des génomes [1]. A cet égard, la conception d'un modèle d'évolution des séquences en l'absence de contraintes sélectives (un modèle neutre) est critique pour la détection de séquences fonctionnelles. En effet, pour expliquer les caractéristiques d'un segment génomique donné, comparer l'ajustement d'un modèle neutre à celui d'un modèle qui invoque également la sélection (purifiante ou positive) est le moyen opérationnel d'inférer une contrainte évolutive et donc une fonction.

La composition en bases des séquences génomiques varie considérablement, à la fois selon les espèces et le long des chromosomes [2,3]. Par exemple, la teneur en GC génomique des organismes cellulaires varie de 13 % à environ 75 % [4,5], avec une grande hétérogénéité intra-génomique. Ces variations à grande échelle de la composition des bases affectent toutes les parties des génomes, des régions intergéniques et des gènes - y compris les trois positions de codon [6] - et ne peuvent donc pas être simplement expliquées par des contraintes sélectives sur les protéines codées. Déterminer les causes sous-jacentes (sélectives ou neutres) de ces variations de teneur en GC est un enjeu majeur en génétique : si elles résultent de la sélection, cela implique que la composition de la base génomique en soi est un trait important qui contribue à la fitness des organismes à l'inverse, si ces « paysages génomiques » sont largement façonnés par des processus moléculaires non adaptatifs, alors la caractérisation de ces processus est essentielle pour la détection fiable de la sélection (voir par exemple [7]).

Chez les mammifères, l'analyse des données de polymorphisme et des schémas de substitution le long des génomes a démontré que l'évolution du contenu en GC est entraînée par la recombinaison, ce qui tend à augmenter la probabilité de fixation des mutations AT→GC [8,9]. L'impact de la recombinaison sur la composition en bases dans ces génomes est très probablement dû à un phénomène connu sous le nom de GC-biased gene conversion (gBGC), qui favorise les nucléotides G/C au niveau des sites polymorphes dans la conversion des intermédiaires de recombinaison (voir revue dans [10 ]). Bien que la gBGC en tant que processus ne soit pas liée à la sélection naturelle, elle affecte la probabilité de fixation des allèles selon des schémas similaires à la sélection [11]. Il s'est avéré être un facteur de confusion important, qui peut imiter certaines marques de sélection positive [7,12] et interférer avec la sélection en favorisant activement la fixation d'allèles délétères [13,14]. Le processus de gBGC a été observé directement dans les produits de la méiose de la levure et de l'homme [15,16], et il existe de nombreuses preuves, basées sur l'analyse des relations entre le taux de recombinaison et les modèles de substitution au sein des génomes, que ce processus affecte de nombreux autres eucaryotes [ 17-19].

Chez les bactéries et les archées, plusieurs facteurs environnementaux affectant potentiellement la teneur en GC génomique ont été proposés (tels que la disponibilité d'oxygène ou d'azote dans l'environnement, la température de croissance ou la variété des environnements rencontrés par un organisme, voir par exemple [20] et réf. dans celui-ci). Étant donné que ces effets sont faibles et que la nature des pressions sélectives reste insaisissable, la principale force motrice du contenu en GC génomique a longtemps été considérée comme un biais mutationnel [21]. Récemment cependant, deux analyses indépendantes ont montré que dans pratiquement toutes les bactéries, indépendamment de leur contenu génomique en GC, il existe un excès de mutations G/C→A/T [22,23]. Ceci suggère qu'un processus inconnu, sélectif ou neutre, s'oppose à ce biais mutationnel universel en favorisant la fixation des allèles G/C Auparavant, une analyse d'un grand nombre de E. coli génomes avaient suggéré un rôle possible de gBGC, basé sur le lien entre le contenu en GC, la recombinaison et l'organisation du chromosome chez cette espèce [24]. Cependant Hildebrand et al. [23] ont observé que l'excès de mutations G/C→A/T était toujours présent après la suppression des ensembles de données avec des preuves de recombinaison. De plus, ils n'ont trouvé aucune corrélation entre la teneur en GC et le taux de recombinaison parmi les espèces bactériennes. Ils ont donc conclu que cette force ne pouvait pas être la gBGC et donc que la sélection entraînait une augmentation de la GC génomique chez les bactéries. La nature de cet avantage sélectif reste cependant mystérieuse, bien que diverses hypothèses aient été proposées [25,26].

Nous soutenons ici que les analyses effectuées par Hildebrand et al. [23] ne sont pas concluants concernant l'hypothèse de la gBGC, et nous présentons des preuves que les variations de la teneur en GC observées chez les bactéries sont influencées par la gBGC. Une signature omniprésente de gBGC est que les régions génomiques subissant des taux de recombinaison élevés acquerront également une teneur élevée en GC [6]. Nous avons ainsi étudié la relation entre la recombinaison et la teneur en GC dans 20 groupes de bactéries et un groupe d'archées. Cet ensemble de données couvre un large éventail de clades représentatifs de la diversité bactérienne. Pour éviter les problèmes inhérents aux comparaisons des taux de recombinaison entre les espèces (tels que les différences de polymorphisme, d'échantillons de génome, de taille de population, de taux de mutation, d'autres facteurs du cycle de vie), nous avons examiné la variabilité intragénomique à la fois pour la recombinaison et le contenu en GC.

Nous montrons que dans une grande variété d'espèces bactériennes, les gènes avec des preuves de recombinaison ont une teneur en GC plus élevée. Nous montrons en outre que ce biais envers les nucléotides G/C dans la recombinaison des gènes ne peut pas être expliqué par la sélection sur l'utilisation des codons et pourrait interférer avec la sélection des codons optimaux se terminant par AT. Ces deux observations suggèrent fortement que la recombinaison homologue, passant par gBGC, est un facteur crucial influençant universellement la teneur en nucléotides des gènes et des génomes. S'il est confirmé, le gBGC peut expliquer plusieurs caractéristiques omniprésentes mais inexpliquées des génomes bactériens. Enfin, nous soulignons que, parce que gBGC a la capacité à la fois d'imiter et d'interférer avec la sélection naturelle, gBGC doit être pris en compte dans les futures études visant à comprendre les processus entraînant l'évolution du génome bactérien.


Méthodes

Les teneurs en GC et en ADN 2C ont été mesurées par cytométrie en flux chez 239 espèces couvrant les 11 ordres et 70 des 78 familles de monocotylédones actuellement reconnues (40) (Fig. S2 et Dataset S1, Tableau S1). Les mesures de la teneur en GC étaient basées sur la comparaison de la fluorescence des noyaux colorée avec deux fluorochromes différents [l'iodure de propidium intercalant l'ADN (mesurant la taille absolue du génome 2C) et le DAPI sélectif AT (mesurant la fraction AT du génome)] en utilisant les protocoles de marda et al. (14, 15). Les nombres de chromosomes pour les espèces mesurées ont été tirés de la littérature ou estimés par nos soins dans 16 espèces (Dataset S1, Tableau S1) pour permettre de calculer la taille du génome monoploïde (1Cx) (1Cx = 2C taille du génome divisée par le niveau ploïdal) (65 ). Données sur certains traits d'histoire de vie biologiquement importants (forme de vie, stratégie de pollinisation et sensibilité à la dessiccation du pollen) ainsi que des informations sur la répartition des espèces et leurs préférences en matière d'habitat (y compris la répartition géographique sur les continents, l'étendue de l'aire de répartition, la présence dans les biomes, les besoins en eau, ou la capacité de croître dans des habitats ouverts et exposés au soleil) ont été recueillies à partir des flores disponibles et de la littérature taxonomique (ensemble de données S1, tableau S2). Les données de répartition géographique ont été extraites du portail Global Biodiversity Information Facility (www.gbif.org) et de la South African National Floristic Database (http://bgis.sanbi.org). Les données géographiques ont été rééchantillonnées à l'aide d'un nouvel algorithme de stratification des données spatiales basé sur un rééchantillonnage aléatoire contraint par l'hétérogénéité (66), qui a été conçu pour supprimer l'effet d'un échantillonnage de données inégal (Méthodes SI, Ensemble de données S2 et Fig. S5). Dix-neuf variables bioclimatiques et l'altitude ont été extraites pour chaque emplacement sélectionné de la base de données WorldClim (67) (Dataset S1, Tableau S2).

L'arbre phylogénétique de tous les taxons mesurés, à l'exception des graminées, a été obtenu en élaguant la récente phylogénie des angiospermes datées à grande échelle par Zanne et al. (49) (Fig. 1, Méthodes SI, et les Fig. S1 et S3). Cette phylogénie contient directement ∼ 70 % des espèces étudiées, alors que bon nombre des espèces restantes étudiées par nous étaient suffisamment proches des espèces étudiées par Zanne et al. (49) que ces derniers pourraient être utilisés comme substituts pour notre espèce pour fournir des informations sur leurs relations phylogénétiques. Pour les graminées, nous avons adopté l'arbre phylogénétique du Grass Phylogeny Working Group II (37) et utilisé la datation par maximum de vraisemblance avec deux points de calibration fossiles (Dataset S3). Des épisodes significatifs dans l'évolution du contenu GC et de la taille du génome ont été détectés sur l'arbre à l'aide des moindres carrés généralisés et des valeurs de pointe remaniant la randomisation calculée à l'aide du package ape (68) dans R (69) (Fig. 1 et Figs. S1, S3 et S4 et jeu de données S4). Nous avons comparé le contenu du GC avec la taille du génome, les traits d'histoire de vie et les données de niche climatique en appliquant des régressions multiples à l'aide des moindres carrés généralisés phylogénétiques calculés dans le package de câpres de R (70) et avons construit un modèle explicatif pour la variation du contenu du GC, comprenant six variables non redondantes ( Tableau 1). Pour le calcul, nous avons utilisé différents (10e, 25e, 50e, 75e et 90e) centiles de variables climatiques pour tenir compte du contrôle multifactoriel des occurrences d'espèces en utilisant une logique de test similaire à celle de la régression quantile. Les méthodes complètes et les références associées sont incluses dans Méthodes SI.


Méthodes

Alignements

To construct genomic human/chimpanzee/baboon alignments, we retrieved large (≥20 kb) chimpanzee and baboon (i.e., Pan and Papio species) DNA sequences (respectively 291 and 233) from GenBank (Rel. 133, February 2003). We conducted a similarity search against human chromosomes (Ensembl, release 8.3) using Megablast to roughly map chimpanzee and baboon sequences on their orthologous loci. We then used human/chimpanzee and human/baboon pairwise alignments computed by MGA ( Holn, Kurtz, and Ohlebusch 2002) to generate an accurate mapping, which enabled us to identify potential triple alignments. Finally, the alignments were generated using ClustalW, and they comprised a total of 14.3 Mb of orthologous sites distributed on 12 human autosomes. More details on the methodology and the aligments are available at http://pbil.univ-lyon1.fr/datasets/MeunierDuret2004/data.html and in the Supplementary Infomation section.

Recombination Rate

The rates of crossover in the human genome were taken from Kong et al. (2002). The average recombination rates in mouse chromosomes were computed from the Whitehead Mouse Genetic Map URL: http://carbon.wi.mit.edu:8000/cgi-bin/mouse/index#genetic.

Inferring Substitution Rates

Substitutions were inferred in human and chimpanzee lineages using unweighted parsimony on informative sites, with the baboon as outgroup. In our analyses, we only considered substitutions occurring in noncoding regions (as defined by Ensembl annotations). It is known that because of multiple substitutions, parsimony may be misleading. Given the evolutionary distances considered here, only hyper-mutable 5′-CpG-3′ dinucleotides (hereafter noted CpG) are expected to generate homoplasy. We therefore considered three classes of sites: (1) sites not immediately preceded by a C in 5′ or followed by a G in 3′ in any of the human, chimpanzee, or baboon sequences—i.e., sites that are expected never to have been part of a CpG doublet since the last common ancestor of the three species (CpG-free sites) (2) sites for which the ancestral human/chimpanzee state inferred by parsimony was part of a CpG (CpG-anc sites) (3) other sites. All simulations (see below) revealed that (1) sites that we inferred as CpG-free truly evolved without being part of a CpG (2) sites that we inferred as CpG-anc were truly part of an ancestral CpG before the human/chimpanzee split (3) all substitution rates could be accurately estimated on CpG-free and CpG-anc sites, simply by dividing the number of observed changes by the number of inferred ancestral sites (rate estimation errors ≤3%). Using the first site category, we inferred by parsimony six rates (pooling together complementary rates): 4 transversion rates (A → T + T → A, G → C + C → G, A → C + T → G, C → A + G → T) and 2 transition rates (G → A + C → T, A → G + T → C. The transition rate at CpG sites (C → T + G → A) was estimated using the second site category. For better rate estimates, we pooled substitutions in human and chimpanzee lineages.

Simulations

We checked the quality of parsimony inferences on the three classes of sites by performing simulations with the following parameters: ratio transition over transversion: 2.75 increase of the transition rate in CpG: ×10 human/chimpanzee divergence: 1% human/baboon divergence: 5%. Simulations were driven as follows: we first let a sequence evolve until each site experienced an average of 10 substitutions (i.e., to reach equilibrium), using 0.36, 0.42, and 0.52 as GC-bias values we then simulated the sequence evolution on the human/chimpanzee/baboon phylogenetic tree topology either leaving the GC-bias value unchanged or setting it to 0.35 (i.e., mimicking a non-equilibrium situation).

We also used simulations to estimate the time needed to reach the equilibrium GC-content. As above, we started with sequences at equilibrium (initial GC-content: GCje), and then changed the GC-bias parameter and let sequences evolve until they reach their new equilibrium (GCm). We plotted the GC-content as a function of the number of substitutions (d), and we measured on this graph the value d1/2 corresponding to half of the distance between GCje et GCm. We repeated simulations for different values of GCje (0.35, 0.40, 0.45, 0.50, and 0.55), and of GCm (0.35 or 0.40), similar to that observed in our data. The average value of d1/2 was 0.75 substitutions per site (varying from 0.7 to 0.8, depending on the values of GCje et GCm). Given the per-year substitution rate observed between human and chimpanzee, this value of d1/2 corresponds approximatively to 750 Myr.

Analysis of Regional Substitution Patterns

Human autosomal chromosomes were divided into 1 Mb non-overlapping windows (referred to as loci). A locus was retained for the analysis only if (1) it was associated with a marker from the genetic map (if a locus was associated with more than one marker, we used the mean crossover rate value for the analysis) (2) it contained alignments with more than 100 AT ↔ GC (i.e., from A or T to G or C or the opposite) substitutions in human and chimpanzee lineages (3) AT → GC (i.e., from A or T to G or C) and GC → AT substitution distributions presented no significant difference among both lineages (Fisher exact test, P > 0.05). A total of 33 loci were finally selected for the analysis, with a mean of 1,743 inferred AT ↔ GC substitutions in human and chimpanzee lineages. It is possible to compute the GC-content toward which a sequence is evolving, given its present substitution pattern (the equilibrium GC-content, hereafter denoted as GC*). GC* is generally computed by using the model proposed by Sueoka (1962): under the assumption that all sites within a sequence evolve independently of each other, then GC* should converge to vous/(vous + v), où vous et v are, respectively, the AT → GC and GC → AT substitution rates. This assumption is, however, not valid in vertebrates, where it is known that the rate of mutation of a given base depends on the nature of its neighboring bases, essentially because of the hypermutability effects of CpG dinucleotides (Arndt, Petrov, and Hwa 2003). We therefore used the seven substitution rates described above as input to derive GC* using the sequence evolution model of Arndt, Burge, and Hwa (2003), which takes into account not only the different transversion and transition rates, but also the high transition rate at CpG dinucleotides. The error in GC* estimates resulting from the use of parsimony appeared negligible in all our simulations (less than 1% error).


Matériaux et méthodes

Bacterial Genomes

Complete genomes of Lactobacilles species as of 1 January 2015 were retrieved from the National Center for Biotechnology Information (NCBI) and additional L. kunkeei genomes were added from ( Ellegaard et al. 2015 Tamarit et al. 2015). Les Bifidobactérie data set comprised the diversity of species with complete genomes deposited at NCBI as of May 2014 and was completed with B. asteroids et B. coryneforme genomes from ( Ellegaard et al. 2015). Tous Lactobacilles genomes used for the initial phylogeny are shown in supplementary fig. S1 , Supplementary Material online. Tous Lactobacilles et Bifidobactérie genomes used for the codon usage analyses are listed in supplementary table S1 , Supplementary Material online.

Phylogenetic Analyses

Pour chaque Lactobacilles genome, all annotated proteins shorter than 50 amino acids were filtered out, and an all-against-all BLAST comparison was done using an E-value cutoff of 1e-05 ( Altschul et al. 1990). Les Lactobacilles proteome was classified into protein families using OrthoMcl, using an inflation parameter value of 1.5 ( Li et al. 2003). Of these, 54 protein families contained a single protein from each one of the 135 taxa. The 54 single-copy panorthologs were individually aligned with Mafft-linsi ( Katoh et al. 2002, 2005), trimmed for all positions with over 50% gaps with trimAl ( Capella-Gutierrez et al. 2009), and concatenated using a custom perl script. The phylogeny was inferred using RAxML (Randomized Axelerated Maximum Likelihood) with the PROTCATLG model and 100 bootstrap pseudoreplicates ( Stamatakis 2006). A reduced data set of 34 genomes from the Lactobacillaceae and Leuconostocaceae families was selected for codon usage analysis. The 54 single-copy panorthologs from the reduced set of taxa were aligned with Probcons ( Do et al. 2005) and trimmed with BMGE ( Criscuolo and Gribaldo 2010) with default parameters. A tree was inferred using RAxML with the PROTGAMMALG model and 100 bootstrap pseudoreplicates. Les Bifidobactérie data set was treated similarly: OrthoMcl was first used to detect 400 single-copy panorthologs, which were then aligned with Mafft-linsi ( Katoh et al. 2005), trimmed for positions with over 50% gaps, and concatenated with local perl scripts. A tree was then reconstructed with RAxML as before.

Codon Usage Analysis and Genome Statistics

Genome statistics, including GC content, GC3s and Nc, and correspondence analyses were calculated with the aid of the software CodonW ( Peden 1999). The Nc values were calculated based on the GC3s values by the method defined by Wright, as Nc expect = 2 + GC3s + 29/(GC3s + (1−GC3s) 2 ) ( Wright 1990 Chen 2013). The codon usage index (CAI) was calculated by CAI and cusp function from EMBOSS package ( Rice et al. 2000). The relative synonymous codon usage (RSCU) values were calculated using the program GCUA (General Codon Usage Analysis) ( McInerney 1998). The strength of selected codon usage bias was estimated from the S index, which is used as a proxy for translational selection on individual genomes ( Sharp et al. 2005, 2010). The number of tRNA genes and the inference of anti-codons were made with the aid of tRNAscan-SE 1.3.1 ( Lowe and Eddy 1997). Other statistics, including length of CDS and nucleotide position within the genome, were calculated from Genbank or annotation files using Perl and R scripts.

The genes in each data set were categorized into highly expressed and all genes ( Sharp et al. 2005). The highly expressed genes were defined as in ( Sharp et al. 2005), and included genes for translation elongation factor Tu, Ts and G, and 37 large ribosomal proteins, including rplA-rplF, rplI-rplT et rpsB-rpsT, whereas the all genes data set included all genes in the genome. Codons used significantly more or less frequently in the highly expressed gene data set compared with the whole genome data set (chi-squared test, cutoff P = 0.01) were defined as optimal (+) and nonoptimal (−) codons according to the Ribosomal Protein (RP) method. Optimal codons were also predicted by the correlative test ( Hershberg and Petrov 2009). In this test, the Nc value for each gene was plotted against the RSCU value for each codon and, for each amino acid, and the codons showing the strongest negative correlation with high significance (P < 0.05/number of codons in the codon family) were inferred to represent the optimal codons. Pour G. vaginalis, L. delbrueckii et L. fermentum, we also identified optimal codons by testing the correlation between the RSCU values and Nc′ values, with Nc′ values calculated using the ENCprime package ( Novembre 2002).

For the Akashi test (1994), we extracted single copy panorthologs genes from ( Ellegaard et al. 2015 Tamarit et al. 2015). The extracted data set included 400 genes from the Bifidobactérie species and 302 genes from Lactobacilles espèce. Amino acid sequence alignments were built with MAFFT-linsi ( Katoh et al. 2002), and then backtranslated to nucleotide sequence alignments. For the identification of conserved and variable sites, we used A. phenanthrenivorans as the reference species for G. vaginalis et S. pyogenes as the reference species for L. delbrueckii et L. fermentum. Conserved sites were defined as codon sites that code for the same amino acid as the sequence in the reference genome, and variable sites as codon sites in the alignment that code for different amino acids. For the implementation of the Akashi’s test (1994), we used the procedure described on the website “http://drummond.openwetware.org/Akashi’s_Test.html”. It is suggested that the Akahi’s test is implemented using the Mantel–Haenszel test in the open-source statistical package R. However, we realized that the test in R is not appropriate because it does not distinguish positive from negative signs. Instead, we followed the procedure exactly as detailed on the website.

Species-Specific Genes

The species-specific proteins were obtained by analysing the output of the bifidobacterial orthoMcl reconstruction ( Ellegaard et al. 2015), and the 135-genomes Lactobacilles orthoMcl reconstruction. The species-specific genes were defined as the singletons in these reconstructions, plus all proteins present in clusters with no other species from the ingroup. These proteins were used as queries in BLASTP searches against the Non-redundant database (NR), using an E-value cutoff of 1e-03. All genes yielding more hits to other species within the ingroup than to foreign genera within the best 50 hits were discarded. Hits from the same species as the query were filtered out as self hits, as were also hits from closely related species with similar GC content, such as the Lactobacilles espèce L. panis, L. oris, L. vaginalis, L. antri, L. frumenti et L. pontis, in the case of L. reuteri ( Vogel et al. 1994 Felis and Dellaglio 2007) L. equicursoris in the case of L. delbrueckii ( Morita et al. 2010) and L. hakayitensis in the case of L. salivarius ( Morita et al. 2007).

In the initial search, the species-specific genes of G. vaginalis yielded numerous hits to Chlamydia trachomatis. These hits originated from sequencing projects published by the Sanger Institute on 10 March 2015 in NCBI. The samples were claimed to represent C. trachomatis genomes, but contained several thousand contigs and several thousand genes. Phylogenetic inferences based on all recruited BLAST hits showed that the identified C. trachomatis sequences clustered inside the G. vaginalis clade, and that they were never represented by more than one or two sequences. In order to assess whether these C. trachomatis genomes were contaminated with G. vaginalis, we blasted the contigs of seven genomes against all 119 Chlamydia complete genomes (of which 88 belong to C. trachomatis) and 4 G. vaginalis complete genomes found in NCBI at 20 November 2015. The seven genomes had between 3 and 1,110 contigs with best BLASTn hits to the Gardnerella rather than the Chlamydia génomes. Therefore, we concluded that these hits came from metagenomes formed by contaminations or co-infections with G. vaginalis, and were filtered out as self-hits. The next best 250 hits were retrieved with the aid of a tBLASTn search (E < 1e-05). The sequences of the hits were retrieved and their GC3s values were calculated using CodonW ( Peden 1999).


Comportement animal

Avez-vous déjà vu un chien s'asseoir sur commande ? Avez-vous déjà vu un chat essayer d'attraper une souris ? Ce ne sont là que deux exemples des nombreux comportements des animaux. Animal comportement comprend toutes les façons dont les animaux interagissent entre eux et avec l'environnement. Des exemples de comportements animaux courants sont illustrés dans Chiffre au dessous de.

Examples of Animal Behavior. Can you think of other examples of animal behavior besides the three shown here?

La branche de la biologie qui étudie le comportement animal est appelée éthologie. Les éthologues étudient généralement le comportement des animaux dans leur environnement naturel plutôt que dans un laboratoire. Ils essaient généralement de répondre à quatre questions de base sur les comportements qu'ils observent :

  1. Qu'est-ce qui cause le comportement? Quel est le stimulus, ou déclencheur, pour le comportement ? Quelles structures et fonctions de l'animal sont impliquées dans le comportement ?
  2. Comment évolue le comportement ? Est-il présent tôt dans la vie ? Ou n'apparaît-il qu'à mesure que l'animal grandit ? Certaines expériences sont-elles nécessaires pour que le comportement se développe ?
  3. Why did the behavior evolve? How does the behavior affect the fitness of the animal performing it? How does it affect the survival of the species?
  4. How did the behavior evolve? How does it compare with similar behaviors in related species? In what ancestor did the behavior first appear?

Patterns of intron sequence evolution in Drosophila are dependent upon length and GC content

Fond: Introns comprise a large fraction of eukaryotic genomes, yet little is known about their functional significance. Regulatory elements have been mapped to some introns, though these are believed to account for only a small fraction of genome wide intronic DNA. No consistent patterns have emerged from studies that have investigated general levels of evolutionary constraint in introns.

Résultats: We examine the relationship between intron length and levels of evolutionary constraint by analyzing inter-specific divergence at 225 intron fragments in Drosophila melanogaster and Drosophila simulans, sampled from a broad distribution of intron lengths. We document a strongly negative correlation between intron length and divergence. Interestingly, we also find that divergence in introns is negatively correlated with GC content. This relationship does not account for the correlation between intron length and divergence, however, and may simply reflect local variation in mutational rates or biases.

Conclusion: Short introns make up only a small fraction of total intronic DNA in the genome. Our finding that long introns evolve more slowly than average implies that, while the majority of introns in the Drosophila genome may experience little or no selective constraint, most intronic DNA in the genome is likely to be evolving under considerable constraint. Our results suggest that functional elements may be ubiquitous within longer introns and that these introns may have a more general role in regulating gene expression than previously appreciated. Our finding that GC content and divergence are negatively correlated in introns has important implications for the interpretation of the correlation between divergence and levels of codon bias observed in Drosophila.