Informations

Pourquoi certaines régions génomiques sont-elles plus séquencées que d'autres ?


Nous devons normaliser les données de comptage de lecture des expériences RNA-Seq afin de tenir compte du fait que certaines régions génomiques sont cartographiées plus que d'autres. c'est-à-dire que nous obtenons les balises par million de lectures (TPM). En d'autres termes, ils ont une profondeur de séquençage/couverture verticale plus élevée.

Pourquoi certaines régions génomiques sont-elles cartographiées plus que d'autres ? quelle est la raison de cette distribution non uniforme de la profondeur de séquençage ?


Pour RNAseq, les différences dans la profondeur de lecture peuvent simplement survenir en raison de l'expression (c'est trivial). Les régions fortement exprimées auront un plus grand nombre de lectures.

Cependant, la non-uniformité de la profondeur de lecture survient également en raison de la composition en nucléotides des régions. Cela est vrai pour tous les types de séquençage d'acides nucléiques tels que RNAseq, le séquençage du génome entier et ChIP seq. C'est ce qu'on appelle le biais de séquence. Cela dépend aussi de la méthodologie de séquençage. Une variété de facteurs jouent un rôle, tels que la façon dont la région peut être cisaillée, dans quelle mesure peut-elle être amplifiée, etc.

Pour plus de détails, consultez cet article de Ross et al (2013).

Les technologies de séquençage sont vulnérables à de multiples sources de biais. Les méthodes basées sur le clonage bactérien et le séquençage de la chimie de Sanger [8] étaient sujettes à de nombreux biais de réduction de couverture, notamment aux extrêmes de GC, palindromes, répétitions inversées et séquences toxiques pour l'hôte bactérien [9-17]. Il a été démontré que le séquençage d'Illumina [18] perd sa couverture dans les régions à GC élevé ou faible [19-22], un phénomène également observé dans d'autres technologies de « nouvelle génération » [3, 6]. L'amplification par PCR pendant la construction de la bibliothèque est une source connue de sous-couverture des régions GC-extrêmes [20, 21] et des biais similaires peuvent également être introduits lors de la PCR de pont pour l'amplification en grappes sur la Flowcell Illumina [23]. Les erreurs spécifiques aux brins d'Illumina peuvent entraîner des biais de couverture en altérant les performances de l'aligneur [24]. Ion Torrent [25], comme 454 [26], utilise une chimie sans terminateur qui peut limiter sa capacité à séquencer avec précision de longs homopolymères [4, 27, 28], et peut également être sensible aux biais de couverture introduits par la PCR en émulsion dans la bibliothèque construction. Complete Genomics [29] utilise également l'amplification avec un processus de construction de bibliothèque complexe. Le procédé de Pacific Biosciences [30] est sans amplification ; par conséquent, on pourrait s'attendre à ce qu'elle présente des niveaux de biais de couverture inférieurs à ceux des autres technologies.

En plus des sources dans le laboratoire humide, un biais peut être introduit par l'une des étapes de calcul dans le pipeline de séquençage. Les limitations de traitement du signal et d'appel de base pourraient entraîner une sous-représentation ou des taux d'erreur accrus à certains endroits, tout comme un alignement inexact. Une référence inexacte ou des différences de référence d'échantillon peuvent entraîner des variations de couverture ou de précision qui peuvent être diagnostiquées à tort comme un biais de séquençage. Par conséquent, la détection des biais n'est que la première étape et doit être suivie d'expériences plus détaillées pour attribuer la responsabilité de la préparation de la bibliothèque, du séquençage ou des étapes de calcul.

Certains logiciels d'analyse tentent de corriger ces biais tout en estimant l'abondance de lecture.


Ross, Michael G., et al. "Caractérisation et mesure du biais dans les données de séquence." Génome Biol 14,5 (2013) : R51.


Surveillance génomique : qu'est-ce que c'est et pourquoi nous en avons besoin de plus pour suivre les variantes du coronavirus et aider à mettre fin à la pandémie de COVID-19

Lee Harrison reçoit un financement des National Institutes of Health pour ses recherches sur l'épidémiologie génomique des épidémies hospitalières. Il a présenté ce travail lors d'une réunion du conseil consultatif scientifique d'Infectious Diseases Connect.

Vaughn Cooper est co-fondateur et consultant pour Microbial Genome Sequencing Center, LLC. Il a reçu le soutien des National Institutes of Health pour son étude de l'évolution des microbes pendant l'infection.

Alexander Sundermann ne travaille pas, ne consulte pas, ne détient pas d'actions ou ne reçoit de financement d'aucune entreprise ou organisation qui bénéficierait de cet article, et n'a divulgué aucune affiliation pertinente au-delà de son poste universitaire.

Les partenaires

L'Université de Pittsburgh fournit un financement en tant que membre de The Conversation US.

The Conversation UK reçoit des financements de ces organisations

"Vous ne pouvez pas réparer ce que vous ne mesurez pas" est une maxime dans le monde des affaires. Et cela vaut aussi dans le monde de la santé publique.

Au début de la pandémie, les États-Unis ont eu du mal à répondre à la demande de tester les personnes pour le SRAS-CoV-2. Cet échec signifiait que les responsables ne connaissaient pas le nombre réel de personnes atteintes de COVID-19. Ils ont dû répondre à la pandémie sans savoir à quelle vitesse elle se propageait et quelles interventions minimisaient les risques.

Les États-Unis sont maintenant confrontés à un problème similaire avec un type de test différent : le séquençage génétique. Contrairement à un test COVID-19 qui diagnostique une infection, le séquençage génétique décode le génome du virus SARS-CoV-2 dans des échantillons de patients. Connaître la séquence du génome aide les chercheurs à comprendre deux choses importantes : comment le virus se transforme en variantes et comment il se déplace d'une personne à l'autre.

Avant la pandémie de COVID-19, ce type de surveillance génomique était principalement réservé à la réalisation de petites études sur les bactéries résistantes aux antibiotiques, à l'investigation des épidémies et à la surveillance des souches grippales. En tant qu'épidémiologistes génomiques et experts en maladies infectieuses, nous effectuons ce genre de tests chaque jour dans nos laboratoires, nous efforçant de comprendre comment le coronavirus évolue et se déplace dans la population.

Particulièrement maintenant, alors que de nouvelles variantes préoccupantes du coronavirus continuent d'émerger, la surveillance génomique a un rôle important à jouer pour aider à maîtriser la pandémie.

Les scientifiques chargent des échantillons d'échantillons de patients dans un manipulateur de liquide robotique pour les préparer au séquençage. Nate Langer/UPMC , CC BY-ND


En regardant en arrière avec admiration

Nous entrons dans l'ère post-génomique lorsqu'il est plus simple et moins coûteux de re-séquencer un génome entier pour identifier une mutation ponctuelle plutôt que de suivre la voie classique de la cartographie génétique et du clonage et du séquençage ultérieurs des gènes. Nous y sommes déjà.

J'ai commencé à travailler avec des champignons à l'automne 1963, ce que je réalise avec horreur il y a déjà plus de cinquante ans. Mon intention n'était pas de travailler avec un champignon, mais de travailler sur le contrôle de l'expression des gènes dans n'importe quel organisme approprié. J'avais découvert le modèle de l'opéron dans des circonstances improbables qui m'ont conduit au Congrès international de biochimie de Moscou en 1961, où François Jacob a donné l'une des principales conférences. Ce qui m'a fasciné et déterminé ma quête scientifique ultérieure était le processus logique par lequel un circuit de régulation pouvait être construit à travers des relations de dominance et d'épistasie, l'exactitude formelle du circuit étant indépendante de sa base matérielle.

Des circonstances encore plus improbables m'ont amené à Cambridge, où John Pateman et David Cove enquêtaient sur la régulation de l'assimilation des nitrates dans Aspergillus nidulans, deux d'une poignée de scientifiques travaillant dans le cadre de Jacob-Monod dans un organisme eucaryote. J'ai récemment écrit sur ces premiers jours [1],[2].

Mon collègue étudiant Andy Darlington et moi avons été chargés d'étudier l'utilisation des purines et sa régulation. Le lien avec les travaux de Pateman et Cove était que deux enzymes clés de l'assimilation des nitrates et des purines partagent le cofacteur contenant du molybdène qu'elles avaient récemment découvert [3]. En 1965, j'ai publié mon premier article sur les champignons, qui était aussi mon premier article sur l'assimilation des purines dans A. nidulans [4]. Cette année, j'ai été co-auteur d'un article traitant également de l'assimilation des purines dans ce même organisme [5]. S'en tenir pendant plus de cinquante ans au même problème et au même organisme semble, selon presque tous les standards, un cas de fidélité obsessionnelle. J'ai travaillé sur de nombreux autres sujets au cours de ces cinquante années impaires, mais presque sans exception, je suis resté avec A. nidulans comme organisme modèle. Pour l'article de 1965, nous avons isolé, par mutagenèse aléatoire, des mutations dans les étapes intracellulaires de la conversion des purines en ammonium, y compris celles du facteur de transcription à action positive. Les techniques utilisées dans cet article et dans quelques articles suivants étaient celles de la génétique classique et de la biochimie relativement peu sophistiquée, complétées occasionnellement par l'immunologie [4],[6]-[8]. Pour l'article de 2014, nous avons séquencé certaines des mutations décrites en 1965 et 1968, après avoir amplifié les gènes apparentés par PCR, nous avons inactivé quelques gènes par recombinaison homologue, nous avons construit des fusions GFP pour étudier la localisation cellulaire des enzymes que nous avons testées pour la première fois en 1963. –68 [4],[6], nous avons étudié la voie dans tout un ordre de champignons (les Eurotiales), nous avons découvert des paralogues de spécificité inconnue pour certaines des enzymes d'utilisation des purines, nous avons établi qu'au sein des Eurotiales l'hydrolyse de l'acide allantoïque est généralement catalysée par l'allantoïcase classique mais parfois par une enzyme complètement différente [9], dont le gène apparenté a presque certainement été transféré horizontalement à partir de bactéries [5].

Je me suis adonné à cette réminiscence personnelle pour contraster les technologies utilisées en 1963-65 avec celles de 2014 : clonage de gènes, PCR, génétique inverse fongique, séquençage d'ADN, fusions GFP permettant l'étude de la localisation des protéines. in vivo, la disponibilité immédiate de structures pour les orthologues des enzymes que nous étudions, ce qui a permis de faire des suppositions éclairées sur les spécificités des paralogues, et enfin et surtout, la disponibilité publique de centaines de génomes fongiques (et de milliers de bactéries) qui permettent de spéculer sur plus ou des scénarios évolutifs moins probables.

Toutes ces possibilités étaient inimaginables lorsque j'ai commencé mon doctorat. La première fois que j'ai entendu parler de l'ADN comme matériel génétique, c'était dans une série de conférences données en 1958 par Hans Tuppy, un collègue de Fred Sanger sur le séquençage de la molécule d'insuline, qui a ensuite séquencé l'hormone peptidique ocytocine et plus tard le cytochrome C. Cet expert du séquençage des protéines s'est demandé si nous allions un jour démêler le code génétique en séquençant les deux protéines (ce qui pouvait être fait à l'époque avec beaucoup de travail) et ADN. Il était très pessimiste à propos de ce dernier.

En 1963, la réduction du gène classique à son avatar moléculaire était presque complète. Cet accomplissement pourrait être appelé la première révolution de la biologie moléculaire, ou mieux encore la révolution scientifique qui a donné naissance à la biologie moléculaire. On pourrait dater ce processus du premier article relatif au concept un gène-une enzyme [10] et à l'établissement de l'ADN comme déterminant des antigènes capsulaires dans Diplocoque pneumoni [11] à l'établissement d'une colinéarité entre gènes et protéines [12],[13], sans oublier la convergence des approches génétiques [14] et biochimiques pour le déchiffrement du code génétique [15].

Quelques détails manquaient. Nous travaillions dans le cadre de ce que Crick appelait en 1959 le dogme central [16]. Nous savions que les gènes avec lesquels nous travaillions étaient de l'ADN, nous savions qu'ils codaient pour des protéines, nous connaissions le code mais nous ne pouvions pas accéder ou manipuler les gènes directement. Les techniques disponibles étaient encore celles de la génétique classique. La réduction moléculaire du gène était dans l'arrière-plan conceptuel, pas dans les opérations que nous avons effectuées. C'était un fantôme persistant, pas un djinn serviable. En 1968, Gunther Stent a publié un article, « That was the Molecular Biology, that was » [17] qui est lié à plus d'un titre au concept de la fin de l'histoire. Je ne discuterai pas ici cet article en détail, mais en un mot Stent a proclamé la fin de la biologie moléculaire. Il a déclaré que tout ce que nous avions à faire était d'aplanir les détails, de pointer les Is, comme on dit. Il ne savait que tres peu.

La deuxième révolution de la biologie moléculaire a commencé vers 1973 et elle est toujours là. Alors que la première révolution empruntait des concepts [18] et principalement des techniques à à l'extérieur le domaine (ultracentrifugation, électrophorèse, chromatographie, diffraction des rayons X), cette seconde révolution s'est enracinée dans les développements dans le champ. Enzymes de restriction, ligases, transcriptases inverses, ADN polymérases, permettaient aux djinns de s'échapper de la jarre, c'est-à-dire d'intervenir directement sur la structure du matériel génétique. La conséquence épistémologique de cette seconde révolution fut de déconstruire l'isomorphisme entre le gène formel et son substratum moléculaire, la séquence d'ADN. C'est une autre histoire, que j'espère discuter en détail ailleurs. Elle a également achevé l'unification conceptuelle des sciences biologiques initiée avec la redécouverte des lois de Mendel en 1900. Elle a eu la conséquence imprévue de transformer la recherche en biologie moléculaire d'une discipline conviviale, quoique intensive, de travail léger en une autistique, pensée-lumière, poursuite à forte intensité de main-d'œuvre.

Cette deuxième révolution est entrée dans la communauté de la recherche fongique avec la mise en place de techniques de transformation pour Saccharomyces cerevisiae [19],[20]. Ce développement technique précoce est à la base de l'hégémonie du S. cerevisiæ communauté de recherche, qui pourrait, à elle seule, constituer un chapitre intéressant de la sociologie des sciences. Transformation de trois autres organismes modèles Neurospora crassa [21], Schizosaccharomyces pombe [22] et A. nidulans [23],[24] ont suivi.

Il y a un paradoxe sous-jacent à ce que j'ai appelé l'hégémonie de S. cerevisiæ. Le succès de S. cerevisiæ en tant que modèle n'est pas basé sur ses similitudes avec d'autres eucaryotes, mais sur ses différences. On pourrait même dire, d'un point de vue « eucaryote », sur ses carences. Il a des séquences d'origine de réplication facilement disponibles, qui, comme nous l'avons facilement appris à notre grand dam, ne fonctionnent pas chez d'autres eucaryotes. Il possède un plasmide nucléaire autonome. Il ne présente aucune recombinaison hétérologue, permettant facilement des procédures de remplacement de gènes. Enfin et surtout, ses centromères étonnamment minuscules permettent l'ingénierie de plasmides stables à copie unique. Les travailleurs avec d'autres organismes ont dû lutter avec force pour compenser la perfection eucaryote de leurs modèles (voir par exemple [25]-[28].

La troisième révolution a commencé plus tranquillement, presque à l'improviste. Un précurseur de ce qui allait arriver était la détermination de la séquence du 5′ du lacZ ARNm, tous les 39 nt [29]. Les premières séquences entières, « massives » proviennent du bactériophage ΦX174 du laboratoire de Sanger (5375 nt, [30], de l'ADN mitochondrial humain (16569 pb, [31]. Notre modeste contribution à la science pas encore née de la génomique était la séquence presque complète de les A. nidulans ADN mitochondrial (app 34 kb [32] a .

Les débuts du séquençage du génome de l'organisme entier, de Haemophilus influenzae en 1995, Saccharomyces cerevisiae en 1996, Cænorhabditis elegans en 1998, Drosophila melanogaster en 1999, Arabidopsis thaliana en 2000 à l'annonce publique du projet de génome humain en 2000 (http://www.youtube.com/watch?v=slRyGLmt3qc) est trop connue pour être reprise ici. Pendant un temps, l'achèvement de chaque génome a donné lieu à des annonces publiques dans la presse, des éditoriaux dans Science et/ou Nature, chaque génome était un événement scientifique et médiatique. Ce n'est plus le cas. Ces génomes ont été séquencés par des variantes de la méthode di-désoxy de Sanger. Il semblait à l'époque que seul le génome de quelques organismes modèles serait obtenu, ce qui renforcerait à son tour leur utilisation comme modèles. Je me souviens d'une réunion en 1996 où nous nous disputions avec véhémence si nous devions opter pour le séquençage du génome de A. nidulans ou Neurospora crassa.

Ce que l'on appelle les méthodes de séquençage « nouvelle génération » s'écartent de différentes manières des procédures de Sanger. Ce qui est important ici, c'est que leur mise en œuvre a diminué à partir d'environ 2008 le coût et l'échelle de temps des séquences du génome entier par des ordres de grandeur [33]. Un site du NIH montre un graphique enregistrant le coût par mégabase d'environ 5292 $US en 2001 à environ 5 cents en 2013, ou en utilisant un paramètre différent, le coût du séquençage d'un seul génome humain, d'un peu moins de 100 millions $US en 2001 à environ 5000 $US en 2013 (http://www.genome.gov/sequencingcosts/).

Il y a au moment de la rédaction de cet article 384 génomes fongiques complets sur http://genome.jgi.doe.gov/fungi/fungi.info.html, augmentant presque d'heure en heure. Les Saccharomyces base de données contient les génomes de 28 souches différentes de S. cerevisiæ. Nous arrivons au point que si vous isolez une nouvelle souche d'un champignon, sans parler d'une nouvelle espèce, la première chose à faire est de séquencer son génome. Des techniques massives de séquences parallèles ont également conduit au développement de RNAseq, par lequel nous pouvons, avec le génome, connaître le transcriptome et ce dans plusieurs conditions de croissance ou stades de développement (voir pour les exemples fongiques [34],[35].

Au début de la révolution génomique, la sélection des organismes à séquencer était guidée par leur statut de systèmes modèles, à l'exception du fait que le génome humain a été obtenu avant celui de la souris, ce qui était sûrement un choix politique plutôt que scientifique. Viennent ensuite, avant la date cruciale de 2008, des organismes importants en tant qu'agents pathogènes ou en raison de leurs applications industrielles (par ex. Candida albicans et Aspergillus fumigatus parmi les anciens Aspergillus niger et Chrysoporium phanérochète parmi ces derniers).

Parmi toutes les conséquences présentes et prévisibles de la deuxième phase de la révolution génomique (à partir du point d'inflexion de 2008), il y en a une que je ne peux m'empêcher de mentionner. De plus en plus de génomes deviennent disponibles non pas parce qu'ils ont derrière eux d'énormes communautés de recherche ou des lobbies industriels ou médicaux mais parce qu'ils représentent des nœuds cruciaux dans l'arbre de la vie. Ainsi nous disposons du génome de l'ascidie Ciona intestinalis, le seul membre existant des placozoaires (Trichoplax adhérents) d'un corail, d'une gelée de peigne, d'une éponge, du coelacanthe, de l'ornithorynque. Un programme spécifique, « Origines de la multicellularité » vise à obtenir des génomes complets à la racine des opisthokonta (animaux et champignons plus groupes frères) avec les génomes déjà disponibles de choanoflagelata, filasterea, icthyosporea, apusozoa, (http://www.broadinstitute .org/annotation/genome/multicellularity_project/MultiHome.html). Ainsi, nous pouvons construire des phylogénies basées non seulement sur quelques différences de gènes transcrits, mais sur l'ensemble de la concaténation de séquences, l'organisation du génome, la synténie et l'organisation intron-exon.

Il sera impossible de rendre compte de manière complète et systématique de la façon dont la révolution post-génomique évolue et changera la biologie fongique : j'essaie simplement de donner quelques exemples, qui ont attiré mon intérêt et mon imagination, forcément ces choix seront quelque peu subjectifs et arbitraire.

Biotechnologie inspirée du génome : enzymes

Les champignons sont utilisés depuis longtemps comme sources d'enzymes extracellulaires (et dans certains cas intracellulaires). La disponibilité de génomes entiers permet la recherche d'enzymes aux propriétés améliorées ou aux spécificités altérées. Des exemples évidents sont les enzymes liées à la dégradation de la cellulose, de la chitine et de la lignine. Pour identifier des enzymes aux spécificités nouvelles et prometteuses, la disponibilité de structures ou, en second lieu, de modèles structuraux, est d'une importance primordiale. La pénurie relative de structures protéiques est un facteur limitant. Il existe plus de 100 000 structures protéiques accessibles au public, contre 175 il y a vingt ans. Cependant, les méthodologies pour les obtenir, tout en s'améliorant régulièrement, avec une nette reprise vers 1993, n'ont pas connu une évolution révolutionnaire similaire à celle incarnée par les méthodes de séquençage « nouvelle génération » (http://www.proteinstructures.com/Structure/Structure /protéine-structure-bases de données.html).

Pour tirer un exemple de nos travaux récents, nous avons identifié une enzyme fongique unique, la xanthine α-cétoglutarate-dioxygénase dépendante (XanA, [36],[37]). Les gènes codant cette enzyme sont présents en alternative ou en plus du M0CO classique. (xanthine déshydrogénase contenant un cofacteur de molybdène, qui est universellement conservée). Dans les génomes de Pénicillia, mais pas de Aspergillus, nous avons identifié des paralogues qui ont presque certainement une spécificité de substrat différente [5]. Comme les dioxygénases sont connues pour décomposer les composés aromatiques, y compris les herbicides [38], une étude approfondie de ces spécificités paralogues serait intéressante. L'ascomycète Amorphothèque (Hormoconis, Cladosporium) résineæ a été isolé comme contaminant du carburéacteur. Il se dégrade et produit des hydrocarbures. Il a évidemment des capacités métaboliques extraordinaires [39]. Une recherche génomique a révélé quatre paralogues de XanA (par opposition au standard chez la plupart des membres de la Pezizomycotina). Un paralogue est l'orthologue évident de XanA. Les trois autres paralogues sont nécessairement des oxygénases Fe ++ car le site de liaison du fer est conservé, mais les résidus de liaison au substrat ne le sont pas (figure 1, panneau de gauche). Cela peut fournir un aperçu intéressant des enzymes de dégradation des hydrocarbures de cet organisme. Bien que le génome soit disponible depuis un certain temps, à ce jour, aucune recherche basée sur la génomique n'a été publiée pour cet organisme.

Divergence et transmission horizontale des homologues XanA. Panneau de gauche : Alignement des paralogues de Résine amorphothèqueæ (étiqueté Amore plus le numéro d'accession dans la base de données JGI) avec les enzymes caractérisées de A. nidulans et S. pombe[36],[37],[40]. Amore_142784 est l'orthologue de XanA, notez la stricte conservation de tous les résidus fonctionnels uniquement pour ce paralogue parmi A. résineæ séquences. L'orthologue putatif de Phytophthora parasitica (gi|568015616|gb|ETL89793.1) montre également la conservation de tous les résidus fonctionnels. Les résidus de liaison Fe++ sont, comme prévu, conservés dans tous les paralogues. Alignement réalisé avec visualisation MAFT (G-INS-i) avec Box-shade. Panneau de droite : un arbre enraciné à maximum de vraisemblance d'orthologues putatifs de XanA représentant différents taxons fongiques. Vert : Ascomycètes, Pezizmycotina, Bleu : Ascomycètes, Saccharomycotina, Violet, Ascomycètes, Taphrinomycotina. Vert olive : Mucoromycotina, Noir : Basidiomycota. Rouge: P. parasitica, Oomycètes. Notez la position anormale de U. maydis. La conservation des résidus cruciaux ainsi que la position des P. parasitica dans le Pezizomycotina est une marque claire de transmission horizontale. R. minuta, Rhodotorula minuta, Pucciniomycotine U. maydis, Ustilago maydis, (Ustilaginomycotina) C. cinerea, Coprinopsis cinerea, C. neoformans, Cryptococcus neoformans, (Agaricomycotine) A. résineæ, Résine amorphothèqueæ (Leotiomycètes) A. nidulans, Aspergillus nidulans, (Eurotiomycètes) C. grayi, Cladonia grayi, (Lécaranomycètes) N. crassa, Neurospora crassa, (Sordariomycètes) C. berberidis, Curcubitaria berberidis, (Dothideomycètes) W. mikolæ, Wilcoxina mikolæ (Pézizomycètes), S. pombe, Schizosaccharomyces pombe, (Taphrinomycotine) P. blakesleeanus, Phycomyces blakesleeanus, M. circinelloindes (Mucoromycotine), D. hansenii, Debaromyces hansenii, K. lactis, Kluyveromyces lactis, Y. lipolytica, Yarrowia lipolytica (Saccharomycotina). Nous avons inclus des espèces pour lesquelles des travaux expérimentaux existaient [36], et dans d'autres cas, nous avons choisi l'homologue le plus proche de XanA au sein du taxon. Alignements réalisés avec MAFT (G-INS-i, ), http://mafft.cbrc.jp/alignment/server/ , Curation avec BMG1 [41], tous deux avec paramètres par défaut, arbre généré avec PhyML [42], digits dans les nœuds se trouvent des aLRT (Approximate Likelihood ratio test [43]. Arbre circulaire redessiné avec Figtree (http://tree.bio.ed.ac.uk/software/figtree/).

Les membres de la superfamille des monoxygénases du cytochrome P450 (CYP) sont impliqués dans de nombreuses étapes différentes du métabolisme primaire et secondaire, y compris la biosynthèse de l'ergostérol. La lanostérol 14 α-déméthylase (CP51), une enzyme P450, est la cible des antifongiques azolés (voir ci-dessous). La superfamille P450 a été étudiée dans 47 génomes fongiques complets, suggérant un schéma complexe de duplication et de perte de gènes avec un nombre de gènes apparentés variant d'un (Erémothecie cymbalariæ) à 153 (Aspergillus flavus), répartis entre 15 clades phylogénétiques [44]. Si ce travail donne un aperçu de l'évolution de cette superfamille chez les champignons, il ne fournit pas beaucoup d'indices quant à de nouvelles spécificités de substrat. Un certain nombre de structures pour les protéines P450 sont disponibles dans la banque de données RCSB PDB, et on peut imaginer des études d'amarrage, combinées à des méthodes à haut débit dans lesquelles l'activité d'enzymes exprimées à partir de promoteurs constitutifs est dosée pour des bibliothèques de substrats. Ceci est tout à fait faisable car des analyses de débit des activités P450 sont disponibles.

Biotechnologie inspirée du génome : métabolites secondaires

Les métabolites secondaires produits par les champignons vont du providentiel (antibiotiques β-lactamines) au diabolique (aflatoxine). De nombreux métabolites secondaires sont des peptides ou des polykétides non ribosomiques, et de plus les gènes impliqués dans leur synthèse sont regroupés (voir les sections suivantes). Ainsi, il est relativement simple de reconnaître dans les génomes les clusters impliqués dans leur synthèse, car ils comprennent généralement une ou plusieurs enzymes multimodulaires. Il n'y a pas d'article sur la génomique fongique qui n'inclue pas un compte rendu du nombre de groupes de métabolites secondaires possibles sont présents. Un certain nombre de méthodes bioinformatiques ont été conçues pour détecter des groupes de gènes de métabolites secondaires [45]-[47]. Une illustration de ces possibilités est l'identification du groupe de gènes responsable de la synthèse de l'agent thérapeutique de première intention pneumocandine dans le génome de Glarea lozoyensis [48].

Il est clair que le nombre de métabolites secondaires qu'un champignon peut potentiellement produire est beaucoup plus élevé que ceux produits dans des conditions de laboratoire. Ainsi, la disponibilité des génomes fongiques nous présente deux défis. Premièrement, comment activer la synthèse d'une voie de biosynthèse secondaire spécifique ? Deuxièmement, une fois que nous avons produit un métabolite secondaire, quelle est son activité biologique ? L'activité que nous pouvons détecter en laboratoire n'est pas nécessairement celle que le champignon utilise à ses propres fins inconnues. La lovastatine est fabriquée par Aspergillus terreus, qui, j'en suis sûr, ne se soucie pas du taux de cholestérol des mangeurs compulsifs de hamburgers, même s'il se soucie peut-être de la synthèse des stérols de ses concurrents écologiques. Il suffit de dire que chez les Aspergilli, chacune des premières espèces séquencées porte dans son génome 30 à 40 groupes de gènes biosynthétiques putatifs de métabolites secondaires, et qu'il n'y a pas beaucoup de chevauchement dans les métabolomes secondaires prédits chez les espèces du même genre [49]. Une situation similaire existe dans la Fusaria et Cochliobole espèces : parmi les premières, F. fujikuroi pourrait potentiellement synthétiser des métabolites secondaires appartenant à 45 familles différentes. De ces 13-17 clusters impliquent des polykétide synthases, mais seulement trois sont communs à tous les Fusaria analysés [50],[51].

L'activation de clusters silencieux pourrait être obtenue par surexpression de gènes régulateurs spécifiques, qui peuvent fréquemment être identifiés car ils sont regroupés avec les gènes biosynthétiques. La suppression ou la mutation de régulateurs à large domaine tels que les protéines modifiant la chromatine (appelées à tort méthodes épigénétiques) et/ou la modification des conditions environnementales ont également été utilisées pour dé-réprimer l'expression des voies secondaires des métabolites. Parmi ces derniers, une mention spécifique doit être faite des méthodes de co-culture, telles que mises au point par Brakhage et ses collaborateurs, dans lesquelles un champignon donné est co-cultivé avec d'autres organismes avec lesquels il peut interagir dans son environnement (vraisemblablement) naturel, c'est-à-dire pour dire obliger le champignon à prendre soin, pour reprendre la comparaison épelée ci-dessus [52]. Le lecteur est invité à consulter les revues de Brakhage et Schroeckh et Kim et al., [49], [53] pour une ventilation détaillée de ces méthodes et pour l'identification de nouveaux métabolites secondaires dans les Aspergilli.

Alors que les « omiques » constituent une expansion qualitative des possibilités d'identification des métabolites secondaires, aucune révolution similaire ne s'est produite dans les méthodes de dépistage de l'action biologique d'un produit naturel entièrement nouveau. Alors que certains écrans, tels que les activités antimicrobiennes, sont simples et peuvent être confiés à des robots, d'autres le sont moins. Un dépistage de l'activité antitumorale même si plus laborieux est possible en utilisant des lignées cellulaires en culture. Un métabolite entièrement nouveau peut être un antidépresseur ou un contraceptif, mais nous ne le saurons peut-être jamais, à moins d'utiliser un écran adéquat. Il est intéressant de voir comment une recherche PubMed donne de plus en plus d'études basées sur l'utilisation de plantes et de champignons en médecine traditionnelle. En l'absence de méthodes de criblage rationnelles, cela peut être considéré comme un criblage préliminaire raisonnable.

Thérapies inspirées du génome - génomique des pathogènes

Les champignons sont les principaux agents pathogènes des plantes. Certains sont des spécialistes stricts, comme Ustilago maydis (maïs) ou Magnaporthae oryzæ (riz), d'autres comme Botrytis cinerea sont beaucoup plus éclectiques dans leurs choix. Fusarium les espèces hôtes vont des concombres aux humains. Sans surprise, l'importance des champignons en tant qu'agents pathogènes en a fait des cibles principales pour le séquençage du génome entier. Le cycle de vie et l'interaction avec l'hôte, car certains de ces agents pathogènes incarnent des problèmes d'importance biologique fondamentale et, sans surprise, ces agents pathogènes qui se prêtaient à des techniques génétiques directes et/ou inverses étaient déjà devenus des organismes modèles à part entière dans la phase pré-génomique. ère. Il n'est pas possible de décrire ici en quoi la disponibilité des génomes et des transcriptomes a modifié l'étude des infections des plantes par les champignons. Comme dans d'autres aspects de la biologie des champignons, un passage du spécifique au global est en cours, dans lequel il est possible d'analyser les changements dans l'activité des gènes à la fois du parasite et de l'hôte (Cairns et al. pour une revue traitant à la fois transcriptomes de pathogènes végétaux et humains [54]). Je vais juste mettre en évidence quelques exemples choisis de manière quelque peu arbitraire de la façon dont la révolution « omique » change notre façon d'étudier les agents pathogènes fongiques. La structure de la population de l'agent pathogène est traitée par le séquençage du génome entier de différents isolats, tandis que RNAseq peut être utilisé pour étudier les modèles d'expression génique de l'agent pathogène et de l'hôte, dans le but de comprendre le mécanisme de la pathogenèse et la réponse immunitaire de l'hôte.

Alors qu'un certain nombre de champignons sont des agents pathogènes animaux et/ou humains spécifiques, le principal problème de santé publique a été l'augmentation des infections pathogènes opportunistes chez les patients immunodéprimés, les principaux coupables étant Candidose (surtout C. albicans et C. glabrata) et Aspergillus espèces (principalement A. fumigatus), mais de nouvelles espèces à l'intérieur et à l'extérieur de ce genre apparaissent avec une fréquence croissante. Une revue récente cite un total de >2 000 000 d'infections fongiques potentiellement mortelles/an, avec Aspergillus, Candidose, Cryptocoque et Pneumocystis comme les principaux pathogènes opportunistes mondiaux et avec des mortalités variant entre 20 et 90 % [55].

Au XIXe siècle, l'infection par A. fumigatus était une maladie professionnelle exotique, alors que l'on pourrait soutenir qu'à l'heure actuelle les infections fongiques opportunistes (à l'exception notable des infections liées au SIDA), y compris l'aspergillose invasive, sont principalement des maladies iatrogènes, provoquées par l'utilisation de l'immunosuppression chez les patients transplantés. Ces chiffres de mortalité élevés dépendent à la fois de problèmes de diagnostic et de l'inefficacité des antifongiques, y compris l'apparition de souches résistantes. De tous les antimycosiques de première intention, seules les échinocandines ciblent une étape métabolique fongique spécifique, la 1,3 β-glucane synthase. L'espoir est qu'en identifiant des gènes fongiques spécifiques essentiels, non présents chez l'hôte, nous devrions être en mesure de concevoir des inhibiteurs spécifiques. Dans un premier temps, on pourrait essayer d'établir un répertoire, au sein de gènes fongiques spécifiques, de ceux qui sont essentiels. Deux études différentes abordent ce problème pour A. fumigatus, l'une par transposition hétérologue [56], l'autre par création de létals conditionnels avec l'utilisation d'un promoteur régulable [57]. On nous présente ici un problème similaire à celui discuté ci-dessus en relation avec la synthèse des métabolites secondaires. Trouver des gènes essentiels n'est pas difficile les stratégies utilisées sont une expansion au niveau génomique, avec la sophistication accrue apportée par les nouvelles technologies, des recherches de mutations létales récessives menées depuis les années 1940 dans Drosophila melanogaster. Une autre question est, une fois qu'un gène essentiel spécifique d'un champignon a été identifié, de concevoir un inhibiteur efficace pour le produit protéique apparenté. Cela pourrait être recherché à l'aveugle en utilisant des techniques à haut débit et/ou de manière rationnelle si nous savons quelque chose sur la biochimie et la physiologie de la protéine que nous essayons d'inhiber. Pour autant que je sache, aucun nouvel agent antimycosique potentiel n'a encore été découvert grâce à cette stratégie. Un article récent aborde les différences possibles détectées dans les génomes pertinents entre les canaux cationiques des champignons pathogènes et ceux de leurs hôtes [58], mais il y a un long chemin entre la découverte d'une différence de séquence primaire et la conception d'un inhibiteur de canal spécifique.

Candida albicans, l'agent pathogène fongique le plus fréquent, est un diploïde. Un test d'haplo-insuffisance a été mis au point, dans lequel un allèle est inactivé et des mutants de délétion hétérozygotes sont criblés pour une sensibilité accrue aux batteries de composés. En principe, tous les gènes du génome peuvent ainsi être testés contre un nombre quelconque de composés [59]. En utilisant une variante de ce test, une méthode à haut débit et une modélisation moléculaire, une nouvelle famille d'inhibiteurs non azolés de la synthèse de l'ergostérol a été identifiée [60]. Je n'ai vu aucune publication faisant suite à ces découvertes dans des modèles animaux expérimentaux.

Les mucormycoses sont relativement rares, mais en augmentation chez les patients immunodéprimés, sous forme d'infections secondaires de plaies sévères et aussi chez les patients traités pour une toxicité ferreuse résultant d'une insuffisance rénale [61]. Le génome de Rhizopus delemar montre une ancienne duplication du génome entier, suivie d'une expansion de gènes spécifiques et de la présence de quatre gènes codant pour des protéines homologues de la couche de spore (CotH), spécifiques des Mucorales. Les protéines CotH sont des ligands de GRP78, un chaperon qui peut également être localisé à la surface des cellules endothéliales, expliquant également la spécificité cellulaire de l'infection par les membres de cet ordre [62]. Alors que l'association des protéines CotH avec GRP78 a été découverte par des méthodes de co-précipitation conventionnelles, la connaissance que cette association est limitée aux Mucorales, résulte directement de la disponibilité de nombreux génomes de cet ordre. Une revue récente spécule sur le fait que l'interaction GRP78/CotH pourrait être une cible thérapeutique spécifique des mucormycoses, une possibilité post-génomique prometteuse [61].

Les maladies fongiques émergentes ne concernent pas seulement les humains immunodéprimés. Ces dernières années, les épizoonoses généralisées affectant la faune sont devenues omniprésentes. Les causes des zoonoses émergentes ne se limitent pas aux agents pathogènes fongiques, et quelle que soit leur cause infectieuse immédiate, un problème crucial est de comprendre comment les urgences récentes sont liées aux activités humaines conduisant à des changements dans les écosystèmes. Si les maladies opportunistes humaines fongiques sont iatrogènes, les zoonoses fongiques émergentes sont plus généralement anthropiques, les changements environnementaux et climatiques ayant été blâmés pour leur apparition récente. Parmi les agents fongiques, Batrachochytrium dendrobatidis (Chytridiomycota) décime les grenouilles et les crapauds tout en Pseudogymnoascus (Géomyces) destructeurs (Myxotrichaceæ) affectent les chauves-souris (voir Eskew et Todd pour un parallèle de ces maladies émergentes [63]) et Nosème (Microsporidia, voir ci-dessous) tue les abeilles et a été accusée d'être la cause du trouble d'effondrement des colonies (CCD), où les abeilles ouvrières disparaissent soudainement d'une ruche [64]. Des génomes entiers sont disponibles pour ces agents pathogènes et pour les Chytridiomycota et les microsporidies également pour plusieurs autres espèces des embranchements apparentés.

6000 espèces d'amphibiens existantes dont 35% sont menacées, tandis qu'environ 159 sont peut-être déjà éteintes (http://www.iucnredlist.org/initiatives/amphibians/analysis). Bien que les causes soient sûrement complexes, la chytridiomycose est un facteur contributif majeur. B. dendrobatidis a été identifié comme un agent pathogène mortel pour les grenouilles en 1998. Depuis lors, il a été signalé dans le monde entier, affectant une grande variété d'hôtes amphibiens. L'émergence soudaine d'une nouvelle maladie, affectant une grande variété d'espèces, implique soit un changement soudain de la virulence du pathogène (comme l'acquisition de nouveaux gènes par transmission horizontale, voir ci-dessous), soit des facteurs environnementaux qui perturbent un précédent équilibre pathogène/hôte [65]. ]. Comme pour les autres interactions hôte/hôte pathogène, la génomique et la transcriptomique de « nouvelle génération » ont été utilisées pour étudier à la fois la nature de l'agent pathogène et la réponse de l'hôte. Une phylogénie, basée sur le séquençage du génome entier de 49 échantillons différents de B. dendrobatidis montre que différentes lignées du champignon ont longtemps précédé l'émergence du frein panzootique. Un clade, la lignée panzootique mondiale, était considéré comme assez hétérogène et émergeait il y a entre 10 000 et 40 000 ans [66].Les données sont cohérentes avec un scénario dans lequel il n'y a pas eu de changement radical du pathogène mais une large répartition géographique après (ou coïncidant avec) le début de l'épidémie panzootique.

Phylogénie et taxonomie fongiques

L'idée que les séquences protéiques pourraient former l'épine dorsale d'une nouvelle phylogénie moléculaire est concomitante à la clôture de ce que j'ai appelé la première révolution de la biologie moléculaire. En 1965, bien avant que le séquençage de l'ADN ne devienne une réalité, Zuckerkandl et Pauling ont proposé le concept d'une phylogénie moléculaire basée sur des séquences de protéines [67]. La phylogénie moléculaire a en fait commencé avant même le début du séquençage de l'ADN, par les empreintes d'ARN 5S et plus tard 16S, menant en 1976 à la proposition des trois royaumes de la vie de Fox et Woese [68]. Il a fallu quelques années avant que le séquençage de l'ARNr 16 S bactérien (et finalement du 18 S eucaryote) ne soit établi comme une méthode de choix pour la phylogénie moléculaire. La transition de la méthode à un gène à l'accent mis actuellement sur la phylogénie basée sur le génome entier reflète la transition de la deuxième révolution de la biologie moléculaire à la révolution génomique actuelle.

Les données dérivées du séquençage du génome entier sont maintenant presque systématiquement utilisées pour résoudre les problèmes phylogénétiques du royaume au niveau de l'espèce, tels que les problèmes non résolus de la position de la Glomeromycotina et si les "zygomycètes" sont en effet un groupe monophylétique ou polyphylétique ( voir par exemple Liu et al., 2009 [69]). Je suis au courant de trois études qui ont abordé la phylogénie du règne fongique à travers des données génomiques entières. L'étude la plus ancienne comprenait 42 génomes et portait principalement sur les relations entre les ascomycètes, reflétant la disponibilité de génomes entiers à l'époque [70]. Plus tard, une méthodologie non conventionnelle, la « méthode des vecteurs compositionnels », a été utilisée pour établir une phylogénie comprenant 82 génomes complets différents [71]. Dans l'étude la plus récente, 99 génomes complets et EST de 109 espèces ont été utilisés pour construire des phylogénies [72]. La figure 2, tirée de la référence ci-dessus, résume les relations phylogénétiques au sein des champignons et des champignons avec leurs phylums frères les plus proches. Notez que le placement ambigu des microsporidies (qui sont des champignons, voir ci-dessous), par rapport aux nucleaires (qui ne le sont sûrement pas, mais n'étaient pas représentés par des génomes entiers) n'est pas résolu dans cette étude approfondie. Depuis les travaux fondateurs d'Ebersberger et al. [72], un certain nombre de nouveaux génomes comme celui de Rozella allomycis (qui a permis de placer les microsporidies, voir ci-dessous) sont devenus disponibles et d'autres le seront dans un proche avenir. Bien que cela ne change pas grand-chose aux clades bien représentés, cela peut influencer ou résoudre le positionnement d'autres où seules une ou deux espèces existaient au moment de l'analyse d'Ebersberger et al. [72].

Une vue de la phylogénie fongique. Ce chiffre est Sup Figure neuf de Ref [72], obtenu par comparaison génomique entière/EST (voir texte). Pour la définition des différents ensembles de données, voir l'article original. La légende originale est reproduite ci-dessous. L'épine dorsale phylogénétique des champignons basée sur 15 jeux de données. Les nombres d'espèces représentées par chaque feuille sont indiqués entre parenthèses pour les ensembles de données champignons_1 et champignons champignons_2, respectivement. Un * désigne les cas où l'une ou les deux espèces sont absentes de l'ensemble de données champignons_2 et ne sont représentées que dans le superarbre basé sur les champignons_2A. Un « - » indique qu'un taxon est entièrement manquant dans un ensemble de données. Les couleurs mettent en évidence les principaux groupes systématiques des champignons (Ascomycota : rouge Basidiomycota : bleu Mucoromycotina : magenta Glomeromycota : violet Entomophthoromycotina : jaune Blastocladiomycota : Chytriodiomycota marine/Neocallimastigomycota : vert). Compte tenu du caractère provisoire de notre reconstruction des relations fongiques basales, nous gardons la structure du réseau pour cette partie de l'arbre de la colonne vertébrale fongique. Les contractions des branches en pointillés donnent la topologie suggérée par notre analyse affinée des premiers champignons à ramification avec l'ensemble de données champignons_3.

Encéphalitozoon cuniculi, un agent pathogène humain, est membre des microsporidies, ce qui en fait la deuxième espèce fongique à être séquencée dans les archives historiques [73]. Les relations taxonomiques des microsporidies étaient controversées depuis un certain temps. Les membres de ce phylum sont des parasites intracellulaires obligatoires de tous les phylums de métazoaires et même de certains protistes. En commun avec d'autres organismes très différents (Giardia lamblia, Trichomonas vaginalis, Entamœba histolytica) les microsporidies sont dépourvues de mitochondries. Alors qu'il a été supposé que ces organismes très divers représentaient un royaume basal, « prémitochondrial » des eucaryotes, appelé Archéozoaires, il est maintenant clair que dans chaque cas enregistré, la perte de mitochondries est secondaire, et que des structures apparentées aux mitochondries sont présentes ( hydrogénosomes, mitosomes) et certains gènes typiquement mitochondriaux résident dans les génomes nucléaires [74]. Cependant, des phylogénies basées sur des gènes uniques (tels que ceux codant pour HSP70 et les tubulines) ont mis en doute ce placement, suggérant une relation avec des champignons, qui a finalement été soutenue par le séquençage du génome entier de E. cuniculi [73]. Le classement des microsporidies en tant que groupe basal des champignons impliquait deux études indépendantes dans lesquelles des séquences dérivées dans une étude de 6 et dans un autre cas de 9 génomes, ont été comparées par une variété de méthodes globales avec plusieurs génomes de champignons d'autres phylums [75 ],[76]. À la lumière de ces études, si nous plaçons les microsporidies à l'intérieur des champignons ou à l'extérieur des champignons en tant que groupe frère, cela peut être une question de goût, où nous définissons de manière quelque peu arbitraire ce qui fait d'un champignon un champignon. Cependant ces phylogénies assez robustes conduisent à un autre problème : si la perte des mitochondries (et autres repères eucaryotes typiques comme le Golgi, les peroxysomes, les ribosomes 70S plutôt que 80S, 9 + 2 structures microtubes) est secondaire, il doit forcément y avoir des organismes qui sont basal à la fois pour les microsporidies et (autres) champignons, à moins que par un événement malchanceux, ces organismes basaux soient tous éteints. Un indice possible sur l'origine des microsporidies est son regroupement phylogénétique à la base de l'arbre de vie fongique, avec la seule espèce séquencée de Cryptomycota, Rozella allomycis, un parasite obligatoire de la moisissure aquatique Allomyces (Blastocladiomycota). Cet organisme est le seul membre d'un clade connu par échantillonnage environnemental d'ARNr qui peut être cultivé en culture [77]. R. allomycis a des mitochondries avec un génome mitochondrial coupé de 12 kb. La phylogénie publiée est basée sur 200 gènes, mais il peut valoir la peine de répéter cette phylogénie en utilisant comme groupe externe un membre de la nucleaire (censé être le groupe frère des champignons [69]) lorsqu'un génome devient disponible, et/ou le déjà disponible Fonticule alba, une myxomycète phylogénétiquement liée à la nucleia [78].

L'origine de gènes fongiques spécifiques

Un gène est « spécifique aux champignons » jusqu'à ce que de nouveaux génomes le révèlent dans un organisme non fongique. Dans une section précédente, j'ai fait référence à XanA, la xanthine -cétoglutarate dioxygénase dépendante comme une nouveauté fongique. Dans notre article original, nous avons limité nos recherches aux ascomycètes et basidiomycètes alors disponibles [36]. La disponibilité des génomes tout au long de l'arbre de vie fongique pourrait nous permettre de localiser le nœud où la duplication du gène postulée, qui est à l'origine d'un xanA-like gène, s'est produit. Une recherche sur les espèces représentées au JGI a révélé des protéines orthologues, outre chez les ascomycètes et les basidiomycètes, dans tous les génomes disponibles de la Mucoromycotina, mais dans aucun autre taxon fongique. Deux possibilités peuvent expliquer ce résultat, l'une est une ancienne duplication d'un autre gène codant pour la dioxygénase dépendant du -cétoglutarate, l'autre étant un événement de transfert horizontal à partir d'un organisme non fongique, les deux scénarios affectant un ancêtre commun du Dikarya et du Mucoromycotina. Une recherche dans la base de données NCBI ne révèle aucun homologue bactérien possible, qui pourrait être à l'origine d'une enzyme de type XanA. Cela contraste avec une autre enzyme de dégradation des purines, une alternative à l'allantoïcase classique, où la transmission horizontale des bactéries à certains champignons est presque certaine [5]. Cependant, des orthologues stricts de XanA, montrant jusqu'à 70% d'identité et avec tous les résidus cruciaux conservés sont présents dans toutes les souches séquencées de Phytophthora parasitica, dans P. infestans et P. sojæ (voir Figure 1, panneau de gauche) Un arbre à maximum de vraisemblance place les séquences de Phyothphtora sp. (un seul inclus, Figure 1, panneau de droite) dans les Pezizomycotina plutôt qu'en tant qu'exogroupe, ce qui suggère fortement une transmission horizontale des champignons aux oomycètes plutôt que l'inverse (voir section suivante).

Les motifs de liaison Zn-ADN appartiennent à plusieurs classes différentes. L'une, la classe des récepteurs nucléaires, est unique aux métazoaires et n'a pas été trouvée même dans les groupes frères les plus proches. De manière analogue, les Cys6Zn2 (groupes binucléaires de Zn) sont souvent citées comme des protéines de liaison à l'ADN exclusivement fongiques [79]. J'ai étudié, à l'aide de bases de données accessibles, si le motif Cys6Zn2 est présent dans tous les champignons. Les résultats sont présentés dans le panneau supérieur de la figure 3, où le nombre de protéines contenant Cys6Zn2 est indiqué pour des représentants de différents taxons fongiques. Bien qu'aucun homologue ne soit présent dans aucune des microsporidies, un seul est présent dans Rozella allomycis, le seul représentant séquencé des Cryptomycota. J'ai alors recherché le génome de Fonticule alba, le parent le plus proche des nucleaires, le groupe frère des champignons, où j'ai trouvé deux grandes protéines contenant des motifs d'amas binucléaires typiques de Zn (figure 3 panneau inférieur). Une recherche dans http://pfam.xfam.org/ pour motif Zn_clus (PF00172) conduisent à quelques surprises (certaines d'entre elles ont été rapportées précédemment [80]). Les clusters Cys6Zn2 sont présents dans un certain nombre d'organismes non fongiques, certains peuvent avoir un certain sens tandis que d'autres ne le font pas. Dans Capsspora owczarzaki, (Filasteria) un opisthokont, qui appartient à un groupe frère à la fois de champignons et de métazoaires [81], il existe 7 véritables protéines de cluster Zn. Ils sont présents chez les Dictyosteliidea, avec un ou deux représentants/espèces Cys6Zn2. Ces résultats sont cohérents avec un scénario dans lequel des protéines portant ce motif étaient présentes dans la base des Unikonts (comprenant des opisthokontes et des amœbozoa, y compris Dictyosteliidea) et ont été perdues dans certains taxons et étendues dans d'autres. L'expansion de cette famille de protéines chez les champignons semble s'être produite à la base du Dikarya. Cependant d'autres événements sont plus difficiles à expliquer, comme la présence d'une protéine dans deux diatomées (Thalassiosira pseudonana et Phaeodactylum tricornutum, cependant la séquence est non canonique chez cette dernière espèce) et chez une algue brune (Ectocarpus siliculosus). Un certain nombre de protéines détectées dans Hordeum vulgare var. vulgaire, et dans aucune autre plante ne devrait peut-être nous inquiéter, ce sont des protéines fongiques typiques, certaines montrant jusqu'à 89 % d'identité avec une protéine de Exophiala aigue-marine (Pezizomycotina) et sont très probablement dues à une contamination fongique de l'ADN. Mais une explication aussi triviale ne peut pas expliquer les 24 protéines canoniques Cys6Zn2 présentes dans Ectocarpus siliculosus ou les 71 protéines portant un amas binucléaire Zn enregistrées pour Nægleria gruberi (Percolozoa, Heterolobosea), un organisme fascinant qui alterne entre une forme flagellée et amibienne (http://genome.jgipsf.org/Naegr1/download/Naegr_differentiation.mov) et qui est phylogénétiquement aussi éloigné des champignons que n'importe quel autre eucaryote pourrait l'être . Les Ngleria Les protéines Cys6Zn2 sont très différentes de leurs homologues fongiques et présentent une variété d'architectures. Il semble que l'organisme ait repris le motif du doigt Cys6Zn2 et l'ait utilisé à ses propres fins. Nous aimerions beaucoup savoir quelles sont ces fins. L'expansion des protéines Cys6Zn2 chez Dikarya est très probablement due à leur recrutement pour réguler un métabolisme primaire et secondaire diversifié, y compris la capacité d'utiliser les substrats les plus disparates comme seules sources d'azote et/ou de carbone. Nægleria gruberi, d'autre part est un prédateur qui phagocyte les bactéries, un mode de vie très différent de celui des champignons saprophytes.

Comparaison de Cys6Zn2 dans différents organismes. Panneau du haut : nombre de facteurs de transcription Cys6Zn2 dans des espèces représentatives de différents taxons fongiques, ou dans les mêmes cas dans la seule espèce disponible du taxon. Recherche effectuée dans la base de données fongique JGI (http://genome.jgi-psf.org/programs/fungi/index.jsf) avec le motif PFAM PF00172. Panneau inférieur : Alignement d'un certain nombre de motifs Cys6Zn2. Des motifs correspondant à trois protéines bien étudiées (GAL4, NirA, AlcR) qui se lient à différentes séquences d'ADN sont inclus. En rouge, des représentants de protéines de cluster de Zn non fongiques. Pour F. alba, l'espèce sœur la plus proche des champignons disponibles, les grappes de Zn des deux protéines existantes sont incluses. A droite de la séquence, le nombre total de protéines des espèces comprenant des clusters Cys6Zn2 canoniques est enregistré. Les protéines qui ne comprennent pas toutes les cystéines conservées ne sont pas incluses dans ce comptage. A noter que l'homologue de T. pseudonana inclus a une extension dans la troisième boucle de nature similaire à celle d'AlcR de A. nidulans. Voir le texte pour les noms complets des espèces non fongiques. Recherches effectuées dans JGI, NCBI, http://pfam.xfam.org/, alignement effectué avec visualisation MAFT (G-INS-i) avec Box-shade.

De nouvelles perspectives sur l'évolution des champignons : la transmission horizontale

L'apparition d'une protéine fongique typique chez les diatomées et son expansion dans Nægleria gruberi pourrait être expliquée si les protéines Cys6Zn2 existaient à la racine des eucaryotes, tout en subissant des épisodes de perte et d'expansion. Un autre scénario est qu'à un moment donné, une transmission horizontale de gènes s'est produite entre un champignon ou un ancêtre fongique et des organismes plus éloignés tels que les diatomées et un Nægleria ancêtre. Il existe un certain nombre de ces scénarios possibles, le plus parcimonieux serait l'apparition de protéines Cys6Zn2 dans un ur-unikont, suivie d'épisodes de perte (y compris chez l'ancêtre des métazoaires) et d'expansion, avec transfert horizontal vers (certaines) diatomées et Ngleria espèce. Le rasoir d'Occam n'est pas toujours un outil approprié, ainsi tout autre scénario mélangeant les événements de descente verticale et horizontale peut être envisagé.

On peut soutenir que le concept le plus fascinant résultant de la disponibilité de génomes multiples est la prise de conscience de la transmission horizontale entre des organismes phylogénétiquement distants en tant que moteur de l'évolution. Un nouveau paradigme est en train de naître, dans lequel les organismes ne sont pas seulement liés par descendance, mais aussi par des écologies communes. Peut-être devrions-nous examiner les protéines Cys6Zn2 des champignons aquatiques, pour trouver les progéniteurs les plus proches des diatomées et Ngleria protéines.

Dans une vision darwinienne simplifiée du monde, dans laquelle l'évolution est une variation suivie d'une sélection naturelle, la transmission horizontale est un mécanisme de variation drastique, dans lequel un gène ou un groupe de gènes prêts à l'emploi est inséré dans un génome étranger, créant un tout nouveau série d'interactions possibles à tous les niveaux, du transcriptome au métabolome en passant par les interactions écologiques communautaires. Une telle occurrence peut être à l'origine de l'apparition de nouveaux agents pathogènes [82].

Dans la préhistoire du concept de transmission horizontale, Peñalva et ses collaborateurs [83] (voir Brakhage et al. [84] pour un compte rendu plus récent) ont proposé que la capacité à produire des antibiotiques β-lactamines était transmise deux fois indépendamment de Streptomyces espèces aux champignons. Depuis lors, la transmission horizontale de gènes de métabolites secondaires est devenue un concept domestique en biologie fongique (voir ci-dessous).

Alors que certains cas de transfert des bactéries aux champignons ont été découverts par hasard, une approche du génome entier a révélé 713 gènes transférés des bactéries aux champignons, dérivés d'un minimum de 235 événements individuels. Ces événements ont affecté principalement les Pezizomycotina, mais tous les groupes analysés ont été touchés, y compris Saccharomycotina, Taphrinomycotina et Basidiomycota, et des groupes plus basaux tels que Microsporidia, Chytridiomycota et Mucoromycotina. Particulièrement intéressant est le fait que plus d'un événement de transmission a affecté des gènes ou des voies similaires, les gènes codant pour une enzyme de détoxification de l'arséniate ont été indépendamment transférés à Yarrowia lipolytique (Saccharomycotina) et à Rhizopus oryzae (Mucoromycotina), les gènes de la catalase et de la racémase d'acides aminés ont été transférés à plusieurs reprises à différentes espèces phylogénétiquement distantes [85].

Les rapports de transfert intra-royaume des clusters biosynthétiques codant pour les gènes biosynthétiques du métabolisme secondaire ne sont pas encore un flot mais plutôt un flux constant. La synthèse de la fumosisine a apparemment voyagé d'un membre des Sordariomycètes à Aspergillus niger, [86] il a également sauté parmi les Fusaria [87]. Les voyages intra-fongiques des gènes ont été résumés par Richards [88], [89]. Cette dernière revue a confirmé 323 transferts bactériens vers des champignons et 9 événements de transfert intra-royaume, y compris des gènes impliqués dans le métabolisme primaire et secondaire.

La biosynthèse, considérée comme limitée à certains Aspergilli, des métabolites apparentés aflatoxine et stérigmatocystine est sans doute le processus métabolique secondaire le plus étudié [90]. Un groupe de gènes code toutes les enzymes impliquées dans la synthèse ainsi que le gène régulateur de transcription spécifique aflR ( ∼ 54 kb, 23 gènes dans A. nidulans qui produit la stérigmatocystine, ∼ 67 kb, 26 gènes dans Aspergillus flavus qui produit de l'aflatoxine). Une étude du génome complet, impliquant 94 espèces a révélé la présence d'un cluster orthologue dans Podospora anserina, mais pas dans d'autres sordariomycètes séquencés A. nidulans et P. anserina les clusters présentent une synténie intra-cluster assez frappante [91].

La dothistromine, un autre métabolite secondaire chimiquement apparenté à l'aflatoxine et à la stérigmatocystine, partage avec cette dernière un intermédiaire commun. La dothistromine est produite par le pathogène du pin Dothistroma septosporum et quelques autres Dothideomycètes. Les résultats de Bradshaw et al. [92], ainsi que ceux de Slot et Rokas 2011 suggèrent une histoire de transfert horizontal de l'ensemble du cluster à partir d'un ancêtre de A. nidulans à P. anserina et indépendamment à un membre ancestral des Dothideomycètes suivis d'épisodes de fragmentation en grappes avec recrutement de gènes biosynthétiques supplémentaires. La production de stérigmatocystine a été détectée dans d'autres ascomycètes très divers [93], ainsi d'autres épisodes de transmission horizontale du cluster peuvent avoir eu lieu.Cependant, il existe un autre scénario extrême possible impliquant uniquement une transmission verticale à partir d'un ancêtre ascomycète suivie d'une perte et d'une fragmentation multiples. Un certain nombre d'arguments rendent ce scénario hautement improbable pour le A. nidulans/P. anserina amas orthologue [91].

Des histoires évolutives comme de simples histoires (certains diraient des histoires "juste comme ça") et un certain nombre de combinaisons d'épisodes de transfert horizontaux et verticaux sont possibles, ce qui peut devenir plus ou moins improbable lorsqu'une phylogénie complète de nombreuses aflatoxines/stérigmatocystines/dothistromines diverses des occurrences de biosynthèse est entreprise.

Il n'y a pas a priori raison pour laquelle le transfert horizontal devrait être limité au transfert bactérien-fongique et fongique-fongique. Alors que le nombre de génomes végétaux disponibles augmente, les opportunités d'étudier les transferts de gènes plantes-fongiques augmentent également. C'est une question d'un certain intérêt, étant donné le grand nombre de pathogènes fongiques des plantes et de symbiotes. Une comparaison automatisée de 6 plantes, espèces et 46 espèces de champignons n'a donné que 9 candidats solides pour le transfert de gènes entre plantes et champignons, dont 5 de champignons à plantes et 4 de plantes à champignons. Deux des gènes fongiques transférés aux plantes provenaient probablement de procaryotes. Cette étude était nécessairement limitée par les génomes disponibles à l'époque. En particulier, seuls trois génomes en dehors des Dikarya étaient disponibles. Un seul champignon ectomycorhizien (Laccaria bicolore) pourrait être inclus. Le génome de Glomus intraradis, un champignon mychorrrizal arbuculaire, n'était pas encore disponible. Dans ces limites nécessaires, les auteurs concluent que les événements de transfert plante/fongique sont rares et anciens [94]. On peut s'attendre à une enquête plus récente dans laquelle un certain nombre d'espèces fongiques basales devenant maintenant disponibles sont incluses.

Ernest Rutherford est censé avoir dit : « Toute science est soit de la physique, soit de la philatélie ». La biologie moléculaire peut être interprétée comme représentant une transition de la philatélie à la physique. L'observation du génome, aussi sophistiquées que soient les méthodes bioinformatiques que nous utilisons, ressemble étrangement à un retour à la philatélie. Nous avons collecté un certain nombre d'exemples d'événements de transfert de gène horizontal intra et inter-royaume. Peut-être pourrions-nous dire qu'il n'y a rien de mal à collectionner les timbres en biologie et que toute science commence ou passe par des phases de philatélie.

Alors que nous pouvons spéculer sur l'importance évolutive du transfert horizontal de gènes, nous ignorons le mécanisme d'un tel transfert chez les eucaryotes, de manière plus frappante chez les organismes tels que les champignons qui acquièrent des nutriments par digestion extracellulaire plutôt qu'intracellulaire. Comment l'ADN intact pénètre-t-il? Comment et à quelle fréquence échappe-t-il aux nucléases ? Comment passe-t-il à travers la membrane nucléaire ? Évoquer des transposons ne fait que déplacer le problème de savoir comment un transposon porteur d'un gène donné se déplace d'un organisme à l'autre. La phylogénomique nous dit que le transfert horizontal même s'il n'est pas endémique est bien plus qu'une curiosité naturaliste. Elle ouvre un tout nouveau champ d'investigation concernant le(s) mécanisme(s) de mobilisation de l'ADN inter-organisme.

De nouvelles connaissances sur la biologie fongique : le regroupement de gènes

J'ai travaillé une bonne partie de ma carrière scientifique sur deux groupes de gènes du métabolisme primaire de A. nidulans, le cluster de gènes d'assimilation des nitrates [2],[95],[96] et le cluster de gènes d'assimilation de la proline [97],[98], tout en initiant les travaux sur la alc cluster de gènes, puis poursuivi par Betty Felenbok et ses collaborateurs [99]. Une situation diamétralement opposée au clustering est trouvée pour la voie d'utilisation des purines de A. nidulans où aucun des 17 gènes codant pour des enzymes ou des transporteurs de cette voie n'est regroupé avec un autre [100]. Je me suis toujours demandé pourquoi les gènes d'assimilation des nitrates sont regroupés dans A. nidulans et dispersé dans N. crassa et les gènes d'assimilation de la proline sont complètement regroupés dans A. nidulans et dispersé dans S. cerevisiæ et pourquoi nous voyons au sein d'un même organisme se regrouper dans certaines voies cataboliques et pas dans d'autres. Notre capacité à interroger un grand nombre de génomes peut donner un aperçu de ces vieilles questions.

Dans la section précédente, j'ai mentionné que les gènes des métabolites secondaires sont généralement regroupés. Une idée intéressante est que ces gènes regroupés partagent une organisation commune de la chromatine [101]. Les protéines de la chromatine et les protéines modificatrices de la chromatine ont un rôle important dans l'expression des gènes du métabolisme secondaire [90], [101]-[104], mais il manque des preuves d'une structure spécifique de la chromatine (ou de l'hétérochromatine) des clusters du métabolisme secondaire. De nombreux clusters de gènes du métabolisme secondaire sont situés dans des positions sous-télomériques [105], mais nous ne savons vraiment pas s'ils sont sujets à un silençage hétérochromatique sous-télomérique du type décrit pour D. melanogaster ou S. pombe [106]. Le modèle simple et attrayant d'hétérochromatisation facultative des groupes de gènes du métabolisme secondaire au cours de la croissance végétative, dont je suis en partie responsable, pourrait bien être une simplification excessive.

Il a été proposé que le regroupement de gènes de métabolites secondaires ne résulte pas d'une pression sélective résultant de la nécessité de la corégulation, mais plutôt que l'ensemble du cluster se comporte comme un segment d'ADN égoïste qui persiste par transmission horizontale [107], même si nous n'ont aucune idée de la raison pour laquelle certains segments d'ADN peuvent être plus sujets à la transmission horizontale que d'autres. Forcément, une fois un cluster transféré, un autre niveau de sélection agissant sur le phénotype de l'organisme entier va opérer. Mais ce deuxième niveau de sélection ne se soucie que de la valeur sélective des métabolites issus de la voie et éventuellement de leur toxicité (voir ci-dessous).

Pour emprunter une terminologie à la linguistique, lorsque l'on parle de clustering de gènes, deux types d'explications sont possibles : des explications diachroniques (historiques), concernées par l'origine du cluster et des explications synchroniques (fonctionnelles), concernées par son expression et sa régulation ici et maintenant. Un exemple paradigmatique d'explication diachronique est celui de Wong et Wolfe dans « Birth of gene cluster by adaptive gene relocation » [108]. Il est démontré que le regroupement de six gènes impliqués dans l'utilisation de l'allantoïne est une nouveauté relativement récente apparaissant à un stade spécifique de l'évolution du genre Saccharomyces. Cette nouveauté coïncide avec la capacité de croître dans des conditions anaérobies et avec l'incapacité d'utiliser l'urate comme source d'azote (un processus qui génère des espèces réactives de l'oxygène), en raison de la perte concomitante des gènes codant l'urate oxydase et le transporteur urate/xanthine [ 108],[109]. Sans surprise, trois autres gènes (orthologues de xanA, uX et uaW de A. nidulans, [100]), également nécessaires à l'utilisation de la xanthine et de l'urate, sont perdus avec l'apparition du groupe d'utilisation de l'allantoïne (mes propres observations non publiées). Un gène transporteur spécifique de l'allantoïne, DAL4 , intégré dans le cluster, provient d'une duplication du gène transporteur de l'uracile FOURRURE4, concomitamment à la naissance du cluster [108].

Le regroupement de trois gènes impliqués dans l'assimilation des nitrates (codant pour le transporteur, la nitrate réductase et la nitrite réductase) chez un certain nombre de champignons (dont les Eurotiales parmi les Ascomycètes et au moins certains Basidiomycètes) mais pas chez d'autres, a été interprété comme un résultat sur transmission horizontale de l'ensemble de l'amas d'un Oomycète à l'ancêtre de Dikarya ou peut-être même plus tôt, car les gènes (mais pas en amas) sont présents chez Mucoromycotina [110]. Des épisodes de dégroupage se seraient produits à plusieurs reprises chez les Dikarya.

L'assimilation du nitrate a été étudiée en détail chez trois ascomycètes, A. nidulans [2],[95],[96] , N. crassa [111] et membre de la Saccharomycotina, Pichia angusta (Hansenula polymorphe). Dans ce dernier organisme, les gènes de la voie d'utilisation des nitrates sont complètement regroupés. Ce cluster comprend non seulement les trois gènes mentionnés ci-dessus, mais aussi deux facteurs de transcription Cys6Zn2 (Yna1 et Yna2 [112]), qui sont différents de la voie orthologue spécifique A. nidulans NirA et N. crassa Facteurs de transcription NIT4. Les modèles réglementaires de A. nidulans et N. crassa sont très similaires, nonobstant le fait qu'aucun regroupement n'existe dans N. crassa. La figure 4 compare les grappes de A. nidulans et P. angusta. Je ne vois aucune explication évidente à l'assimilation de deux nouveaux gènes de facteurs de transcription dans le groupe de Pichia angusta. Alors que la transmission horizontale est une explication appropriée pour la présence ancestrale du cluster, il n'y a pas de justification claire ni pour le dé-clustering ni pour l'assimilation de nouveaux gènes dans le cluster. L'amas a été caractérisé fonctionnellement chez un autre membre de la Saccharomycotina, Arxula (blastobotrys) adeninivores, où il comprend deux gènes transporteurs mais pas les gènes des facteurs de transcription [113]. Arxula est un clade basal de la Saccharomycotina [114], qui supporte un regroupement secondaire des gènes régulateurs se produisant après la divergence de Arxula et Pichia. Un regroupement complet de la voie d'assimilation des nitrates se trouve dans un autre membre utilisant les nitrates de la Saccharomycotina, Kuraishia capsulata [115]. Le cluster comprend deux gènes régulateurs, qui sont cependant étonnamment différents de Yna1 et Yan2, et ce malgré la proximité phylogénétique des deux espèces. Une recherche dans le génome de A. adeninivorans n'a pas trouvé d'orthologues possibles de Yna1, Yna2, les deux gènes régulateurs de K. capsulata ou NirA/NIT4. Il sera intéressant de savoir quel(s) facteur(s) de transcription a été recruté pour réguler cette voie dans A. adeninivorans.

Comparaison du cluster de gènes d'assimilation des nitrates dans A. nidulans et P. angusta . Blanc, transporteur de nitrate, nitrate réductase jaune, nitrite réductase bleu, facteurs de transcription verts. Dans A. nidulans un deuxième gène transporteur (ntrB) et le nirA Le gène du facteur de transcription se trouve dans le même chromosome (VIII) que le groupe de gènes mais n'est pas lié génétiquement à celui-ci ou entre eux.

Rokas et ses collègues ont suggéré une logique évolutive différente pour le regroupement [116]-[118]. Ils proposent que le regroupement des gènes du métabolisme primaire des champignons se produit lorsque l'un des produits du métabolisme est toxique. C'est le cas pour l'utilisation du galactose, où le galactose-1-phsophate est toxique, et le regroupement de trois enzymes du métabolisme du galactose s'est produit indépendamment deux fois dans la Saccharomycotina, et une fois dans les basidiomycètes, avec un transfert horizontal probable d'un Candidose espèces à Schizosaccharomyces [116]. L'utilisation de la tyrosine comme source d'azote implique le fumarylacétoacétate intermédiaire très toxique. La production de bétaïne à partir de la choline implique également un intermédiaire toxique (l'aldéhyde de bétaïne). Le clustering est visible dans toutes ces voies. Je pourrais ajouter que le 1 pyrroline-5-carboxylate, le produit de l'oxydation de la proline, est converti de manière non enzymatique en semialdéhyde glutamique qui est hautement toxique [119], et le nitrite, le produit de la réduction des nitrates dans la voie d'assimilation des nitrates est également toxique [120] (voir ci-dessus, les gènes apparentés dans ces voies sont regroupés dans certains organismes mais pas dans d'autres).

L'avantage sélectif du clustering est incarné par le fait que si les gènes sont regroupés, la probabilité de perdre un seul gène codant pour l'enzyme responsable de la détoxification d'un intermédiaire toxique devient automatiquement plus faible. Si le cluster est perdu dans son ensemble, une voie catabolique est perdue mais aucun intermédiaire toxique ne s'accumule. L'avantage sélectif réside dans cette situation de « tout ou rien ». Cependant, il existe des contre-exemples : l'acide urique, l'allantoïne et l'acide allantoïque sont hautement toxiques dans A. nidulans [121] et comme mentionné ci-dessus, aucun regroupement n'est observé pour les gènes de la voie de dégradation des purines dans cet organisme [100]. On peut avancer que les pressions sélectives diffèrent d'un organisme à l'autre, d'une voie à l'autre. Si nous voulons éviter un argument circulaire, nous avons besoin de preuves indépendantes, idéalement expérimentales, concernant ces différentes pressions sélectives proposées.

Je pense que cette discussion illustre à la fois les vertus et les limites de l'approche d'observation du génome : elle peut sûrement suggérer des corrélations, qui peuvent être étayées ou réfutées par des exemples supplémentaires. Cela devrait conduire à des expériences évolutives, pour vérifier si, dans des conditions difficiles, une «naissance d'un cluster» ou un «désagrégation» se produit. Les travaux basés sur la génomique semblent excellents pour générer des hypothèses diachroniques, nous avons également besoin d'expérimentations pour accéder au niveau d'explication synchronique.

Où est l'organisme modèle ?

Définition d'organisme modèle : L'organisme sur lequel je travaille, à l'exclusion des autres organismes, principalement ceux utilisés par d'autres pour traiter le même problème biologique que moi.

Le concept d'organisme modèle implique un processus de rétroaction positive sociétale, par lequel un organisme est choisi pour étudier un problème donné en raison de caractéristiques spécifiques ou d'accessibilité aux manipulations expérimentales, cela génère une communauté de recherche, dont la cohérence et le nombre renforcent le statut de « modèle » de l'organisme choisi. Drosophila melanogaster a été choisi par Morgan comme organisme pour construire la génétique classique, mais Beadle et Ephrussi l'ont abandonné (par Neurospora crassa et S. cerevisiæ respectivement) comme insatisfaisant pour identifier le produit primaire du gène. Les travaux de Beadle, associés à Tatum, ont conduit au concept un gène-une enzyme [10] et établi collatéralement N. crassa comme organisme modèle fongique.

Le roi couronné des organismes modèles fongiques est sans conteste S. cerevisiæ. J'ai fait allusion dans la première section de cet article à certaines des raisons de ce statut. C'était le premier eucaryote où la génétique inverse était possible, ce qui a donné lieu à une communauté de chercheurs suffisamment nombreuse pour se permettre de réaliser le premier séquençage du génome entier eucaryote, suivi de l'inactivation systématique des gènes et du marquage GFP (protéine fluorescente verte), sans oublier la création d'une base de données spécifique aux espèces, renforçant ainsi davantage le statut d'organisme modèle.

L'un de mes articles récents préférés décrit un mécanisme auto-entretenu, bien qu'instable, de silençage génique dans Mucor circinelloides [122]. Qu'il s'agisse M. circinelloides est un organisme modèle ou non est peut-être une question de goût. Peut-être qu'il le devient maintenant. Une observation inspirée du génome, avec ou même sans l'aide d'une bio-informatique sophistiquée, peut conduire à de nouvelles découvertes, qui doivent ensuite être testées dans les organismes appropriés. Par exemple, en comparant à la main, ou mieux à l'œil, des modèles de gènes d'un gène biosynthétique de la biotine dans différents champignons, mon collègue Michel Flipphi s'est rendu compte que l'épissage canonique de certains introns conduirait à des protéines inactives à décalage de cadre. Il s'est alors rendu compte (à nouveau à l'œil nu) qu'il y avait des introns internes interrompant la séquence du donneur de l'intron principal. Le test expérimental des introns au sein des introns (stwintrons, splicesosomal twin introns, un nouveau concept) n'a pas nécessairement été réalisé dans notre modèle à vie A. nidulans, mais en Fusarium verticilloides, Trichoderma reesei et Botrytis cinerea [123].

Il est clair que les organismes modèles sont là pour rester. Il serait superflu de tenter de reproduire dans d'autres Aspergilli le merveilleux travail de Peñalva et de ses collaborateurs sur l'appareil de Golgi de A. nidulans [124]. Néanmoins, la prudence est de mise lors de l'extrapolation des résultats d'un organisme à l'autre, même au sein du même genre, comme le démontrent les résultats récents [125]. Nous devons travailler avec des organismes apparentés, comprendre les différences morphologiques telles que pourquoi les conidies de A. nidulans et A. fumigatus sont uninucléés et ceux de A. niger multinucléés, pourquoi les conidiophores de A. nidulans sont bisériées et celles de A. fumigatus unisérié. Nonobstant les avantages de A. nidulans comme modèle, si nous voulons comprendre pourquoi Aspergillus versicolor peut pousser dans la mer Morte et prospérer à un pH de 9,0, nous n'avons pas d'autre alternative que de travailler directement avec A. versicolor.

La révolution post-génomique actuelle crée des opportunités presque illimitées pour initier de nouveaux travaux dans une grande variété d'organismes. La recherche de bases de données, motivée par une connaissance des processus biologiques et biochimiques, conduit presque fatalement à des organismes bien au-delà du mot restreint de « modèles ». En effet, nous avons plus de génomes que de personnes capables de travailler avec les organismes apparentés.

J'ai mentionné dans la première section de cette revue comment la « deuxième révolution » (clonage de gènes, génétique inverse, séquençage limité) a transformé la pratique de notre science. La biologie post-génomique conduira nécessairement à des changements sociologiques. D'une part, nous commençons à partager avec des physiciens expérimentaux l'expérience de la publication d'articles avec plus d'une centaine d'auteurs. D'autre part, l'existence de vastes bases de données publiques permet à des scientifiques isolés de poser des questions spécifiques, s'ils ont un problème biologique clair en tête. Au cours de la rédaction de cette revue, de nouvelles questions se sont posées et tout ce que j'avais à faire était d'aborder les bases de données appropriées et les installations de calcul en ligne. On pourrait dire que le scientifique solitaire qui s'en va sur son ordinateur a une relation parasite/hôte avec des bases de données financées par l'État. Le NIH et le ministère de l'Énergie des États-Unis financent les bases de données que j'utilise le plus, je suis donc subventionné à mon insu par le contribuable nord-américain. Si je peux considérer qu'il s'agit d'un juste retour pour la fuite des cerveaux européenne et latino-américaine (ce sont ceux qui me concernent directement), cela signifie aussi que des changements politiques ou des considérations budgétaires peuvent mettre en péril l'existence de grandes installations scientifiques. C'est un problème auquel nous devons faire face et résoudre dans cette ère post-génomique.

L'ère post-génomique pourrait conduire à l'hyper-autisme scientifique ou à de nouveaux réseaux conviviaux. J'ai la chance d'avoir un certain nombre d'anciens étudiants, post-doctorants et nouveaux collègues avec qui partager et discuter de mon observation génomique et je tiens à tous les remercier chaleureusement pour le plaisir que nous avons eu au cours de ces quelques années depuis ma retraite officielle.

Remarques finales

Cet examen déjà long est nécessairement incomplet. Il existe un certain nombre d'aspects de la biologie fongique, qui peuvent sûrement être ou ont déjà été éclairés par des « omiques » que je n'ai pas abordés. J'essaie de les indiquer ci-dessous. Dans tous les génomes fongiques, il existe des gènes orphelins.Ceux-ci se déclinent en deux saveurs, ceux pour lesquels nous n'avons aucune idée de leur fonction, et ceux qui appartiennent à des familles de gènes caractérisés, mais dont nous ignorons la fonction spécifique. Sur les 300 protéines Cys6Zn2 impaires de A. nidulans nous ne connaissons que la fonction de quelques-uns. L'épissage alternatif est présent dans les champignons, et il a déjà été étudié au niveau du génome et du transcriptome [126]-[128]. La métagénomique est généralement une poursuite des bactériologistes, mais elle commence à être étendue aux champignons [129]. Cette question est liée à la question de savoir si le concept de pangénome est pertinent pour les champignons [130]. La disponibilité de génomes complets a révélé des gènes de type sexuel chez de nombreux champignons prétendument asexués, conduisant dans certains cas spécifiques à une vérification expérimentale de la sexualité [131]-[133]. Des transposons de différentes classes sont présents dans tous les champignons mais leur distribution est inégale, et cette inégale est frappante pour les hélitrons ([134] et mes observations non publiées). Une étude de leur distribution peut être tout à fait pertinente pour le mécanisme de transmission horizontale. Les prions et un certain nombre de phénomènes épigénétiques, qui sont formellement de type prion, ont été étudiés dans P. anserina et S. cerevisiæ [122],[135],[136]. Les génomes et transcriptomes peuvent-ils aider à révéler l'existence de nouveaux prions [137] ou de phénomènes de type prion ? Peut-être que le thème que je regrette le plus de ne pas avoir inclus est l'utilisation des « omiques » pour enquêter sur les relations communautaires entre les organismes. Celles-ci vont de la signalisation inter-organismes, même parmi des organismes de règnes différents [52], à l'étude de la dynamique des mycorhizes [138] et à la symbiose difficile des champignons et des algues sur les lichens [139]. Ce dernier est désormais ouvert avec l'achèvement d'un certain nombre de génomes, dans un cas particulier des génomes des deux partenaires.

Note de fin

a Une partie de cet effort a été réalisée dans le laboratoire de Hans Kuntzel à Göttingen. Je profite de l'occasion pour souligner la contribution de Richard Waring et de Terry Brown, et le leadership tourné vers l'avenir de R. Wayne Davies à cet effort. Très peu se souviennent aujourd'hui que c'est Wayne qui a planifié le premier le séquençage complet du chromosome III de S. cerevisiæ.


Se délecter du révélé

Kelly Rae Chi
1 janv. 2016

&copie HENNING DALHOFF/SCIENCE SOURCE Une cellule emballe son génome comme si nos vies en dépendaient, et c'est le cas. Si vous pouviez dérouler l'ADN dans le noyau d'une seule cellule, il s'étirerait sur deux mètres. Les 2&ndash3 pour cent du génome révélés à un instant donné remplissent une fonction essentielle : la transcription. &ldquoTester les pièces qui sont utilisées est un moyen très puissant d'essayer de comprendre la régulation de l'expression des gènes au niveau de l'ADN», explique William Greenleaf de l'Université de Stanford. Et sonder ce processus de régulation est essentiel pour comprendre la santé et la maladie.

De grands projets dirigés par des consortiums tels que ENCODE (Encyclopedia of DNA Elements) ont fait de grands progrès dans l'identification de divers éléments fonctionnels du génome. Ceux-ci incluent des amplificateurs, des activateurs et des promoteurs et des régions d'ADN qui se lient aux protéines qui contrôlent la transcription. Des études ont également exploité la nature du matériau d'emballage primaire de l'ADN : des bobines de protéines appelées histones autour desquelles les génomes.

Quelles parties du génome sont disponibles pour la transcription à un moment donné ? ENCODE a aidé à répondre à cette question en utilisant DNase-seq, une technique qui digère et séquence les régions sans nucléosome du génome. Des méthodes similaires sont apparues ces dernières années, notamment ATAC-seq et MNase-seq, élargissant les options des chercheurs pour prendre des instantanés de l'ADN disponible (ou non disponible).

L'étude de l'ensemble du génome à l'aide de ces méthodes peut être une première étape utile vers le catalogage des éléments fonctionnels potentiels de la transcription. ChIP-seq (ou ses innombrables variantes) peut alors fournir des informations plus mécanistes, en utilisant des anticorps pour identifier des facteurs de transcription spécifiques, note le chercheur principal Keji Zhao du National Heart, Lung and Blood Institute.

Le scientifique parlé aux développeurs et aux utilisateurs des avantages et des inconvénients de chacune de ces techniques couramment utilisées. Voici ce qu'ils ont dit.

DNase-seq

Fond: La désoxyribonucléase (DNase) a longtemps été associée au transfert de Southern pour révéler les régions exposées de l'ADN, connues sous le nom de sites hypersensibles à la DNase, découvrant que ces régions sont effectivement actives. Le séquençage de nouvelle génération a permis aux chercheurs de sonder les régions exposées de génomes entiers, et le projet ENCODE à lui seul a généré plus de 400 ensembles de données à l'aide de DNase-seq.

Comment ça fonctionne: DNase-seq tire parti du fait que les régions exposées du génome sont naturellement plus sujettes à la dégradation par les DNases. La méthode utilise l'enzyme DNase I pour cliver l'ADN sur des sites le long du génome qui ne sont pas enroulés autour des nucléosomes, qui sont déplacés par la liaison de facteurs de transcription. Ces petits fragments, dont on pense qu'ils induisent la présence de facteurs de transcription, sont ensuite séquencés et mappés sur le génome.

  • La technique est mieux établie que n'importe quelle autre méthode d'accessibilité à la chromatine que de nombreux laboratoires ont appliquée à un large éventail de types de cellules et d'espèces (y compris les plantes) et son biais de coupe est mieux compris.
  • Il est possible de modifier la DNase-seq pour examiner les régions protégées du génome, probablement là où des facteurs de transcription ou des nucléosomes peuvent résider. C'est ce qu'on appelle l'empreinte DNase.
  • La DNase-seq est techniquement difficile à maîtriser, notamment pour trouver les conditions optimales de digestion pour un type et un nombre de cellules donnés.
  • Étant donné que la méthode nécessite des millions de cellules, il peut être difficile d'analyser des échantillons de patients rares.

Considérations : Des recherches récentes ont révélé comment le biais de coupe de la DNase?I peut limiter l'utilité de la méthode pour l'identification des empreintes ADN. En analysant la liaison supposée de 36 facteurs de transcription différents, les chercheurs ont montré que les données DNase-seq n'étaient pas utiles pour éclairer les empreintes de beaucoup d'entre eux (Méthodes Nat, 11:73-78, 2014).

Parce que lorsque les coupures enzymatiques dépendent de la séquence, les chercheurs doivent utiliser de l'ADN nu (c'est-à-dire de l'ADN sans protéines associées) comme contrôle dans l'analyse de l'empreinte DNase-seq (également dans ATAC-seq), explique Clifford Meyer, chercheur dans X Le laboratoire de Shirley Liu à l'Université Harvard et co-auteur sur le Méthodes naturelles étudier. "Si vous voyez un motif dans l'ADN nu, alors vous savez que cela n'a rien à voir avec la liaison du facteur de transcription", ajoute-t-il.

ESPACE ENTRE : DNase-seq et ATAC-seq sont utilisés pour séquencer et cartographier les régions exposées de l'ADN, tandis que MNase-seq cartographie les régions protégées par les nucléosomes. Mais parce que les méthodes fournissent des instantanés d'un processus dynamique moyenné sur plusieurs milliers de cellules, DNase- et ATAC-seq ne fournissent pas de données qui complètent parfaitement celles de MNase-seq. (TF = facteur de transcription) BASÉ SUR CHROMATIN ÉPIGÉNÉTIQUE, 7:33, 2014, REDESSINÉ AVEC PERMISSION.

Cellules individuelles ? : Il y a tout juste un mois, le groupe de Keji Zhao a décrit la DNase-seq à cellule unique (scDNase-seq), en utilisant la technique pour identifier les régions exposées de l'ADN dans les cellules tumorales qu'ils avaient manuellement grattées à partir de lames de tissus fixes de biopsies de cancer de la thyroïde. L'équipe a également analysé les régions génomiques exposées de cellules vivantes isolées à l'aide d'un tri cellulaire activé par fluorescence (La nature, 528:142-46, 2015).

ATAC-seq

Fond: En collaboration avec Howard Chang à l'Université de Stanford, le groupe de Greenleaf a introduit le test pour la chromatine accessible à la transposase (ATAC)-seq en 2013 (Méthodes Nat, 10:1213-18, 2013).

Comment ça fonctionne: ATAC-seq insère des adaptateurs de séquençage directement dans l'ADN accessible à l'aide de l'enzyme Tn5 transposase. Les bits capturés entre les adaptateurs sont ensuite amplifiés par qPCR et séquencés.

  • Le protocole est la plus simple de toutes les méthodes d'accessibilité, et le rapport signal/bruit est fantastique, déclare Jason Lieb de l'Université de Chicago, qui a développé une méthode connexe, appelée FAIRE-seq, il y a plusieurs années. (Bien que FAIRE-seq soit aussi simple que ATAC-seq, Lieb est principalement passé à ce dernier car il donne un meilleur signal.)
  • Vous n'avez besoin que de 50 000 cellules ou moins pour obtenir des résultats d'ATAC-seq.
  • Les matériaux de départ sont légèrement plus chers, vous devez acheter un kit pour la transposase Tn5 d'Illumina (Nextera DNA Library Preparation Kit).
  • Il n'y a pas encore beaucoup de précédent pour l'empreinte ATAC-seq, note le bioinformaticien Michael Buck de l'Université d'État de New York à Buffalo. Son groupe travaille sur un outil qui tient compte du biais ATAC-seq pour mettre en évidence les empreintes potentielles. L'année dernière, le groupe de Greenleaf a publié un détecteur de pic de nucléosome à haute résolution (NucleoATAC disponible via GitHub).

Commencer: Greenleaf a lancé un forum pour répondre aux questions d'un groupe d'utilisateurs en pleine expansion. Vous pouvez en demander l'accès à l'adresse sites.google.com/site/atacseqpublic/home?pli=1. Les personnes expérimentées dans les techniques de biologie moléculaire peuvent générer une bibliothèque de séquençage en une journée, explique Greenleaf.


Des astuces: Chaque cellule est différente, vous devrez donc ajuster le nombre de cellules et les conditions de lyse pour votre situation particulière. "Idéalement, vous voulez lyser doucement les cellules pour faire entrer la transposase mais ne pas perturber l'état de la chromatine", explique Greenleaf.

L'utilisation d'un trop grand nombre de cellules entraîne l'insertion de moins d'adaptateurs de séquençage, et donc des fragments d'ADN plus gros, trop peu de cellules entraîneront des bits plus courts. Le nombre optimal de cellules peut varier en fonction du tissu ou de l'organisme d'où proviennent les cellules.

Il est toujours bon de faire une analyse préliminaire avant d'exécuter vos échantillons sur un séquenceur ou de faire un séquençage léger pour commencer, explique Greenleaf. Vous pouvez exécuter un gel préliminaire pour vérifier les distributions de fragments, ou passer l'échantillon à travers une machine qui quantifie l'ADN et mesure sa qualité (par exemple, Agilent 2100 Bioanalyzer). Pour le séquençage au niveau de la production, Greenleaf recommande d'utiliser le séquençage par paires pour obtenir les meilleurs résultats.

Cellules individuelles ? : Deux groupes ont récemment publié différentes méthodes pour ATAC-seq à cellule unique. Le groupe de Jay Shendure à l'Université de Washington et ses collaborateurs ont marqué les noyaux cellulaires avec des codes-barres et les ont séparés à l'aide d'un tri cellulaire activé par fluorescence (Science, 348 : 910-14, 2015). En revanche, le laboratoire de Greenleaf utilise des approches microfluidiques pour l'isolement cellulaire (La nature, 523 : 486-90, 2015). Une grande partie du défi pour les deux méthodes se résume à l'analyse des données, explique Greenleaf, car les données sont rares. « Dans une seule cellule, il y a zéro, un ou deux loci ouverts dans n'importe quelle région spécifique de la séquence génomique », dit-il.

MNase-seq

Fond: Les chercheurs ont utilisé la nucléase micrococcale (MNase), de Staphylococcus aureus, pour digérer et étudier la chromatine pendant au moins 40 ans. En 2010, ils ont commencé à l'associer au séquençage à haut débit.

Comment ça fonctionne: La MNase fonctionne en mâchant des tronçons exposés du génome, l'ADN associé aux nucléosomes est récupéré et séquencé. Cela fait de MNase-seq l'inverse d'ATAC-seq et de DNase-seq, au moins conceptuellement.

  • En combinaison avec l'immunoprécipitation de la chromatine (ChIP-seq), qui nécessite un anticorps de haute qualité, la digestion par la MNase peut être utilisée pour étudier les facteurs régulateurs qui se lient aux nucléosomes.
  • La technique a été utilisée sur les cellules de nombreuses espèces, de la levure à l'homme.
  • MNase-seq nécessite 10 à 20 millions de cellules.
  • La plupart des enzymes utilisées dans les tests d'accessibilité de la chromatine ont des biais spécifiques à la séquence que la MNase aime couper dans les régions riches en AT du génome.
  • Pour des raisons qui ne sont pas toujours claires, certaines régions du génome sont plus sensibles que d'autres à la digestion par la MNase.

Commencer: Les chercheurs ont développé un protocole qui prend en compte les lectures plus courtes produites par la digestion par la MNase et génère une cartographie de résolution de paires de bases (PNAS, 108:18318-23, 2011). Le groupe de Buck a décrit une méthodologie visant à standardiser les étapes de digestion et d'analyse des données (BMC Mol Biol, 13:15, 2012).

Des astuces: La DNase-seq et la MNase-seq ne sont pas des opposés parfaits : des études pourraient, par exemple, suggérer qu'un site donné du génome pourrait être à la fois hypersensible à la DNase I et nucléosomique, explique Lieb. « Imaginez qu'un site soit ouvert la moitié du temps et nucléosomique la moitié du temps », dit-il. "Il est théoriquement possible d'obtenir une signalisation hypersensible [DNase] et un nucléosome. La cinétique est toujours un défi qu'aucune de ces méthodes n'a complètement résolu. Faire la moyenne sur de nombreuses populations de cellules brouille également les données, ajoute-t-il.

Une alternative à MNase-seq, appelée NOMe-seq, génère des informations à l'échelle du génome sur le positionnement des nucléosomes et l'état de méthylation de l'ADN (Génome Res, 22:2497-506, 2012).

Cellules simples ? :
Rien de publié pour le moment.

Un mot sur l'analyse des données

En sondant les données DNase-seq, ATAC-seq et MNase-seq, la plupart des chercheurs utilisent des programmes développés à l'origine pour ChIP-seq, explique Michael Buck. Il est assez simple de reconnaître les endroits du génome qui sont ouverts, "mais si vous voulez faire plus d'analyses, c'est là que les gens s'enlisent", ajoute-t-il.

Une analyse sophistiquée est nécessaire pour obtenir des résultats plus significatifs, et pour cela, vous aurez besoin de certaines capacités de programmation, dit Zhao. « Peu importe le langage de programmation que vous utilisez (R, Perl, C++), mais la capacité de programmation est importante. »

Cela ne signifie pas que vous devez être bioinformaticien. Il est relativement facile pour les biologistes moléculaires d'acquérir suffisamment de Perl, par exemple, pour effectuer eux-mêmes l'analyse des données, ou au moins être en mesure de communiquer avec un bioinformaticien à propos de l'analyse. Les installations de base et les collaborateurs spécialisés dans l'analyse de données peuvent être des ressources clés, dit Zhao. En outre, selon Buck, de nouveaux outils d'analyse spécifiques aux tests sont en cours d'élaboration et les outils pour ces méthodes devraient s'améliorer dans un proche avenir.


Pourquoi certaines régions génomiques sont-elles plus séquencées que d'autres ? - La biologie

Résumé

Bien que chaque personne sur notre planète soit construite à partir du même plan, il n'y a pas deux personnes exactement les mêmes. Bien que nous soyons suffisamment semblables pour nous distinguer facilement des autres créatures vivantes, nous célébrons également notre unicité individuelle.

Alors, qu'est-ce qui nous rend tous humains et pourtant uniques ? Notre ADN.

CE QUI NOUS FAIT QUI NOUS SOMMES

Notre ADN (acide désoxyribonucléique) se trouve dans le noyau de chaque cellule de notre corps (à l'exception des globules rouges, qui n'ont pas de noyau). L'ADN est une longue molécule, composée de beaucoup d'unités plus petites. Pour fabriquer une molécule d'ADN, il vous faut :

 bases azotées&mdashil y en a quatre : adénine (A), thymine (T), cytosine (C), guanine (C)

Si vous prenez l'une des quatre bases azotées et que vous la mettez ensemble avec une molécule de sucre et une molécule de phosphate, vous obtenez une base nucléotidique. Les molécules de sucre et de phosphate relient les bases nucléotidiques entre elles pour former un seul brin d'ADN. Deux de ces brins s'enroulent ensuite l'un autour de l'autre, créant la forme d'échelle torsadée de la double hélice d'ADN. Les bases nucléotidiques s'apparient pour former les barreaux de l'échelle, et les molécules de sucre et de phosphate forment les côtés. Les bases s'apparient dans des combinaisons spécifiques : A s'apparie toujours avec T et C s'apparie toujours avec G pour former des paires de bases. Rassemblez trois milliards de ces paires de bases dans le bon ordre et vous obtenez un ensemble complet d'ADN humain et le génome humain. Cela équivaut à une molécule d'ADN d'environ un mètre de long. C'est l'ordre dans lequel les paires de bases sont arrangées et leur séquence est au cœur de notre ADN qui fournit le modèle de tous les êtres vivants et fait de nous ce que nous sommes.

La séquence d'ADN des paires de bases dans l'ADN d'un poisson est différente de celle d'un singe. La séquence de paires de bases de toutes les personnes est presque identique et c'est ce qui fait de nous tous des humains. Cependant, il existe de petites différences de l'ordre des trois milliards de paires de bases dans l'ADN de tout le monde qui provoquent les variations que nous voyons dans la couleur des cheveux, la couleur des yeux, la forme du nez, etc. car ils provenaient d'un seul œuf qui s'est divisé en deux, formant deux copies du même ADN). Nous obtenons notre ADN de nos parents. L'ADN du génome humain est divisé en 23 paires de chromosomes (46 au total). Nous en recevons 23 de notre mère et 23 de notre père. Les ovules et les spermatozoïdes n'ont qu'une seule copie de chaque chromosome de sorte que lorsqu'ils se réunissent pour former un bébé, le bébé a les 2 copies normales. Trois milliards, c'est beaucoup de paires de bases, et ensemble, elles contiennent une énorme quantité d'informations.

Pourquoi étudier notre génome ?

Travailler sur la séquence des paires de bases dans tous nos gènes nous permet de comprendre le code qui fait de nous qui nous sommes. Cette connaissance peut ensuite nous donner des indices sur la façon dont nous nous développons en tant qu'embryons, pourquoi les humains ont plus de matière grise que les autres animaux et plantes, et ce qui se passe dans le corps pour provoquer le cancer. Mais établir la séquence de trois milliards de paires de bases est une GRANDE tâche. Le grand et ambitieux programme de recherche qui cherchait à le faire s'appelait le Projet du génome humain.

L'idée du projet du génome humain est née dans les années 1970, lorsque les scientifiques ont appris à &lsquocloner&rsquo de petits morceaux d'ADN, de la taille d'un gène. Pour cloner l'ADN, les scientifiques ont découpé un fragment d'ADN humain du long brin, puis l'ont incorporé dans le génome d'une bactérie ou d'un virus bactérien. Le fragment est ensuite répliqué plusieurs fois dans la cellule bactérienne et chaque fois que la cellule bactérienne se divise, les nouvelles cellules contiennent également l'introduction de Francis Collins, ancien directeur du National Human Genome Research Institute, qui a dirigé le Human Genome Project.

Une cellule du corps humain est tout simplement invisible à l'œil nu, les microscopes sont essentiels pour les voir. Un ADN humain d'environ 2 m de long est si bien emballé qu'il s'insère dans le noyau de la cellule, alors pensez à la difficulté de visualiser un fragment d'ADN ADN D.

Les cellules bactériennes se reproduisent de manière prolifique, et ce processus finit donc par produire des millions de cellules qui contiennent toutes le fragment d'ADN introduit, suffisamment pour que les chercheurs puissent l'étudier en détail et déterminer la séquence des paires de bases. Avec le temps, les chercheurs ont pu étudier un nombre toujours plus grand de fragments d'ADN différents, c'est-à-dire de gènes différents. Il est devenu clair que certaines séquences d'ADN variantes étaient associées à des conditions particulières : des maladies telles que la mucoviscidose ou le cancer du sein, ou des variantes normales et non nocives comme les cheveux roux.

Il y avait initialement beaucoup d'opposition au projet du génome humain, même de la part de certains scientifiques. Considérant qu'environ 1,5% seulement de notre génome est constitué de gènes réels qui codent pour les protéines, on pensait qu'une grande partie des 3 milliards de dollars pour séquencer l'ensemble du génome humain serait gaspillée sur l'ADN "junk" que les scientifiques pensaient n'avoir pas été utilisé. Le rôle important que joue l'ADN "junk" dans la régulation des gènes n'a pas encore été apprécié. Des groupes de recherche dans de nombreux pays, dont l'Australie, ont commencé à séquencer différents gènes, fournissant les débuts d'une carte génétique humaine totale.En 1989, l'Organisation du génome humain (HUGO) a été trouvée par des scientifiques de premier plan pour coordonner l'effort international massif impliqué dans la collecte de données sur les séquences pour percer les secrets de nos gènes.

Projet du génome humain

Le projet du génome humain visait à cartographier l'ensemble du génome, y compris la position de chaque gène humain le long du brin d'ADN, puis à déterminer la séquence de chaque paire de bases de gène. À l'époque, même le séquençage d'un petit gène pouvait prendre des mois, c'était donc considéré comme une entreprise formidable et très coûteuse. Heureusement, la biotechnologie avançait rapidement, et à la fin du projet, il était possible de séquencer l'ADN d'un gène en quelques heures. Malgré cela, le projet a pris dix ans pour terminer la première ébauche du génome humain a été annoncée en juin 2000.

En février 2001, le Human Genome Project financé par l'État et la société privée Celera ont tous deux annoncé qu'ils avaient cartographié la quasi-totalité du génome humain et avaient commencé à travailler sur les fonctions des nombreux nouveaux gènes identifiés. Les scientifiques ont été surpris de découvrir que les humains n'ont qu'environ 25 000 gènes, pas beaucoup plus que le ver rond Caenorhabditis elegans, et moins qu'un minuscule crustacé d'eau appelé Daphnia, qui en a environ 30 000. Cependant, le séquençage du génome montrait clairement que la complexité d'un organisme n'est pas nécessairement liée à son nombre de gènes.

De plus, bien que nous ayons un nombre étonnamment petit de gènes, ils sont souvent exprimés de manières multiples et complexes. De nombreux gènes ont jusqu'à une douzaine de fonctions différentes et peuvent être traduits en plusieurs versions différentes actives dans différents tissus. Nous avons également beaucoup d'ADN supplémentaire qui ne constitue pas des gènes spécifiques. Ainsi, même si le poisson-globe Tetraodon nigroviridis possède plus de gènes que nous, presque 28 000, la taille de l'ensemble de son génome n'est en fait que d'environ un dixième de la nôtre, car il contient beaucoup moins d'ADN non codant. En avril 2003, jour du 50e anniversaire de la publication de la structure de l'ADN, la carte finale complète du génome humain a été annoncée. L'ADN d'un grand nombre de donneurs, femmes et hommes de différentes nations et de différentes races, a contribué à cette séquence "typique" du génome humain.

Le processus d'identification des frontières entre les gènes et d'autres caractéristiques d'une séquence d'ADN brute est appelé annotation du génome et relève du domaine de la bioinformatique. Alors que les biologistes experts font les meilleurs annotateurs, leur travail avance lentement et les programmes informatiques sont de plus en plus utilisés pour répondre aux demandes de haut débit des projets de séquençage du génome. À partir de 2008, une nouvelle technologie connue sous le nom de RNA-seq a été introduite qui a permis aux scientifiques de séquencer directement l'ARN messager dans les cellules. Cela a remplacé les méthodes d'annotation précédentes, qui reposaient sur les propriétés inhérentes de la séquence d'ADN, par une mesure directe, qui était beaucoup plus précise.

Aujourd'hui, l'annotation du génome humain et d'autres génomes repose principalement sur le séquençage en profondeur des transcrits dans chaque tissu humain à l'aide de RNA-seq. Ces expériences ont révélé que plus de 90 % des gènes contiennent au moins un et généralement plusieurs variants d'épissage alternatifs, dans lesquels les exons sont combinés de différentes manières pour produire 2 produits géniques ou plus à partir du même locus. Le génome publié par le HGP ne représente pas la séquence du génome de chaque individu. C'est la mosaïque combinée d'un petit nombre de donateurs anonymes, tous d'origine européenne. Le génome HGP est un échafaudage pour les futurs travaux d'identification des différences entre les individus. Des projets ultérieurs ont séquencé les génomes de plusieurs groupes ethniques distincts, bien qu'à ce jour, il n'existe toujours qu'un seul « génome de référence ».

RÉSULTATS

Les principales conclusions de l'ébauche (2001) et des séquences complètes (2004) du génome comprennent :

1. Il existe environ 22 300 gènes codant pour des protéines chez l'homme, la même gamme que chez les autres mammifères.

2. Le génome humain a significativement plus de duplications segmentaires (sections répétées presque identiques d'ADN) qu'on ne le soupçonnait auparavant. Au moment où le projet de séquence a été publié, moins de 7 % des familles de protéines semblaient être spécifiques aux vertébrés.

ACCOMPLISSEMENT

Le projet du génome humain a été lancé en 1990 dans le but de séquencer et d'identifier les trois milliards d'unités chimiques dans l'ensemble d'instructions génétiques humaines, de trouver les racines génétiques de la maladie, puis de développer des traitements. Il est considéré comme un méga projet car le génome humain compte environ 3,3 milliards de paires de bases. Avec la séquence en main, l'étape suivante consistait à identifier les variantes génétiques qui augmentent le risque de maladies courantes comme le cancer et le diabète. Il était beaucoup trop coûteux à l'époque de penser à séquencer des génomes entiers de patients. Ainsi, les National Institutes of Health ont adopté l'idée d'un "raccourci", qui consistait à examiner uniquement les sites du génome où de nombreuses personnes ont une unité d'ADN variante.

UNE, Pour chaque chromosome Tetraodon, les segments colorés représentent la synténie conservée avec un chromosome humain particulier. La synténie est définie comme des groupes de deux ou plusieurs gènes Tetraodon qui possèdent un orthologue sur le même chromosome humain, indépendamment de l'orientation ou de l'ordre. Les chromosomes de Tetraodon ne sont pas classés par ordre décroissant de taille en raison de la couverture inégale des séquences. La carte entière comprend 5 518 orthologues dans 900 segments synténiques. B, Sur le génome humain la carte est composée de 905 segments synténiques. Voir les informations supplémentaires pour la carte de synténie entre Tetraodon et la souris

La théorie derrière le raccourci était que, puisque les principales maladies sont courantes, les variantes génétiques qui les ont causées le seraient aussi. La sélection naturelle maintient le génome humain exempt de variantes qui nuisent à la santé avant que les enfants ne grandissent, selon la théorie, mais échoue contre les variantes qui frappent plus tard dans la vie, leur permettant de devenir assez courantes. (En 2002, les National Institutes of Health ont lancé un projet de 138 millions de dollars appelé Hap Map pour cataloguer les variantes communes des génomes européens, est-asiatiques et africains.) Le génome a été divisé en morceaux plus petits d'environ 150 000 paires de bases. Ces morceaux ont ensuite été ligaturés dans un type de vecteur connu sous le nom de "chromosomes artificiels bactériens", ou BAC, qui sont dérivés de chromosomes bactériens qui ont été génétiquement modifiés. Les vecteurs contenant les gènes peuvent être insérés dans des bactéries où ils sont copiés par la machinerie de réplication de l'ADN bactérien.

Chacune de ces pièces a ensuite été séquencée séparément en tant que petit projet "shotgun", puis assemblée. Les plus grandes, 150 000 paires de bases vont ensemble pour créer des chromosomes. C'est ce qu'on appelle l'approche « fusil de chasse hiérarchique », car le génome est d'abord divisé en morceaux relativement gros, qui sont ensuite mappés sur les chromosomes avant d'être sélectionnés pour le séquençage. Le financement est venu du gouvernement américain par le biais des National Institutes of Health aux États-Unis et d'une organisation caritative britannique, le Wellcome Trust, ainsi que de nombreux autres groupes du monde entier.

Questions éthiques, juridiques et sociales

Au début du projet du génome humain, plusieurs préoccupations éthiques, juridiques et sociales ont été soulevées quant à la manière dont une connaissance accrue du génome humain pourrait être utilisée pour discriminer les gens. L'une des principales préoccupations de la plupart des individus était la crainte que les employeurs et les compagnies d'assurance-maladie refusent d'embaucher des personnes ou de fournir une assurance aux personnes en raison d'un problème de santé indiqué par les gènes de quelqu'un. En 1996, les États-Unis ont adopté la Health Insurance Portability and Accountability Act (HIPAA) qui protège contre la divulgation non autorisée et non consensuelle d'informations de santé identifiables individuellement à toute entité qui n'est pas activement engagée dans la fourniture de services de santé à un patient.

En plus d'identifier tous les quelque 20 000 à 25 000 gènes du génome humain, le projet du génome humain a également cherché à résoudre les problèmes éthiques, juridiques et sociaux qui ont été créés par le début du projet. Pour cela, le programme Ethical, Legal, and Social Implications (ELSI) a été fondé en 1990. Cinq pour cent du budget annuel ont été alloués pour traiter l'ELSI découlant du projet. Ce budget a commencé à environ 1,57 million de dollars en 1990, mais est passé à environ 18 millions de dollars en 2014. Bien que le projet puisse offrir des avantages significatifs à la médecine et à la recherche scientifique, certains auteurs ont souligné la nécessité d'aborder les conséquences sociales potentielles de la cartographie. le génome humain. "La maladie moléculaire et son possible traitement auront un impact profond sur ce que les patients attendent de l'aide médicale et sur la nouvelle génération de perception de la maladie par les médecins."

Observation:

Le projet n'a pas été en mesure de séquencer tout l'ADN trouvé dans les cellules humaines. Il a séquencé uniquement les régions "euchromatiques" du génome, qui constituent plus de 95% du génome. Les autres régions, dites "hétérochromatiques" se trouvent dans les centromères et les télomères, et n'ont pas été séquencées dans le cadre du projet. Le projet du génome humain a été déclaré terminé en avril 2003. Une première ébauche du génome humain était disponible en juin 2000 et en février 2001, une ébauche de travail avait été achevée et publiée, suivie de la cartographie finale du séquençage du génome humain le 14 avril. 2003.

Fig : Un chercheur examine une séquence d'ADN.

Bien qu'il ait été rapporté que cela couvrait 99% du génome humain euchromatique avec une précision de 99,99%, une évaluation majeure de la qualité de la séquence du génome humain a été publiée le 27 mai 2004, indiquant que plus de 92% de l'échantillonnage dépassait 99,99% de précision, ce qui était dans l'objectif visé. . D'autres analyses et articles sur le HGP continuent de se produire.

CONCLUSIONS

Il ne fait aucun doute que les informations du Projet du génome humain offrent d'énormes avantages pour la santé humaine en aidant à comprendre et à traiter les maladies génétiques (telles que le cancer du sein, la mucoviscidose et la drépanocytose). Cependant, certaines personnes voient des problèmes éthiques et se demandent si les scientifiques « jouent à Dieu » avec nos génomes. L'information génétique pourrait-elle être utilisée à mauvais escient, par exemple, par la discrimination génétique par les employeurs ou les compagnies d'assurance ? La plupart des gens s'accordent à dire que les tests génétiques peuvent être utilisés de manière éthique pour prévenir des maladies graves telles que le cancer, ou pendant la grossesse pour éviter la naissance d'une personne gravement handicapée, mais devrions-nous permettre aux tests génétiques de choisir un enfant qui sera mieux à même de sportif, ou plus intelligent ? Qu'en est-il de la sélection du sexe, déjà un problème dans certains pays ? Et deviendra-t-il possible d'utiliser l'information génétique pour améliorer les gènes chez les enfants ou les adultes ? Voulons-nous vraiment savoir si nous courons le risque de développer une maladie particulière qui peut ou non être traitable ? Quels sont les problèmes de confidentialité concernant le dépistage du génome à l'échelle d'une population ? Bien d'autres questions de ce genre se posent encore et nous laissent dans l'oubli des pensées profondes, pourtant nous devons croire en la science et ses progrès et réaliser qu'avec DE NOUVELLES CONNAISSANCES VIENT DE NOUVELLES RESPONSABILITÉS ÉNORMES.


Génomique écologique pour les prédictions

La variation génomique au sein des espèces est le substrat sur lequel de nouvelles espèces apparaissent, avec lequel les populations existantes réagissent aux changements environnementaux et par lequel les individus contrecarrent une myriade d'autres défis (Stillman & Armstrong, 2015). Par conséquent, la génomique écologique peut renseigner sur la dynamique et les processus évolutifs et écologiques, en découvrant des mécanismes importants sur la façon dont la biodiversité - dans sa gamme de formes - émerge et change. Ces analyses sont des outils importants pour comparer les processus démographiques contemporains et rétrospectifs, la variabilité de la population et les régions génétiques associées à l'adaptation ou à la spéciation locale (Stillman & Armstrong, 2015). Surtout, en identifiant la base génétique sous-jacente aux phénotypes dans un contexte naturel, nous pouvons étudier et donc viser à prédire les chemins évolutifs dans différents scénarios environnementaux (Violle et al., 2014).

Comme les données génomiques peuvent être collectées plus facilement, les plus grands gains dans l'exploitation de la génomique des traits adaptatifs proviendront de l'appariement de l'environnement et du phénotype, ainsi que des niveaux croissants de réplication biologique (populations et individus) (Elmer & Meyer, 2011 Hendry, 2013 Roesti et al., 2014). Les recherches futures bénéficieront également d'une validation fonctionnelle directe et indirecte, par exemple, les comparaisons possibles avec les ressources génomiques disponibles croissantes pour les salmonidés (Pavey et al., 2012 Primmer et al., 2013).

La mesure dans laquelle les modèles spécifiques à une population reflètent l'adaptation locale par rapport aux modèles stochastiques ou aux confusions de la structuration génétique de la population n'est pas claire et constitue un problème permanent pour la génomique écologique à démêler (Roesti et al., 2014). De telles confusions peuvent générer des faux positifs pour les loci associés à des phénotypes adaptatifs, par exemple, si les incompatibilités génétiques entre les lignées évolutives imitent les signaux de réponse à la sélection (Bourret et al., 2013). Ces faux positifs nous amènent à conclure à tort sur les bases génétiques des populations ou des phénotypes étudiés. C'est un argument central pour tirer parti du cadre de l'évolution parallèle (Bernatchez et al., 2010 Elmer & Meyer, 2011). Les phénotypes répliqués dans le cadre de l'évolution parallèle sont ce qu'on appelle des « expériences d'évolution naturelle » (Doughty, 1996) utilisées dans les approches comparatives comme moyen de relever les défis des échelles de temps évolutives et de la stochasticité environnementale. Ce parallélisme est la raison pour laquelle les salmonidés postglaciaires, en particulier l'omble avec leur vaste diversification en sympatrie et en allopatrie, sont des organismes modèles idéaux pour la génomique écologique et inférant les origines génétiques de la diversité existante.

Les poissons salmonidés comme l'omble, la truite et le saumon ont une valeur patrimoniale extrêmement élevée et jouent un rôle majeur dans la sécurité alimentaire et la santé économique de nombreux pays nordiques (Fraser et al., 2011). Ce sont des régions du globe à risque en raison des changements climatiques tels que le réchauffement climatique, avec des effets déjà ressentis par les salmonidés, par ex. discordances trophiques chez le grand omble chevalier (Sv. ombre) (Jonsson & Setzer, 2015), le déclin de l'omble chevalier en raison de la hausse des températures des lacs (Winfield et al., 2010) et, dans certaines régions, la modification importante de l'habitat par les humains (p. ex. propagation d'espèces envahissantes, pollution et modification des cours d'eau par barrages) qui a un impact sur la santé des populations de salmonidés (Adams et al., 2007b Brodersen & Seehausen, 2014). Pourtant, il est difficile de faire des prédictions précises sur la capacité évolutive des salmonidés à répondre à ces défis en raison du manque d'informations sur le potentiel génétique quantitatif des populations sauvages (Carlson & Seamons, 2008 Brodersen & Seehausen, 2014). Il est donc opportun que nous puissions tirer parti de la nouvelle suite passionnante d'outils disponibles pour la génomique écologique des populations de salmonidés sauvages. Cette nouvelle ère nous permettra de recréer des histoires de population avec des données démographiques neutres à haute résolution, de déduire comment les génomes réagissent à la sélection et ainsi de se concentrer sur les bases fonctionnelles des phénotypes adaptatifs des salmonidés, et même de jeter les yeux vers l'avant pour essayer de faire des prédictions sur l'avenir l'adaptation de ces diverses populations.


La biologie de la drosophile à l'ère génomique

Au cours du siècle dernier, les mouches de la famille des Drosophilidae ont été des modèles importants pour comprendre les processus génétiques, développementaux, cellulaires, écologiques et évolutifs. Les séquences complètes du génome d'un total de 12 espèces promettent d'étendre ce travail en facilitant les études comparatives de l'expression des gènes, des molécules telles que les protéines, des mécanismes de développement et de l'adaptation écologique. Nous passons ici en revue les informations biologiques et écologiques de base des espèces dont les génomes ont récemment été complètement séquencés dans le cadre des recherches actuelles.

Si la plupart des biologistes souhaitaient faciliter leurs recherches, beaucoup opteraient pour le génome entièrement séquencé de leur taxon focal. D'autres pourraient demander un large éventail d'outils génétiques autour desquels ils pourraient concevoir des expériences pour répondre à des questions évolutives, développementales, comportementales ou écologiques. Avec l'achèvement récent des séquences complètes du génome de 12 espèces, les biologistes de la drosophile se trouvent maintenant dans une situation sans précédent : ils ont à la fois des souhaits et plus encore. Non seulement le modèle de la drosophile offre aux chercheurs des séquences génomiques complètes et des outils génétiques de pointe, mais on en sait également plus sur presque tous les aspects de la biologie (génétique, développement, écologie, relations phylogénétiques et cycle de vie) de ces espèces que de tout autre. autre eucaryote. De plus, en raison du cadre génomique comparatif des 12 espèces, les découvertes faites dans un taxon peuvent être immédiatement placées dans un contexte évolutif plus large.

Alors que la plupart des chercheurs sont bien conscients de l'utilité de Drosophila melanogaster et ses proches parents des études de génétique et de biologie du développement, peu de gens se rendent compte que plusieurs des espèces restantes de ce genre ont été étudiées par des écologistes et des biologistes de l'évolution presque depuis le moment où Morgan a ramassé sa première bouteille de mouches. Par exemple, D. pseudoobscura, décrit par F rolova et A staurov (1929), est bien connu des études évolutionnistes classiques de Dobzhansky, de ses collègues et de leurs étudiants (A nderson et al. 1991 Popadic et Anderson 1994). D. virilis, en plus d'être un système de modèle génétique à part entière, a également été utilisé pour étudier la spéciation et l'évolution des chromosomes (M c A llister 2002 C aletka et M c A llister 2004).

Le genre Drosophila contient >2000 espèces décrites (M arkow et O'G rady 2005, 2006), ainsi que plusieurs centaines de taxons en attente de description. La plupart de ces taxons appartiennent à l'un des deux principaux sous-genres : Sophophora et Drosophila. La figure 1 montre les relations phylogénétiques et les temps de divergence des 12 espèces pour lesquelles des séquences du génome entier sont maintenant disponibles. Les 12 espèces avec des génomes séquencés représentent un gradient de distances évolutives de D. melanogaster, y compris les taxons divergeant au cours du dernier million d'années pour les espèces qui ont partagé pour la dernière fois un ancêtre commun avec D. melanogaster >Il y a 30 millions d'années (Figure 1). Cette gamme a été sélectionnée pour tirer parti de la puissance de plusieurs génomes apparentés pour découvrir des motifs régulateurs conservés, améliorer la prédiction des gènes et améliorer l'annotation de la D. melanogaster génome (B ergman et al. 2003 B offelli et al. 2003). Huit des espèces nouvellement séquencées sont étroitement apparentées à D. melanogaster et appartiennent au sous-genre Sophophora. Cinq d'entre eux, D. simulans, D. yakuba, D. erecta, D. sechellia, et D. ananassae, sont inclus dans le melanogaster groupe d'espèces 2, D. pseudoobscura et D. persimilis, sont placés dans le obscure groupe, sœur de la melanogaster groupe d'espèces et un autre, D. willistoni, est dans le willistoni groupe, un clade basal au sein de Sophophora (O'G rady et K idwell 2002). Les 3 espèces restantes appartiennent au sous-genre Drosophila, le taxon frère de Sophophora. D. virilis, une espèce reproductrice de flux de sève, et D. mojavensis, un taxon cactophile, appartiennent à ce que l'on appelle le virilis-repleta rayonnement (T hrockmorton 1975). D. grimshawi, une grande espèce aux motifs spectaculaires, représente le rayonnement de la drosophile hawaïenne, un clade étroitement lié au virilis-repleta espèce.

(A) Les relations phylogénétiques des 12 espèces de drosophiles entièrement séquencées, ainsi qu'une échelle de temps pour l'évolution dans ce groupe (après R usso et al. 1995). La diversité au niveau des espèces dans les sous-genres et les groupes d'espèces qui les contiennent est indiquée (M arkow et O'G rady 2005a et références y figurant). (B–G) Peignes sexuels dans le melanogaster groupe d'espèces : (B) D. melanogaster, (C) D. simulans, (RÉ) D. sechellia, (E) D. erecta, (F) D. yakuba, et (G) D. ananassae. (H) Mâle adulte, D. melanogaster. (I) Mâle adulte, D. simulans. (J) Femelle adulte, D. ananassae. (K et L) Peignes sexuels dans le obscure groupe d'espèces : (K) D. pseudoobscura et moi) D. persimilis. (M) Mâle adulte, D. pseudoobscura. (N) Mâle adulte, D. virilis. (O) Mâle adulte, D. grimshawi.

La sélection des espèces à séquencer reposait donc sur deux critères : (1) leur degré de parenté avec D. melanogaster et (2) la probabilité de découvrir de nouveaux gènes et de nouvelles voies. Dans le cas du premier critère, il était important d'échantillonner de manière dense les espèces étroitement apparentées à D. melanogaster ainsi que des taxons successivement plus éloignés pour découvrir et annoter des régions régulatrices conservées via l'ombrage phylogénétique (par exemple., Boffelli et al. 2003). L'échantillonnage dense au sein de la melanogaster sous-groupe (simulant, sechellie, et yakuba) et l'inclusion des plus éloignées D. erecta et D. ananassae a fourni une image beaucoup plus détaillée de la cis-régions de régulation que les comparaisons entre melanogaster et obscure (M ose et al. P oller 2006 et al. 2006). Certaines des espèces ont été sélectionnées parce qu'elles sont diversifiées sur le plan comportemental et écologique et qu'elles donneraient soit de nouvelles voies biochimiques, soit des variations uniques sur des réseaux déjà connus d'interaction génique. Cette piste s'est avérée particulièrement pertinente pour l'évolution des gènes des récepteurs olfactifs et gustatifs chez D. sechellia, un taxon qui pond ses œufs uniquement dans les fruits en décomposition de Morinda citrifolia, un substrat hautement toxique (M c B ride 2007). Un autre taxon sélectionné sur la base de ce critère est l'espèce cactophile D. mojavensis, dans laquelle de nouveaux gènes semblent être associés à l'utilisation de cactus hôtes toxiques (M atzkin et al. 2006) ainsi qu'avec leur système d'accouplement (K elleher et M arkow 2007).

La première espèce de drosophile, funébris, a été décrit par J. C. Fabricius en 1787 et déplacé dans le genre Drosophila par C. F. Fallen en 1823. Meigen a décrit D. melanogaster en 1830 (M eigen 1830). Le nombre d'espèces décrites dans ce groupe a augmenté lentement tout au long de la seconde moitié du 19e siècle. Ce n'est qu'au début des années 1900, cependant, après D. melanogaster a été établi comme un organisme modèle pour comprendre la génétique que le taux de descriptions d'espèces de drosophiles a considérablement augmenté. Alfred H. Sturtevant, en plus de ses contributions à la génétique de la drosophile, a également produit des traitements taxonomiques précoces de la drosophile (S turtevant 1916, 1919, 1921, 1939, 1942) et décrit des espèces telles que D. simulans, D. willistoni, et D. virilis. À la fin des années 1930, Th. Dobzhansky a commencé à utiliser D. pseudoobscura et ses espèces jumelles, D. persimilis et D. miranda, dans des études visant à comprendre la base génétique des populations de la formation des espèces. Également à cette époque, de vastes collections de JT Patterson et du groupe de WS Stone à l'Université du Texas (Austin, TX) ont découvert des centaines de nouvelles espèces, principalement du sud-ouest des États-Unis, du Mexique et d'Amérique centrale et du Sud (P atterson 1943 P atterson et continentale 1944). Des efforts ultérieurs à Hawaï au cours des années 1960 et 1970, le résultat d'une collaboration entre le groupe de l'Université du Texas et D. Elmo Hardy à l'Université d'Hawaï à Manoa, ont découvert un rayonnement extrêmement important de la drosophile qui compte près de 1000 espèces (S Pieth 1981). Ces travaux ont conduit à la vulgarisation de plusieurs espèces en tant que systèmes modèles pour la génétique écologique, des populations et du comportement (K ambysellis 1968 Carson 1992 D e S alle 1992). D'autres groupes, y compris ceux dirigés par Lachaise, Tsacas, David et Bock, ont travaillé tout au long des années 1970, 1980 et 1990, décrivant de nombreux taxons en Afrique, en Australie et dans le Pacifique Sud (B ock et Parsons 1981 Okada 1981 T sacas et al. 1981). Pour de nombreux problèmes, il existe un animal sur lequel il peut être étudié le plus commodément. A ugout K rogh

Selon le principe de Krogh, pour tous les phénomènes biologiques, il existe un système de modèle parfait qui peut être utilisé pour formuler des questions et tester des hypothèses. Par exemple, D. melanogaster, popularisé par T. H. Morgan et ses étudiants dans la première moitié du 20e siècle, est l'un des premiers systèmes modèles de la génétique moderne. Les enquêtes sur les écologies, les cycles biologiques et les caractéristiques du génome des 12 espèces entièrement séquencées de drosophiles démontrent que chacune de ces mouches peut être considérée comme un système modèle pour répondre à des questions biologiques spécifiques.

Malgré tout le travail qui a été fait, que sait-on vraiment de la biologie et de l'écologie de ces 12 espèces ? Qu'est-ce qui en fait des modèles convaincants pour étudier des questions intéressantes ? Quelles questions biologiques sont chacune particulièrement aptes à traiter ? La facilité d'élevage et de manipulation de tant d'espèces diverses mais apparentées de drosophiles a alimenté l'expansion des études expérimentales. Plusieurs rapports récents ont passé en revue la richesse des recherches effectuées sur la drosophile (P owell 1997 M arkow et O'G rady 2005, 2006 A shburner et al. 2006). Ici, nous discutons de plusieurs domaines où la combinaison de séquences génomiques complètes et de données comparatives sur l'histoire de la vie peut aider à redéfinir les études écologiques et évolutives.

Distributions et associations écologiques :

Les choix concernant l'endroit où se nourrir et pondre sont essentiels à la survie et à la forme physique de toutes les espèces de drosophiles. Cependant, les voies génétiques impliquées dans la sélection des plantes hôtes sont largement méconnues, de même que les déterminants qui font de certaines espèces des spécialistes et d'autres des généralistes. Malgré notre manque actuel de compréhension de ces gènes et de la façon dont ils pourraient interagir avec l'environnement, ils présentent un grand intérêt pour les biologistes de l'évolution car ils peuvent être impliqués dans le processus de diversification aux niveaux micro- et macro-évolutif. Liés à la sélection et à la sélectivité de l'hôte sont les facteurs (environnementaux, comportementaux, génétiques des populations et autres) qui permettent à certains taxons d'exister en tant qu'espèces répandues ou cosmopolites, tandis que les aires de répartition d'autres sont très étroitement définies. Les cartes d'aire de répartition des espèces de drosophiles sont fournies dans M arkow et O'G rady (2005, 2006). Certaines espèces sont connues pour être limitées par la distribution des plantes hôtes et des facteurs géographiques, mais les aires de répartition ou les bases des aires de répartition d'autres sont moins bien comprises.

Les 12 espèces aux génomes séquencés présentent une grande diversité à la fois dans la répartition géographique et l'association écologique. Certaines espèces, telles que D. melanogaster et D. simulans, sont cosmopolites et se sont propagés au-delà de leurs distributions ancestrales en raison de leur association commensale avec les humains et de leur capacité à se reproduire dans une grande variété de fruits pourris. Certains proches parents de ces espèces généralistes pondent également dans les fruits, mais sont plus étroitement distribués et très sélectifs dans leur choix de substrat. Par exemple, D. sechellia est endémique des Seychelles et s'est spécialisé sur les fruits de M. citrifolia, une ressource toxique pour les autres drosophiles (R'K ha et al. 1991). Un autre cas de spécialisation se produit avec D. erecta, qui se reproduit chez des espèces de Pandanus en Côte d'Ivoire en Afrique de l'Ouest (L achaise et T sacas 1983). D. yakuba, également limité à l'Afrique, est un obtenteur généraliste de fruits (L achaise et T sacas 1983), mais n'est pas devenu une espèce cosmopolite comme D. melanogaster et D. simulans. D. ananassae, une autre espèce fruitière très répandue dans toute l'Asie et le Pacifique, est largement utilisée par certains chercheurs comme modèle génétique (T obari 1992). Cette espèce s'est propagée au-delà de sa distribution initiale par son association avec les humains et le commerce des fruits et est maintenant considérée comme subcosmopolite (Singh 2000).

La paire d'espèces jumelles de D. pseudoobscura et D. persimilis est principalement distribué dans l'ouest de l'Amérique du Nord, bien qu'une petite population de D. pseudoobscura est situé dans les montagnes près de Bogotá, Colombie (D obzhansky et al. 1963). Pendant les mois d'été, les deux espèces sont abondantes dans les forêts d'altitude moyenne à élevée, en particulier celles dominées par les pins ponderosa. À mesure que les températures sur ces sites deviennent plus froides, les populations se déplacent vers des altitudes plus basses et les deux taxons peuvent être trouvés dans ou à proximité d'habitats désertiques dans toute leur aire de répartition pendant l'hiver. Ces habitats ne sont pas disponibles pour ces espèces pendant les mois les plus chauds de l'année. Bien qu'il existe peu d'enregistrements de reproduction pour l'une ou l'autre des espèces, D. pseudoobscura a été élevé à partir de flux visqueux, de fruits domestiques, de cactus et d'agaves (P owell 1997), ce qui suggère qu'il pourrait s'agir d'une espèce opportuniste qui peut utiliser un certain nombre de types d'hôtes différents. Cela concorderait certainement avec l'absence presque totale de chevauchement des plantes hôtes potentielles entre leurs aires de répartition estivale (montagne) et hivernale (désert).

D. willistoni, une espèce qui se reproduit dans une large gamme de fruits pourris, est probablement l'un des drosophiles les plus nombreux et les plus largement distribués dans le Nouveau Monde et peut être trouvé du sud de l'Amérique du Sud au sud de l'Amérique du Nord et dans toute la Caraïbe (A yala 1971 D obzhansky et Powell 1975). Même si D. willistoni peut être facilement trouvé en association avec les humains et le commerce des fruits dans son aire de répartition traditionnelle, il n'a pas encore été signalé en dehors du Nouveau Monde.

Les trois espèces du sous-genre Drosophila qui ont été séquencées présentent également une diversité de distributions et d'écologies. D. virilis, une espèce holarctique, a également été élevée à partir de fruits en milieu urbain, mais se reproduit naturellement dans les flux de saules et d'autres parties en décomposition des arbres (T hrockmorton 1982). D. mojavensis se trouve dans les déserts d'Amérique du Nord où il se reproduit dans les nécroses de plusieurs espèces de cactus (H eed 1978). Cette espèce et ses parents ont évolué pour tolérer non seulement les composés toxiques trouvés dans ses hôtes, mais aussi les conditions de dessiccation élevée du désert de Sonora (S tratman et M arkow 1998 G ibbs et al. 2003 Matzkine et al. 2006). Bien que la plupart des espèces de drosophile hawaïenne soient très spécifiques à une seule plante hôte, D. grimshawi, une espèce charismatique à ailes d'image, est considérée comme un généraliste. Il utilise l'écorce en décomposition de plus de sept familles de plantes hawaïennes endémiques (Magnacca et O'G rady 2006).

Évolution comportementale :

Une variabilité de comportement a été signalée pour un grand nombre d'espèces de drosophiles, bien que des mesures aient rarement été faites de la même manière. La génétique des comportements non reproducteurs du genre a récemment été revue par S isodia et S ingh (2005). Des données existent sur plusieurs des espèces séquencées pour des comportements tels que la préférence du site de nymphose, l'activité locomotrice, la phototaxie et la géotaxie. On en sait beaucoup plus sur les comportements de reproduction. Spieth (1952) a été le premier à catégoriser les éléments du comportement de parade nuptiale et à décrire la variabilité interspécifique de ces éléments. Les comportements de parade nuptiale des 12 espèces séquencées diffèrent par les rôles relatifs des modes sensoriels particuliers dans l'accouplement : visuel, chimique et auditif (M arkow et O'G rady 2005, 2006). Par exemple, D. melanogaster et D. pseudoobscura s'accoupleront aussi bien dans la lumière que dans l'obscurité, tout en s'accouplant dans leurs espèces sœurs respectives, D. simulans et D. persimilis, est refoulé dans les ténèbres. Hommes de D. grimshawi, avec leurs ailes à motifs, offrent des affichages visuels élaborés que l'on ne voit pas chez les mâles de D. virilis ou D. mojavensis, qui ont tendance à concentrer leurs activités de parade nuptiale derrière les femelles. Les profils chimiques, ou phéromones, diffèrent chez les proches parents, à la fois au sein et entre les espèces et entre les sexes d'une espèce donnée (F erveur 2005). Par exemple, D. melanogaster et D. sechellia possèdent des diènes à longue chaîne non observés dans D. simulans ou D. erecta. Les hydrocarbures à chaîne la plus longue sont observés dans D. mojavensis. Ces différences chimiques prédisent que les récepteurs de liaison olfactifs et odorants de ces espèces seraient également différents. Enfin, des espèces telles que D. virilis et D. mojavensis exhibent à la fois des chants de parade nuptiale mâles et femelles, tandis que chez les 10 autres espèces, seuls les mâles semblent chanter (M arkow et O'G rady 2005, 2006 H oikkala 2006).

Évolution du cycle de vie :

Les écologistes et les biologistes de l'évolution ont désormais la capacité d'utiliser des informations génomiques et des outils de dissection génétique pour comprendre les facteurs héréditaires contribuant à l'éblouissante gamme de stratégies d'histoire de vie observées dans le genre Drosophila. Il s'agit d'une voie de recherche passionnante qui permettra de sonder les forces sélectives que l'environnement exerce sur le génome au cours de l'évolution. Plusieurs traits de développement et de reproduction sont actuellement à l'étude. Par exemple, il existe une relation claire entre la taille du corps et le temps de développement de l'œuf à l'adulte : les plus grosses mouches ont besoin de plus de temps pour se développer (tableau 1). Le temps de développement de l'œuf à l'adulte est le plus court en D. melanogaster, D. simulans, et D. ananassae, qui nécessitent tous ∼10 jours à 24°. Le temps de développement le plus long est en D. grimshawi. Le développement de l'œuf à l'adulte nécessite près d'un mois.

Caractéristiques biologiques des 12 espèces séquencées

Les différences interspécifiques dans la biologie de la reproduction représentent certaines des caractéristiques les plus intéressantes des 12 espèces. Peu d'espèces de drosophiles sont prêtes à s'accoupler au moment où elles sortent de la nymphe. Chez les espèces chez lesquelles les mouches sont sexuellement matures à l'émergence, le sexe opposé a généralement besoin de plusieurs jours avant d'atteindre la maturité sexuelle. Les temps de maturité reproductive des 12 espèces (tableau 1) reflètent le nombre de jours après l'émergence pendant lesquels 80 % des mouches d'un sexe donné s'accouplent avec succès avec un congénère sexuellement mature. Dans le sous-genre Sophophora, les mâles adultes ont tendance à mûrir plus tôt que les femelles, tandis que chez 2 espèces du sous-genre Drosophila, D. virilis et D. mojavensis, les mâles ont besoin de deux à trois fois plus de temps pour atteindre la maturité sexuelle. Femelle D. grimshawi, d'autre part, ont besoin d'au moins 3 semaines pour devenir sexuellement matures, presque trois fois plus longtemps que les mâles. Les explications immédiates de ces différences semblent résider dans la complexité relative de la gamétogenèse ou de la maturation de l'appareil reproducteur chez un sexe ou l'autre. Une différence étonnante de 15 fois dans la longueur des spermatozoïdes existe parmi les 12 espèces, avec D. persimilis ayant le plus court et D. virilis le sperme le plus long. Les espèces chez lesquelles les mâles arrivent à maturité avant les femelles ont tendance à produire des spermatozoïdes courts par rapport à celles chez lesquelles les mâles arrivent à maturité beaucoup plus tard que les femelles (tableau 1). Dans le cas d D. mojavensis, dont le sperme est de longueur similaire à celui de D. melanogaster, les glandes accessoires mâles produisent des quantités relativement importantes de liquide séminal, dont les dérivés sont absorbés par les femelles et incorporés dans les tissus somatiques femelles et les ovocytes en développement (M arkow et A nkney 1984).

Le temps de développement en D. grimshawi peut être lié au développement des ovules plutôt qu'à la formation des spermatozoïdes. D. grimshawi les femelles doivent produire des œufs avec des filaments chorioniques extrêmement longs. Kambysellis et ses collaborateurs ont montré que la longueur du filament chorionique est adaptative et corrélée avec la longueur de l'ovipositeur femelle, le type de substrat de ponte et la profondeur à laquelle l'œuf est inséré (K ambysellis 1993 C raddock et K ambysellis 1997). Au fur et à mesure que les voies génétiques sous-jacentes aux caractéristiques de l'histoire de la vie seront élucidées, les biologistes seront en mesure de mieux comprendre l'interaction complexe entre le génome, le développement, le comportement et l'environnement.

Génétique de la spéciation :

Les biologistes s'intéressent depuis longtemps aux changements génétiques conduisant à la formation de nouvelles espèces. De nombreuses recherches se sont concentrées sur la génération d'isolement reproductif partiel ou complet, à la fois en termes d'obstacles avant et après l'accouplement à la production d'une progéniture viable ou fertile. Les techniques de dissection génétique ont réussi à impliquer des régions chromosomiques spécifiques ou des gènes candidats (T ing et al. 2004 B rideau et al. 2006 Moehring et al. 2006), mais les génomes séquencés permettront des études génétiques de spéciation à plus petite échelle.

La plupart des espèces séquencées ont des parents proches et ont fait l'objet d'études intensives de génétique de la spéciation impliquant à la fois des expériences d'accouplement interspécifique et des études utilisant la variation nucléotidique pour examiner les cas d'hybridation naturelle. Lorsque D. melanogaster les femelles sont croisées avec des mâles de l'un ou l'autre D. simulans ou D. sechellia, le résultat est la production de femelles stériles et pas de mâles, conformément à la règle de Haldane, ce qui signifie que lorsque l'inviabilité ou la stérilité hybride est observée, cela affecte généralement le sexe hétérogamétique le plus profondément (H aldane 1922 Coyne 1985 W u et al. 1996 ou 1997). Les croisements réciproques, cependant, sont contraires à la règle de Haldane en ce qu'ils produisent des mâles stériles et aucune femelle survivante (L emeunier et al. 1986). Les hybrides n'ont jamais été obtenus entre D. erecta et l'un de ses proches, y compris son plus proche parent, D. orena, mais cela n'est pas surprenant compte tenu des temps de divergence importants entre ces taxons. Dans le laboratoire, D. ananassae produit des hybrides fertiles et viables dans des croisements réciproques avec ses espèces jumelles D. pallidosa, mais dans la nature, l'isolement sexuel, en particulier les différences dans le chant nuptial, empêchent les deux de se croiser (Y amada et al. 2002).

Génétique de la spéciation D. pseudoobscura–D. persimilis le couple de frères et sœurs a commencé dès 1929 (L ancefield 1929). Les croisements réciproques produisent des hybrides mâles stériles. Avec D. pseudoobscura mères, cependant, ∼25% de la F1 les femelles sont également stériles, tandis que le croisement réciproque produit des femelles pleinement fertiles (D obzhansky 1936 O rr 1987). Des comparaisons de séquences de gènes mitochondriaux et nucléaires révèlent des preuves d'introgression récente dans différentes parties des génomes de ces deux espèces (Machado et Hey 2003).

Le sophophore le plus éloigné de D. melanogaster est D. willistoni. Tandis que D. willistoni a été signalé pour inséminer et être inséminé par, à de très faibles niveaux, ses parents tels que D. equinoxialis et D. paulistorum, son isolement reproductif de ces espèces est effectivement complet et aucun hybride n'est produit (B urla et al. 1949). Des barrières reproductives existent également au sein D. willistoni. Une population de D. willistoni prélevé à l'ouest des Andes près de Lima, au Pérou, montre une stérilité hybride avec D. willistoni du reste de l'Amérique du Sud, conduisant A yala (1972) à désigner les souches péruviennes comme une sous-espèce à part entière, D. willistoni quecha.

Dans le sous-genre Drosophila, D. virilis est capable de se croiser avec de nombreuses autres espèces de la virile grouper. Cependant, tous les croisements ne produisent pas une descendance fertile ou abondante (T hrockmorton 1982). Cela suggère que les barrières à l'isolement reproductif, et donc les limites de ce qui définit une espèce, dans ce groupe peuvent être significativement différentes de celles agissant dans le sous-genre Sophophora. La paire de frères et sœurs cactophiles D. mojavensis et D. arizonae sont devenus un système modèle populaire pour les études de spéciation parce qu'ils présentent un continuum de mécanismes d'isolement reproductif dans les croisements interspécifiques de diverses populations (M arkow et H ocutt 1998). Ceux-ci incluent l'isolement avant l'accouplement, post-copulatoire-prézygotique et postzygotique. De plus, la distribution de D. mojavensis est traversée par la mer de Cortez et les populations de différentes régions présentent des signes de début de spéciation (M arkow et H ocutt 1998).

Plus de 95% des espèces connues de drosophiles hawaïennes sont endémiques à une seule île. D. grimshawi est inhabituel en ce qu'il se produit sur Maui, Molokai et Lanai. Deux de ses plus proches parents, D. craddockae d'Oahu et de Kauai et D. pullips d'Hawaï, se trouvent sur les îles restantes et donc les trois espèces sont allopatriques. Croisement entre D. pullips et soit D. craddockae ou D. grimshawi produire du F viable1 descendance, mais peu de mâles ont des spermatozoïdes mobiles (O hta 1980), ce qui indique que D. pullips est une espèce distincte, malgré seulement de subtiles différences morphologiques. Croisement entre D. grimshawi et D. craddockae produire fertile F1 descendance, mais montrent une réduction marquée de F2 fécondité dans les rétrocroisements réciproques, suggérant des preuves d'une rupture après l'accouplement (K aneshiro et K ambysellis 1999). Par ailleurs, D. grimshawi est lui-même en train de se différencier, génétiquement, morphologiquement et écologiquement, sur les différentes îles qu'il habite (P iano et al. 1997).

L'évolution de la taille et du réarrangement du génome :

Sur la base d'études cytologiques comparatives des chromosomes en métaphase, P atterson et Stone (1952) ont suggéré que le caryotype ancestral du genre Drosophila est composé d'un point et de cinq chromosomes acrocentriques ou bâtonnets (M uller 1940 S turtevant et N ovitski 1941 P atterson et Stone 1952). Toutes les autres configurations chromosomiques sont dérivées de cet état ancestral de base via des fusions Robertsoniennes (R obertson 1957) ou centromériques. C'est Muller (1940) qui a le premier émis l'hypothèse que le contenu génique de ces six éléments différents resterait relativement conservé dans le temps en raison de la rareté des événements de transposition et du caractère très délétère des inversions péricentriques. Les six blocs de construction chromosomiques portent les lettres A–F et sont appelés éléments de Muller. Les D. melanogaster Le caryotype d'un chromosome acrocentrique, deux métacentriques et un chromosome dot peut être généré par deux événements de fusion, un entre Muller B et C et un autre entre Muller D et E.

Suite à leur rôle dans la démonstration de la base chromosomique de l'hérédité, la drosophile a continué d'être un modèle pour les études sur l'évolution et le réarrangement du génome. Tailles du génome (B osco et al. 2007, article d'accompagnement dans ce numéro G ilbert 2007) et les caryotypes (tableau 2) sont assez variables. Le gain et la perte d'hétérochromatine sont probablement des explications des différences interspécifiques dans la taille du génome (B osco et al. 2007 G ilbert 2007), tandis que le caryotype de base de la drosophile de cinq bâtonnets (acrocentriques) et d'un chromosome en point diffère entre les espèces principalement en raison de fusions centromériques.

Tailles du génome à partir de séquences assemblées, à partir de la cytométrie en flux (iodure de propidium), à la fois en mégabases, et nombre de chromosomes pour chaque espèce

Conclusions et prospectus pour les recherches futures :

La diversité biologique des 12 espèces offre des opportunités sans précédent pour répondre à des questions urgentes sur l'évolution du génome, le développement, le comportement, la physiologie et la formation des espèces. De plus, les bénéfices des séquences génomiques ne se limitent pas aux 12 espèces : pour chaque taxon séquencé, il existe de multiples espèces apparentées et biologiquement intéressantes pour lesquelles ces génomes s'avéreront un tremplin utile et informatif pour de futures recherches. Un siècle après ses débuts en tant qu'organisme de recherche, le modèle de la drosophile entre maintenant dans une nouvelle ère en tant qu'outil de découverte encore plus robuste.


Génome de l'orge séquencé

L'orge est l'une des cultures céréalières les plus importantes au monde. Crédit : UC Riverside

Vous cherchez une meilleure bière ou un whisky écossais single malt ? Une équipe de chercheurs de l'Université de Californie à Riverside peut vous aider. Ils font partie d'un groupe de 77 scientifiques du monde entier qui ont séquencé le génome complet de l'orge, un ingrédient clé de la bière et du single malt écossais. La recherche, en préparation depuis 10 ans, vient d'être publiée dans la revue La nature.

"Cela augmente considérablement le niveau d'exhaustivité du génome de l'orge", a déclaré Timothy Close, professeur de génétique à l'UC Riverside. "Cela permet aux chercheurs travaillant avec l'orge de se concentrer beaucoup plus facilement sur des objectifs réalisables, allant du développement de nouvelles variétés à la sélection en passant par les études mécanistes des gènes."

La recherche aidera également les scientifiques travaillant avec d'autres "cultures céréalières", notamment le riz, le blé, le seigle, le maïs, le millet, le sorgho, l'avoine et même le gazon, qui, comme les autres cultures vivrières, appartient à la famille des graminées, a déclaré Close.

L'orge est utilisée depuis plus de 10 000 ans comme aliment de base et pour les boissons fermentées et comme aliments pour animaux.

On le trouve dans les céréales pour petit-déjeuner et la farine tout usage et aide à faire lever le pain. L'orge maltée donne de la couleur à la bière, du corps, des protéines pour former une bonne mousse et les sucres naturels nécessaires à la fermentation. Et le scotch single malt est composé uniquement d'eau et d'orge maltée.

Le rapport en La nature fournit de nouvelles informations sur les familles de gènes qui sont essentielles au processus de maltage. La séquence du génome de l'orge a également permis d'identifier les régions du génome qui ont été vulnérables aux goulots d'étranglement génétiques lors de la domestication, connaissances qui aident les sélectionneurs à optimiser la diversité génétique dans leurs efforts d'amélioration des cultures.

Il y a dix ans, le Consortium international de séquençage du génome de l'orge, dirigé par Nils Stein de l'Institut Leibniz de génétique végétale et de recherche sur les plantes cultivées en Allemagne, a entrepris d'assembler une séquence de référence complète du génome de l'orge.

C'était une tâche ardue, car le génome de l'orge est presque deux fois plus grand que le génome humain et 80 pour cent de celui-ci est composé de séquences hautement répétitives, qui ne peuvent pas être assignées avec précision à des positions spécifiques dans le génome sans un effort supplémentaire considérable.

Plusieurs nouvelles stratégies ont été utilisées dans cet article pour contourner cette limitation fondamentale. Des avancées majeures dans la technologie de séquençage, la conception algorithmique et l'informatique l'ont rendu possible. Pourtant, ce travail a occupé des équipes du monde entier - en Allemagne, en Australie, en Chine, en République tchèque, au Danemark, en Finlande, en Suède, en Suisse, au Royaume-Uni et aux États-Unis - pendant une décennie. Ces travaux permettent de connaître plus de 39 000 gènes de l'orge.

Les boissons alcoolisées sont fabriquées à partir d'orge maltée depuis l'âge de pierre, et certains considèrent même que c'est l'une des principales raisons pour lesquelles l'humanité a adopté la culture des plantes, du moins dans le Croissant fertile, où l'orge a été domestiquée.

Pendant le maltage, les protéines amylases sont produites par les graines germées pour décomposer l'amidon riche en énergie qui est stocké dans les grains secs, produisant des sucres simples. Ces sucres sont ensuite disponibles pour la fermentation par la levure pour produire de l'alcool. La séquence du génome a révélé beaucoup plus de variabilité que prévu dans les gènes qui codent pour les enzymes amylases.

L'orge est cultivée dans le monde entier, la Russie, l'Allemagne, la France, le Canada et l'Espagne étant parmi les principaux producteurs. Aux États-Unis, l'orge est principalement cultivée dans le nord-ouest. L'Idaho, le Montana et le Dakota du Nord sont les principaux producteurs.

Les La nature L'article s'intitule « Une séquence ordonnée de capture de conformation chromosomique du génome de l'orge ».


Pourquoi certaines régions génomiques sont-elles plus séquencées que d'autres ? - La biologie

L'analyse du génome implique la prédiction de gènes dans des séquences génomiques non caractérisées. Le 21e siècle a vu l'annonce de la version préliminaire de la séquence du génome humain. Des organismes modèles ont été séquencés dans les règnes végétal et animal.

Cependant, le rythme de l'annotation du génome ne correspond pas au rythme du séquençage du génome. L'annotation expérimentale du génome est lente et prend du temps. La demande est de pouvoir développer des outils informatiques pour la prédiction des gènes.

La prédiction informatique des gènes est relativement simple pour les procaryotes où tous les gènes sont convertis en l'ARNm correspondant, puis en protéines. Le processus est plus complexe pour les cellules eucaryotes où la séquence d'ADN codante est interrompue par des séquences aléatoires appelées introns.

Certaines des questions auxquelles les biologistes veulent répondre aujourd'hui sont :

  • Étant donné une séquence d'ADN, quelle partie code pour une protéine et quelle partie est de l'ADN indésirable.
  • Classez l'ADN indésirable en intron, région non traduite, transposons, gènes morts, éléments régulateurs, etc.
  • Divisez un génome nouvellement séquencé dans les gènes (codants) et les régions non codantes.

L'importance de l'analyse du génome peut être comprise en comparant les génomes humains et chimpanzés. Les génomes du chimpanzé et de l'homme varient en moyenne de seulement 2%, soit à peu près 160 enzymes. Une analyse complète du génome des deux génomes donnerait un bon aperçu des différents mécanismes responsables des différences.

Vous trouverez ci-dessous un tableau répertoriant les tailles estimées de certains génomes et le nombre de gènes qu'ils contiennent.


Apprenez plus vite. Creusez plus profondément. Voir plus loin.

Rejoignez la plateforme d'apprentissage en ligne O'Reilly. Obtenez un essai gratuit dès aujourd'hui et trouvez des réponses à la volée, ou maîtrisez quelque chose de nouveau et d'utile.

Brendan Frey : J'ai terminé mon doctorat. avec Geoff Hinton en 1997. Nous avons co-écrit l'un des premiers articles sur l'apprentissage en profondeur, publié dans “Science” en 1995. Cet article a été le précurseur d'une grande partie des travaux récents sur l'apprentissage non supervisé et les autoencodeurs. À l'époque, je me concentrais sur la vision computationnelle, la reconnaissance vocale et l'analyse de texte. J'ai également travaillé sur des algorithmes de passage de messages dans des architectures profondes. En 1997, David MacKay et moi avons écrit l'un des premiers articles sur la « propagation de croyances bouclées » ou « l'algorithme de la somme des produits », qui est apparu lors de la conférence de pointe sur l'apprentissage automatique, la Neural Information Processing Systems Conference ou NIPS.

En 1999, je suis devenu professeur d'informatique à l'Université de Waterloo. Puis, en 2001, je me suis joint à l'Université de Toronto et, avec plusieurs autres professeurs, j'ai cofondé le Machine Learning Group. Mon équipe a étudié l'apprentissage et l'inférence dans les architectures profondes, en utilisant des algorithmes basés sur des méthodes variationnelles, le passage de messages et la simulation de chaîne de Markov Monte Carlo (MCMC). Au fil des années, j'ai enseigné une douzaine de cours sur l'apprentissage automatique et les réseaux bayésiens à plus d'un millier d'étudiants en tout.

En 2005, je suis devenu chercheur principal dans le programme de calcul neuronal de l'Institut canadien de recherches avancées, une opportunité incroyable de partager des idées et de collaborer avec des leaders dans le domaine, tels que Yann LeCun, Yoshua Bengio, Yair Weiss, et le directeur, Geoff Hinton.

BD : Qu'est-ce qui vous a lancé en génomique ?

BF : C'est une histoire personnelle. En 2002, après quelques années dans mon nouveau rôle de professeur à l'Université de Toronto, ma femme de l'époque et moi avons appris que le bébé qu'elle portait avait un problème génétique. La conseillère que nous avons rencontrée n'a pas fait grand-chose pour clarifier les choses : elle ne pouvait que suggérer que soit rien n'allait, soit que, d'un autre côté, quelque chose pouvait être terriblement mal. Cette expérience, incroyablement difficile pour de nombreuses raisons, a également mis ma vie professionnelle en évidence : le pilier de mon travail, par exemple, détecter les chats dans les vidéos YouTube, semblait moins important, tout bien considéré.

J'ai appris deux leçons : premièrement, je voulais utiliser l'apprentissage automatique pour améliorer la vie de centaines de millions de personnes confrontées à des défis génétiques similaires. Deuxièmement, réduire l'incertitude est extrêmement précieux : donner à quelqu'un des nouvelles, bonnes ou mauvaises, lui permet de planifier en conséquence. En revanche, l'incertitude est généralement très difficile à traiter.

Avec cela, mes objectifs de recherche ont changé de nature. Nous nous sommes concentrés sur la compréhension du fonctionnement du génome à l'aide de l'apprentissage en profondeur.

BD : Pourquoi pensez-vous que l'apprentissage automatique et la biologie du génome sont importants ?

BF : La biologie du génome, en tant que domaine, génère des torrents de données. Vous pourrez bientôt séquencer votre génome à l'aide d'un appareil de la taille d'un téléphone portable pour moins d'un voyage au magasin du coin. Et pourtant, le génome n'est qu'une partie de l'histoire : il existe d'énormes quantités de données qui décrivent les cellules et les tissus. Nous, les humains, ne pouvons pas tout à fait saisir toutes ces données : nous ne connaissons pas encore assez la biologie. L'apprentissage automatique peut aider à résoudre le problème.

Dans le même temps, d'autres membres de la communauté de l'apprentissage automatique reconnaissent ce besoin. Lors de la première conférence sur l'apprentissage automatique de l'année dernière, quatre panélistes—Yann LeCun, directeur de l'IA chez Facebook Demis Hassabis, co-fondateur de DeepMind Neil Lawrence, professeur à l'Université de Sheffield et Kevin Murphy de Google—ont identifié la médecine comme la prochaine frontière pour l'apprentissage en profondeur.

Pour réussir, nous devons combler la « fracture génotype-phénotype ». Les données génomiques et phénotypiques abondent. Malheureusement, l'état de l'art en matière de connexion significative de ces données entraîne un processus lent, coûteux et imprécis de recherches bibliographiques et d'expériences détaillées en laboratoire humide. Pour boucler la boucle, nous avons besoin de systèmes capables de déterminer des phénotypes intermédiaires appelés « phénotypes moléculaires », qui fonctionnent comme des tremplins du génotype au phénotype de la maladie. Pour cela, le machine learning est indispensable.

Au moment où nous parlons, une nouvelle génération de jeunes chercheurs utilise l'apprentissage automatique pour étudier l'impact de la génétique sur les phénotypes moléculaires, dans des groupes tels que celui d'Anshul Kundaje à Stanford. Pour ne citer que quelques-uns de ces futurs leaders : Andrew Delong, Babak Alipanahi et David Kelley de l'Université de Toronto et Harvard, qui étudient les interactions protéine-ADN Jinkuk Kim du MIT, qui étudie la répression des gènes et Alex Rosenberg, qui développe des expériences expérimentales méthodes pour examiner des millions de mutations et leur influence sur l'épissage à l'Université de Washington. En parallèle, je trouve passionnant de voir émerger des startups travaillant dans ce domaine, comme Atomwise, Grail et autres.

BD : Quel était l'état du domaine de la génomique lorsque vous avez commencé à l'explorer ?

BF : Les chercheurs ont utilisé une variété d'approches simples d'apprentissage automatique « linéaire », telles que les machines à vecteurs de support et la régression linéaire qui pourraient, par exemple, prédire le cancer à partir du modèle d'expression génique d'un patient. Ces techniques étaient, de par leur conception, « superficielles ». En d'autres termes, chaque entrée du modèle donnerait un très simple « avocat » ou « ne pas défendre » pour l'étiquette de classe. Ces méthodes ne tenaient pas compte de la complexité de la biologie.

Les modèles de Markov cachés et les techniques connexes d'analyse des séquences sont devenus populaires dans les années 1990 et au début des années 2000. Richard Durbin et David Haussler étaient des groupes leaders dans ce domaine.

À peu près à la même époque, le groupe de Chris Burge au MIT a développé un modèle de Markov capable de détecter les gènes, en déduisant le début du gène ainsi que les limites entre les différentes parties, appelées introns et exons. Ces méthodes étaient utiles pour une « analyse de séquence » de bas niveau, mais elles n'ont pas permis de combler le fossé génotype-phénotype.

D'une manière générale, l'état de la recherche à l'époque était principalement basé sur des techniques superficielles qui ne tenaient pas suffisamment compte des mécanismes biologiques sous-jacents pour la conversion du texte du génome en cellules, tissus et organes.

BD : Que signifie développer des modèles informatiques qui tiennent suffisamment compte de la biologie sous-jacente ?

BF : L'un des moyens les plus populaires de relier le génotype au phénotype est de rechercher des mutations en corrélation avec la maladie, dans ce qu'on appelle une étude d'association à l'échelle du génome (GWAS). Cette approche est également superficielle dans le sens où elle écarte les nombreuses étapes biologiques impliquées dans le passage d'une mutation au phénotype de la maladie. Les méthodes GWAS peuvent identifier des régions d'ADN qui peuvent être importantes, mais la plupart des mutations qu'elles identifient ne sont pas causales. Dans la plupart des cas, si vous pouviez « corriger » la mutation, cela n'affecterait pas le phénotype.

Une approche très différente explique les phénotypes moléculaires intermédiaires. Prenons l'expression des gènes, par exemple. Dans une cellule vivante, un gène est exprimé lorsque les protéines interagissent d'une certaine manière avec la séquence d'ADN en amont du gène, c'est-à-dire le « promoteur ». Un modèle informatique qui respecte la biologie devrait intégrer cette chaîne de causalité d'expression du promoteur au gène. En 2004, Beer et Tavazoie ont écrit ce que je considérais comme un article inspirant. Ils ont cherché à prédire le niveau d'expression de chaque gène de levure en fonction de sa séquence de promoteur, en utilisant des circuits logiques qui prenaient en entrée des caractéristiques dérivées de la séquence de promoteur. En fin de compte, leur approche n'a pas fonctionné, mais c'était néanmoins une entreprise fascinante.

L'approche de mon groupe a été inspirée par les travaux de Beer et Tavazoie, mais différait de trois manières : nous avons examiné des cellules de mammifères, nous avons utilisé des techniques d'apprentissage automatique plus avancées et nous nous sommes concentrés sur l'épissage plutôt que sur la transcription. Cette dernière différence a été rétrospectivement un tour fortuit. La transcription est beaucoup plus difficile à modéliser que l'épissage. L'épissage est un processus biologique dans lequel certaines parties du gène (introns) sont supprimées et les parties restantes (exons) sont connectées ensemble. Parfois, les exons sont également supprimés, ce qui peut avoir un impact majeur sur les phénotypes, notamment les troubles neurologiques et les cancers.

Pour déchiffrer la réglementation de l'épissage à l'aide de l'apprentissage automatique, mon équipe a collaboré avec un groupe dirigé par un excellent biologiste expérimental nommé Benjamin Blencowe. Nous avons construit un cadre pour extraire des caractéristiques biologiques à partir de séquences génomiques, pré-traiter les données expérimentales bruyantes et former des techniques d'apprentissage automatique pour prédire les modèles d'épissage à partir de l'ADN. Ce travail a connu un grand succès, et a donné lieu à plusieurs publications dans “Nature” et “Science.”

BD : La génomique est-elle différente des autres applications de l'apprentissage automatique ?

BF : Nous avons découvert que la génomique comporte des défis uniques, par rapport à la vision, la parole et le traitement de texte. Une grande partie du succès de la vision repose sur l'hypothèse que l'objet à classer occupe une partie substantielle de l'image d'entrée. En génomique, la difficulté apparaît parce que l'objet d'intérêt n'occupe qu'une infime fraction — disons, un millionième — de l'entrée. En d'autres termes, votre classificateur agit sur des traces de signal. Tout le reste n'est que bruit, et en grande partie. Pire encore, il s'agit d'un bruit relativement structuré composé d'autres objets beaucoup plus gros sans rapport avec la tâche de classification. C'est la génomique pour vous.

La complication la plus préoccupante est que nous-mêmes ne savons pas vraiment interpréter le génome. Lorsque nous inspectons une image typique, nous reconnaissons naturellement ses objets, et par extension, nous savons ce que nous voulons que l'algorithme recherche. Cela s'applique aussi bien à l'analyse de texte qu'au traitement de la parole, domaines dans lesquels nous avons une certaine prise sur la vérité. À l'opposé, les humains ne sont pas naturellement doués pour interpréter le génome. En fait, ils sont très mauvais pour ça.

Tout cela pour dire que nous devons nous tourner vers une intelligence artificielle vraiment surhumaine pour dépasser nos limites.

BD : Pouvez-vous nous en dire plus sur votre travail autour de la médecine ?

BF : Nous avons entrepris d'entraîner nos systèmes à prédire les phénotypes moléculaires sans inclure de données sur la maladie. Pourtant, une fois qu'il a été formé, nous avons réalisé que notre système pouvait en fait faire des prédictions précises pour la maladie. Il a appris comment la cellule lit la séquence d'ADN et la transforme en molécules cruciales. Une fois que vous avez un modèle informatique de la façon dont les choses fonctionnent normalement, vous pouvez l'utiliser pour détecter quand les choses tournent mal.

Nous avons ensuite orienté notre système vers des ensembles de données sur les mutations de maladies à grande échelle. Supposons qu'il y ait une mutation particulière dans l'ADN. Nous introduisons cette séquence d'ADN mutée, ainsi que son homologue non muté, dans notre système et comparons les deux sorties, les phénotypes moléculaires. Si nous observons un grand changement, nous étiquetons la mutation comme potentiellement pathogène. Il s'avère que cette approche fonctionne bien.

Mais bien sûr, ce n'est pas parfait. Premièrement, la mutation peut changer le phénotype moléculaire, mais ne pas conduire à la maladie. Deuxièmement, la mutation peut ne pas affecter le phénotype moléculaire que nous modélisons, mais conduire à une maladie d'une autre manière. Troisièmement, bien sûr, notre système n'est pas parfaitement précis. Malgré ces lacunes, notre approche peut différencier avec précision la maladie des mutations bénignes. L'année dernière, nous avons publié des articles dans “Science” et “Nature Biotechnology” démontrant que l'approche est nettement plus précise que les approches concurrentes.

BD : Où va votre entreprise, Deep Genomics, ?

BF : Notre travail nécessite des compétences spécialisées dans divers domaines, notamment l'apprentissage en profondeur, les réseaux de neurones convolutifs, les forêts aléatoires, le calcul GPU, la génomique, la transcriptomique, la biologie expérimentale à haut débit et le diagnostic moléculaire. Par exemple, nous avons à bord Hui Xiong, qui a inventé un algorithme d'apprentissage profond bayésien pour prédire l'épissage, et Daniele Merico, qui a développé l'ensemble du système de diagnostic de séquençage du génome utilisé à l'Hospital for Sick Children. Nous continuerons à recruter des personnes talentueuses dans ces domaines.

D'une manière générale, notre technologie peut avoir un impact sur la médecine de nombreuses manières, notamment : les diagnostics génétiques, le raffinement des cibles médicamenteuses, le développement pharmaceutique, la médecine personnalisée, une meilleure assurance-maladie et même la biologie synthétique. À l'heure actuelle, nous nous concentrons sur le diagnostic, car il s'agit d'une application directe de notre technologie. Notre moteur fournit une riche source d'informations qui peut être utilisée pour prendre des décisions plus fiables pour les patients à moindre coût.

À l'avenir, de nombreuses technologies émergentes dans cet espace nécessiteront la capacité de comprendre le fonctionnement interne du génome. Prenez, par exemple, l'édition de gènes à l'aide du système CRISPR/Cas9. Cette technique nous «écrit» sur l'ADN et, en tant que telle, pourrait être un très gros problème sur toute la ligne. Cela dit, savoir écrire n'est pas la même chose que savoir quoi écrire. Si vous modifiez l'ADN, cela peut aggraver la maladie, pas mieux. Imaginez plutôt si vous pouviez utiliser un « moteur » de calcul pour déterminer les conséquences de l'édition de gènes au sens large. C'est, pour être juste, loin. Pourtant, en fin de compte, c'est ce que nous voulons construire.