Informations

L'intron peut-il devenir l'exon dans l'épissage alternatif ?


De cette image

Nous pouvons voir plusieurs exons qui sont en fait des introns dans d'autres gènes. Ce n'est pas vraiment un gène différent, c'est un épissage alternatif d'un gène. Ma formation n'est pas en biologie, donc est-il possible que l'épissage alternatif se comporte comme ça ? Je sais seulement que l'épissage alternatif n'est qu'un saut d'exon et que les introns resteront des introns et ne deviendront pas des exons. Quelqu'un peut-il m'expliquer cela et donner des suggestions sur la partie de la biologie (ou de la génétique) que je dois apprendre. Merci.


La plupart des transcriptions que vous montrez ont des sites de démarrage de transcription différents. En d'autres termes, cela se produit en raison de sites de démarrage de transcription alternatifs. Ce n'est donc pas un tranchage alternatif typique. Certains gènes ont des sites de démarrage transcriptionnels différents, mais le cas que vous montrez a exceptionnellement de nombreux sites de démarrage.


Si une partie de la séquence se retrouve dans l'ARN mature, ce n'est par définition pas un intron (sauf pour les événements d'épissage anormaux et la rétention d'intron rare).

Spécifique à votre question, il semble que chaque forme soit sous le contrôle de son propre promoteur. Cela signifie que A8 devra épisser les premiers exons de toutes les autres formes (ce serait un saut d'exon). D'autre part, le pré-ARNm A1 ne contient pas d'autres premiers exons pour commencer. Ceux-ci seraient classés comme des isoformes de gènes

Les références:

Owens IS, Basu NK, Banerjee R. 2005. UDP-glucuronosyltransférases : structures géniques des familles UGT1 et UGT2. Méthodes Enzymol 400:1-22.

Gène NCBI : UGT1


Résultats de l'épissage : ciblage pour le saut d'exon ou l'inclusion d'intron

Quelqu'un m'a demandé pourquoi certains Morpholinos provoquent généralement des sauts d'exons et d'autres des inclusions d'introns.

Les snRNP U1 et U2 (ou U11 et U12) marquent les positions sur le pré-ARNm des jonctions d'épissage pour le spliceosome. Il existe un U1 snRNP qui se lie dans l'intron près de la jonction e2i2 et un U2 snRNP qui se lie de l'autre côté de l'intron à la jonction i2e3.

Les morpholinos ciblant l'épissage sont généralement ciblés pour bloquer les sites de liaison de ces snRNP. Considérez les jonctions d'épissage du deuxième intron. Si vous bloquez le site de liaison snRNP U1 avec un oligo e2i2, le spliceosome correspondra au snRNP U2 à i2e3 avec le prochain snRNP U1 disponible en amont, qui est lié à la jonction e1i1. Cela raccorde la jonction e1i1 à la jonction i2e3, éliminant i1, e2 et i2.

Considérez maintenant ce qui se passe si vous bloquez la jonction e1i1 avec un Morpholino. Le U1 ne peut pas se lier à son site e1i1, mais le U2 sur le site i1e2 n'a pas d'autre U1 en amont vers lequel il peut être redirigé pour faire une épissure. Dans ce cas, le résultat habituel est qu'aucun épissage ne se produise à i1, c'est-à-dire que vous voyez une inclusion i1 dans l'ARNm mature.

Étant donné que le tout premier (e1i1) et le tout dernier site d'épissage n'ont pas de sites d'épissage après lesquels l'épissage peut être redirigé, leur blocage entraîne un échec de l'épissage (inclusion d'intron). Le blocage de l'une des frontières d'épissage internes (i1e2, e2i2, i2e3, etc.) entraîne généralement l'élimination de l'exon adjacent de l'ARNm mature (ou, dans le jargon courant, fait sauter l'exon). Voici une illustration de l'inclusion d'intron résultant du blocage de la dernière jonction d'épissage.

D'autres choses peuvent arriver. L'activation de sites d'épissage cryptiques peut provoquer une excision partielle d'exon ou une inclusion partielle d'intron. Parfois, un oligo provoque un double saut d'exon. Un autre résultat possible est l'échec de l'épissage d'un intron interne, provoquant son inclusion dans l'ARNm mature. Cependant, les résultats les plus courants sont une inclusion d'intron pour les premier et dernier sites d'épissage et une excision d'exon (saut) pour toutes les autres jonctions d'épissage.

Une approche totalement différente de la modulation de l'épissage consiste à bloquer les sites de liaison des protéines régulatrices d'épissage (amplificateurs d'épissage, suppresseurs d'épissage). Je le mentionne ici, mais je n'en parle pas davantage.

Typiquement, l'efficacité de l'oligo modificateur d'épissage est testée par PCR à transcription inverse suivie d'une électrophorèse sur gel du produit PCR. Plusieurs paires d'amorces peuvent être nécessaires pour déterminer ce qui s'est passé. Parfois, mettre une amorce dans chacun des exons adjacents à la cible peut révéler une excision propre de l'exon ciblé. Pour détecter le saut de l'exon 2 dans la deuxième figure ci-dessus, vous placeriez généralement une amorce dans l'exon 1 et une autre dans l'exon 3. D'autres approches courantes consistent à déplacer une amorce d'un exon supplémentaire pour rechercher un double saut d'exon ou pour placer une amorce dans la séquence intronique pour détecter une inclusion d'intron. Pour l'activation du site d'épissage cryptique où le site cryptique est proche du site d'épissage sauvage, le séquençage du produit PCR peut révéler de petits changements. Lors du choix des amorces, assurez-vous que vous prévoyez de fabriquer des produits RT-PCR d'une centaine de bases lorsque l'exon est manquant de cette façon, le produit RT-PCR est suffisamment long, il peut absorber beaucoup de colorant fluorescent intercalant et être facilement visible sur le gel.

Si vous ne voyez pas de saut d'exon évident en examinant le produit de RT-PCR sur un gel électrophorétique, l'un de ces résultats d'épissage alternatifs pourrait en être la raison (mais le résultat le plus probable est le saut d'un seul exon). Chargez légèrement le gel et surveillez l'atténuation de la bande épissée sauvage dans la voie traitée au MO par rapport à la voie de contrôle (normalisée par rapport à une intensité de bande de gène de ménage). Si la bande est sursaturée avec trop d'ARN, il peut être plus difficile de voir l'obscurcissement de la bande si une partie du transcrit est détournée vers un destin d'épissage différent, mais si vous avez un gel légèrement chargé, cela devrait être évident si vous perdez une certaine intensité de bande (normalisée par rapport à un gène de ménage). Si une dégradation induite par un non-sens se produit, vous ne verrez peut-être pas beaucoup ou pas de bande de masse décalée par suite de la modification de l'épissure, mais vous devriez voir la bande épissée sauvage devenir plus sombre.

Une fois de plus, mais dessiné un peu différemment - c'est pourquoi le blocage d'un site d'épissage interne provoque généralement l'excision de l'exon, mais le blocage du premier ou du dernier site d'épissage provoque généralement l'inclusion d'intron.


SplicingTypesAnno : annoter et quantifier les événements d'épissage alternatif pour les données RNA-Seq

L'épissage alternatif joue un rôle clé dans la régulation du dogme central. Quatre types principaux d'épissage alternatif ont été classés comme la rétention d'intron, le saut d'exon, les sites d'épissage alternatifs à 5 ou sites donneurs alternatifs et les sites d'épissage alternatifs à 3 ou sites accepteurs alternatifs. Quelques algorithmes ont été développés pour détecter les jonctions d'épissage à partir des lectures RNA-Seq. Cependant, il existe peu d'outils ciblant les principaux types d'épissage alternatif au niveau exon/intron. Ce type d'analyse peut révéler des événements subtils mais importants de l'épissage alternatif, et ainsi aider à mieux comprendre le mécanisme de l'épissage alternatif. Cet article décrit un package R convivial, extrayant, annotant et analysant des types d'épissage alternatifs pour les fichiers d'alignement de séquences à partir de RNA-Seq. SplicingTypesAnno peut : (1) fournir une annotation pour l'épissage alternatif majeur au niveau exon/intron. En comparant l'annotation du fichier GTF/GFF, il identifie les nouveaux sites d'épissage alternatifs (2) offrant une analyse pratique à deux niveaux : (3) générer un rapport Web convivial et des fichiers BED supplémentaires pour la visualisation IGV. SplicingTypesAnno est un package R convivial permettant d'extraire, d'annoter et d'analyser des types d'épissage alternatifs au niveau exon/intron pour les fichiers d'alignement de séquences de RNA-Seq. Il est publiquement disponible sur https://sourceforge.net/projects/splicingtypes/files/ ou http://genome.sdau.edu.cn/research/software/SplicingTypesAnno.html.

Mots clés: Annotation à l'échelle du génome Annotation à l'échelle du génome Paquet R Jonction d'épissage.


Définition de l'exon et de l'intron dans l'épissage pré-ARNm

L'un des problèmes fondamentaux de la recherche sur l'épissage de l'ARN consiste à comprendre comment le spliceosome peut définir avec succès les exons et les introns dans une grande variété de molécules de pré-ARNm avec une précision nucléotidique. Depuis sa première description, les chercheurs dans ce domaine ont identifié et caractérisé de nombreux éléments fondamentaux et acteurs capables d'affecter le processus d'épissage, à la fois de manière négative et positive. En effet, on peut affirmer qu'aujourd'hui nous en savons beaucoup sur les forces qui font un exon, un exon et un intron, un intron. Comme nous le verrons dans cette revue, ces décisions sont le résultat d'un contrôle combinatoire complexe résultant de nombreux facteurs/influences différents. Plus important encore, ces influences agissent à plusieurs niveaux de complexité, depuis l'interaction relativement simple entre deux sites d'épissage consensus 5' et 3' jusqu'à des facteurs beaucoup plus complexes : tels que l'interaction entre les séquences silencieuses ou amplificatrices, la processivité transcriptionnelle, le milieu génomique, le nucléosome positionnement et modifications des histones au niveau de la chromatine. Selon les contextes locaux, tous ces facteurs agiront de manière antagoniste ou synergique pour décider du sort exon/intron d'une séquence d'ARN donnée. À l'heure actuelle, cependant, ce qui nous manque encore, c'est une compréhension précise de la façon dont tous ces processus s'additionnent pour aider le spliceosome à prendre une décision. Par conséquent, on s'attend à ce que les futurs défis de la recherche sur l'épissage soient la caractérisation minutieuse de toutes ces influences pour améliorer notre capacité à prédire les choix d'épissage dans différents organismes ou dans des contextes spécifiques.


Les séquences d'exon et d'intron, respectivement, répriment et activent l'épissage d'un exon alternatif du récepteur 2 du facteur de croissance des fibroblastes.

Deux exons alternatifs, BEK et K-SAM, codent pour une partie du site de liaison du ligand du récepteur du facteur de croissance des fibroblastes 2. L'épissage de ces exons s'exclut mutuellement et le choix entre eux est fait de manière spécifique au tissu. Nous identifions ici les séquences pré-ARNm impliquées dans le contrôle de l'épissage de l'exon K-SAM. La courte séquence d'exon K-SAM 5'-TAGGGCAGGC-3' inhibe l'épissage de l'exon. Cette inhibition peut être surmontée en mutant le site d'épissage 5' ou 3' de l'exon pour le faire correspondre plus étroitement à la séquence consensus pertinente. Deux éléments de séquence séparés dans l'intron immédiatement en aval de l'exon K-SAM, dont l'un est une séquence riche en pyrimidines, sont tous deux nécessaires pour un épissage efficace de l'exon K-SAM. Ce n'est plus le cas si le site d'épissage 5' ou 3' de l'exon est renforcé. De plus, si la séquence inhibitrice d'exon est supprimée, les séquences d'intron ne sont pas nécessaires pour l'épissage de l'exon K-SAM dans une lignée cellulaire qui épisse normalement cet exon. Au moins trois éléments sont ainsi impliqués dans le contrôle de l'épissage de l'exon K-SAM : des sites d'épissage 5' et 3' sous-optimaux, une séquence inhibitrice d'exon et des séquences d'activation d'intron.


Texte principal

Changements AS à l'échelle du génome dans les CE

Des études à l'échelle du génome ont révélé que la SA agit de manière spécifique et non redondante pour influencer la réponse de la CE à divers stimuli [31, 32]. Par exemple, le flux sanguin détermine différents niveaux de contrainte de cisaillement dans les CE en fonction du site anatomique, ainsi que des conditions pathologiques (c'est-à-dire athérosclérose, anévrismes) [33, 34]. Les CE détectent et convertissent ce stimulus mécanique en une réponse intracellulaire par le biais de récepteurs mécanocapteurs exprimés à la surface des CE. Un exemple paradigmatique de régulation de la SA par contrainte de cisaillement fait référence à des isoformes spécifiques de la protéine de la matrice extracellulaire (ECM) fibronectine (EDA-FN et EDB-FN), qui sont exprimées dans des conditions pathologiques, mais absentes dans le système vasculaire normal au repos [35], comme discuté plus tard. Une analyse plus récente de l'ARN-seq a en outre démontré un rôle plus important de la SA dans la réponse endothéliale à une hémodynamique altérée, qui affecte de multiples facteurs impliqués dans le remodelage vasculaire, tels que PECAM1, YAP1 et NEMO [31].

Un autre stimulus important capable de remodeler globalement le transcriptome de l'EC est l'hypoxie, une condition dans laquelle les cellules sont privées d'oxygène, comme cela se produit au centre d'une masse tumorale [36]. Les cellules tumorales et stromales libèrent des facteurs pro-angiogéniques qui stimulent la formation de vaisseaux immatures, désorganisés et percés [37], améliorant encore l'état hypoxique du microenvironnement tumoral [38]. Les facteurs de transcription inductibles par l'hypoxie HIF-1 et HIF-2 activent un programme d'expression génique nécessaire à l'adaptation de la CE à un apport insuffisant en oxygène [39]. Étant donné que HIF-1 et HIF-2 agissent en tant que facteurs de transcription, les analyses précédentes du transcriptome des CE hypoxiques se sont principalement concentrées sur les modifications des niveaux d'ARNm à l'état d'équilibre et le profilage protéomique [36, 40], alors que très peu d'études ont étudié l'impact global de AS régulation pendant la privation d'oxygène. Des puces à ADN sensibles à l'épissage appliquées à des CE veineuses ombilicales humaines (HUVEC) exposées à des conditions hypoxiques ont identifié des changements AS à l'échelle du génome [41, 42], affectant les facteurs impliqués dans l'organisation du cytosquelette (FÛT, ITSN1, SPTAN1, et TPM1), adhésion cellulaire (PNR1 et ROBO1), l'apoptose (GN6) et des régulateurs universels de l'expression des gènes (SH3KBP, RPP9, ZNF589, HMGA2, CELF1, et MAXIMUM). Ces premières études ont utilisé des microarrays, qui sont limités en nombre et en type d'événements de SA pouvant être détectés [43]. Les approches RNA-seq ont permis plus récemment l'identification de programmes AS robustes induits par l'hypoxie dans les cellules cancéreuses [44, 45], bien que des signatures AS détaillées dans les CE hypoxiques soient toujours manquantes et nécessiteront des investigations supplémentaires.

Isoformes AS agissant sur l'espace extracellulaire au cours de l'angiogenèse physiologique et tumorale

De nombreuses protéines générées par la SA affectent la biologie de la CE. Ici, nous nous concentrons sur les événements affectant les protéines qui sont soit liées à la membrane soit sécrétées, et représentent donc des cibles putatives pour la thérapie anti-angiogénique (résumé dans le tableau 1 et la figure 2). Une liste plus exhaustive des isoformes AS modulant potentiellement l'angiogenèse cancéreuse est fournie dans le tableau supplémentaire 1 (fichiers supplémentaires 1 et 2).

Épissage alternatif dans les gènes avec un rôle important dans l'angiogenèse. une) Représentation schématique des isoformes d'épissage alternatif du VEGF-A. VEGF-A gène avec des exons constitutifs (vert) et alternatifs (autres couleurs) est montré. Fines lignes noires = introns. PSS : site d'épissure proximal DSS : site d'épissure distal. Selon la reconnaissance de différents sites d'épissage 3' (PSS ou DSS) dans l'exon 8, deux classes d'isoformes VEGF-A avec un rôle opposé dans l'angiogenèse - « pro-angiogénique » (VEGF-Axxxa) ou « anti-angiogénique » (VEGF -Axxxb) - sont générés. De plus, l'inclusion/exclusion des exons alternatifs 6 et 7 donne naissance à des isoformes de longueur et d'affinité pour l'héparine différentes. b) D'autres exemples de gènes régulés par la SA ayant un rôle dans l'angiogenèse. En partant de la gauche : (i) L1CAM : le saut de l'exon codant pour le domaine TM (cylindre gris) génère une isoforme soluble (L1-ΔTM) avec des fonctions pro-angiogéniques (ii) les isoformes NRP1 solubles (sNRP1 : s11PNR1, s12PNR1, sIIIPNR1, sIVNRP1) dépourvus du domaine TM et de la queue cytoplasmique (cylindres gris et orange) agissent comme des récepteurs leurres pour les ligands NRP1 et présentent des propriétés « anti-angiogéniques » (iii) alors que l'isoforme VASH1A est capable de favoriser la normalisation des vaisseaux, la protéine VASH1B ( avec une région C-terminale diversifiée impliquée dans la liaison de l'héparine), a une activité « anti-angiogénique » (iv) l'utilisation mutuellement exclusive de l'exon 8 ou 9 dans les pré-ARNm du FGFR1-3 donne lieu à des isoformes distinctes (IIIb et IIIc) qui diffèrent pour la dernière partie du domaine de type immunoglobuline 3 (IgIII, indiqué par des cylindres rouges ou bleus) et leur spécificité de ligand (v) L'endogline courte (S-endogline) a une queue cytoplasmique courte (cercle rouge) par rapport à la longue ( L-endogline) isoforme. En conséquence, la S-endogline et la L-endogline ont montré une capacité différente à interagir avec le récepteur TGFβ de type I ALK5. Petite flèche= interaction faible Grande flèche= interaction forte. Les différents domaines protéiques sont indiqués par des formes géométriques colorées. TM = domaine transmembranaire

VEGF-A

Parmi les facteurs de croissance, les récepteurs, les cytokines et les enzymes contrôlant l'angiogenèse [108], le VEGF-A est la principale cytokine pro-angiogénique. Il se lie principalement à ses récepteurs (VEGFR1 et VEGFR2) exposés à la surface des CE [109].

AS régulation de VEGFA est paradigmatique. En particulier, l'utilisation différentielle des sites d'épissage 3' proximaux et distaux dans l'exon 8 génère des isoformes avec des domaines C-terminaux différents et caractérisées par des propriétés opposées, respectivement « pro-angiogéniques » (VEGF-Axxxa, où xxx indique la position du résidu d'acide aminé dans une isoforme spécifique) ou « anti-angiogénique » (VEGF-Axxxb) (Fig. 2a). Ces isoformes peuvent également différer par leur affinité de liaison à l'héparine, une région codée par les exons 6 et 7 [110]. Alors que VEGF-Axxxles variants b n'ont pas été détectés dans les CE, deux variants pro-angiogéniques de la SA sont présents dans ces cellules, dont le VEGF-A165a, et VEGF-A189a (correspondant aux protéines de souris VEGF-A164a, et VEGF-A188a) [111]. La surexpression de ces variants affecte la prolifération, l'adhésion, la migration et l'intégrité des monocouches EC, car ils activent tous VEGFR2, bien qu'à un degré différent [112]. Remarquablement, VEGF-A188a est fortement exprimé dans les CE du poumon mais pas dans les CE tumorales, tandis que le VEGF-A164a augmentations des CE tumorales versus normales [47], en ligne avec le phénotype pro-angiogénique des CE dans les cancers.

Actuellement connu VEGFA les régulateurs d'épissage comprennent des membres de la famille des protéines SR (c'est-à-dire SRSF1, SRSF2, SRSF5 et SRSF6) [113,114,115] et la sérine-arginine protéine kinase 1 (SRPK1) [116]. La phosphorylation de SRSF1 par SRPK1 détermine la localisation nucléaire de SRSF1 qui à son tour favorise l'utilisation du site d'épissage 3' proximal et la production de l'isoforme pro-angiogénique VEGF-A165un [117]. L'inhibition de SRPK1 réduit l'angiogenèse in vivo, ce qui en fait une cible pertinente pour la thérapie anti-angiogénique [48]. Plus récemment, l'ARN circulaire circSMARCA5 a été identifiée comme une éponge pour le SRSF1, contrôlant le rapport des isoformes pro- et anti-angiogéniques du VEGF-A dans le glioblastome multiforme [118]. De plus, SRSF2 et SRSF6, qui favorisent tous deux le VEGF-Axxxb, sont connus pour être régulés par les voies non canoniques WNT [119] et TGFβ1 [46]. Enfin, RBM10, une RBP modulée dans les cellules cancéreuses par des modifications épigénétiques de son promoteur, a été associée à la production du VEGF-A165b variante anti-angiogénétique [120].

Récepteurs VEGF (VEGFR)

Les VEGFR sont des récepteurs de la tyrosine kinase qui médient la signalisation du VEGF au cours du développement et de la maladie [121]. La famille comprend trois membres, VEGFR1, VEGFR2 et VEGFR3, qui existent sous forme de molécules liées à la membrane ou solubles, selon l'AS. Isoformes soluble(s) du VEGFR1 (codées par le FLT1 gène) dérivent de l'utilisation de signaux alternatifs de polyadénylation après rétention partielle de l'intron 13 (sVEGFR1-i13) ou 14 (sVEGFR1-i14) ou des exons terminaux 15a et 15b (sVEGFR1-e15a/-e15b) [122]. Toutes les isoformes de sVEGFR1 ont un rôle anti-angiogénique, soit en séquestrant le VEGF-A, soit en formant des hétérodimères inactifs avec d'autres récepteurs du VEGF, empêchant ainsi la signalisation en aval [51].

Les mécanismes conduisant à la production de sVEGFR1 dans les CE ne sont pas complètement élucidés. Un rôle de hnRNP D a été décrit dans les HUVEC, dans lesquels sa surexpression diminue significativement le rapport soluble/membrane-VEGFR1 [123]. De plus, JMJD6 est impliqué dans la régulation de l'épissage de FLT1 [124], en interagissant avec le composant spliceosome U2AF65, et en stimulant ainsi la production de l'isoforme membranaire. Dans des conditions hypoxiques, l'interaction entre JMJD6 et U2AF65 est inhibée et cela génère le variant sVEGFR1-i13 [124]. Un travail récent suggère que le circuit U2AF65/JMJD6 pourrait réguler l'héparanase de l'enzyme ECM pour stimuler la libération de sVEGFR1 par l'ECM [125]. Dans les cellules cancéreuses, le VEGF-A165a coopère avec les facteurs de transcription SOX2 et SRSF2 pour favoriser l'expression de sVEGFR1-i13 [126]. Une couche supplémentaire de complexité est fournie par l'observation que VEGFR2 (codé par le KDR gène) existe également sous une forme soluble (sVEGFR2), générée par la rétention d'une partie de l'intron 13 [127]. En se liant au VEGF-C, le sVEGFR2 inhibe l'activation du VEGFR3 lors de la prolifération lymphatique des CE [127].

Neuropilines (NRP)

NRP1 et NRP2 sont des glycoprotéines de surface cellulaire qui agissent comme co-récepteurs pour différents facteurs, tels que le VEGF et les sémaphorines [128]. NRP1 interagit avec VEGFR1 ou VEGFR2 dans les CE, alors que NRP2 joue un rôle important dans la lymphangiogenèse grâce à sa capacité à se dimériser avec VEGFR3 [128]. PNR1 Le pré-ARNm peut être épissé dans différentes isoformes. Certaines de ces isoformes AS (s11PNR1, s12PNR1, sIIIPNR1, sIVLes NRP1), dépourvues du domaine transmembranaire (TM) et de la queue cytoplasmique [57,58,59], sont des protéines solubles qui agissent comme des récepteurs leurres en séquestrant les ligands NRP1, exerçant ainsi des fonctions anti-angiogéniques [57] (Fig. 2b) . Un autre variant d'épissage NRP1 (NRP1-∆7) dérive de l'utilisation d'un site alternatif 5' dans l'exon 11 conduisant à la délétion de 7 acides aminés [61]. Une telle délétion altère la glycosylation du variant NRP1-∆7 qui ne parvient pas à être internalisé dans les vésicules intracellulaires lors de la liaison au VEGF-A ainsi qu'à activer les voies en aval, agissant ainsi comme une protéine anti-angiogénique [61]. Plus récemment, d'autres variants dépourvus de l'exon 4 (NRP1-∆E4) ou 5 (NRP1-∆E5) ont été identifiés et caractérisés par une glycosylation altérée et un trafic endocytaire, entraînant une perte de capacité migratoire et invasive cellulaire [62].

NRP2 existe également sous forme d'isoformes liées à la membrane ou solubles, générées par AS. La variante soluble s9NRP2 résulte de la rétention de l'intron 9, qui produit une protéine tronquée, exerçant une fonction de leurre en séquestrant le VEGF-C et en inhibant la signalisation oncogène VEGF-C/NRP2 [63]. La NRP2 liée à la membrane existe à son tour sous plusieurs formes de SA, qui diffèrent par leur domaine cytosolique, suggérant diverses voies de signalisation intracellulaire [58].

Récepteurs du facteur de croissance des fibroblastes (FGFR)

AS contrôle la fonction FGFR à plusieurs niveaux [69]. Par exemple, l'utilisation mutuellement exclusive de l'exon 8 ou de l'exon 9 dans FGFR1-3 les pré-ARNm, codant pour la dernière partie du domaine de type immunoglobuline 3 (IgIII), génèrent les isoformes IIIb et IIIc, ayant une spécificité de ligand différente [129] (Fig. 2b). Les CE expriment principalement les isoformes FGFR1IIIc, FGFR2IIIc et FGFR3IIIc des FGFR [68]. Curieusement, un déséquilibre des isoformes d'épissage du FGFR-III a été impliqué dans l'angiogenèse tumorale et les métastases [130,131,132,133].

Parmi les RBP influençant le rapport d'isoformes IIIb/IIIc, on trouve ESRP1, ESRP2, hnRNP F/H/K/M, RBM4, hnRNP A1, PTBP1 et PTBP2 [134, 135, 136]. Une couche supplémentaire de complexité est également ajoutée par le statut épigénétique de FGFR1-3 gènes, qui peuvent influencer non seulement l'expression des récepteurs [137], mais aussi leur composition en isoformes à travers des modèles de modification des histones spécifiques à l'épissage affectant le recrutement des facteurs d'épissage de la PTB [20].

De plus, AS soutient la production de variants solubles grâce à l'élimination de l'exon codant pour le domaine TM [69]. Un autre événement de SA, entraînant l'exclusion des exons codant pour le domaine auto-inhibiteur du FGFR, favorise la formation de récepteurs hyperactivés [69], tandis que l'inclusion de séquences C-terminales distinctes dans le FGFR2 entraîne une composition différentielle des résidus tyrosine, important pour la phosphorylation des récepteurs [70]. Enfin, l'exclusion de six nucléotides codant pour le motif valine et thréonine dans la région juxtamembranaire intracellulaire de FGFR1–3, altère la liaison des protéines effectrices, altérant ainsi la signalisation en aval [71].

Vasohibines

La vasohibine-1 (VASH1) est un inhibiteur angiogénique libéré par les CE en réponse à des molécules pro-angiogéniques [138]. Son AS produit deux variantes : VASH1A (pleine longueur), et VASH1B (manquant les exons 6-8) [72], qui diffèrent par leurs domaines C-term (impliqués dans la liaison à l'héparine) et ont des effets opposés sur les CE (Fig. 2b). Alors que VASH1B inhibe l'angiogenèse, VASH1A favorise la normalisation des vaisseaux sanguins tumoraux [72], définie comme la réduction transitoire (de structure et de fonction) des anomalies des vaisseaux tumoraux. La normalisation des vaisseaux est un nouveau concept dans les approches de ciblage anti-angiogenèse. En effet, en augmentant la perfusion sanguine et l'administration de médicaments, la normalisation de la vascularisation tumorale pourrait améliorer la réactivité à la chimiothérapie, à la radiothérapie et à la thérapie cellulaire immunitaire [139].

À compter du Vasohibine-2 (VASH2) génère plusieurs polypeptides de longueur différente. Dans les CE, la variante pleine longueur, composée de 355 acides aminés, est la plus représentée, tandis qu'une autre isoforme de 290 acides aminés exerce une activité anti-angiogénique [73].

Angiopoïétines

Les angiopoïétines (ANG1-4) sont d'importants modulateurs de la fonction vasculaire en se liant aux récepteurs TIE. ANG1 est un agoniste de TIE2, dont l'activation favorise la stabilité des vaisseaux sanguins, tandis que ANG2 peut agir soit comme un antagoniste, soit comme un agoniste faible de TIE2, régulant ainsi l'activité d'ANG1 avec des effets variables selon le contexte [140]. À compter du ANG1 donne lieu à trois variantes plus courtes (0,7, 0,9 et 1,3 kb de long), qui montrent une capacité différente à phosphoryler le récepteur TIE2, régulant ainsi la fonction ANG1 [74]. ANG2443, généré par le saut de l'exon 2, se lie au récepteur TIE2 et est exprimé dans les CE primaires et dans les lignées cellulaires tumorales non endothéliales [75]. Cependant, cette isoforme n'induit pas la phosphorylation de TIE2 et est donc un antagoniste de la signalisation de TIE2 au cours de la tumorigenèse et de l'inflammation [75]. Enfin, ANG2B, qui dérive de l'inclusion de l'exon 1B, module également l'activité ANG2 et donc la signalisation TIE2 [76].

Fibronectine (FN)

La FN, un composant de la MEC, joue un rôle important dans l'adhésion, la migration, la croissance et la différenciation cellulaires [141]. L'activité de FN est finement ajustée par AS qui affecte principalement trois régions de FN : le domaine supplémentaire A (EDA), le domaine supplémentaire B (EDB) et la séquence de connexion de type III (IIICS) [77]. Les isoformes contenant de l'EDA et de l'EDB (appelées variantes oncofœtales) sont abondamment exprimées au cours d'affections angiogéniques, telles que l'embryogenèse et le cancer [77]. Dans les CE, l'EDA-FN participe au remodelage vasculaire et prévient le stress oxydatif vasculaire dans les conditions diabétiques [78]. Les plaquettes et les macrophages, recrutés dans l'endothélium artériel, induisent l'expression à la fois de l'EDA-FN et de l'EDB-FN en réponse au changement du débit sanguin [35]. De plus, l'expression d'EDA-FN et d'EDB-FN est induite dans les CE par le TGFβ d'une manière dépendante de SMAD3 et SMAD4, révélant une interaction importante entre la signalisation TGFβ et FN [142]. Dans les CE, SRSF5 et RBFOX2 médient l'expression d'EDA-FN ou d'EDB-FN [31, 143].

Tenascine C (TNC)

Le TNC est une glycoprotéine de la matrice extracellulaire impliquée dans l'adhésion et la migration cellulaires [80]. Chez les patients atteints de gliome, la surexpression de TNC était corrélée avec le mimétisme vasculaire [144], la capacité des cellules cancéreuses à créer des canaux vasculaires indépendamment par les CE [145]. Toujours dans les astrocytomes, le TNC est régulé positivement spécifiquement dans les CE et non dans les cellules tumorales et son niveau d'expression est en corrélation avec les marqueurs angiogéniques [146]. Plusieurs isoformes sont générées par l'AS d'exons codant pour des répétitions de type fibronectine de type III (FNIII A1-D), en réponse à des facteurs de croissance, des cytokines inflammatoires [80] et des contraintes mécaniques [147]. Les isoformes d'épissage de TNC sont divisées en « grandes » et « petites », en fonction de leur poids moléculaire [80]. Alors que la plus petite isoforme de TNC, dépourvue de tous les exons AS FNIII, favorise l'adhésion cellulaire, les plus grandes variantes de TNC, générées par SRSF6 [148], favorisent la migration cellulaire [80]. Il est important de noter que les grands TNC sont exprimés dans les tissus en développement et dans les tissus pathologiques qui subissent un remodelage tissulaire actif, y compris les tumeurs, pointant vers ces isoformes comme des cibles prometteuses dans les approches anticancéreuses [149]. Des variantes épissées spécifiques ou des domaines AS uniques ont été associés à différents types de tumeurs [80]. En particulier, le grand variant TNC [80, 149], contenant le domaine FNIII C, est principalement exprimé autour des vaisseaux dans l'astrocytome de haut grade [81] mais il n'est pas présent dans les tissus normaux, ce qui suggère qu'il pourrait représenter un marqueur thérapeutique pour ce sorte de tumeur.

Ligand de guidage SLIT 2 (SLIT2)

SLIT2 est une glycoprotéine sécrétée qui se lie aux récepteurs Roundabout (Robo) et inhibe la migration EC [150]. Selon le contexte, il pourrait avoir des effets pro- ou anti-angiogéniques [151]. En particulier, la sécrétion de SLIT2 par les cellules tumorales génère un gradient de signalisation qui attire les CE en tant qu'étape fondamentale dans la génération d'un nouveau réseau de vaisseaux [152]. Le saut de l'exon 15 donne naissance à l'isoforme SLIT2-ΔE15. Alors que SLIT2 pleine longueur (FL) est exprimé et libéré par les cellules tumorales, SLIT2-ΔE15 est principalement présent dans les tissus normaux. Par rapport à la protéine FL, SLIT2-ΔE15 réduit la perméabilité des CE et améliore la formation de tubes [83].

PECAM1

PECAM1 est abondamment exprimé dans les CE, où il se localise aux jonctions et agit comme régulateur de la perméabilité vasculaire [153]. Les exons codant pour le domaine intracellulaire de PECAM1, qui contient des sites d'amarrage pour les molécules de signalisation, sont soumis à AS [154]. En particulier, l'inclusion ou l'exclusion des exons 12 à 15 conduit à des isoformes avec des rôles particuliers dans la migration EC, l'adhésion et la formation de tubes [155, 156]. Grâce à l'élimination de l'exon codant pour le domaine TM, AS génère également une forme soluble de PECAM1, qui est capable d'inhiber les interactions adhésives de la forme PECAM1 liée à la membrane [157].

CD146

Le CD146 a été récemment proposé comme cible thérapeutique potentielle en raison de son implication dans l'intégrité vasculaire [158]. Trois formes de CD146 ont été décrites et comprennent deux isoformes transmembranaires, le long CD146 (lgCD146) et le court CD146 (shCD146), ainsi qu'une isoforme soluble (sCD146), qui circule dans le plasma et dérive de l'excrétion métalloprotéase-dépendante du précédent deux protéines [158]. Les isoformes lgCD146 et shCD146 sont respectivement générées par inclusion ou saut de l'exon 15 et caractérisées par différents domaines intracellulaires, ainsi que par diverses localisations cellulaires [158]. Dans les CE, lgCD146 est présent aux jonctions, tandis que shCD146 se localise au front de migration [88]. Alors que le shCD146 favorise la prolifération, la migration et l'adhésion des EC, lgCD146 induit la formation et la stabilisation des tubes EC [88].

CD44, une glycoprotéine transmembranaire impliquée dans les interactions cellule-cellule et cellule-matrice, se lie à l'acide hyaluronique et à d'autres composants de la MEC. Un certain nombre de variants CD44 sont générés par AS de 10 exons AS consécutifs (v1 à 10) codant pour la région juxtamembranaire extracellulaire. La courte protéine CD44, dépourvue de tous les exons alternatifs, est majoritairement exprimée dans les tissus normaux, tandis que les variants CD44 contenant les exons v5, v6 et v7, sont surexprimés dans divers cancers et associés à des métastases. En particulier, l'isoforme CD44v6 contrôle la migration des CE, la germination et la formation de tubes grâce à sa capacité à agir en tant que co-récepteur VEGFR2 pour le VEGF-A [89]. Le blocage de la fonction co-récepteur de CD44v6 réduit l'angiogenèse tumorale in vivo [89]. De plus, AS est responsable de la production d'un variant soluble de CD44 [159], qui entre en compétition avec la protéine CD44 liée à la membrane à la surface de la CE.

Endoglin (ANG)

L'ENG, récepteur auxiliaire du TGFβ, est principalement exprimé sur les CE proliférantes et régulé positivement lors de l'hypoxie [160]. Une isoforme courte de l'endogline (S-endogline) résulte de la rétention de l'intron 13. Les protéines canoniques longue (L-endogline) et courte S-endogline diffèrent par leurs queues cytoplasmiques et par leur capacité à interagir avec les récepteurs TGFβ de type I ALK1 et ALK5 (Fig. 2b). La L-endogline améliore la signalisation ALK1, tandis que la S-endogline favorise l'activation d'ALK5 [96, 97]. L'expression de la S-endogline est induite dans les CE au cours de la sénescence et est impliquée dans l'homéostasie vasculaire dépendante du NO. Dans les CE sénescentes, SRSF1 conduit à une expression accrue de S-endogline ARNm [161]. Plus récemment, la signalisation ALK5 médiée par la S-endogline a été liée à une angiogenèse pulmonaire altérée induite par l'hyperoxie [98].

Récepteur d'insuline (IR)

IR (codé par INSR) a été proposé comme marqueur EC tumoral, car il est surexprimé par le système vasculaire de différents types de cancer, mais pas par l'endothélium activé dans des conditions physiologiques [99]. De plus, l'augmentation de l'expression de l'IR vasculaire est corrélée au mauvais pronostic des patients cancéreux. À compter du INSR donne lieu à deux variantes différentes : IR-A et IR-B. Ces deux isoformes diffèrent par l'affinité du ligand et la signalisation cellulaire en aval [162]. En particulier, IR-B est la protéine de pleine longueur qui médie la fonction métabolique de l'IR, tandis que la plus courte IR-A (sans exon 11) contrôle la prolifération cellulaire [99]. L'IR-A étant surexprimée par le système vasculaire tumoral [99], elle pourrait représenter une cible potentielle pour les thérapies anti-angiogéniques.

Facteur tissulaire (TF)

Le TF est une glycoprotéine de surface cellulaire impliquée dans la formation et la maturation des vaisseaux, ainsi que dans l'activation de la cascade de la coagulation sanguine. TF subit AS pour générer plusieurs isoformes. En particulier, le saut de l'exon 5 génère le facteur soluble asTF (alternatively spliced ​​TF) [163], dépourvu d'activité pro-coagulante, stimule la croissance tumorale, l'angiogenèse et les métastases [102]. Ses niveaux d'expression sont positivement corrélés avec la progression de plusieurs cancers [100, 101].

Molécule d'adhésion cellulaire L1 (L1CAM)

L1CAM orchestre des fonctions importantes de la CE, en particulier dans la vascularisation tumorale [106]. Une variante EC-spécifique de L1CAM (L1-ΔTM) est générée en sautant l'exon 25, qui supprime le domaine TM et génère une protéine soluble [106] (Fig. 2b). Dans les CE, le régulateur d'épissage NOVA2 stimule la production de L1-ΔTM par liaison directe aux motifs d'ARN dans l'exon 25. L1-ΔTM favorise la formation de tubes CE et soutient la néovascularisation in vivo d'une manière dépendante de FGFR1. L1-ΔTM est surexprimé dans le système vasculaire du cancer de l'ovaire, où ses niveaux d'expression sont en corrélation avec la vascularisation tumorale [106].

SRF régulant les fonctions de la CE

Une liste des SRF pertinents pour le développement vasculaire est présentée dans le tableau supplémentaire 2 (fichiers supplémentaires 1 et 2), basée sur les informations sur le génome de la souris (MGI) [164] et le Zebrafish Information Network (ZFIN) [165], qui fournissent des informations sur knockouts du gène de la souris et du poisson zèbre et leurs phénotypes. Ici, nous discutons des connaissances actuelles sur la SRF impliquée de manière critique dans la biologie des CE.

PTBP1

PTBP1, un SRF largement exprimé, coordonne l'AS dans une variété de processus, y compris l'acquisition de la morphologie cellulaire, l'immunité, le contrôle métabolique et le cycle cellulaire [166]. PTBP1 est exprimé à des niveaux élevés dans les CE de différents tissus et ses niveaux d'expression sont en corrélation avec le taux d'inclusion d'exons spécifiques des CE, en particulier dans les gènes impliqués dans l'adhésion cellule-cellule ou cellule-matrice [167].

Les CE au repos expriment de faibles niveaux de PTBP1 [168], tandis que son expression augmente dans des conditions pathologiques. Dans l'hypertension pulmonaire, les niveaux de PTBP1 augmentent dans les vaisseaux artériels, en raison de la perte partielle de son régulateur négatif miR-124 [168]. PTBP1 est également régulée positivement dans les vaisseaux sanguins du glioblastome multiforme, l'un des cancers du cerveau les plus agressifs [169], et du gliome, dans lequel sa déplétion augmente significativement la perméabilité de la barrière hémato-tumorale [170]. Conformément à l'activité pro-angiogénique de PTBP1, le milieu conditionné par les cellules knockdown de PTBP1 a perdu la capacité de favoriser la formation de tubes par les HUVEC [171, 172].

SRSF1

SRSF1 est impliqué dans différents aspects du métabolisme de l'ARN, notamment l'épissage, la stabilité de l'ARNm, la traduction et le traitement des miARN [173]. SRSF1 est fréquemment régulé à la hausse dans différents cancers [24] et une cible directe du facteur de transcription oncogène c-Myc [174]. La surexpression de SRSF1 est suffisante pour immortaliser les fibroblastes de rongeurs et former des tumeurs chez la souris [24, 175], alors que sa déplétion favorise l'instabilité génomique, l'apoptose et l'arrêt du cycle cellulaire [176, 177]. La SA régulée par SRSF1 génère des variants protéiques impliqués dans la migration cellulaire, la transition épithéliale vers mésenchymateuse [178], l'activation oncogène, la perte d'activité suppresseur de tumeur [24, 179, 180] et l'angiogenèse [181].

SRSF1 contrôle la sénescence des CE [161] et leur réponse aux lésions vasculaires [182]. Alors qu'il est à peine exprimé dans les CE normales, il augmente dans les CE cancéreuses [47], souvent accompagné d'une régulation à la hausse du VEGF-A pro-angiogénique.164une isoforme [47] et associée à une augmentation de la densité des microvaisseaux [118].

L'expression endothéliale de SRSF1 est induite par le facteur de transcription Wilm's tumor suppressor 1 (WT1), alors que son activité est régulée par SRPK, qui favorise la localisation nucléaire de SRSF1 [181]. Le knock-out de WT1 dans l'endothélium tumoral a diminué l'expression de SRPK1 et SRSF1 et s'est déplacé VEGFA l'épissage vers la production de l'anti-angiogénique VEGF-A120 isoforme [47].

NOVA2

Initialement considéré comme spécifique aux neurones [183], NOVA2 est en fait exprimé par les CE dans différents vaisseaux sanguins [184]. Par exemple, il est abondant dans les CE cardiaques de souris [185] et préférentiellement exprimé par les veines par rapport aux artères chez le poisson zèbre [186]. L'épuisement de NOVA2 dans les CE altère l'acquisition de la polarité cellulaire et l'organisation des jonctions cellule-cellule, entraînant une migration et une perméabilité accrues des CE [184]. Régulièrement, nova2 les mutants du poisson zèbre présentent de nombreux défauts vasculaires [184]. NOVA2 module l'AS des gènes impliqués dans l'organisation du cytosquelette EC et l'adhésion cellule-cellule, ainsi que les facteurs de transcription PPAR-γ et E2F Dimerization Partner 2 (Tfdp2) [187]. Très récemment, il a été démontré que NOVA2 module l'AS des composants de la voie Mapk/Erk lors de la spécification de la CE lymphatique [186].Dans le cancer, comme les carcinomes ovariens et colorectaux, l'expression de NOVA2 est spécifiquement régulée à la hausse dans les CE tumorales [106, 188] et est corrélée à une faible survie [106], ce qui confirme son rôle potentiel en tant que marqueur pronostique. Une corrélation positive entre NOVA2 et HIF1-α a été observée dans le cancer colorectal [188], compatible avec une régulation positive de NOVA2 dans les HUVEC cultivées dans des conditions hypoxiques [188].

MBNL

Les MBNL sont des RBP spécifiques aux tissus. Alors que MBNL1 est exprimé de manière ubiquitaire, MBNL2 et MBNL3 sont essentiellement confinés au cerveau et au muscle, respectivement [189]. MBNL1/2 sont régulés positivement dans les CE matures par rapport à leurs géniteurs [190]. L'expression de MBNL2 a également été rapportée dans les HUVEC [191], tandis que MBNL1 s'est avéré exprimé et mal localisé dans les CE cornéennes au cours d'un état pathologique [192]. Plusieurs gènes régulés par MBNL1 sont impliqués dans l'angiogenèse (c'est-à-dire VEGFA, ADD3, INF2, SORBS1, FGFR1), EMT, dynamique du cytosquelette médiée par Rho (ARHGEF40, AKAP16) et les jonctions cellule-cellule (PPHLN1) [192].

ELAVL1

ELAVL1, qui est impliqué dans un certain nombre de processus physiologiques (c. Cependant, il agit également comme un SRF [193]. Le knock-out spécifique endothélial d'ELAVL1 n'altère ni le développement vasculaire embryonnaire ni l'angiogenèse postnatale chez la souris adulte [194]. Néanmoins, ces souris sont caractérisées par une revascularisation réduite après ischémie des membres postérieurs ainsi qu'une diminution de l'angiogenèse tumorale [194]. En outre, ELAVL Les embryons de poisson zèbre knockdown présentent des structures vasculaires aberrantes dans le plexus intestinal [195]. De manière constante, la perte d'ELAVL1 dans les CE cultivées altère leur migration et leur germination [194]. Parmi les cibles d'épissage ELAVL1, Facteur d'initiation de la traduction eucaryote 4E facteur d'importation nucléaire 1 (EIF4ENIF1) [194] code pour le transporteur du facteur d'initiation de la traduction 4E (4E-T). L'épuisement d'ELAVL1 provoque la production d'une isoforme courte (4E-Ts) qui accélère la dégradation des ARNm régulateurs angiogéniques (FOS, HIF1-α, VEGFA). ELAVL1 est localisé dans le cytoplasme des CE tumorales, dans lequel il contrôle la survie, la migration et la formation de tubes [196].

RBFOX2

Les protéines RBFOX (RBFOX1, RBFOX2 et RBFOX3) contrôlent la SA dans le cerveau [197]. Cependant, RBFOX2 est également exprimé par les CE artérielles, dans lesquelles il médie la réponse cellulaire à un faible débit sanguin [31]. Un certain nombre de RBFOX2 les cibles d'épissage codent pour les composants de l'ECM ou les facteurs impliqués dans l'adhésion cellulaire, le cycle cellulaire, le remodelage du cytosquelette et la réponse immunitaire [31]. Semblable à NOVA2 [184, 187], RBFOX2 régule également l'abondance des ARNm transcrits à partir de gènes appartenant aux mêmes catégories GO [31], suggérant que des processus biologiques similaires pourraient être modulés par RBFOX2 dans les CE par le biais de mécanismes transcriptionnels et post-transcriptionnels. .

Stratégies thérapeutiques exploitant la SA des facteurs angiogéniques dans le cancer

Étant donné que de multiples altérations de la SA semblent être spécifiques de l'angiogenèse cancéreuse, l'implication évidente est de savoir si nous pouvons manipuler et bloquer thérapeutiquement ce processus, défavorisant ainsi la croissance tumorale.

De multiples outils moléculaires ont été exploités pour cibler des variantes aberrantes de la SA (tableau 2). Les plus courants sont les anticorps monoclonaux, les petites molécules et divers types d'oligonucléotides. Ceux-ci incluent : i) de petits ARN interférents (ARNsi) ciblant une isoforme AS particulière, ii) des oligonucléotides leurres d'ARN simple brin modifiés inhibant l'activité biologique des régulateurs d'épissage, et iii) des oligos de commutation d'épissage,

Oligonucléotides modifiés de 20 bases de long se liant à des sites régulateurs d'épissage spécifiques.

Ces outils ont été utilisés de manière variable pour interférer avec la SA spécifique au cancer. Les paragraphes suivants décrivent les stratégies qui ont été jusqu'à présent considérées comme les plus prometteuses pour une application humaine. Un aperçu des approches existantes, ainsi que de leurs principaux avantages et inconvénients, est présenté dans le tableau 2.

Médicaments ciblant les régulateurs des facteurs d'épissage

L'activité de SRPK1 a été associée à une augmentation de la prolifération, de la migration et de l'angiogenèse des cellules tumorales dans différents cancers [212, 213]. La preuve que l'inhibition de SRPK1 commute le VEGF-A pro-angiogénique165a dans le VEGF-A anti-angiogénique165L'isoforme b [181] a conduit à la génération d'une pléthore de petites molécules ciblant SRPK1, telles que SPHINX et ses dérivés, SRPIN340 et SRPKIN-1, qui sont les plus efficaces pour corriger VEGFA épissage. Ces molécules sont capables de bloquer efficacement l'angiogenèse dans des modèles murins de dégénérescence maculaire et de cancer [48, 198].

Inhibiteurs de l'assemblage des spliceosomes

L'une des premières approches capables d'interférer avec l'AS dans l'angiogenèse cancéreuse exploite des composés inhibant l'assemblage des spliceosomes. Un exemple paradigmatique est le produit naturel FR901464 et son dérivé méthylé, la spliceostatine A, qui se lie au composant du spliceosome SF3b [199]. Dans un essai sur membrane chorioallantoïque (CAM) de poulet, la spliceostatine A a réduit l'expression de 38 % des gènes totaux (y compris VEGFA) et ont inhibé l'angiogenèse dérivée des cellules cancéreuses [49].

Interférence avec les sites d'épissage

Des oligonucléotides antisens chimiquement modifiés, ciblant des séquences reconnues par le spliceosome ou les facteurs d'épissage, peuvent être exploités pour rediriger la sélection du site d'épissage et pour corriger les décisions AS. Alors que leur utilisation est largement exploitée pour interférer avec une variété de molécules contrôlant la survie et la prolifération des cellules cancéreuses [214], quelques études ont commencé à étudier leur potentiel thérapeutique dans la modulation de l'angiogenèse cancéreuse. Fait intéressant, les oligonucléotides morpholino ciblant la jonction exon 13/intron 13 de la VEGFR1 pré-ARNm, ont été utilisés pour favoriser la production de la forme soluble anti-angiogénique du récepteur (sVEGFR1). L'injection répétée de ces oligonucléotides dans des tumeurs cancéreuses du sein humaines, implantées par voie sous-cutanée chez des souris nude, a inhibé la vascularisation et la progression du cancer [55].

Blocage des isoformes d'épissage pro-angiogéniques

Une approche évidente pour moduler l'AS dans l'angiogenèse cancéreuse est l'inhibition sélective des isoformes pro-angiogéniques. Ceci peut être efficacement réalisé en utilisant des peptides, des anticorps monoclonaux ou des cellules T-T du récepteur d'antigène chimérique (CAR). De nombreuses études expérimentales et cliniques ciblent les isoformes pro-angiogéniques de CD44, qui sont exprimées par plusieurs types de cellules cancéreuses. Les stratégies actuelles ciblent principalement CD44v6, en utilisant soit un anticorps monoclonal humanisé [91] soit un peptide soluble [200, 201, 215] qui bloque le domaine codé par l'exon v6. Un essai clinique est actuellement en cours pour évaluer l'efficacité de l'administration intraveineuse de cellules T autologues, génétiquement modifiées avec le vecteur lentiviral CAR, pour reconnaître CD44v6 à la surface des cellules cancéreuses (ClinicalTrials.gov : NCT04427449 [95]). Des stratégies supplémentaires, qui n'ont pas été testées dans le cancer humain, ciblent les ligands du FGF, avec une attention particulière à certaines isoformes du FGF qui sont préférentiellement exprimées par des types de tumeurs spécifiques. Par exemple, l'activité du FGF8b, surexprimée par les tumeurs hormono-dépendantes, peut être bloquée en utilisant soit des anticorps monoclonaux [202] soit son inhibiteur naturel Pentraxin-3 (PTX3) et ses dérivés Ac-ARPCA-NH2 (ARPCA) et 8b-13 . Bien que ces peptides bloquent également le FGF2, ils présentent une affinité plus élevée pour le FGF8b. En particulier, l'inhibition de FGF8b par l'ARPCA a diminué la migration et la germination des HUVEC, et a entraîné une réduction de la prolifération et de la vascularisation des tumeurs mammaires androgéno-dépendantes implantées dans le flanc de souris nude [203, 204].

Surexpression d'isoformes d'épissage anti-angiogéniques (existant naturellement)

Les isoformes anti-angiogéniques peuvent être surexprimées pour bloquer la vascularisation tumorale. Partant de la preuve que les neuropilines solubles empêchent la signalisation du VEGF, sNRP1 a été surexprimé par les vecteurs adénoviraux, entraînant une réduction de l'angiogenèse et un retard de la progression de la maladie dans des modèles murins de sarcome myéloïde et de leucémie myéloïde aiguë [60].

Un exemple supplémentaire dans cette catégorie est la surexpression de VASH1B, qui a induit une nécrose tumorale dans un modèle murin de carcinome du sein humain, ou de VASH1A, qui a entraîné une normalisation des vaisseaux tumoraux et une amélioration de la perfusion. La surexpression simultanée des deux isoformes était encore plus efficace pour inhiber la croissance du cancer et normaliser sa vascularisation [72].

Cibler les isoformes de SA spécifiques au cancer pour l'administration de médicaments

La preuve que le système vasculaire tumoral a tendance à exprimer de manière sélective des isoformes AS spécifiques a ouvert la voie pour les cibler afin de faciliter l'administration de médicaments à la masse néoplasique.

Plusieurs composés et peptides ont été développés pour cibler les domaines EDA ou EDB de la fibronectine [79]. Par exemple, l'anticorps monoclonal F8, ciblant l'EDA, a été fusionné à l'IL-2 pour stimuler le système immunitaire spécifiquement au niveau de la tumeur. Cette stratégie a réussi à inhiber la croissance tumorale dans plusieurs modèles de xénogreffes murines, en particulier lorsqu'elles sont associées à des médicaments chimiothérapeutiques ou à des molécules anti-angiogéniques [205, 206]. Une stratégie similaire a été utilisée encore plus largement pour cibler l'EDB. L'anticorps humain spécifique du domaine EDB, L19, était particulièrement efficace dans les études précliniques et cliniques, lorsqu'il était fusionné à IL-2 ou IL-12 [207, 208].

En plus des anticorps, des peptides ont été générés pour cibler la fibronectine pour l'administration de médicaments tumoraux. Les aptides sont de courts peptides de haute affinité constitués de deux fragments ciblant l'EDB liés par une région zippée tryptophane. Lorsqu'ils sont conjugués à des liposomes contenant de la doxorubicine, ils ont favorisé l'administration de médicaments aux allogreffes de tumeurs de gliome chez la souris, déterminant une diminution de 55 % de la taille de la tumeur par rapport à une diminution de 20 % induite par la doxorubicine libre [209, 210].

Enfin, l'expression préférentielle des isoformes longues de TNC dans le cancer peut également être ciblée pour l'administration de médicaments. Des anticorps ciblant les domaines AS A1 à D (présents de manière variable dans les isoformes plus longues de TNC) [216] ont été évalués dans des études précliniques et quelques-uns ont atteint le stade clinique. Les résultats les plus avancés sont disponibles pour l'un de ces anticorps (F16) fusionné à l'IL2 pour le traitement de différents cancers métastatiques [211]. Les mêmes domaines TNC peuvent être ciblés à l'aide d'aptamères, qui peuvent être synthétisés chimiquement et, étant de petites molécules, présentent une biodistribution supérieure par rapport aux anticorps monoclonaux. La spécificité de ces aptamères (c'est-à-dire TTA1 et GBI-10) a été prouvée in vitro, mais leur application in vivo n'a encore jamais été testée.


MATÉRIAUX ET MÉTHODES

psichomique a été développé comme un package R avec une conception modulaire, permettant de modifier et d'étendre facilement ses composants. Celles-ci incluent la prise en charge de plusieurs formats de fichiers et la récupération automatique de données à partir de sources externes (par exemple, TCGA, GTEx et recount2), l'analyse et la normalisation d'identifiants d'événements d'épissage alternatifs à partir de différents programmes et annotations et la mise en œuvre d'une variété de méthodologies d'analyse de données.

Le flux de travail du programme pour l'analyse d'épissage alternatif commence par le chargement des données de comptage de lecture de jonction d'épissage à partir de l'ordinateur de l'utilisateur ou de sources externes, suivi de la quantification de l'épissage alternatif (au cas où aucune quantification pré-calculée n'est chargée) et des analyses ultérieures. La quantification de l'épissage alternatif est basée sur des lectures d'ARN-seq qui s'alignent sur les jonctions d'épissage et les coordonnées génomiques (annotation) des événements d'épissage alternatif. La proportion de lectures alignées sur les jonctions prenant en charge l'isoforme d'inclusion, connue sous le nom de pourcentage d'épissage ou PSI (3), a été la métrique de quantification choisie.

Quantification des jonctions exon-exon, expression génique et récupération de données associées aux échantillons

Les quantifications de la jonction exon-exon et de l'expression génique (obtenues à partir de données RNA-seq prétraitées) et les données cliniques sont accessibles via l'interface de programme d'application Web (API) de FireBrowse pour la récupération de données TCGA (http://firebrowse.org/api-docs) . L'API FireBrowse est utilisée dans psichomique pour télécharger automatiquement les données TCGA en fonction du ou des types de tumeurs sélectionnés par l'utilisateur sous forme de fichiers délimités par des tabulations dans des dossiers compressés, dont le contenu est ensuite chargé avec une interaction minimale de l'utilisateur. Les données de certains projets SRA (y compris l'expression génique, la quantification de la jonction exon-exon et les métadonnées d'échantillons) sont également disponibles pour une récupération et un traitement automatiques via le recomptage2 (13).

En revanche, GTEx ne fournit actuellement aucune API publique pour la récupération automatique des données, obligeant ainsi l'utilisateur à télécharger manuellement la quantification de la jonction exon-exon, l'expression génique et les données cliniques à partir du site Web de GTEx (http://gtexportal.org), par exemple.

D'autres projets SRA et fichiers appartenant à l'utilisateur peuvent également être chargés dans des formats appropriés, permettant une analyse ultérieure d'épissage alternatif à partir de données personnalisées (tutoriel sur http://rpubs.com/nuno-agostinho/psichomics-custom-data).

Prétraitement de l'expression génique

Les quantifications de l'expression génique peuvent être filtrées en fonction des paramètres fournis par l'utilisateur (par exemple, pour tenir compte uniquement des gènes pris en charge par 10 lectures ou plus dans 10 échantillons ou plus, comme effectué par défaut) et normalisées par la mise à l'échelle de la taille de la bibliothèque brute à l'aide de la fonction calcNormFactors du package R bordR (24). Ensuite, les comptes par million de lectures (CPM) sont calculés et enregistrés2-transformé (si désiré) en utilisant la fonction cpm de bordR. Enregistrer2-la transformation est effectuée par défaut.

Annotation d'épissage alternatif

Les annotations des événements d'épissage alternatif sont disponibles sur demande dans psichomique pour les assemblages du génome humain hg19 (par défaut) et hg38. Des fichiers d'annotation personnalisés peuvent également être créés en suivant le didacticiel approprié disponible sur http://rpubs.com/nuno-agostinho/preparing-AS-annotation.

L'annotation hg19 des événements d'épissage alternatif humain était basée sur des fichiers utilisés en entrée par MISO ( 16), VAST-TOOLS ( 18), rMATS ( 19) et SUPPA ( 20). Les fichiers d'annotation de MISO et VAST-TOOLS sont fournis sur leurs sites Web respectifs, tandis que rMATS et SUPPA identifient les événements d'épissage alternatifs et génèrent de tels fichiers d'annotation sur la base d'une annotation de transcription centrée sur l'isoforme donnée. En tant que tel, l'annotation de la transcription humaine a été récupérée à partir du navigateur de tables UCSC (25) aux formats GTF et TXT, de sorte que les identifiants de gènes dans le fichier GTF (à tort identiques aux identifiants de transcription) ont été remplacés par les identifiants appropriés de la version TXT.

Les fichiers d'annotation hg19 collectés ont été fusionnés de manière non redondante en fonction des coordonnées génomiques et de l'orientation de chaque événement d'épissage alternatif et contiennent les types d'événements suivants : exon sauté (SE), exons mutuellement exclusifs (MXE), premier exon alternatif (AFE), alternatif dernier exon (ALE), site d'épissage alternatif 5' (A5SS), site d'épissage alternatif 3' (A3SS), longueur d'UTR alternative 5' (A5UTR), longueur d'UTR alternative 3' (A3UTR) et rétention d'intron (IR). L'annotation hg19 résultante est disponible en tant que package d'annotation R dans Bioconductor à l'adresse http://bioconductor.org/packages/alternativeSplicingEvents.hg19, tandis que l'annotation hg38 (dont les coordonnées ont été converties de celles de l'annotation hg19 via la fonction liftOver Depuis le paquet rtracklayer ( 26), basé sur le fichier de chaîne hg19 à hg38 de l'UCSC) est également disponible en tant que package d'annotation R dans Bioconductor à l'adresse http://bioconductor.org/packages/alternativeSplicingEvents.hg38.

Quantification de l'épissage alternatif

Pour chaque événement d'épissage alternatif dans un échantillon donné, sa valeur PSI est estimée par la proportion de comptes de lecture de jonction exon-exon soutenant l'isoforme d'inclusion dans celui-ci (3). Les lectures de jonction requises pour la quantification de l'épissage alternatif dépendent du type d'événement (Figure 1). Les événements d'épissage alternatif impliquant une somme de nombres de lectures de jonction prenant en charge l'inclusion et l'exclusion de la séquence alternative en dessous d'un seuil défini par l'utilisateur (10 par défaut) sont rejetés pour éviter des quantifications imprécises basées sur des preuves insuffisantes.

Jonctions d'épissage requises pour quantifier l'épissage alternatif en fonction du type d'événement. C1A et CA2 représentent les comptes de lecture supportant les jonctions entre un constitutif (C1 ou C2, respectivement) et un exon alternatif (A) et donc une inclusion alternative de l'exon A, tandis que C1C2 représente les comptes de lecture supportant la jonction entre les deux exons constitutifs et donc l'exclusion alternative de l'exon A. UNE1* et A2* représentent la somme des nombres de lectures prenant en charge les jonctions couvrant l'alternative en premier (A1) et deuxième (A2) exon, respectivement. Légende : exon sauté (SE), exons mutuellement exclusifs (MXE), site d'épissage alternatif 5' (A5SS), site d'épissage alternatif 3' (A3SS), premier exon alternatif (AFE) et dernier exon alternatif (ALE).

Jonctions d'épissage requises pour quantifier l'épissage alternatif en fonction du type d'événement. C1A et CA2 représentent les comptes de lecture supportant les jonctions entre un constitutif (C1 ou C2, respectivement) et un exon alternatif (A) et donc une inclusion alternative de l'exon A, tandis que C1C2 représente les comptes de lecture supportant la jonction entre les deux exons constitutifs et donc l'exclusion alternative de l'exon A. UNE1* et A2* représentent la somme des nombres de lectures prenant en charge les jonctions couvrant l'alternative en premier (A1) et deuxième (A2) exon, respectivement. Légende : exon sauté (SE), exons mutuellement exclusifs (MXE), site d'épissage alternatif 5' (A5SS), site d'épissage alternatif 3' (A3SS), premier exon alternatif (AFE) et dernier exon alternatif (ALE).

Quantification de l'épissage alternatif dans psichomique est actuellement basé sur des comptes de lecture de jonction exon-exon, mais les événements de rétention d'intron nécessitent des comptes de lecture de jonction intron-exon pour leur quantification ( 27), tandis que les alternatives 5'- et 3'-UTR nécessitent des comptes de lecture de corps d'exon. psichomique ne quantifie pas actuellement ces types d'événements d'épissage alternatif.

Par défaut, psichomique quantifie tous les événements d'exons ignorés. Cependant, l'utilisateur peut choisir de mesurer d'autres types d'événements d'épissage alternatif (Figure 1) et peut remettre la liste des gènes dont les événements d'épissage alternatif doivent être spécifiquement quantifiés. De plus, l'étape de quantification de l'épissage alternatif peut être évitée si elle est préalablement réalisée. psichomique permet à l'utilisateur d'enregistrer la quantification de l'épissage alternatif dans un fichier à charger lors d'une session future.

Regroupement de données

psichomique permet de regrouper les sujets et leurs échantillons ou gènes et leurs événements d'épissage alternatifs pour une analyse ultérieure. Le regroupement des sujets et des échantillons peut être effectué en fonction des caractéristiques phénotypiques disponibles (par exemple, le type de tissu et l'histologie) et cliniques (par exemple, le stade de la maladie, les antécédents de tabagisme et l'origine ethnique). Le regroupement des gènes et des événements d'épissage repose sur des identifiants respectifs fournis par l'utilisateur.De plus, l'association entre les groupes de sujets/échantillons spécifiés par l'utilisateur et ceux définis par le résultat des analyses d'expression génique et d'épissage alternatif ou par d'autres variables catégorielles cliniques peut être testée statistiquement avec les tests exacts de Fisher, mis en œuvre par la fonction fisher.test de Statistiques (version 3.4.1).

Réduction de la dimensionnalité

Les techniques de réduction de la dimensionnalité peuvent être effectuées sur des tableaux contenant des quantifications alternatives d'épissage et d'expression génique, avec les échantillons d'intérêt sous forme de lignes et les événements d'épissage ou gènes sélectionnés (sinon tous) sous forme de colonnes, après centrage et/ou mise à l'échelle des distributions respectives (par défaut , ils sont seulement centrés).

L'analyse en composantes principales (ACP) identifie les combinaisons de variables qui contribuent le plus à la variance des données ( 28) et elle est mise en œuvre via l'algorithme de décomposition en valeur singulière (SVD) fourni par le précomp fonction du package R Statistiques (version 3.4.1). La contribution totale de chaque variable (événement d'épissage ou gène) à la variance des données le long des composantes principales sélectionnées est mesurée sur la base de la mise en œuvre de fviz_contrib de extra facto (version 1.0.5).

L'analyse en composantes indépendantes (ICA), une méthode utilisée pour décomposer les données en composantes statistiquement indépendantes ( 29), peut également être effectuée par le biais de la fastICA fonction du package R éponyme (version 1.2-1), précédée d'un data centering et/ou d'une mise à l'échelle avec le escalader fonction.

Comme bon nombre des fonctions susmentionnées ne peuvent pas gérer les données manquantes, un seuil défini par l'utilisateur pour le nombre accepté de valeurs manquantes par événement d'épissage alternatif ou gène (5 %, par défaut) est utilisé pour éliminer les variables avant d'effectuer la réduction de dimensionnalité, tandis que les autres les valeurs sont imputées pour chaque variable en tant que médiane à partir d'échantillons de données non manquantes.

De plus, les échantillons peuvent être regroupés à l'aide de k-means, de partitionnement autour de medoids (PAM) ou de méthodes de clustering large applications (CLARA), ces dernières étant optimisées pour les grands ensembles de données et donc préférées par défaut. La mise en œuvre de ces méthodes repose sur la kméens fonction de Statistiques (version 3.4.1) et pam et clara fonctions de grappe (version 2.0.6), respectivement.

Analyse de survie

Les estimateurs de Kaplan-Meier (et les courbes illustratives) (30) et les modèles à risque proportionnel (PH) (31) peuvent être appliqués à des groupes de patients définis par l'utilisateur sur la base de caractéristiques cliniques dérivées, par exemple, de TCGA et de données détenues par l'utilisateur, les distributions de survie étant comparées à l'aide du test du log-rank. Les analyses de survie sont mises en œuvre dans psichomique utiliser des fonctions Surv, survfit, survdiff et coxph du package R survie ( 32).

Pour évaluer la valeur pronostique d'un événement d'épissage alternatif donné, une analyse de survie peut être effectuée sur des groupes de patients séparés en fonction d'un seuil de quantification d'épissage alternatif (c'est-à-dire PSI). Les patients avec plusieurs échantillons se voient attribuer la valeur PSI moyenne de leurs échantillons respectifs après le filtrage des échantillons (par exemple, lors de l'utilisation de données TCGA, seuls les échantillons de tumeur sont utilisés pour l'analyse de survie par défaut). Lorsque les différences de survie sont estimées pour plusieurs seuils PSI pour un seul événement d'épissage alternatif, psichomique suggère la coupure optimale qui minimise la P-valeur du test du log-rank utilisé pour comparer les distributions de survie, supportant graphiquement la suggestion avec un seuil PSI versus Pnuage de points -valeur. L'analyse de survie peut également être effectuée sur des groupes définis par un seuil d'expression pour un gène sélectionné.

Analyses d'épissage différentiel et d'expression génique

Dans psichomique, l'analyse de l'épissage différentiel entre des groupes d'échantillons définis par l'utilisateur peut être effectuée sur tous les événements d'épissage alternatif ou sur certains événements d'épissage alternatifs. Compte tenu de la distribution non normale des valeurs PSI (33, 34), des tests non paramétriques basés sur la médiane et la variance, tels que la somme des rangs de Wilcoxon (également connue sous le nom de Mann-Whitney U), les tests Kruskal–Wallis rank-sum et Fligner–Killeen sont disponibles et recommandés ( 35). Les tests t de Levene et non appariés peuvent néanmoins être également effectués. Tous ces tests sont disponibles via le Statistiques package (version 3.4.1) avec leurs paramètres par défaut, à l'exception du test de Levene qui a été implémenté sur la base du leveneTest.default fonction de la auto paquet (version 2.1-6).

Pour corriger les tests multiples, le cas échéant, P-les méthodes d'ajustement des valeurs pour le taux d'erreur par famille (corrections de Bonferroni, Holm, Hochberg et Hommel) et le taux de fausses découvertes (méthodes Benjamini-Hochberg et Benjamini-Yekutieli) sont disponibles via la fonction p.ajuster Depuis le paquet Statistiques (version 3.4.1). Par défaut, la correction des tests multiples est effectuée à l'aide de la méthode Benjamini-Hochberg.

Bien que les tests statistiques susmentionnés soient également disponibles pour analyser l'expression de gènes uniques, une analyse d'expression génique différentielle à l'échelle du génome est mise en œuvre sur la base d'un ajustement de modèle linéaire au niveau des gènes (en utilisant lmFit du package R limma (36)) pour deux groupes sélectionnés, suivis de tests t modérés et du calcul des probabilités logarithmiques d'expression différentielle, en utilisant la modération bayésienne empirique des erreurs standard (fonction eBay de limma) et la modélisation de la variance au niveau des gènes (limma-tendance).

Les résultats statistiques peuvent ensuite être explorés à l'aide de graphiques de densité et de volcanisme avec des axes personnalisables pour aider à l'identification des changements les plus importants lors de l'analyse des distributions sur un ou plusieurs événements, respectivement. Un tableau correspondant avec les résultats de toutes les analyses statistiques est également disponible et peut être récupéré sous forme de fichier texte délimité par des tabulations.

Corrélation entre l'expression des gènes et les quantifications d'épissage alternatif

Le coefficient de corrélation produit-moment de Pearson, Spearman's rhô (par défaut) et Kendall tau, tous disponibles avec cor.test de Statistiques (version 3.4.1), peut être utilisé pour corréler les niveaux d'expression génique avec des quantifications d'épissage alternatives. De telles analyses permettent, par exemple, de tester l'association entre les niveaux d'expression des protéines de liaison à l'ARN (RBP) et les niveaux PSI d'événements d'épissage intéressants pour identifier lesquels d'entre eux peuvent subir une régulation médiée par la RBP. En tant que tel, une liste de RBP est fournie dans l'application ( 37), mais l'utilisateur peut également définir son propre groupe de gènes d'intérêt pour le test.

Annotation des gènes, des transcrits et des protéines et support de la littérature

Les services Web de transfert d'état représentatif (REST) ​​fournis par Ensembl ( 38), UniProt ( 39), l'API des protéines (40) et PubMed (41) sont utilisés afin d'annoter les gènes d'intérêt avec des informations biomoléculaires pertinentes (par exemple, localisation génomique, isoformes de transcription et domaines protéiques associés, etc.) et articles de recherche connexes. psichomique fournit également le lien direct vers les entrées apparentées des bases de données externes pertinentes, à savoir Ensembl ( 42), GeneCards ( 43), l'Atlas des protéines humaines ( 44), l'UCSC Genome Browser ( 45), UniProt ( 39) et VAST-DB ( 46).

Analyse comparative des performances

Pour mesurer le temps mis par psichomique pour charger les données, normaliser l'expression des gènes, quantifier les PSI pour les événements d'exons ignorés et effectuer des analyses d'expression différentielle globale et d'épissage entre des paires de tissus GTEx et entre des échantillons de tumeurs solides normales et primaires de plusieurs cohortes TCGA, le programme a été exécuté 10 fois avec les mêmes paramètres pour différentes combinaisons de tissus humains normaux et de types de tumeurs dans une machine exécutant OS X 10.13.1 avec 4 cœurs et 8 Go de RAM, en utilisant Safari 11.0.1, RStudio Desktop 1.1.383 et R 3.4.1. La durée médiane des 10 passages a été utilisée comme indicateur de performance.

Pour déterminer la complexité temporelle approximative des étapes susmentionnées dans psichomique, les ensembles de données d'expression génique et de quantification de la jonction exon-exon ont été préparés sur la base de distributions approximatives obtenues à partir des ensembles de données TCGA respectifs : distributions binomiales négatives avec un paramètre de dispersion de 0,25 et 0,2 lectures et un paramètre moyen de 2000 et 100 lectures pour l'expression génique brute et l'exon -quantification de la jonction exon, respectivement. Chaque série a été réalisée sur des jeux de données avec des nombres d'échantillons allant de 100 à 2500 dans des intervalles de 100 (c'est-à-dire 100, 200, 300, …, 2500) et 20 000 gènes ou 200 000 jonctions d'épissage (expression génique ou quantification de jonction exon-exon, respectivement). Les identifiants de jonction d'épissage (requis pour la quantification d'épissage alternatif) ont été récupérés au hasard à partir de l'annotation de référence TCGA. Sur la base de leurs nombres de lectures respectifs, environ 9 000 événements d'épissage alternatif (c'est-à-dire ceux pour lesquels toutes les jonctions d'inclusion et d'exclusion impliquées ont été récupérées) ont été quantifiés sur des échantillons sélectionnés par analyse. Pour l'expression différentielle des gènes et les analyses d'épissage, les échantillons ont été divisés au hasard en deux groupes sur la base des valeurs émises d'une distribution de Bernoulli avec une probabilité de succès de 50 %.

Les polynômes des ordres 1 à 6 ont été ajustés à la relation entre le temps d'exécution et le nombre d'échantillons. Comme le temps d'exécution est supposé augmenter toujours avec un nombre croissant d'échantillons analysés, les polynômes ajustés ont été contraints d'être monotones pour 0 ou plusieurs échantillons, en utilisant la fonction monpol du package R Monopole ( 47). Les meilleurs ajustements polynomiaux (Figure 3) ont été sélectionnés sur la base d'analyses de variance (ANOVA) entre les polynômes ajustés d'ordres consécutifs, en commençant par la comparaison entre les polynômes d'ordres 1 et 2. Un polynôme d'ordre supérieur n'est sélectionné que s'il présente un ajuster (P-valeur < 0.05).

Analyse comparative de la quantification de l'épissage alternatif

Les données d'ARN-seq accessibles au public provenant de plusieurs échantillons de tissus et de lignées cellulaires humains, de souris et de poulet utilisés dans le développement de VastDB (46) ont été alignées avec STAR conscient de l'épissure (48) contre les génomes respectifs annotés par la transcription : UCSC hg19 genome assembly et annotation GENCODE v19 pour l'humain, assemblage du génome UCSC mm10 et annotation GENCODE vM14 pour la souris, et assemblage du génome Ensembl 70 et annotation pour le poulet. Au total, 120/706/34 (humain/souris/poulet) événements de saut d'exon quantifiés par psichomique (à l'aide de la fonction quantifierÉpissage avec les paramètres par défaut) ont été comparés aux valeurs PSI respectives dérivées de la RT-PCR et du VAST-TOOLS, disponibles auprès de VastDB (46).

Différents nombres de lectures de jonction ont été simulés pour différentes valeurs PSI données afin de tester l'impact de la couverture de lecture sur l'exactitude et la précision de l'estimation PSI en psichomique. Pour chaque PSI donné, les lectures de jonction prenant en charge l'inclusion d'exons ont été simulées en tant que nombre de succès obtenus à partir d'une distribution de Bernoulli avec la couverture de lecture de jonction de l'événement (c'est-à-dire les lectures prenant en charge l'inclusion plus les lectures prenant en charge l'exclusion) en tant que nombre d'observations et la valeur PSI en tant que valeur probabilité de réussite. Ces lectures d'inclusion ont ensuite été divisées par la couverture de lecture de jonction de l'événement pour estimer une valeur PSI « observée » (comme effectué par psichomique) qui a été comparée à la valeur PSI « réelle » donnée. Ces simulations ont été effectuées pour des valeurs PSI de 0 à 1 dans des intervalles de 0,1 et des couvertures d'événements de 10, 20, 50, 100, 500 et 1 000 lectures de jonction, chaque combinaison étant testée 10 000 fois.

TCGASpliceSeq ( 49) fournit des quantifications d'épissage alternatif pré-calculées dans les cohortes TCGA. Comme ces quantifications sont effectuées de manière similaire par TCGASpliceSeq et psichomique, les estimations PSI pour chaque événement d'épissage alternatif correspondant (basé sur les coordonnées génomiques) et l'échantillon des deux outils ont été corrélées dans l'ensemble de l'ensemble de données TCGA.


Commentaires des évaluateurs

Réviseur 1 : Dr Eugene V. Koonin

Commentaires de l'examinateur : Travail très intéressant et sérieux. L'épissage alternatif étendu produisant des ARNm non-sens de gènes d'horloge est démontré sans aucun doute. L'implication directe de ce phénomène dans la régulation de l'horloge reste une hypothèse, à laquelle les auteurs sont assez prudents. La seule question importante que j'ai est : serait-il possible de comparer le niveau d'épissage alternatif des gènes d'horloge au bruit de fond global d'Arabidopsis ? Est-il vrai que les gènes de l'horloge sont particulièrement sujets à l'épissage alternatif en général et à l'accumulation de PTC en particulier ? Une réponse affirmative serait extrêmement intéressante et favorable à l'hypothèse de régulation mais même une réponse négative serait intéressante.

Réponse des auteurs : Les données de notre précédente étude RNA-seq à l'échelle du transcriptome [REF [2] ont été incorporées dans l'annotation du génome d'Arabidopsis TAIR10 et estiment qu'environ 42 % des gènes d'Arabidopsis sont épissés alternativement. Actuellement, il y a environ 29 gènes d'horloge de base caractérisés et associés au cycle circadien dans l'annotation TAIR10. Environ la moitié d'entre eux (15) sont représentés par deux ou plusieurs modèles de gènes. Par conséquent, à première vue, l'étendue de l'épissage alternatif dans les gènes circadiens semble similaire aux estimations à l'échelle du transcriptome. Cependant, dans cette étude, nous n'avons pas cherché à explorer les statistiques de l'épissage alternatif parmi les gènes circadiens. en soi. Plus important encore, nous avons constaté que les modèles d'épissage alternatif dans certains gènes circadiens clés peuvent être très complexes et, dans la plupart des cas, génèrent des isoformes non-sens. De plus, les gènes circadiens ont un large répertoire d'épissage alternatif, y compris la rétention d'intron, des sites donneurs/accepteurs alternatifs, des exons de cassette et des UTR 5' et 3' épissés alternativement. Ainsi, les composants centraux de l'oscillateur d'horloge ACC1 et LHY sont représentés par deux et cinq modèles de gènes, respectivement. Fait intéressant, nous avons constaté qu'un seul événement de rétention d'intron 4 (I4R) introduisant des PTC en aval de leurs domaines de liaison à l'ADN est conservé entre ACC1 et LHY homologues. De plus, les UTR 5' et 3' de LHY sont épissés alternativement, suggérant que certaines de ses isoformes peuvent être régulées par la NMD. En effet, après la soumission de cet article, nous avons constaté que le LHY l'isoforme conservant un intron dans son 3' UTR est régulée positivement dans le mutant NMD (données non présentées).

Concernant la question de savoir si l'épissage alternatif des gènes circadiens génère plus de PTC que la moyenne à travers le transcriptome, nous n'avons pas de réponse statistiquement significative. Cependant, l'idée est que la plupart des événements d'épissage alternatif dans les gènes circadiens introduisent des PTC et ces événements sont susceptibles d'être au moins aussi fréquents qu'ils le sont en moyenne à travers le transcriptome. Tous les PTC ne provoqueront pas la dégradation de l'ARNm. Actuellement, nous essayons de déterminer lesquels des PTC dans les gènes circadiens provoquent la NMD.

Examinateur 2 : Dr. Chungoo Park

Commentaires de l'examinateur : Dans ce manuscrit, les auteurs ont montré que les gènes de l'horloge circadienne d'Arabidopsis thaliana ont tendance à être largement épissés alternativement, et que de telles isoformes, en particulier retenant l'intron, sont susceptibles de contenir des codons de terminaison prématurés et d'être conservées. Cependant, ces résultats ont déjà été observés par Filichkin et al. (2010) [Réf [2]. Dans cette étude, qu'est-ce qui est différent de l'étude précédente ?

Réponse des auteurs : Même si les résultats rapportés dans cet article sont largement liés à nos études précédentes, ils sont clairement uniques. En outre, cette étude aborde un ensemble différent de questions biologiques fondamentales liées au rôle de l'épissage alternatif non productif (UAS) dans la régulation de l'horloge circadienne pour les raisons suivantes.

Tout d'abord, contrairement à notre étude précédente, nous avons interrogé ici de nouvelles jonctions d'épissage (SJ) dans un sous-ensemble de transcrits de gènes circadiens à des moments précis de la journée. Pour identifier la phase d'expression maximale pour chaque transcrit, nous avons utilisé nos ensembles de données de microréseaux diurnes récemment obtenus [REF [2]. Contrairement au schéma d'échantillonnage groupé, cette approche a ajouté un avantage important en permettant la détection de variantes d'épissage mineures aux moments d'expression de pointe, qui peuvent être manqués si le timing n'est pas correct.

Deuxièmement, en utilisant un échantillonnage diurne dans le temps, nous avons montré que les isoformes d'épissage hébergeant des codons de terminaison prématurée (PTC) dans le cadre peuvent s'accumuler de manière cyclique et dans de nombreux cas (mais pas tous) reflètent les oscillations des transcrits productifs. Il est important de noter que nos données sur l'évolution du temps suggèrent un changement temporel des rapports d'isoformes en fonction de l'heure de la journée ou des conditions environnementales telles que les changements de température.

Troisièmement, nous avons démontré ici que la conservation d'événements AS similaires peut être observée parmi les homologues régulés par le rythme circadien au sein de la même espèce. Dans l'étude précédente [REF [2], nous avons validé expérimentalement la majorité des nouveaux SJ prédits par RNA-seq pour des centaines de gènes sélectionnés au hasard. Parmi ces gènes, ACC1, un composant central de l'horloge circadienne a présenté un cas intéressant car son événement de rétention de l'intron 4 était conservé dans différents phylums végétaux. Ici, nous montrons qu'une telle conservation peut être étendue aux homologues au sein de la même espèce avec des fonctions qui se chevauchent mais distinctes comme dans les cas de CCA1/LHY et GRP7/GRP8. Cette notion renforce encore une hypothèse de la signification fonctionnelle des UAS.

Enfin, nous avons montré que certains gènes associés au cycle circadien tels que RVE2 emploient une stratégie d'introduction d'un PTC via un exon de cassette empoisonnée (PCE) - un événement UAS conservé précédemment montré pour être impliqué dans la régulation homéostatique de certains facteurs d'épissage SR de mammifères [REF [8]. À notre connaissance, il s'agit du premier exemple d'un tel événement AS parmi les gènes circadiens, ce qui suggère que l'inclusion d'un PTC via un événement PCE peut être un mécanisme répandu, régulant dans ce cas l'expression homéostatique d'un gène circadien clé. Il est important de noter qu'une analyse dans le temps de l'accumulation de transcrits RVE2 (figure 3C) a montré que l'isoforme PCE peut ne pas toujours refléter précisément l'accumulation de son homologue codant pour la protéine pleine longueur et suggère une possibilité que la production du transcrit PTC + puisse subir un déphasage dans des conditions diurnes spécifiques. Il est possible que, comme dans le cas de certains facteurs d'épissage SR, l'expression de RVE2 soit régulée par le couplage de l'UAS avec la désintégration de l'ARNm.

Combinées, les approches décrites ci-dessus nous ont permis de détecter de nouveaux événements de SA dans les gènes circadiens qui pourraient autrement tomber en dessous de la signification statistique dans l'analyse ARN-seq en raison de la faible abondance des isoformes à des moments spécifiques de la journée et/ou des conditions environnementales entraînant une couverture de lecture insuffisante. Une interrogation systématique des nouveaux événements d'épissage putatifs nous a permis de valider expérimentalement que la SA des gènes circadiens clés génère dans la plupart des cas des isoformes hébergeant des PTC. Les futures études qui démontrent explicitement le(s) rôle(s) régulateur(s) de l'UAS dans la fonction de l'horloge auront probablement des implications biologiques majeures, car l'horloge circadienne orchestre l'expression globale des gènes chez les plantes.

Commentaires de l'examinateur : L'une des principales affirmations de cette étude est que la plupart des gènes de l'horloge circadienne ont des formes d'épissage alternatives.On ne sait pas si ce modèle est spécifique d'un gène circadien ou si la plupart des gènes végétaux sont largement épissés alternativement.

Réponse des auteurs : Veuillez consulter notre réponse à la question similaire de l'examinateur #1.

Commentaires de l'examinateur : Pour exclure l'hypothèse du bruit, l'abondance d'AS improductifs chez les eucaryotes et la conservation d'événements d'épissage alternatifs chez les espèces relatives ont été mentionnées. À cette fin, les auteurs devraient montrer des preuves directes en utilisant des plantes et des gènes circadiens testés.

Réponse des auteurs : L'hypothèse du "bruit d'épissage stochastique" par rapport à l'hypothèse d'un AS improductif régulé est mentionnée dans la section Discussion de notre manuscrit. L'accumulation rapide de preuves [pour des exemples, voir les références [8, 18, 19] indique que l'épissage alternatif non productif (UAS) couplé à la NMD est un mécanisme d'expression génique répandu chez les eucaryotes. Même si notre étude suggère que l'UAS pourrait être un mécanisme de régulation important pour plusieurs gènes circadiens, elle n'est pas conçue pour résoudre directement cette question biologique globale. Les références avec les exemples soutenant la « conservation des événements de SA entre différentes espèces" ont été ajoutées à la section Discussion.

Réviseur 3 : Dr Marcelo Yanovsky

Commentaires de l'examinateur : Des travaux récents ont fourni des preuves de l'occurrence généralisée de l'épissage alternatif (AS) dans les plantes. Fait intéressant, les approches génétiques ont révélé un rôle important pour la SA dans la bonne régulation des rythmes circadiens chez les plantes. Le manuscrit de Filichkin et Mockler contribue à élargir notre connaissance de l'interaction entre l'AS et les réseaux circadiens grâce à une évaluation approfondie de l'AS des gènes de l'horloge circadienne des plantes à l'aide de l'ARN-seq. Les auteurs ont découvert que de nombreux gènes associés à l'horloge circadienne chez Arabidopsis thaliana sont épissés alternativement. Les résultats des données RNA-seq ont été confirmés à l'aide de plusieurs approches, notamment le séquençage RT-PCR, qRT-PCR et/ou Sanger. La plupart des événements de SA ont conduit à l'incorporation de codons d'arrêt prématuré (PTC) dans le cadre par le biais d'une rétention d'intron complète ou partielle. Il s'agissait d'un phénomène répandu parmi les ARNm de la famille CCA1/LHY des facteurs de transcription MYB. Fait intéressant, un PTC in-frame résultait également de l'inclusion d'un « exon de cassette de poison » dans l'un des homologues de CCA1 connu sous le nom de REVEILLE 2 (RVE2). Des événements de rétention d'intron dans la famille MYB de facteurs de transcription associés à l'horloge ont également eu lieu dans la région 3'utr, suggérant qu'ils peuvent contribuer à réguler la stabilité de l'ARNm. Fait intéressant, des oscillations quotidiennes avec différentes phases ont été observées pour les différentes isoformes du gène RVE2. Enfin, les auteurs ont confirmé et étendu l'analyse précédente de l'effet des traitements de stress sur l'AS de CCA1, montrant que les transcrits de pleine longueur augmentent en réponse aux traitements par le froid, tandis que l'isoforme retenant l'intron 4 augmente en réponse à la chaleur, et ces réponses sont soutenues. dans des conditions de stress prolongé. La dépendance de l'abondance relative de certaines isoformes de gènes associés à l'horloge à l'heure de la journée ou aux traitements du stress suggère que la SA de ces gènes peut contribuer à affiner la régulation des processus physiologiques par l'horloge, ainsi que la régulation de l'horloge en réponse à signaux environnementaux.

Commentaires de l'examinateur : Le manuscrit est bien écrit, clair et concis. Les données sont intéressantes et présentées de manière opportune pour le domaine, renforçant l'importance de l'interaction entre l'AS et la régulation des réseaux circadiens, par le biais de changements dans l'AS des gènes d'horloge et de sortie d'horloge.

Commentaires de l'examinateur : En ce qui concerne la présentation des données, il aurait été intéressant de voir dans les figures principales, en plus de lire des graphiques de couverture qui permettent d'identifier les événements de rétention d'intron ou de saut d'exon, des données graphiques sur les jonctions exon/exon, qui devraient permettre l'identification de sites donneurs et/ou accepteurs alternatifs.

Réponse des auteurs : Les illustrations graphiques et les critères de couverture des jonctions exon/exon par les lectures Illumina utilisées pour l'identification de sites donneurs et/ou accepteurs alternatifs sont présentés dans la figure supplémentaire 7 de notre publication précédente [Réf [2].

Commentaires de l'examinateur : Enfin, dans un avenir proche, il sera important de commencer à tester la signification fonctionnelle des différentes isoformes AS des gènes de l'horloge, et le rôle de l'AS dans la bonne régulation physiologique du réseau circadien.

Réponse des auteurs : En effet, c'est un point très important. L'épissage alternatif improductif (UAS) dans les gènes de l'horloge circadienne présente une étude de cas très particulière car les oscillations quotidiennes des niveaux de transcrits nécessitent des ajustements rapides et abrupts des niveaux d'ARNm. Actuellement, des études sur le rôle de la SA dans la régulation du réseau circadien sont en cours dans de nombreux laboratoires du monde entier en utilisant un éventail de lignées mutantes et transgéniques.

Commentaires de l'examinateur : Les auteurs mentionnent au début que « Pour maximiser la sensibilité pour les produits épissés mineurs et pour éviter un éventuel décalage dépendant de la lumière / de l'obscurité dans les rapports d'isoformes, l'échantillonnage a été effectué à la phase d'expression maximale pour chaque gène testé comme le montre la figure 1 ”. Bien que cette approche puisse simplifier l'analyse, je ne pense pas qu'elle maximisera la sensibilité pour les produits épissés mineurs. Il est possible par exemple que l'abondance relative des différentes isoformes change au cours de la journée, comme le montrent les auteurs pour RVE2, et par conséquent, cette approche peut conduire à une sensibilité réduite plutôt qu'augmentée.

Réponse des auteurs : Nous avons constaté que cette approche fonctionne dans la plupart des cas, mais nous convenons que pour certains gènes dans des conditions spécifiques, l'effet pourrait être opposé : l'isoforme improductive peut présenter un comportement différent de son homologue productif. C'est pourquoi nous avons mené ici un parcours dans le temps avec des points limités (c'est-à-dire RVE2) et utiliser une stratégie de cours à temps plein dans les études de suivi.

Commentaires de l'examinateur : En effet, je pense que la description actuelle des événements AS parmi les gènes associés à l'horloge végétale sous-estime le nombre total d'événements. Par exemple, d'autres isoformes de PRR9 ont été rapportés, en plus de ceux associés à la rétention de l'intron 3, qui n'ont pas été détectés/rapportés ici.

Réponse des auteurs : Nous sommes d'accord et affirmons clairement dans l'article que notre étude est susceptible de sous-estimer le nombre total d'événements AS et UAS dans les gènes circadiens. La figure supplémentaire 3, par exemple, démontre que l'analyse différentielle de l'expression des introns suggère des événements de rétention d'introns supplémentaires sous stress thermique. Il ne fait aucun doute que les futures études sur les traitements du stress abiotique ou biotique, ou sur des mutations spécifiques dans les gènes liés à l'épissage, révéleront de nouveaux modèles de SA.

Commentaires de l'examinateur : Enfin, sur la figure 2B, les auteurs doivent ajouter l'amorce qui permet l'amplification de l'isoforme entièrement épissé, dans la direction 3'-5'.

Réponse des auteurs : Sur la figure 2B, les paires d'amorces utilisées pour l'amplification des isoformes entièrement épissées ont été ajoutées.


Discussion

Les niveaux d'expression de BRCA2 doivent être étroitement régulés, en particulier pour maintenir un équilibre entre le niveau d'expression de BRCA2 et de RAD51, ce qui est nécessaire pour une RH efficace [9, 25]. Ici, nous avons identifié un nouveau mécanisme de régulation de la traduction dans le BRCA2 canin et humain, qui est médié par des variantes d'épissage au niveau de l'UTR 5' qui régulent généralement l'expression des gènes [22]. Tout canin BRCA2 variantes d'épissage à l'exclusion de la variante d'épissage I et humaine BRCA2 la variante d'épissage I a diminué l'efficacité de la traduction.

Les rapports d'expression de ces variants d'épissage étaient altérés par l'état des cellules. Dans les cellules de culture canine CNM-p et CHM-p, le rapport des transcrits sans la région de l'intron 1 par rapport au BRCA2 total a diminué après la privation de sérum, ce qui a induit l'arrêt de la phase G1. En particulier dans les cellules CNH-p et CHM-p, le modèle de variante d'épissage a également été modifié pour favoriser la forme longue après la privation de sérum. Les variants d'épissage contenant la région de l'intron 1, à l'exclusion du variant d'épissage canin I, ont montré une activité traductionnelle réduite. Ainsi, dans ces cellules, les niveaux de protéine BRCA2 ont diminué via la suppression de la traduction. Les cellules canines MDCK et CIP-p ont démontré un rapport accru de variantes d'épissage sans la région de l'intron 1 après privation de sérum. En plus de cela, la baisse du niveau de BRCA2 L'ARNm dans ces cellules n'était relativement pas aussi significatif que dans le cas des cellules CNM-p et CHM-p. Ainsi, ces cellules semblaient maintenir le niveau de protéine BRCA2 après une privation de sérum. Comme les lignées cellulaires canines, il y avait deux types de réponses dans les cellules humaines. Dans les cellules HeLa, le rapport des transcrits sans la région de l'intron 1 par rapport au BRCA2 total a diminué, alors qu'il a augmenté dans les cellules T 293. L'épissage variant I de BRCA2 humain a montré une activité traductionnelle diminuée. Ainsi, dans les cellules HeLa, le niveau de protéine BRCA2 a diminué via la suppression de la traduction, mais n'a pas augmenté dans les cellules T 293. Cependant, la raison pour laquelle il y a une différence de réponse n'est pas claire. Nous avons supposé que la sensibilité à la privation de sérum était associée à BRCA2 niveau d'expression et rapport de variante d'épissage, car les cellules CNM-p et CHM-p étaient plus sensibles à la privation de sérum que les cellules MDCK (données non présentées). Nous avons également émis l'hypothèse que ces variantes d'épissage contribuaient à l'expression de la protéine après irradiation aux rayons X, car de plus grandes quantités de transcrits de variantes d'épissage étaient induites en réponse à des dommages à l'ADN [23, 24]. Cependant, le rapport des variantes d'épissage n'a pas été modifié par l'irradiation, ainsi la nouvelle variante d'épissage de BRCA2 à 5' UTR n'a pas été affectée par les dommages à l'ADN.

Les mécanismes sous-jacents à la suppression de l'expression par ces nouvelles variantes d'épissage sont inconnus, mais il existe deux possibilités basées sur les rapports sur la régulation d'autres gènes [22]. Premièrement, la régulation peut se produire via le codon d'initiation en amont dans l'UTR 5'. Les codons d'initiation en amont traduisent des protéines courtes ou tronquées et empêchent la production des principaux produits du cadre de lecture ouvert [22]. Chaque nouvelle variante d'épissage du chien BRCA2 possède 5 à 8 codons d'initiation qui traduisent potentiellement des peptides courts ou des protéines tronquées. Comme la séquence de référence ne contient pas de codon d'initiation dans l'UTR 5', ces codons d'initiation en amont dans l'UTR 5' empêchent potentiellement l'efficacité de la traduction du cadre de lecture ouvert primaire. La deuxième possibilité implique la structure secondaire de l'ARN. Les deux nouvelles variantes d'épissage ont montré des structures complexes et volumineuses selon un programme de prédiction de structure d'ARN secondaire. Ce type de structure empêche le glissement et le balayage des ribosomes. Certains gènes sont régulés par la structure secondaire de l'ARN des variants d'épissage à l'UTR 5' [22]. Bien que l'épissage de la variante I de canine BRCA2 possédait toujours une activité de traduction similaire par rapport à la séquence enregistrée, canine et humaine BRCA2 sont potentiellement régulés par ces mécanismes.

La séquence des variantes d'épissage a affecté l'efficacité de la transcription ainsi que la traduction. Ainsi, les régions de l'intron 1 canin et humain dans l'ADN génomique agissent comme des éléments de régulation cis. Quelques études ont décrit BRCA2 promoteur d'éléments silencieux, mais c'est la première étude à montrer que cette région, qui fait partie de la BRCA2 l'intron 1, fonctionne comme des éléments de régulation cis [15,16,17, 26]. Premièrement, nous nous attendions à ce qu'il n'y ait eu qu'un élément silencieux dans l'intron 1, mais notre analyse approfondie a indiqué que cette région se composait d'au moins trois éléments silencieux et deux éléments activateurs. Soutenir cette notion, chez l'homme BRCA2 l'intron 1, l'accumulation d'histone H3K27Ac, ​​qui indique la présence de régions actives de promoteur et d'amplificateur, a été signalée par le navigateur de génome de l'UCSC (https://genome.ucsc.edu). Nous n'avons pas étudié quels éléments trans-régulateurs interagissent avec ce nouvel élément cis-régulateur. Ce point sera la prochaine question de recherche importante pour comprendre comment BRCA2 l'expression est régulée.

Même si BRCA2 a été identifié il y a plus de vingt-cinq ans et de nombreuses études de ce gène ont été rapportées chez l'homme, le chien et la souris, le système de régulation identifié dans cette étude n'a pas été rapporté auparavant. A la fois canin et humain BRCA2 avait des variantes d'épissage similaires, il semble donc que BRCA2 de mammifère utilise des variantes d'épissage à l'UTR 5' comme système de régulation de l'expression. Des parties de la région de l'intron 1 étaient conservées entre l'homme et le chien, ainsi la régulation transcriptionnelle par le nouvel élément cis-régulateur semblait également être conservée chez les mammifères. Ces points sont intéressants lorsque l'on considère l'évolution de BRCA2.


Commentaires des évaluateurs

Rapport de l'examinateur 1 : W. Ford Doolittle, Université Dalhousie

Il y a beaucoup d'informations détaillées ici sur l'histoire évolutive et les origines procaryotes probables de nombreux composants du spliceosome eucaryote. Je suppose qu'il est à jour et correct. Nous semblons maintenant en savoir pas mal à ce sujet, et avons peu de doute que le dernier ancêtre commun eucaryote (LECA) avait déjà un appareil d'épissage de type moderne et de nombreux introns nécessitant ses services (voir la référence de l'auteur 38, et Rogozin et al. , 2012, Biol Direct 7:11). Personne ne semble maintenant remettre en question la notion évoquée pour la première fois par Cavalier-Smith (1991, Trends in Genetics 7 : 145-148), selon laquelle les introns sont entrés dans les génomes nucléaires eucaryotes en tant que transferts d'introns du groupe II des endosymbiontes alpha-protéobactériens qui sont devenus des mitochondries, et, en tant qu'ARN, se décompose en quelque chose comme les «cinq morceaux faciles» décrits par Sharp (référence des auteurs 66). Mon hypothèse des « introns précoces » (1978, Nature 272 : 581-582), aussi séduisante qu'elle ait pu apparaître à la fin des années 1970, est morte et enterrée.

Réponse des auteurs : Nous remercions le réviseur pour les références qu'il a avancées sur l'enracinement historique de ce sujet et nous les avons ajoutées, si elles ne sont pas encore présentes, dans le manuscrit principal. Bien que l'ascendance alphaprotéobactérienne ( passant par l'endosymbiote) des introns spliceosomal est largement admis, nous tenons à mettre en garde qui est basé sur des preuves circonstancielles. Des scénarios alternatifs dans lesquels les introns du groupe II étaient déjà présents dans l'hôte associé à Asgard avant l'événement d'endosymbiose ou ont été transférés d'un autre donneur après cet événement sont également plausibles. Les événements HGT inférés des introns organellaires du groupe II parmi les organites, entre différents groupes eucaryotes et entre les bactéries et les eucaryotes [39, 79] affaiblir le lien entre les introns mitochondriaux du groupe II et les introns spliceosomal, car leur présence dans les mitochondries de LECA n'est pas évidente. Cela n'exclut pas l'effet proposé des endosymbiotes mitochondriaux sur la quantité d'énergie disponible et la taille effective de la population, ce qui pourrait avoir entraîné une prolifération massive d'introns et l'origine du spliceosome complexe.

Mais il y a encore beaucoup de questions sans réponse, je pense. Par exemple, pourquoi, si l'invasion du génome nucléaire par les introns du groupe II des mitochondries s'est produite avant le LECA, et que les génomes nucléaires eucaryotes fournissent une multitude de cibles (régions non codantes pour les protéines) où cela pourrait se reproduire, n'est-ce pas ? Les barrières génétiques et physiologiques inférées semblent (Truong et al. 2015, PLoS Genet 11 : e1005422) trop faibles pour expliquer l'absence totale.

Réponse des auteurs : C'est en effet une question importante restante et nous avons inclus quelques phrases supplémentaires sur cet aspect dans le manuscrit. Nous convenons que les problèmes d'expression génique proposés et la baisse de Mg 2+ concentration ne fournissent pas une explication satisfaisante de l'exclusion des introns du groupe II du génome nucléaire. Des expériences supplémentaires, également chez d'autres eucaryotes, et une inspection plus approfondie des transferts relativement récents d'introns du groupe II vers le génome nucléaire, tels que décrits dans [52], pourrait élucider cette énigme à l'avenir.

Autre question qui mérite réflexion : il est relativement facile d'imaginer comment des processus sélectifs et neutres ont pu donner lieu à la complexité remarquable du spliceosome. En effet, j'aime particulièrement la façon dont cet article donne du crédit à ce dernier, en particulier ce qui a été appelé « Constructive Neutral Evolution » (références des auteurs 9 et 15). Il est beaucoup plus difficile d'imaginer comment un spliceosome complexe, une fois devenu essentiel à l'expression de la plupart des gènes d'un génome, pourrait un jour être simplifié. Et pourtant ça l'a été, plusieurs fois. Ce n'est peut-être pas plus étonnant que d'autres cas dans lesquels ce qui semble être des processus et des structures fondamentaux câblés peuvent être complètement supprimés ou radicalement transformés. La sélection n'est peut-être pas aussi importante que nous, les darwinistes, voulons le croire, que ce soit dans la construction ou le démantèlement de la complexité (référence de l'auteur 18).

Enfin, et pour moi le plus intéressant, comment pouvons-nous combiner la théorie de la sélection à plusieurs niveaux avec le raisonnement sur les introns en tant qu'adaptations (Doolittle, 1987, Cold Spr Hbr Symp Quant Biol 52 : 907–913) ? Il se peut bien que des eucaryotes multicellulaires d'un certain type (nous, par exemple) aient acquis une évolutivité considérable (et une diversité conséquente) grâce à des introns pouvant être épissés alternativement. Mais il est clair que les introns n'ont pas été ajoutés au génome du LECA, de sorte que plus d'un milliard d'années plus tard, cet avantage a pu être réalisé. Les auteurs sont (bien que trop circonspects à mon avis) sur une telle rationalisation téléologique, mais pourrions-nous imaginer une telle évolutivité comme une adaptation à un niveau beaucoup plus élevé (clades au-dessus des espèces, Doolittle 2017 Phil Sci 84 : 275-295) ?

Réponse des auteurs : Nous ne voulions pas négliger ou minimiser l'importance de la sélection et de l'évolutivité à plusieurs niveaux dans l'évolution de la nature complexe du spliceosome et des introns. Nous avons ajouté une brève discussion de cet aspect à la fin de « Une interaction entre l'évolution neutre et adaptative explique l'évolution spliceosomale » lorsque nous discutons du modèle biphasique.

Rapport de l'examinateur 2 : Eugene V. Koonin, National Center for Biotechnology Information (NCBI)

Dans cet article de synthèse, Vosseberg et Snel discutent de l'origine du spliceosome qui a été initiée par la domestication des introns auto-épissés bactériens. C'est un sujet d'une importance et d'un intérêt évidents, et un problème difficile de longue date en biologie évolutive. La difficulté du problème vient de l'apparition d'une complexité « irréductible » : les eucaryotes les plus primitifs que l'on connaisse possèdent déjà un spliceosome (plus ou moins) à part entière, ce qui implique que tel était également le cas pour le LECA. En fait, comme le soulignent les auteurs, LECA possédait très probablement les deux types connus de spliceosomes, U12 et U2. Le spliceosome est l'une des meilleures vitrines de l'évolution de la complexité cellulaire eucaryote car il ne peut y avoir d'ancêtres directs du spliceosome chez les procaryotes étant donné l'inexistence d'épissage autre que celui des introns auto-épissés.Et, en effet, les auteurs résument les informations pertinentes et plaident en faveur de l'origine à la fois du spliceosome et des introns spliceosomal eux-mêmes à partir des introns auto-épissés du groupe II. Dans la discussion de l'évolution ultérieure des splicesomes, les auteurs plaident en faveur d'un scénario d'évolution neutre constructif. Je suis tout à fait d'accord que, pour le moins, l'évolution neutre constructive est l'hypothèse nulle appropriée pour l'évolution du spliceosome et d'autres caractéristiques eucaryotes complexes. Les auteurs font un point très intéressant sur les complexes de type spliceosome relativement simples qui sont impliqués dans l'épissage des introns du groupe II dans les organites. Ceux-ci ne sont pas ancestraux mais leur évolution pourrait récapituler celle du spliceosome, donc l'analyse de tels complexes pourrait en effet éclairer l'évolution du spliceosome. Dans l'ensemble, c'est une critique très utile, intéressante et perspicace, et une bonne lecture aussi.

Réponse des auteurs : Nous remercions le réviseur pour son excellent résumé et apprécions les commentaires constructifs qu'il a fournis dans son rapport.

Je n'ai pas de critiques particulièrement sérieuses envers cet article. Je trouve que la discussion sur le potentiel de l'analyse phylogénétique de l'IEP et de la Prp8 (lignes 230-237) est plutôt fallacieuse. Je suis d'accord avec les auteurs qu'une telle analyse est peu susceptible d'être particulièrement informative. Cependant, il me semble que l'on devrait soit essayer de le faire, soit abandonner complètement cette ligne de discussion.

Réponse des auteurs : Nous nous excusons que notre formulation initiale puisse être considérée comme fallacieuse et nous avons décidé de la supprimer.

Dans la discussion sur l'évolution des protéines Lsm/Sm, ce qui suit « Un petit nombre d'introns sont même partagés entre certaines paires Lsm-Sm. Ce n'est pas anodin, car cela implique que l'épissage pourrait déjà avoir lieu avant la diversification de la famille Sm chez les eucaryotes » (lignes 272-274) est en effet une observation non triviale, et je pense que des détails supplémentaires sont nécessaires pour que le lecteur soit en mesure d'évaluer sa validité et son impact.

Réponse des auteurs : Nous avons ajouté plus de détails sur ces résultats et les avons discutés à la lumière du faible nombre d'introns partagés pour les paralogues provenant de duplications au cours de l'eucaryogenèse et du nombre élevé d'introns partagés pour les orthologues présents dans LECA. Après avoir cartographié l'emplacement des introns sur les alignements des protéines Lsm/Sm chez 22 espèces eucaryotes, Veretnik et al. [90] fait l'observation frappante que pour certaines paires, et aussi entre certaines paires, à la même position dans l'alignement, un intron était localisé dans plusieurs espèces pour chaque paralogue, suggérant que cet intron était déjà présent avant l'événement de duplication. Ces découvertes ont deux implications majeures : 1) avant la diversification de ces protéines, qui sont essentielles pour l'épissage actuel, l'épissage avait déjà eu lieu 2) ces duplications de gènes n'ont probablement pas eu lieu tôt au cours de l'eucaryogenèse.

Pour un article de synthèse, le manuscrit actuel semble être quelque peu insuffisamment référencé. Dans de nombreux cas, les auteurs s'appuient sur des revues précédentes où plusieurs références originales feraient mieux. Je ne proposerai pas une liste complète de références à ajouter et n'en mentionnerai que deux : Avec la réf. 96, il convient de citer : López-García P, Moreira D. Forces sélectives pour l'origine du noyau eucaryote. Essais biologiques. 2006 mai 28(5) : 525–33. L'absence de cette référence qui présente une reconstruction complète du gain et de la perte d'intron dans l'évolution eucaryote est surprenante : Csuros M, Rogozin IB, Koonin EV. Une histoire détaillée des ancêtres eucaryotes riches en introns déduite d'une étude mondiale de 100 génomes complets. PLoS Comput Biol. 2011 sept (9) : e1002150.

Réponse des auteurs : Après une réévaluation critique des références, nous avons ajouté 28 références à des articles primaires tout au long de l'article et nous pensons que les références sont maintenant plus équilibrées. Initialement, nous n'avons pas inclus de discussion sur le nombre d'introns dans LECA, mais nous convenons qu'il s'agissait d'une omission et avons donc ajouté un petit paragraphe à ce sujet dans la section « LECA’s spliceosome », y compris cette dernière référence. Nous n'avons pas discuté de la réf. 96 à la lumière de l'hypothèse sur l'origine du noyau, mais pour le scénario qu'ils proposent pour l'origine du spliceosome. Dans la version révisée de cette revue, nous mentionnons brièvement l'origine du noyau dans la section « Modèle adaptatif », en faisant référence aux deux articles.

De plus, à mon avis, il y a trop peu de chiffres dans l'article, et ceux inclus sont des schémas trop grossiers. Il serait bon de montrer une meilleure comparaison entre les éléments des introns d'auto-épissage et des snRNA, et peut-être, un scénario général complet pour l'évolution du spliceosome.

Réponse des auteurs : Chiffre 1 a été dessiné comme une figure schématique à dessein, pour apprécier immédiatement les similitudes entre le groupe II et les introns spliceosomal. D'excellentes figures avec plus de détails ont été faites avant (par exemple., Fig. 5 dans [39]). Nous avons ajouté plus de détails dans la Fig. 1 en décrivant également les structures d'ARN qui ne sont pas similaires et en indiquant que toutes les protéines ne sont pas homologues. Comme suggéré par le critique, nous avons également fait une nouvelle figure (Fig. 3 ) décrivant le scénario général que nous proposons en ce qui concerne l'évolution des spliceosomes pré- et post-LECA.

Rapport de l'examinateur 3 : Vivek Anantharaman, NCBI

Les auteurs ont écrit une revue de l'évolution de la complexité de la machinerie spicosomale. Ils ont abordé les différentes composantes du spliceosome et leur évolution. Bien qu'il existe de nombreuses discussions détaillées sur ce matériel, il s'agit d'une mise à jour utile résumant les différentes idées. Par conséquent, je trouve la critique satisfaisante et digne d'être publiée telle quelle.

Les auteurs ont présenté de manière satisfaisante une revue des idées prévalentes sur le sujet. Je n'ai pas de recommandations majeures.

Aux pages 9 à 10, les auteurs discutent de la perte d'activité RT dans Prp8 et renvoient à un article de 2015. Le Prp8 inactif et son lien possible avec l'évolution de l'intron et du spliceosomal du groupe II ont été discutés dans un article beaucoup plus ancien de 2012 (pmid : 22919680) par notre groupe.

Réponse des auteurs : La référence à l'article de 2015 était en fait pour la dernière partie de cette phrase. Nous avons ajouté des références à l'article suggéré et à un autre article lors de la discussion de la perte d'activité RT.