Le génome de Torreya grandis éclaire l'origine et l'évolution des gymnospermes

Nouvelles

MaisonMaison / Nouvelles / Le génome de Torreya grandis éclaire l'origine et l'évolution des gymnospermes

Jul 30, 2023

Le génome de Torreya grandis éclaire l'origine et l'évolution des gymnospermes

Volume Communication Nature

Nature Communications volume 14, Numéro d'article : 1315 (2023) Citer cet article

4055 accès

21 Altmétrique

Détails des métriques

Les plantes de Torreya produisent des fruits secs aux fonctions variées. Ici, nous rapportons l'assemblage du génome au niveau du chromosome 19-Gb de T. grandis. Le génome est façonné par d'anciennes duplications du génome entier et des sursauts récurrents de rétrotransposons LTR. Des analyses génomiques comparatives révèlent des gènes clés impliqués dans le développement des organes reproducteurs, la biosynthèse de la paroi cellulaire et le stockage des graines. Deux gènes codant pour une C18 Δ9-élongase et une C20 Δ5-désaturase sont identifiés comme étant responsables de la biosynthèse de l'acide sciadonique et tous deux sont présents dans diverses lignées végétales à l'exception des angiospermes. Nous démontrons que les boîtes riches en histidine de la Δ5-désaturase sont cruciales pour son activité catalytique. L'analyse du méthylome révèle que les vallées de méthylation du génome de la graine de T. grandis abritent des gènes associés à d'importantes activités de la graine, notamment la paroi cellulaire et la biosynthèse des lipides. De plus, le développement des graines s'accompagne de modifications de la méthylation de l'ADN qui alimentent éventuellement la production d'énergie. Cette étude fournit des ressources génomiques importantes et élucide le mécanisme évolutif de la biosynthèse de l'acide sciadonique chez les plantes terrestres.

L'émergence de plantes à graines composées d'angiospermes et de gymnospermes a marqué un événement capital dans l'évolution des plantes terrestres et le changement des environnements terrestres. Les angiospermes et les gymnospermes ont divergé dans le Mississippien inférieur1, suivi d'un rayonnement rapide des plantes à fleurs, ce qui a donné environ 352 000 espèces existantes sur Terre, contre seulement 1 000 espèces de gymnospermes. Il existe une variété de diversité morphologique/anatomique et de polyvalence métabolique entre les angiospermes et les gymnospermes, mais les mécanismes génétiques et biochimiques sous-jacents sont largement insaisissables2,3.

Torreya grandis, une espèce de gymnospermes appartenant à un petit genre de la famille des ifs (Taxaceae), est un arbre polyvalent utile, fournissant du bois, des médicaments, des graines comestibles et de l'huile4 (Fig. 1a). Le premier enregistrement crédible de T. grandis en tant que source médicinale apparaît dans Classic of the Materia Medica pendant les Trois Royaumes de Chine et remonte au début du 3ème siècle après JC5. T. grandis est la seule espèce de Taxaceae avec des graines comestibles, qui sont utilisées comme nourriture depuis des milliers d'années en Chine en raison de leur saveur unique et de leurs composants bénéfiques5,6. Les huiles sont enrichies en graines de T. grandis avec une teneur moyenne de 45,80–53,16%7. L'acide sciadonique (SCA), un acide gras ω6 non méthylène interrompu, a été trouvé comme l'un des principaux composants de la composition en acides gras de l'huile de noyau7. Le SCA a des effets positifs sur la santé humaine et fonctionne en réduisant l'inflammation, en abaissant les triglycérides, en prévenant les caillots sanguins et en régulant le métabolisme des lipides8,9,10. La production de SCA a été détectée dans différentes lignées de gymnospermes et une poignée d'algues et de fougères11. Cependant, le SCA est généralement absent chez les plantes à fleurs, à l'exception de quelques eudicots inférieurs (par exemple, Ranunculaceae)12, laissant ainsi un mystère sur son origine et son évolution chez les plantes vertes.

a Arbre et nouaison de T. grandis. Le panneau inférieur montre la graine sèche transformée et sa partie comestible (endosperme). b Graphique Circos du génome de T. grandis et des caractéristiques génomiques codées par les chromosomes. Chaque caractéristique a été calculée sur la base d'une fenêtre de 10 Mo sur les chromosomes. Les étoiles colorées indiquent la présence de séquences télomériques sur l'extrémité 5' (verte) ou 3' (orange) du chromosome. c Distribution du temps d'insertion LTR-RT. Le panneau de gauche montre tous les membres des familles Gypsy et Copia et les six sous-familles les plus abondantes sont présentées sur le panneau de droite. d Distribution Ks des orthologues parmi T. grandis, Sequoiadendron giganteum, Ginkgo biloba et Gnetum montanum. Ks de paralogues chez T. grandis a été équipé d'un modèle de mélange guassien et l'ancien WGD putatif est indiqué. e Micro-colinéarité entre les génomes de T. grandis, G. biloba et G. montanum. Les données source sont fournies sous la forme d'un fichier de données source.

Les séquences du génome sont essentielles pour répondre aux questions critiques de l'évolution des plantes. Les analyses des génomes de gymnospermes représentatifs ont montré des aspects uniques de l'évolution des gènes et du génome qui se distinguent des plantes à fleurs13,14,15,16,17,18,19. Cependant, comprendre les mécanismes biologiques et évolutifs de la diversité phénotypique entre les plantes à fleurs et non à fleurs reste un défi, en partie en raison de la disponibilité limitée des ressources génomiques des gymnospermes.

Dans cette étude, nous assemblons un génome de référence à l'échelle chromosomique pour T. grandis, accompagné d'un profilage du transcriptome et du méthylome dans plusieurs tissus. Nos données, grâce à des analyses génomiques comparatives, dévoilent des empreintes intéressantes associées à la diversité morphologique des principales lignées de plantes terrestres, et découvrent et valident deux enzymes clés responsables de la biosynthèse des SCA. Les informations fournies par ce travail seront utiles pour la conception stratégique de l'amélioration de la production de SCA et favoriseront l'utilisation des ressources génétiques de Torreya.

Nous avons généré un total de 1,93 To d'Illumina et 463,7 Go de lectures PacBio HiFi pour T. grandis (Données supplémentaires 1), représentant respectivement une couverture de 96,5 × et 23,2 × du génome de T. grandis qui avait une taille estimée d'environ 20 Gb selon l'analyse k-mer des lectures d'Illumina (Fig. 1 supplémentaire). L'assemblage final avait une taille de 19 050 820 213 pb, comprenant 11 811 contigs avec une taille N50 de 2,82 Mb (tableau supplémentaire 1). En utilisant des lectures Hi-C d'une couverture d'environ 106, 2 ×, 18, 87 Gb (99, 1%) des contigs assemblés ont été regroupés en 11 chromosomes (Fig. 1b et Fig. 2 supplémentaire). Les 11 chromosomes se sont avérés enrichis avec l'unité de séquence répétitive de 101 pb qui ressemble à la répétition satellite centromérique en tandem connue sous le nom de point de repère des centromères, tandis que 9 chromosomes abritaient des séquences télomériques (5'-TTTAGGG-3') à au moins une extrémité (Fig. 1b). L'évaluation du génome de T. grandis à l'aide de Merqury20 a révélé un score de qualité consensuel de 46,9, équivalent à une précision de base de 99,998 %. L'évaluation de BUSCO21 a indiqué que 1386 orthologues conservés de plantes terrestres sur 1614 ont été capturés avec succès par l'assemblage de T. grandis, ce qui était comparable à celui d'autres assemblages de génomes de gymnospermes (tableau supplémentaire 2). L'indice d'assemblage LTR (LAI) pour le génome de T. grandis était de 10,7, ce qui était supérieur à la norme proposée pour un génome de référence22. Ceux-ci, combinés aux taux élevés de cartographie de lecture d'ADN (99,48 %) et d'ARN (jusqu'à 97,5 %), suggèrent la haute qualité de l'assemblage du génome de T. grandis.

L'assemblage du génome de T. grandis abritait 11, 4 Gb (59, 8%) de séquences répétitives, dont les rétrotransposons LTR (LTR-RT; 87, 0%) étaient prédominants, suivis des transposons d'ADN (7, 1%) et des éléments nucléaires intercalés longs (LINE; 3, 1%) (Données supplémentaires 2). La proportion de Copia LTR-RT (11, 6%) était relativement plus élevée chez T. grandis que chez les autres gymnospermes, peut-être en raison de récentes explosions spécifiques à l'espèce se produisant dans plusieurs sous-familles de LTR-RT (Fig. 1c). La plupart des expansions LTR-RT chez les gymnospermes ont eu lieu il y a 25 à 7 millions d'années (mya; Fig. 3a supplémentaire), chevauchant l'époque géologique de l'époque du Miocène (23,03–5,33 mya) lorsque la terre s'est refroidie vers les périodes glaciaires23, suggérant un effet environnemental potentiel sur l'évolution de la taille du génome des gymnospermes.

Un total de 47 089 gènes codant pour des protéines ont été prédits dans le génome de T. grandis, dont 46 338 ont été étayés par des preuves d'homologie et/ou de transcriptome (tableau supplémentaire 1). La taille des introns est plus variable chez les gymnospermes que chez les angiospermes (Fig. 3b supplémentaire), ce qui est attribué à l'expansion des LTR-RT. Chez les plantes, les LTR-RT peuvent être éliminées par recombinaison inégale, créant des solo-LTR dans le génome. Le rapport LTR solo/intact est élevé chez T. grandis (4,3) et d'autres gymnospermes, notamment Taxus wallichiana (5,5)18, Ginkgo biloba (4,26), Welwitschia mirabilis (3,87) et Gnetum montanum (2,07)16. Étant donné que les génomes de gymnospermes sont enrichis d'anciens LTR-RT (10–30 mya) 14, 15, 16, 17, 18, 19, nous émettons l'hypothèse que l'élimination d'anciens LTR-RT sans expansion récente peut avoir contribué à leurs ratios LTR solo: intacts élevés. Cela contraste avec les angiospermes à petit génome, dans lesquels les sursauts LTR-RT sont plus récents (<4 mya)24. Le silençage épigénétique des transposons et des répétitions péricentromériques est médié par la méthylation de l'ADN dirigée par l'ARN (RdDM) et les hetsiARN de 24 nt25. Le génome de T. grandis a codé des homologues de composants clés de la voie RdDM (Données supplémentaires 3) ; cependant, le profilage de petits ARN de sept tissus a montré que les ARNs de 21 nt étaient les plus abondants chez T. grandis, contrairement aux ARNs de 24 nt les plus abondants chez les angiospermes, tandis que les productions d'ARNs de 22 nt et 24 nt étaient spécifiques au tissu (Fig. 4 supplémentaire). Ce schéma est similaire à celui observé chez les conifères13,26 et Welwitschia mirabilis16. Néanmoins, un échantillonnage approfondi supplémentaire à partir de tissus et d'étapes supplémentaires fournirait des informations plus approfondies sur la divergence du traitement de l'ARNs entre les gymnospermes et les angiospermes.

Des duplications du génome entier (WGD) se sont produites dans toute la phylogénie eucaryote27. Chez les gymnospermes, plusieurs WGD ont été reconnus bien que certains d'entre eux restent controversés16,17,18,19,28. La distribution Ks de 3859 groupes paralogues au sein de T. grandis a indiqué l'absence de WGD récents. Cependant, nous avons observé un pic de Ks allant de 1 à 2 et un sommet à 1,4, représentant une ancienne WGD potentielle survenue chez l'ancêtre commun des conifères et des ginkgophytes, une lignée divergente des gnetophytes (Fig. 1d). Nous avons ensuite utilisé une approche arborescente29, qui calcule la fréquence de duplication des gènes sur chaque branche d'une phylogénie par réconciliation de l'arbre des gènes et de l'arbre des espèces, pour valider de manière croisée l'événement WGD. L'analyse de 19 649 arbres génétiques de huit espèces sélectionnées a conduit à la découverte de trois anciens signaux WGD, dont deux (zêta et oméga) rapportés précédemment17,28 et un qui était cohérent avec l'analyse Ks (Fig. 5 supplémentaire). La comparaison du génome entier a montré une colinéarité élevée entre les génomes de T. grandis et de deux gymnospermes éloignés sur le plan de l'évolution, Sequoiadendron giganteum et Ginkgo biloba (Fig. 6 supplémentaire), et a également révélé des traces de blocs colinéaires qui ont été dupliqués à la fois dans T. grandis et G. biloba mais pas dans Gnetum montanum, en accord avec le moment auquel le WGD nouvellement découvert s'est produit (Fig. 1e).

Nous avons identifié 19 362 groupes orthologues (familles de gènes) dans 19 espèces végétales comprenant 7 gymnospermes et 12 espèces représentatives dans les principales lignées de plantes vertes. La phylogénie et la datation moléculaire à l'aide de 219 familles de gènes à faible nombre de copies ont indiqué que T. grandis s'est séparé de T. wallichiana vers 68,5 mya (Fig. 2a). L'expansion des familles de gènes a été impliquée dans des associations étroites avec des innovations morphologiques30,31. Grâce à la reconstruction de l'évolution de la famille de gènes, nous avons constaté que des explosions d'expansions de familles de gènes coïncidaient avec des transitions majeures d'adaptation des plantes (Fig. 2a). Une expansion massive de la famille de gènes (n = 417, P <0,05) a été observée chez l'ancêtre commun des plantes terrestres, puis chez les ancêtres éteints conduisant aux plantes à graines (n = 575), aux angiospermes (n = 432) et à diverses lignées de gymnospermes (n = 428–818). Les fonctions des familles de gènes élargies étaient principalement associées au développement des organes végétaux, à la réponse aux stress biotiques (par exemple, les bactéries et les champignons) et abiotiques (par exemple, la privation d'eau, la lumière, la température et le sel), ainsi qu'à la biosynthèse et à la signalisation des hormones végétales (Données supplémentaires 4). De nombreuses familles de gènes ont été élargies en continu vers l'évolution des plantes supérieures, ce qui suggère que la duplication de gènes, éventuellement suivie d'une sous/néo-fonctionnalisation, fournit une base génétique pour la diversité morphologique et l'adaptation environnementale des plantes. Parmi les familles de gènes qui se sont considérablement développées chez T. grandis, beaucoup d'entre elles codaient pour des domaines pfam associés à des fonctions biologiques importantes, notamment le transfert de lipides (oléosine et PF14368), les réponses au stress biotique et abiotique (PF00201 et PF03018) et le métabolisme secondaire (PF00067) (Données supplémentaires 5). Le génome de T. grandis manquait des orthologues de la taxadiène synthase, un composant central de la biosynthèse du paclitaxel, expliquant l'absence de paclitaxel et de métabolites pertinents chez cette espèce.

a Expansion et contraction d'une famille de gènes au cours de l'évolution des plantes vertes. La phylogénie du maximum de vraisemblance a été construite avec 219 groupes orthologues à faible copie. L'analyse de la famille de gènes a commencé avec 10 345 groupes orthologues partagés par l'ancêtre commun le plus récent (MRCA) des plantes vertes. Les nombres sur les branches sont les tailles des familles de gènes élargies (bleues) et contractées (rouges) à chaque nœud. Les tartes colorées sur la droite représentent les tailles des familles de gènes élargies/contractées ainsi que les gènes gagnés/perdus pour chaque nœud feuille de l'arbre. b Expression de gènes MADS-box de type MIKCC dans les tissus végétatifs et reproducteurs de T. grandis. c Gènes d'identité des organes reproducteurs proposés chez T. grandis. Les gènes de type AP3/PI (TG7g01668 et TG7g01669) et TG8g01565 étaient principalement exprimés dans les cônes mâles et femelles, respectivement. Les gènes de type AG (TG10g01848), de type AGL6 (TG2g00325) et de type AP1/SEP (TG4g01441) ont été exprimés dans les cônes femelles et mâles, les deux premiers présentant un schéma biaisé en faveur des cônes femelles. d Phylogénie du maximum de vraisemblance montrant l'origine bactérienne des gènes de T. grandis. Les secteurs bleus indiquent un support bootstrap supérieur à 80 % dans les branches correspondantes. e Expression de gènes putatifs transférés horizontalement dans différents tissus. Les données source sont fournies sous la forme d'un fichier de données source.

Les gymnospermes ont des graines non fermées ou nues à la surface des écailles ou des feuilles, tandis que les fleurs et les fruits sont des innovations des angiospermes. La recherche d'homologues basée sur la phylogénie à l'aide de gènes de développement de fleurs bien étudiés32 a montré une distribution sporadique de ces homologues dans les gymnospermes et les plantes sans graines (Données supplémentaires 6), indiquant l'émergence progressive accompagnée d'une perte secondaire de gènes de développement de fleurs au cours de l'évolution des plantes terrestres, comme en témoignent NOP10 (requis pour la formation de gamétophytes femelles dans les fleurs)33 et WUS (requis pour l'intégrité des pousses et du méristème floral)34 gènes qui ont émergé tôt dans les plantes terrestres et ont ensuite été perdus à la fois dans T. grandis et T. wallichiana (Données supplémentaires 6).

Les gènes de la famille MADS-box sont une classe de facteurs de transcription impliqués dans la régulation de la spécificité des organes floraux, du temps de floraison et du développement des fruits. Nous avons identifié 23 gènes MIKCC MADS-box chez T. grandis, y compris des homologues de gènes dans le modèle ABCE de l'identité des organes floraux35. Ceux-ci comprenaient un gène de type AP1 / SEP (fonction A ou E), deux gènes de type AP3 / PI (fonction B) et six gènes de type AG (fonction C) (Fig. 7 supplémentaire). L'analyse du transcriptome de 18 échantillons d'organes végétatifs et reproducteurs a révélé six gènes MADS-box fortement exprimés dans les cônes mâles et/ou femelles de T. grandis, parmi lesquels les deux gènes de type AP3/PI dupliqués en tandem (TG7g01668 et TG7g01669) étaient principalement exprimés dans les cônes mâles, tandis qu'un gène de type AG (TG10g01848) était exprimé chez le mâle mais régulé à la hausse de 6,6 fois chez le mâle. les cônes femelles (Fig. 2b). Des études récentes suggèrent que AGL6, membre d'une ancienne sous-famille de gènes MADS-box, est impliquée dans la fonction E du développement floral chez le riz, le maïs et le blé36,37, tout en participant à la fonction A dans l'angiosperme basal Nymphaea colorata38. Chez T. grandis, le gène de type AGL6 (TG2g00325) présentait un schéma d'expression similaire à celui des gènes de la fonction C, tandis que le gène de type AP1/SEP (TG4g01441) était exprimé à un niveau modérément élevé dans les cônes mâles et femelles, ressemblant à un rôle ancestral de la fonction E. Fait intéressant, le gène MADS-box le plus exprimé (TG8g01565) était exclusivement activé dans les cônes femelles (Fig. 2b). Ce gène a été regroupé phylogénétiquement avec des gènes du clade B comprenant les gènes AP3, PI et B-sœurs TT16 et GOA (Fig. 7 supplémentaire); cependant, son profil d'expression était opposé à celui des gènes de type AP3/PI. En conclusion, notre découverte sur l'implication de gènes MADS-box supplémentaires dans le développement des graines de gymnospermes soutient le modèle "BC" de base, où les gènes de la fonction C sont généralement exprimés dans les organes reproducteurs mâles et femelles et les gènes de la fonction B sont limités aux organes reproducteurs mâles39, et suggère un système de régulation plus sophistiqué pour le développement des organes reproducteurs chez les gymnospermes (Fig. 2c).

La teneur en protéines des graines de T. grandis varie de 10,34 % à 16,43 % selon les cultivars7. Des gènes codant pour les protéines de stockage des graines (SSP), notamment les albumines 2S (n = 0–7), les globulines 7S (n = 1–9) et les globulines 11S (n = 2–14), ont été identifiés chez T. grandis et d'autres gymnospermes, mais pas dans les formes antérieures de plantes (données supplémentaires 7), ce qui suggère leur origine dans les plantes à graines. L'analyse du transcriptome a montré que les gènes codant pour les albumines 2S et les globulines 7S étaient exprimés à un niveau exceptionnellement élevé (transcrits moyens par million (TPM) = 14 125) dans le noyau des graines de T. grandis et que l'expression était augmentée au cours du développement des graines (Fig. 8a supplémentaire). En revanche, tous les gènes SSP, y compris les gènes de globuline 11S, qui étaient modérément exprimés dans le noyau, sont restés transcriptionnellement inactifs dans les tissus végétatifs (Fig. 8a supplémentaire). Les protéines d'albumine 2S abritent de nombreux résidus de cystéine pour former un pont disulfure à l'intérieur et entre les sous-unités40. Nous avons constaté que tous ces résidus étaient conservés dans T. grandis, bien que les séquences protéiques entières divergent considérablement de celles de leurs homologues d'angiospermes (Fig. 8b supplémentaire). La modélisation d'homologie a révélé un degré élevé de conservation de la structure protéique entre les protéines d'albumine 2S de T. grandis (par exemple, TG11g02972) et le tournesol, en particulier dans la région où se forment les hélices α (Fig. 8c supplémentaire). De même, la plupart des résidus impliqués dans la formation et la stabilisation des trimères ainsi que dans le repliement globulaire correct des globulines 11S des plantes à fleurs41 ont été conservés dans T. grandis (Fig. 9 supplémentaire). Dans l'ensemble, l'expression génique et les analyses structurelles suggèrent un rôle conservateur des principaux SSP chez les gymnospermes et les angiospermes.

Les gymnospermes sont principalement des plantes ligneuses et leurs génomes codent pour un grand nombre d'enzymes actives glucidiques (CAZymes) dont les fonctions sont étroitement associées à la biosynthèse de la paroi cellulaire. Parmi les 19 espèces végétales représentatives sélectionnées, T. grandis abritait plus de CAZymes que la plupart des autres, en particulier dans les familles des glycosides hydrolases (par exemple, GH1, GH16, GH18, GH19, GH27, GH71, GH99 et GH152), les glycosyltransférases GT61 et les polysaccharides lyases PL1 (données supplémentaires 7), dont beaucoup ont également été développées dans d'autres gymnospermes. s. Contrairement à la plupart des familles CAZyme qui étaient universellement présentes dans les plantes, nous avons identifié quatre familles comprenant 18 gènes, GH71 (n = 7), GH99 (n = 9), GH103 (n = 1) et CE4 (n = 1), qui étaient présents uniquement dans les gymnospermes et les lignées antérieures mais pas dans les angiospermes (Données supplémentaires 8). L'analyse phylogénétique a montré que ces familles étaient d'origine bactérienne possible (Fig. 2d et Fig. 10 supplémentaire). Grâce à une analyse systématique, nous avons identifié 14 gènes supplémentaires de T. grandis dérivés de transferts horizontaux de gènes (HGT; tableau supplémentaire 3). La plupart de ces gènes étaient exprimés dans différents tissus de la plante (Fig. 2e), renforçant la contribution des HGT dans l'évolution des plantes terrestres42.

La lignine est un composant majeur de la paroi cellulaire secondaire des plantes et est dérivée des monolignols p-hydroxyphényl (H), guaiacyl (G) et syringyl (S). La lignine S est limitée aux plantes à fleurs et à certains lycophytes, tandis que les lignines G et H sont fondamentales pour toutes les plantes vasculaires2. De manière constante, deux gènes clés pour la biosynthèse de la S-lignine, F5H et COMT, n'ont été trouvés que chez les angiospermes mais pas chez les gymnospermes. Contrairement aux angiospermes dans lesquels les vaisseaux comprennent des éléments conducteurs d'eau majeurs dans le xylème43, les bois de gymnospermes sont principalement composés de trachéides2. La différenciation des vaisseaux est régulée par les protéines VASCULAR-RELATED MAC-DOMAIN (VND)44, tandis que le développement des fibres est associé aux protéines NAC SECONDARY WALL THICKENING PROMOTING FACTOR (NST)/SECONDARY WALL-ASSOCIATED NAC DOMAIN (SND)45. Le génome de T. grandis codait pour des gènes homologues à VND4/5/6, mais manquait d'homologues de VND1/2/3, NST et SND1 (Fig. 11 supplémentaire), ce qui, combiné à la découverte de réseaux régulateurs divergents d'homologues VND/NST chez les conifères et les plantes à fleurs pendant la formation du bois46, suggère un lien étroit entre la formation de vaisseaux et l'émergence de facteurs maîtres de transcription NAC ainsi que leurs réseaux régulateurs chez les angiospermes.

L'acide sciadonique (SCA) est un acide gras Δ5-oléfinique et sa biosynthèse nécessite l'activité de la C18 Δ9-élongase et de la C20 Δ5-désaturase qui utilise la 18: 2-phosphatidylcholine (PC) comme substrat initial (Fig. 3a). Les Δ5-désaturases sont connues sous le nom de désaturases "frontales"47, qui codent généralement pour un domaine de liaison hème/stéroïde de type cytochrome b5 (PF00173) et un domaine de désaturase d'acide gras (PF00487), tandis que les Δ9-élongases codent pour un domaine de la famille GNS1/SUR4 (PF01151) pour l'allongement des acides gras à longue chaîne. Le génome de T. grandis a codé quatre gènes de désaturase et quatre gènes d'élongase basés sur la recherche de domaine. Cependant, une seule désaturase (TgDES1) présentait une grande similitude avec la Δ5-désaturase précédemment signalée chez Anemone leveillei48, tandis que deux élongases étaient considérées comme des Δ9-élongases putatives, mais une seule (TgELO1) était fortement exprimée dans les noyaux de graines (Fig. 12 supplémentaire). Étant donné que les acides gras insaturés sont des composants abondants des huiles de graines, nous avons étudié l'expression de TgDES1 et TgELO1 au cours de la maturation des graines. Nous avons constaté que le SCA s'accumulait dans les graines matures, accompagné d'une expression accrue de TgDES1. Une tendance similaire a été observée pour l'expression de TgELO1 et la teneur de son produit putatif, l'acide cis-11,14-eicosadiénoïque (Fig. 3b, c). L'étude de la localisation subcellulaire a montré que TgELO1 et TgDES1 étaient co-localisés avec le marqueur du réticulum endoplasmique (RE) dans les feuilles de N. benthamiana (Fig. 3d), suggérant qu'ils étaient liés à la membrane ER, conformément à la localisation subcellulaire des désaturases et élongases connues49. Pour vérifier davantage leur fonction dans la biosynthèse de SCA, nous avons surexprimé à la fois TgELO1 et TgDES1 dans A. thaliana, qui ne code ni pour les orthologues de TgELO1 et TgDES1 ni ne produit de SCA ou de son précurseur 20:2Δ11,14-PC. L'analyse par chromatographie en phase gazeuse a montré que SCA avait été synthétisé avec succès dans les graines de la lignée transgénique exprimant TgDES1 et TgELO1, démontrant que TgELO1 et TgDES1 sont capables de synthétiser SCA chez T. grandis (Fig. 3e).

a Aperçu de la voie de biosynthèse des acides gras. PDH pyruvate déshydrogénase, CT carboxyltransférase, BC biotine carboxylase, BCCP biotine carboxyle protéine porteuse, MCMT malonyl-CoA:ACP malonyltransférase, ACP acyl protéine porteuse, KAS cétoacyl-ACP synthase, SAD stéaroyl-ACP désaturase, FATA acyl-ACP thioestérase A, FATB acyl-ACP thioestérase B, LACS acyl-CoA synthétase à longue chaîne, DGAT diacylglycérol acyltransférase, PDAT phospholipide: diacylglycérol acyltransférase, PAP acide phosphatidique phosphatase, LPAT acide lysophosphatidique acyltransférase, GPAT glycérol-3-phosphate acyltransférase, CPT cholinephosphotransférase, FAD2 oléate désaturase, FAD3 linoléate des aturase, PC phosphatidylcholine. b Expression de TgDES1 et teneur en SCA dans les graines du stade de développement précoce (mai) au stade de maturation (septembre). Différentes lettres sur les barres indiquent une signification statistique entre les échantillons à α = 0,05 (ANOVA unidirectionnelle et test de Tukey). Les mesures ont été effectuées dans trois répétitions biologiques et les données sont présentées sous forme de moyenne + SD. c Expression de TgELO1 et teneur de son produit acide cis-11,14-eicosadiénoïque dans les graines. Différentes lettres sur les barres indiquent une signification statistique entre les échantillons à α = 0,05 (ANOVA unidirectionnelle et test de Tukey). Les mesures ont été effectuées dans trois répétitions biologiques et les données sont présentées sous forme de moyenne + SD. d Localisation subcellulaire de TgDES1 et TgELO1 dans les feuilles de N. benthamiana. e Détection de SCA et de son précurseur dans Arabidopsis Col-0 et la lignée transgénique surexprimant à la fois TgDES1 et TgELO1. Les données source sont fournies sous la forme d'un fichier de données source.

L'analyse phylogénétique des désaturases chez les plantes vertes ( Viridiplantae ) a montré que TgDES1 se regroupait avec des désaturases provenant exclusivement d'organismes non angiospermes, et ce clade monophylétique était proche de la famille contenant des désaturases sphingolipidiques, y compris les AtSLD d'Arabidopsis (Fig. 4a). Fait intéressant, le clade TgDES1 s'est clairement séparé du groupe hébergeant AL10 et AL21, deux protéines responsables de la biosynthèse de SCA chez l'eudicot basal Anemone leveillei48. La modélisation de la structure de TgDES1, AtSLD2 et AL21 a montré des structures globalement similaires entre TgDES1 et AtSLD2, en particulier dans la région où le centre actif s'est formé, alors que la structure de AL21 était relativement divergée de TgDES1 (Fig. 4b). Étant donné que les plantes à fleurs synthétisent rarement le SCA, nos preuves phylogénétiques et structurelles suggèrent que cela est peut-être dû à la perte de désaturases du clade TgDES1, tandis que la capacité de biosynthèse du SCA chez des espèces particulières d'eudicots a été largement attribuée au gain secondaire de l'activité Δ5-désaturase d'homologues indépendants de l'évolution. De même, des homologues proches de TgELO1 n'ont pas été trouvés dans les plantes à fleurs mais présents dans les premières plantes terrestres et les algues, suggérant la co-évolution de la Δ5-désaturase et de la Δ9-élongase chez les plantes (Fig. 13 supplémentaire).

a Phylogénie du maximum de vraisemblance des désaturases végétales. TgDES1 est regroupée au sein d'un groupe (clade 1) proche d'un clade frère (clade 2) comprenant les Δ6- et Δ8- désaturases. b Modélisation de la structure de TgDES1 et des désaturases d'Arabidopsis (AtSLD2) et d'Anemone leveillei (AL21). Les structures protéiques ont été modélisées avec AlphaFold2 et le centre bioactif de chaque protéine comprenant trois motifs riches en histidine est marqué en jaune. c Comparaison des motifs conservés dans différents groupes de désaturases montrant en a. d Détection de SCA et de son précurseur dans les feuilles de N. benthamiana exprimant Arabidopsis AtSLD2 avec des motifs conservés riches en histidine (motif2 et motif3) remplacés par ceux de TgDES1 de T. grandis. AtSLD2, AtSLD2-Motif2 et AtSLD2-Motif3 sont des lignées hébergeant le gène AtSLD2 de type sauvage d'Arabidopsis, AtSLD2 avec motif2 de TgDES1 et AtSLD2 avec motif3 de TgDES1, respectivement.

La caractérisation des séquences protéiques a révélé la conservation d'un domaine de type cytochrome b5 N-terminal et de trois boîtes riches en histidine de désaturases du clade TgDES1 (clade 1) et de leurs deux groupes étroitement apparentés (groupe 1 et groupe 2 du clade 2), alors qu'une variation frappante a été observée dans les deux premières boîtes riches en histidine parmi différents groupes (Fig. 4c). Une étude précédente a rapporté que la substitution dirigée par le site des boîtes d'histidine pourrait influencer la spécificité et la sélectivité de la longueur de la chaîne du substrat50. La substitution d'un seul acide aminé dirige probablement le résultat de la réaction de désaturation en modulant la distance entre les atomes de carbone d'acyle gras du substrat et les ions métalliques centraux actifs51. Pour tester si la variation de séquence des domaines riches en histidine déterminait la spécificité du substrat qui a conduit au succès de la biosynthèse de SCA, nous avons remplacé le domaine riche en histidine de la désaturase d'Arabidopsis AtSLD2 par celui de TgDES1 et exprimé de manière transitoire la construction dans les feuilles de N. benthamiana. Nous avons noté que la TgELO1 n'était pas coexprimée avec le gène de désaturase modifié car le 20:2Δ11,14-PC, le produit de la catalyse de la Δ9-élongase, pouvait être détecté dans les feuilles du tabac de type sauvage. SCA était indétectable dans les feuilles de N. benthamiana exprimant AtSLD2 de type sauvage ; cependant, le changement de l'une des deux boîtes riches en histidine de TgDES1 était suffisant pour synthétiser SCA dans les feuilles de N. benthamiana (Fig. 4d). Pris ensemble, nos données suggèrent que des mutations dans ces deux motifs de désaturases riches en histidine ont conduit à l'alternance de la spécificité du substrat et par conséquent à l'évolution d'un clade spécifique pour la biosynthèse des SCA, dont la perte marque la diversité métabolique significative entre les gymnospermes et les angiospermes.

Le développement des graines chez les gymnospermes est un long processus qui s'étend sur plusieurs années3. Pour comprendre si et comment la méthylation de l'ADN participe au développement des graines de T. grandis, comme cela est évident chez les plantes à fleurs52, nous avons profilé les méthylomes des graines à trois stades de développement (Fig. 5a; Données supplémentaires 9). Les gènes impliqués dans la méthylation de l'ADN des trois contextes de cytosine (CG, CHG, CHH) ont été identifiés dans le génome de T. grandis (Données supplémentaires 3). Les niveaux moyens mondiaux de méthylation de mCG, mCHG, mCHH dans le génome des graines de T. grandis étaient de 83 %, 69 % et 4 %, respectivement. Les niveaux de méthylation mCG et mCHG étaient plus élevés que ceux de la plupart des angiospermes précédemment étudiés53, coïncidant avec la proposition d'une corrélation positive entre la taille du génome et les niveaux de méthylation mCG/mCHG54. La mC de tous les contextes de séquence était enrichie dans les régions centromériques et péri-centromériques, malgré le fait que mCG et mCHG étaient également largement distribués dans les bras chromosomiques (Fig. 1b). Chez les plantes à fleurs, les exons des gènes sont parfois enrichis en mCG mais appauvris en mCHG et en mCHH, ce que l'on appelle la méthylation du corps génique (gbM)55. Nous avons observé l'enrichissement en mCG et l'appauvrissement en mCHH dans les gènes de T. grandis ; cependant, un enrichissement en mCHG a également été trouvé dans les régions transcrites (Fig. 5b et Supplémentaire Fig. 14a, b), ce qui est similaire au schéma trouvé chez les conifères56. GbM a été proposé pour réguler la transcription des gènes55. Nous avons observé un net enrichissement en mCG au lieu de mCHG / mCHH sur des gènes modérément exprimés, pour lesquels l'expression était positivement corrélée aux niveaux de méthylation (Fig. 5c et Supplémentaire Fig. 14c), indiquant la conservation fonctionnelle de gbM dans la lignée sœur des angiospermes. On suppose que l'évolution de gbM est associée à la désactivation de la méthylation de l'ADN des TE à proximité des gènes55. De manière cohérente, nous avons constaté que les LTR-RT, qui étaient le composant principal des TE dans les régions géniques, étaient fortement méthylés (Fig. 5d) et que les gènes avec des insertions TE avaient à la fois une expression et une méthylation CG plus élevées que ceux sans TE (Fig. 15 supplémentaire).

a Graines échantillonnées pour le profilage du méthylome. Les images montrent le côté extérieur et le côté intérieur (à travers une coupe longitudinale) des graines. b Niveaux de méthylation des régions flanquant l'exon, l'intron et le gène dans les graines. c Niveaux de méthylation dans trois contextes de cytosine sur la région exonique des gènes. Les gènes sont classés en 20 groupes en fonction des niveaux d'expression ordonnés. Pour chaque groupe, la valeur médiane de l'expression génique et le niveau moyen de méthylation dans toutes les régions exoniques des gènes sont enregistrés. d Niveaux de méthylation des LTR-RT intactes dans le génome de T. grandis. e Termes GO enrichis en gènes chevauchant les vallées de déméthylation partagées par les graines des trois stades de développement. Les termes GO avec une valeur P ajustée <0, 05 (test exact de Fisher bilatéral avec correction de Benjamini – Hochberg) sont tracés et les tailles des termes GO dans le nuage de mots sont en corrélation avec leur signification statistique. f Vue des niveaux de méthylation des gènes sélectionnés chevauchant les vallées de déméthylation. CES cellulose synthase, PE pectinestérase. g Comparaison des niveaux de méthylation de mCG et mCHG dans différentes régions génomiques de graines à trois stades. Les données source sont fournies sous la forme d'un fichier de données source.

Les gènes de développement et de germination des graines sont fréquemment localisés dans les vallées de déméthylation (DMV), où le niveau de méthylation était faible (par exemple, <5%) pour l'un des contextes de cytosine57. Nous avons identifié 5099 DMV communs dans le génome des graines des trois échantillons, qui couvraient 30 Mo, y compris le plus grand intervalle s'étendant jusqu'à 144 kb. Les DMV ont croisé 4200 gènes codant pour des protéines, dont beaucoup codaient pour des classes importantes de protéines de graines, telles que des protéines de stockage, des facteurs transcriptionnels et des enzymes pour la modification de la paroi cellulaire, l'homéostasie hormonale et la biosynthèse des acides gras (Fig. 5e, f). La graine de T. grandis est recouverte d'une excroissance spécialisée, appelée arille (Fig. 5a). Au cours du développement, le tégument développe des parois cellulaires secondaires fortement lignifiées pour renforcer la surface externe de la graine58, tout en préservant une paroi interne douce qui entoure directement l'endosperme. De manière constante, des gènes codant pour les laccases (n = 38), qui fonctionnent dans la lignification de la paroi cellulaire59, et les expansines (n = 13) associées au relâchement de la paroi cellulaire60, ont été fréquemment trouvés dans les DMV (Fig. 5f). Notamment, 18 % des gènes du facteur de transcription (TF) de T. grandis (n = 370) étaient situés dans les régions DMV des graines, ce qui représente un enrichissement significatif (test χ2 ; P < 0,0001 ; Données supplémentaires 10). Ces TF appartenaient à diverses familles de gènes mais étaient particulièrement abondants dans les familles MYB, NAC et AP2, connues pour réguler la croissance et le développement des plantes. La méthylation de mCHH variait de manière plus remarquable que celle de mCG et de mCHG au cours du développement des graines (Fig. 5g et Fig. 16 supplémentaire). Nous avons identifié des régions différentiellement méthylées (DMR) pour chacun des trois contextes de cytosine (données supplémentaires 11 à 13). Parmi les gènes chevauchant les DMR, 12% d'entre eux étaient exprimés de manière différentielle, ce qui suggère la traduction de la variation épigénétique en flexibilité d'expression génique au cours du développement des graines (Fig. 17 supplémentaire). L'analyse d'enrichissement GO a montré que les gènes associés à la DMR étaient principalement enrichis par ceux impliqués dans la photosynthèse et le métabolisme secondaire (Données supplémentaires 14), conformément au fait que la photosynthèse alimente les voies biochimiques génératrices d'énergie en apportant de l'oxygène aux tissus des graines pendant le développement des graines vertes, car les graines en développement souffrent d'une pénétration limitée de l'oxygène, en particulier dans les tissus internes61.

Les gymnospermes sont considérés comme un trésor de l'histoire de la vie sur la terre. Ici, nous avons assemblé un génome de référence au niveau des chromosomes pour l'espèce gymnosperme T. grandis. La taille du génome est énorme et beaucoup plus grande que la plupart des espèces végétales jamais séquencées. Sur la base de cet assemblage et de l'analyse de données multi-omiques, nous concluons que (1) l'accumulation d'anciens LTR-RT contribue au gonflement du génome de T. grandis, alors que T. grandis contrecarre l'expansion de TE par une recombinaison inégale et un silençage épigénétique avec un mécanisme potentiellement différent des angiospermes ; (2) le gain ou la perte de familles de gènes importantes à T. grandis, par exemple, celles impliquées dans les activités de la paroi cellulaire et la biosynthèse du paclitaxel, sous-jacent sa diversité phénotypique et les gènes MADS-box associés à l'identité d'organes reproducteurs incluent non seulement les gènes classiques de B et C. différents des gènes de fonction B et C; (3) la Δ9-élongase et la Δ5-désaturase sont capables de synthétiser le SCA, et ces deux enzymes ont co-évolué et ont été perdues dans les plantes à fleurs ; de plus, la spécificité de substrat de la Δ5-désaturase est déterminée par les deux boîtes riches en histidine, mutation sur laquelle peut conduire l'alternance de la reconnaissance du substrat, et par la suite le changement de son produit ; (4) le génome de la graine de T. grandis comprend à la fois des séquences répétées fortement méthylées et des vallées de déméthylation, ces dernières se croisant avec des gènes exerçant d'importantes fonctions de graine telles que la modification de la paroi cellulaire et la biosynthèse des acides gras, ainsi que la régulation de l'expression génique et l'homéostasie hormonale. Dans l'ensemble, notre génome de référence de haute qualité couplé à des analyses génomiques comparatives et fonctionnelles donne un aperçu de la biologie des gymnospermes, en particulier de la biosynthèse et de l'évolution de SCA qui présente une polyvalence métabolique entre les principales lignées de plantes terrestres.

De jeunes feuilles d'une plante de T. grandis cultivée à Shaoxing, en Chine, ont été collectées en mars 2018 et utilisées pour l'extraction d'ADN selon la méthode CTAB (2%)62. Une bibliothèque d'extrémités appariées (PE) avec une taille d'insertion de 350 pb a été construite à l'aide du kit de préparation d'échantillons d'ADN génomique Illumina en suivant les instructions du fabricant (Illumina) et séquencée sur un système Illumina NovaSeq avec une longueur de lecture de 150 pb. Une bibliothèque PacBio SMRTbell a été construite à l'aide du kit SMRTbell Express Template Prep Kit 2.0 et séquencée sur une plate-forme PacBio Sequel II. Les lectures de consensus circulaires (lectures HiFi) ont été générées à l'aide du logiciel ccs (https://github.com/pacificbiosciences/unanimity/) avec le paramètre '-minPasses 3'. La préparation et le séquençage de la bibliothèque Hi-C ont été réalisés par Novogene (Tianjin, Chine) selon un protocole décrit ailleurs63. En bref, des bibliothèques ont été préparées à l'aide de tissus foliaires fixés dans du formaldéhyde à 2 %. Les noyaux ont été extraits et perméabilisés, et la chromatine a été digérée avec l'enzyme de restriction DpnII (NEB). La chromatine digérée était munie d'extrémités franches et marquée avec de la biotine. La ligature de l'ADN a été réalisée en utilisant l'ADN ligase T4 (NEB), après quoi la protéinase K a été ajoutée pour la réticulation inverse. Les fragments d'ADN ont ensuite été purifiés et séquencés sur une plateforme Illumina NovaSeq avec une longueur de lecture de 2 × 150 pb.

Pour faciliter la prédiction des gènes, un séquençage du transcriptome a été effectué pour des échantillons prélevés sur des tissus de feuilles, de racines, de tiges, de jeunes graines, d'arilles, de téguments et de noyaux de la même plante (données supplémentaires 1). L'ARN total a été extrait à l'aide du réactif TRIzol (Invitrogen) et quantifié avec le spectrophotomètre NanoDrop ND-2000 (NanoDrop Technologies). L'ARNm purifié à partir d'ARN total avec un score RIN ≥ 8 (Bioanalyzer 2100, Agilent Technologies) a été utilisé pour la construction de la bibliothèque avec le kit de préparation de bibliothèque d'ARN NEBNext Ultra II pour Illumina (NEB) en suivant les instructions du fabricant. Les librairies RNA-Seq non brin ont été séquencées sur une plateforme Illumina NovaSeq en mode 2 × 150-bp. Pour PacBio Iso-seq, l'ARN total des tissus des feuilles, des racines, des tiges, des arilles et des noyaux a été regroupé de manière égale et l'ADNc a été synthétisé à l'aide du kit de synthèse d'ADNc SMARTer PCR (Clontech). Le fractionnement et la sélection par taille (1–2, 2–3 et 3–6 kb) ont été effectués à l'aide du système de sélection de taille BluePippin (Sage Science). Les bibliothèques SMRT ont été générées à l'aide du SMRTbell Template Prep Kit 1.0 (Pacific Biosciences) et séquencées sur la plateforme PacBio RSII.

Les lectures HiFi ont été assemblées à l'aide de hifiasm64 (version 0.8-dirty-r280) avec des paramètres par défaut et les contigs assemblés ont été affinés par Racon (https://github.com/lbcb-sci/racon; v1.4.13) avec des lectures Illumina. Purge Haplotigs65 (version v1.1.0) a été utilisé pour filtrer les séquences redondantes dans l'assembly avec les paramètres '-l 15 -m 70 -h 125' pour la sous-commande 'contigcov' et '-a 55' pour la sous-commande 'purge'. Les lectures Illumina des bibliothèques Hi-C ont été traitées avec Trimmomatic66 (v0.36) pour supprimer les adaptateurs et les séquences de faible qualité. Les lectures nettoyées ont été analysées par HiCUP (https://www.bioinformatics.babraham.ac.uk/projects/hicup/) pour identifier les alignements valides non dupliqués, qui ont ensuite été utilisés pour l'échafaudage avec ALLHiC67 (version 0.9.8). L'échafaudage initial a été organisé manuellement à l'aide de Juicebox (https://github.com/aidenlab/Juicebox). L'exhaustivité de l'assemblage a été évaluée à l'aide des lectures de séquençage Illumina, qui ont été cartographiées sur l'assemblage du génome à l'aide de BWA-MEM68.

Les séquences répétitives ont été identifiées à l'aide d'une combinaison de prédictions basées sur l'homologie et de novo. Une bibliothèque TE spécifique à l'espèce pour T. grandis a été construite pour inclure les rétrotransposons LTR (LTR-RT) et d'autres éléments TE identifiés par LTR_Finder69 et RepeatModeler70, respectivement. Cette bibliothèque a ensuite été combinée avec la bibliothèque Repbase71 pour l'identification TE par RepeatMasker72 (v.4.0.7). Les éléments répétitifs ont également été prédits par RepeatProteinMask et les séquences répétitives en tandem ont été identifiées par le programme TRF73. Pour estimer les temps d'insertion des LTR-RT, les LTR-RT intactes ont été recherchées par LTR_Finder et LTR-harvest74. MUSCLE75 a été utilisé pour aligner les séquences LTR de LTR-RT intactes, et la distance nucléotidique (K) entre elles a été calculée avec le critère à deux paramètres de Kimura en utilisant le programme distmat dans le package EMBOSS (http://emboss.sourceforge.net). Le temps d'insertion (T) a été calculé comme

où le taux de substitution de nucléotides (r) utilisé pour les espèces de gymnospermes était de 2,2 × 10−9 par base par an11. Les répétitions centromériques putatives ont été déterminées sur la base du nombre de copies et de la distribution chromosomique des répétitions en tandem identifiées par TRF.

Les gènes codant pour les protéines ont été prédits à l'aide de séquences génomiques masquées répétées. Pour la prédiction basée sur l'homologie, les séquences protéiques d'une mousse (Physcomitrella patens), d'une fougère (Selaginella moellendorffii), de sept angiospermes (Amborella trichopoda, Arabidopsis thaliana, Oryza sativa, Phalaenopsis equestris, Populus trichocarpa, Vitis vinifera et Zea mays) et de quatre gymnospermes (Ginkgo biloba, Gnetum montanum, Pic ea abies et Pinus taeda) ont été alignés sur le génome de T. grandis à l'aide de TBLASTN76 avec un seuil de valeur e de 1E−5. GenBlastA77 a ensuite été appliqué pour regrouper des paires adjacentes à score élevé provenant des mêmes alignements de protéines, et les structures de gènes correspondantes ont été identifiées avec GeneWise78 (v.2.4.1). Les lectures brutes d'ARN-Seq ont été nettoyées avec Trimmomatic66 (v0.36) et cartographiées sur le génome de T. grandis à l'aide de TopHat279. Par la suite, Cufflinks80 (v.2.2.1) a été utilisé pour prédire les modèles de gènes. Les lectures RNA-Seq nettoyées ont également été utilisées pour prédire les structures des gènes avec Trinity81 (v2.0.13) et PASA82 (v2.2.0). Toutes les structures génétiques complètes prédites par le pipeline PASA ont été utilisées pour la formation de modèles génétiques pour AUGUSTUS83, GlimmerHMM84 et SNAP85. Ces trois prédicteurs ainsi que geneid86 et GENSCAN87 ont été utilisés pour la prédiction de gène ab initio avec des paramètres par défaut, sauf que '-noInFrameStop=true -genemodel=complete' a été appliqué à AUGUSTUS. Enfin, tous les modèles de gènes prédits avec différentes approches ont été intégrés pour générer un ensemble de gènes de haute confiance à l'aide d'EVidenceModeler88 avec la matrice de score de poids suivante : PASA, 100 ; GeneWise, 20 ans ; Boutons de manchette, 20 ; AUGUSTE, 5 ; autres prédicteurs ab initio, 1.

Pour évaluer l'exactitude des gènes prédits, nous avons examiné la couverture des gènes hautement conservés à l'aide de BUSCO19. Nous avons en outre effectué une annotation fonctionnelle des modèles de gènes prédits par T. grandis en recherchant dans les bases de données Kyoto Encyclopedia of Genes and Genomes (KEGG; https://www.genome.jp/kegg/)89, SwissProt et TrEMBL (https://www.uniprot.org/) en utilisant BLASTP avec un seuil de valeur e de 1E-5, et les meilleurs résultats d'alignement ont été utilisés pour attribuer des fonctions géniques basées sur l'homologie. Les catégories GO (http://geneontology.org/) et les entrées InterPro (https://www.ebi.ac.uk/interpro/) ont été obtenues via InterProScan90.

La transcription la plus longue de chacun des gènes codant pour les protéines de 18 espèces représentatives (Taxus wallichiana, Amborella trichopoda, Arabidopsis thaliana, Ginkgo biloba, Gnetum montanum, Welwitschia mirabilis, Oryza sativa, Solanum lycopersicum, Physcomitrella patens, Pinus tabuliformis, Selaginella moellendorffii, Vitis vinifera, Sequoiadendron gig anteum, Azolla filiculoides, Klebsormidium flaccidum, Chara braunii, Marchantia polymorpha et Penium margaritaceum) et T. grandis ont été sélectionnés pour construire des familles de gènes basées sur des alignements BLASTP tous contre tous à l'aide d'OrthoFinder91. Des analyses phylogénétiques ont été effectuées à l'aide de IQ-TREE92 (v. 2.1.3). Sur la base de l'analyse MRCA utilisant CAFE93 (v.4.2.1), nous avons déterminé l'expansion et la contraction des familles de gènes entre les espèces existantes et leurs derniers ancêtres communs.

La recherche BLASTP tous contre tous a été effectuée avec un seuil de valeur e de 1E-5. Les cinq meilleurs alignements ont été sélectionnés pour chaque gène et utilisés pour détecter les paires de gènes synténiques situées dans des blocs colinéaires avec MCScanX94. Les paires de gènes paralogues ont été déterminées par les meilleurs alignements BLASTP réciproques. Ks de chaque paire de gènes synténiques ou paralogues a été calculé à l'aide de YN00 dans le package PAML 4.8a95 avec les paramètres par défaut. L'inférence basée sur la phylogénie de WGD a été réalisée sur la base de la réconciliation de chaque arbre génétique et de l'arbre des espèces.

L'ARN total (3 μg) des feuilles a été isolé pour la construction d'une petite bibliothèque d'ARN à l'aide du NEB Next® Multiplex Small RNA Library Prep Set for Illumina® (NEB, USA) conformément aux recommandations du fabricant. Les fragments d'ADN de la bibliothèque construite dans la plage de 140 à 160 pb ont été récupérés et la bibliothèque a été évaluée sur un système Agilent Bioanalyzer 2100, puis séquencée sur une plate-forme Illumina HiSeq 2500. Les lectures brutes de la petite bibliothèque d'ARN ont été traitées avec Trimmomatic66 (v0.36) pour supprimer les adaptateurs, puis alignées sur le génome de référence à l'aide de Bowtie96 sans aucune incompatibilité autorisée.

Les graines de T. grandis ont été collectées sur un seul arbre le 8 mars (stade 1), le 24 mars (stade 2) et le 8 avril (stade 3) de l'année 2021 pour le séquençage du bisulfite et du transcriptome. Environ 100 ng d'ADN génomique de haute qualité dopé avec 0,5 ng d'ADN lambda ont été soniqués avec Covaris S220 (paramètres : PIP, 50 W ; facteur de service, 20 ; cycles par rafale, 200 ; temps de traitement, 110 s ; température, 20 °C ; volume d'échantillon, 52 μL). L'ADN fragmenté (200 à 300 pb) a été traité avec du bisulfite à l'aide du kit EZ DNA Methylation-GoldTM (Zymo Research), et la qualité de la bibliothèque a été évaluée et séquencée sur la plateforme Illumina NovaSeq avec le mode apparié.

Les lectures brutes ont été nettoyées avec Trimmomatic66 (v0.36) pour supprimer les adaptateurs et les séquences de mauvaise qualité. Pour aligner les lectures nettoyées, le génome de référence et les lectures ont été transformés (C-to-T et G-to-A) puis alignés avec Bismark97 (version 0.16.3) avec les paramètres "-X 700 –dovetail". Les lectures qui ont produit un meilleur alignement unique contre les brins "Watson" et "Crick" du génome ont été conservées et l'état de méthylation de tous les nucléotides de la cytosine a été déduit. Le taux de conversion du bisulfite de sodium a été estimé sur la base des alignements de lecture sur le génome lambda. Les sites méthylés ont été identifiés par un test binomial utilisant les comptages méthylés (mC), les comptages totaux (mC+umC) et le taux de conversion (r). Les sites avec une valeur P corrigée par FDR < 0,05 ont été considérés comme des sites méthylés. Pour calculer le niveau de méthylation du génome entier, nous avons divisé le génome en bacs de 10 kb, et le niveau de méthylation de chaque fenêtre a été calculé comme count(mC)/(count(mC) + count(umC)). Les régions différentiellement méthylées (DMR) ont été identifiées à l'aide du logiciel DSS98 sous le seuil de valeur P de 0,05. Les DMR ont été catalogués en fonction de leur chevauchement avec les gènes et de la manière dont ils se chevauchaient. Les sites de cytosine continus à travers le génome de T. grandis avec un niveau de méthylation < 5 % dans tous les contextes ont été fusionnés et définis comme des vallées de déméthylation.

Des cônes mâles ont été collectés sur l'arbre T. grandis à huit stades différents en février et avril 2021 avec un intervalle de temps de 7 jours, et des cônes femelles ont été collectés à six stades différents en janvier et avril 2021 avec un intervalle de temps de 16 jours. D'autres échantillons, y compris le noyau, la feuille, la racine et la tige, ont été prélevés sur le même arbre. Chaque échantillonnage a été réalisé avec trois répétitions biologiques. L'ARN total a été extrait à l'aide du réactif TRIzol (Invitrogen). Les bibliothèques d'ARN-Seq ont été construites avec le kit de préparation de bibliothèque d'ARN NEBNext Ultra II pour Illumina (NEB) en suivant les instructions du fabricant et séquencées sur une plate-forme Illumina NovaSeq en mode 2 × 150 pb. Les lectures brutes d'ARN-Seq ont été nettoyées à l'aide de Trimmomatic66 (v0.36). Les lectures nettoyées ont été cartographiées sur le génome à l'aide de STAR aligner99 (v2.7.10a). Les alignements ont été comptés à l'aide de HTSeq-count100 et les gènes exprimés de manière différentielle ont été identifiés avec DESeq2 (réf. 101) sous le seuil de P ajusté ≤ 0, 01 et de changement de facteur ≥ 2.

Les HGT potentiels ont été identifiés sur la base des scores d'homologie et des signaux de phylogénie102. En bref, nous avons créé trois bases de données personnalisées, à savoir une base de données hors groupe comprenant toutes les séquences de protéines d'archaea, de bactéries et de champignons, une base de données en groupe comprenant des séquences de protéines de 10 espèces de gymnospermes publiées et une base de données de groupe intermédiaire composée de séquences de toutes les plantes publiées à l'exclusion des gymnospermes. Les séquences protéiques de T. grandis ont été comparées séparément aux trois bases de données personnalisées avec un seuil de valeur e de 1E-5. Pour chaque séquence de protéine de requête, nous n'avons pas conservé plus de 100 coups de souffle (un coup par espèce) pour chaque base de données et calculé la valeur moyenne du bit-score (ABV) des alignements. Les protéines de requête avec l'ABV du groupe externe supérieur à celui du groupe médian ont été conservées. Nous avons effectué des analyses phylogénétiques rigoureuses pour chacune des protéines de requête restantes et inspecté manuellement la topologie de l'arbre. Les gènes de T. grandis pris en charge à la fois par l'ABV et la phylogénie ont été considérés comme des gènes potentiellement transférés horizontalement.

Environ 0,5 g d'échantillons séchés ont été mélangés avec 9 ml de solution H2SO4-CH3OH à 10 % à température ambiante pendant 10 h. Les esters méthyliques d'acides gras ont été filtrés puis extraits avec 30 mL d'eau distillée et 30 mL de dichlorométhane. La phase organique a été séchée avec du sulfate de sodium anhydre et concentrée à environ 1 ml avec une soufflante d'azote. L'extrait concentré a été utilisé pour l'analyse des acides gras par chromatographie en phase gazeuse (GC; Thermo Scientific TRACE-1300, Italie) avec l'acide gras méthylique utilisé comme étalon interne. La séparation GC a été effectuée à l'aide d'une colonne GC capillaire Agilent DB-WAX (30 m × 0,25 mm et 0,25 μm d'épaisseur de film), et 1 μl de chaque échantillon a été injecté en mode fractionné avec un rapport de 1:20. De l'hélium ultra-pur a été utilisé comme gaz porteur. Les températures du port d'injection et du détecteur ont été fixées à 220 °C et 240 °C, respectivement. La programmation de la température de la colonne a commencé à 140 °C maintenue pendant 1 min et chauffée jusqu'à 250 °C à une vitesse de 4 °C/min. La température de la colonne a été maintenue pendant 2 minutes à 250°C.

Le CDS de chaque gène, sans codon stop, a été cloné et fusionné à l'extrémité N-terminale du gène GFP du vecteur pCAMBIA1300-GFP. Le plasmide résultant a été introduit dans Agrobacterium tumefaciens GV3101. Les clones positifs ont été incubés à une DO600 de 0,6, puis centrifugés à 8000 tr/min pendant 6 min. Les cellules collectées ont été remises en suspension avec un tampon d'infiltration (MgCl2 10 mM, acétosyringone 0,2 mM et MES 10 mM à pH 5,6), qui a ensuite été injecté dans les feuilles de Nicotiana benthamiana. Après 3 jours de culture, le signal de fluorescence GFP des feuilles a été observé et capturé à l'aide de la microscopie confocale à balayage laser (LSM510 : Karl Zeiss).

L'ARN total a été extrait à l'aide du kit RNAprep pure Plant (TIANGEN). L'ADNc premier brin a été synthétisé à partir de 1 μg d'ARN total à l'aide du kit PrimeScriptTM RT Master Mix (Takara). Le kit SYBR Premix Ex Taq™ (Takara) a été utilisé pour effectuer une PCR quantitative en temps réel. Les données d'expression des gènes cibles ont été corrigées avec l'expression du gène codant pour l'actine. Les conditions de réaction étaient de 95 °C pendant 10 s, 55 °C pendant 10 s, 72 °C pendant 20 s, 45 cycles. L'expression relative a été calculée en utilisant la méthode 2-ΔΔCt.

Les régions codantes de TgEOL1, TgDES1, AtSLD2 (AT2G46210) et deux gènes recombinants (AtSLD2-Motif2 et AtSLD2-Motif3) ont été insérées en aval du promoteur 35S du vecteur binaire (pCAMBIA1300), respectivement. Chacune des constructions résultantes a été transformée dans la souche GV3101 d'Agrobactrium tumefaciens, qui a ensuite été cultivée à 28 °C dans un milieu LB additionné de kanamycine (50 mg/L) et de rifampicilline (50 mg/L) jusqu'à ce que la DO600 atteigne 0,6. Pour l'expression transitoire de AtSLD2 et de deux gènes recombinants dans les feuilles de N. benthamiana, les cellules ont été récoltées et remises en suspension dans un tampon MES 10 mM (contenant 10 mM MgCl2 et 0,1 mM acétosyringone) jusqu'à une DO600 finale de 1,0. Les cellules de chaque souche ont été infiltrées dans les jeunes feuilles de plantes N. benthamiana âgées de cinq semaines à l'aide d'une seringue sans aiguille, qui ont été récoltées 5 jours plus tard pour mesurer la teneur en SCA. Pour la génération d'Arabidopsis surexprimé par TgDES1 et TgELO1, les constructions pCAMBIA1300-TgELO1 et pCAMBIA1300-TgELO1 ont été transformées en Arabidopsis via la méthode de trempage floral médiée par A. tumefaciens. Des plantes T1 résistantes à l'hygromycine ont été plantées pour la récolte des graines, et des graines T2 avec un rapport de résistance à l'hygromycine de 3: 1 ont été sélectionnées pour collecter les graines T3. Des graines T3 avec 100% de résistance à l'hygromycine ont été utilisées pour la détermination de la teneur en SCA.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

L'assemblage du génome et les lectures brutes pour le séquençage du génome, du transcriptome et du méthylome ont été déposés dans la base de données BioProject du National Center for Biotechnology Information sous l'accession PRJNA938254 et dans le CNGB Sequence Archive (CNSA) de la China National GeneBank DataBase (CNGBdb) sous l'accession CNP0003453. L'assemblage et l'annotation du génome sont également disponibles sur Figshare [https://doi.org/10.6084/m9.figshare.21089869]. Les données sources sont fournies avec ce document.

Li, HT et al. Origine des angiospermes et énigme de la brèche jurassique. Nat. Plantes 5, 461–470 (2019).

Article PubMed Google Scholar

De La Torre, AR et al. Évolution fonctionnelle et morphologique chez les gymnospermes : un portrait des familles de gènes impliquées. Évol. Appl 13, 210-227 (2020).

Article PubMed Google Scholar

Linkies, A., Graeber, K., Knight, C. & Leubner-Metzger, G. L'évolution des graines. N. Phytol. 186, 817–831 (2010).

Article CAS Google Scholar

Chen, X. & Jin, H. Examen de la culture et du développement de la torreya chinoise en Chine. Trees Livelihoods 28, 68–78 (2019).

Article Google Scholar

Wang, H., Guo, T. & Ying, GQ Progrès dans les études sur les constituants actifs et leurs activités pharmacologiques pour les plantes de Torreya Arn. Menton. Tradition. Herbe. Drogues 38, 1748–1750 (2007).

Google Scholar

Wu, J. et al. Le séquençage de novo du transcriptome de Torreya grandis révèle la régulation des gènes dans la voie de biosynthèse de l'acide sciadonique. Ind. Cultures Prod. 120, 47–60 (2018).

Article CAS Google Scholar

Lui, Z. et al. Composants chimiques des huiles de noyau pressées à froid de différents cultivars de Torreya grandis. Chimie alimentaire. 209, 196–202 (2016).

Article CAS PubMed Google Scholar

Berger, A. et al. Propriétés anti-inflammatoires épidermiques du 5,11,14 20:3 : effets sur l'œdème de l'oreille de la souris, les niveaux de PGE2 dans les kératinocytes en culture et l'activation des PPAR. Lipides Santé Dis. 1, 5 (2002).

Article PubMed PubMed Central Google Scholar

Pédrono, F. et al. Acide sciadonique dérivé de pignons de pin comme composant alimentaire pour réduire les triglycérides plasmatiques en inhibant la Δ9-désaturase hépatique du rat. Sci. Rep. 10, 6223 (2020).

Article ADS PubMed PubMed Central Google Scholar

Endo, Y., Osada, Y., Kimura, F. et Fujimoto, K. Effets de l'huile de graines de torreya japonaise (Torreya nucifera) sur le métabolisme des lipides chez le rat. Nutrition 22, 553-558 (2006).

Article CAS PubMed Google Scholar

Song, L. et al. Avancées sur les acides gras interrompus delta 5-polyméthylène insaturés: ressources, biosynthèse et avantages. Crit. Rev Food Sci. Nutr. 63, 767–789 (2023).

Aitzetmüller, K. Un schéma inhabituel d'acides gras dans l'huile de graines d'Eranthis. Lipides 31, 201-205 (1996).

Article PubMed Google Scholar

Niu, S. et al. Le génome et le méthylome du pin chinois dévoilent les principales caractéristiques de l'évolution des conifères. Cellule 185, 204–217.e14 (2022).

Article CAS PubMed Google Scholar

Nystedt, B. et al. La séquence du génome de l'épinette de Norvège et l'évolution du génome des conifères. Nature 497, 579-584 (2013).

Article ADS CAS PubMed Google Scholar

Liu, H. et al. Le génome presque complet du Ginkgo biloba éclaire l'évolution des gymnospermes. Nat. Plantes 7, 748–756 (2021).

Article CAS PubMed Google Scholar

Wan, T. et al. Le génome de Welwitschia révèle une biologie unique qui sous-tend une extrême longévité dans les déserts. Nat. Commun. 12, 4247 (2021).

Article ADS CAS PubMed PubMed Central Google Scholar

Liu, Y. et al. Le génome de Cycas et l'évolution précoce des plantes à graines. Nat. Plantes 8, 389–401 (2022).

Article CAS PubMed PubMed Central Google Scholar

Cheng, J. et al. Le génome au niveau des chromosomes de l'if de l'Himalaya donne un aperçu de l'origine et de l'évolution de la voie de biosynthèse du paclitaxel. Mol. Usine 14, 1199-1209 (2021).

Article CAS PubMed Google Scholar

Xiong, X. et al. Le génome de Taxus fournit des informations sur la biosynthèse du paclitaxel. Nat. Plantes 7, 1026–1036 (2021).

Article CAS PubMed PubMed Central Google Scholar

Rhie, A., Walenz, BP, Koren, S. & Phillippy, AM Merqury : évaluation sans référence de la qualité, de l'exhaustivité et de la mise en phase des assemblages de génomes. Génome Biol. 21, 245 (2020).

Article CAS PubMed PubMed Central Google Scholar

Manni, M., Berkeley, MR, Seppey, M., Simão, FA & Zdobnov, EM Mise à jour de BUSCO : flux de travail nouveaux et rationalisés avec une couverture phylogénétique plus large et plus approfondie pour la notation des génomes eucaryotes, procaryotes et viraux. Mol. Biol. Évol. 38, 4647–4654 (2021).

Article CAS PubMed PubMed Central Google Scholar

Ou, S., Chen, J. & Jiang, N. Évaluation de la qualité de l'assemblage du génome à l'aide de l'indice d'assemblage LTR (LAI). Acides nucléiques Res 46, e126 (2018).

PubMed PubMed Central Google Scholar

Steinthorsdottir, M. et al. Le Miocène : l'avenir du passé. Paléoocéangr. Paléoclimatol. 36, e2020PA004037 (2021).

Article Google Scholar

El Baidouri, M. & Panaud, O. La paléontologie génomique comparative à travers le règne végétal révèle la dynamique de l'évolution du génome induite par TE. Génome Biol. Évol. 5, 954–965 (2013).

Article PubMed PubMed Central Google Scholar

Matzke, MA & Mosher, RA Méthylation de l'ADN dirigée par l'ARN : une voie épigénétique de complexité croissante. Nat. Révérend Genet. 15, 394–408 (2014).

Article CAS PubMed Google Scholar

Nakamura, M., Köhler, C. & Hennig, L. Petits ARN associés au transposon spécifiques aux tissus dans l'arbre gymnosperme, épinette de Norvège. BMC Génom. 20 997 (2019).

Article CAS Google Scholar

Van de Peer, Y., Mizrachi, E. & Marchal, K. La signification évolutive de la polyploïdie. Nat. Révérend Genet. 18, 411–424 (2017).

Article PubMed Google Scholar

Leebens-Mack, JH et al. Mille transcriptomes végétaux et la phylogénomique des plantes vertes. Nature 574, 679–685 (2019).

Article Google Scholar

Sun, X. et al. Génome et évolution du champignon mycorhizien à arbuscules Diversispora epigaea (anciennement Glomus versiforme) et de ses endosymbiontes bactériens. N. Phytol. 221, 1556-1573 (2019).

Article CAS Google Scholar

Jiao, C. et al. Le génome de Penium margaritaceum : caractéristiques de l'origine des plantes terrestres. Cellule 181, 1097–1111.e12 (2020).

Article CAS PubMed Google Scholar

Bowman, JL et al. Aperçu de l'évolution des plantes terrestres tiré du génome de Marchantia polymorpha. Cellule 171, 287–304.e15 (2017).

Article CAS PubMed Google Scholar

Bouché, F., Lobet, G., Tocquin, P. & Périlleux, C. FLOR-ID : une base de données interactive des réseaux de gènes de floraison chez Arabidopsis thaliana. Nucleic Acids Res. 44, D1167–D1171 (2016).

Article PubMed Google Scholar

Li, LX et al. Arabidopsis thaliana NOP10 est nécessaire à la formation des gamétophytes. J. Intégr. Végétal Biol. 60, 723–736 (2018).

Article CAS PubMed Google Scholar

Schoof, H. et al. La population de cellules souches des méristèmes des pousses d'Arabidopsis est maintenue par une boucle régulatrice entre les gènes CLAVATA et WUSCHEL. Cellule 100, 635–644 (2000).

Article CAS PubMed Google Scholar

Soltis, DE, Chanderbali, AS, Kim, S., Buzgo, M. & Soltis, PS Le modèle ABC et son applicabilité aux angiospermes basaux. Ann. Bot. 100, 155-163 (2007).

Article CAS PubMed PubMed Central Google Scholar

Dreni, L. & Zhang, D. Développement des fleurs : histoire évolutive et fonctions des gènes MADS-box de la sous-famille AGL6. J. Exp. Bot. 67, 1625-1638 (2016).

Article CAS PubMed Google Scholar

Kong, X. et al. Le gène MADS‐box de type AGL6 du blé est un régulateur principal de l'identité des organes floraux et une cible pour la manipulation du développement du méristème de l'épillet. Biotechnologie Végétale. J. 20, 75–88 (2022).

Article CAS PubMed Google Scholar

Zhang, L. et al. Le génome du nénuphar et l'évolution précoce des plantes à fleurs. Nature 577, 79–84 (2020).

Article ADS CAS PubMed Google Scholar

Chanderbali, AS et al. La conservation et la canalisation de l'expression des gènes lors de la diversification des angiospermes accompagnent l'origine et l'évolution de la fleur. Proc. Natl Acad. Sci. États-Unis 107, 22570–22575 (2010).

Article ADS CAS PubMed PubMed Central Google Scholar

Souza, PFN Les protéines d'albumine 2S oubliées : importance, structure et application biotechnologique en agriculture et en santé humaine. Int. J. Biol. Macromol. 164, 4638–4649 (2020).

Article CAS PubMed Google Scholar

Tandang-Silvas, MR et al. Conservation et divergence sur les globulines 11S de graines de plantes basées sur les structures cristallines. Biochim. Biophys. Acta 1804, 1432-1442 (2010).

Article CAS PubMed Google Scholar

Cheng, S. et al. Les génomes des Zygnematophyceae subaériennes donnent un aperçu de l'évolution des plantes terrestres. Cellule 179, 1057–1067.e14 (2019).

Article CAS PubMed Google Scholar

Weng, JK & Chapple, C. L'origine et l'évolution de la biosynthèse de la lignine. N. Phytol. 187, 273–285 (2010).

Article CAS Google Scholar

Yamaguchi, M. et al. VASCULAR-RELATED NAC-DOMAIN6 et VASCULAR-RELATED NAC-DOMAIN7 induisent efficacement la transdifférenciation en éléments vasculaires du xylème sous le contrôle d'un système d'induction. Physique Végétale. 153, 906–914 (2010).

Article CAS PubMed PubMed Central Google Scholar

Zhong, R., Richardson, EA & Ye, ZH Deux facteurs de transcription du domaine NAC, SND1 et NST1, fonctionnent de manière redondante dans la régulation de la synthèse de la paroi secondaire dans les fibres d'Arabidopsis. Plante 225, 1603–1611 (2007).

Article CAS PubMed Google Scholar

Jokipii-Lukkari, S. et al. NorWood: une ressource d'expression génétique pour les études evo-devo du développement du bois de conifères. N. Phytol. 216, 482–494 (2017).

Article Google Scholar

Meesapyodsuk, D. & Qiu, X. La désaturase frontale : structure, fonction, évolution et utilisation biotechnologique. Lipides 47, 227–237 (2012).

Article CAS PubMed Google Scholar

Sayanova, O., Haslam, R., Venegas Caleron, M. & Napier, JA Clonage et caractérisation de désaturases d'acides gras inhabituelles d'Anemone leveillei : identification d'une acyl-coenzyme A C20 Δ5-désaturase responsable de la synthèse de l'acide sciadonique. Physique Végétale. 144, 455–467 (2007).

Article CAS PubMed PubMed Central Google Scholar

Xue, JA et al. L'expression de l'acyl-CoA-∆9 désaturase de levure conduit à l'accumulation d'acides gras monoinsaturés inhabituels dans les graines de soja. Biotechnol. Lett. 35, 951–959 (2013).

Article CAS PubMed Google Scholar

Lim, ZL, Senger, T. & Vrinten, P. Quatre résidus d'acides aminés influencent la longueur de la chaîne du substrat et la régiosélectivité des désaturases Δ4 et Δ5/6 de Siganus canaliculatus. Lipides 49, 357–367 (2014).

Article CAS PubMed Google Scholar

Buček, A., Vazdar, M., Tupec, M., Svatoš, A. & Pichová, I. La spécificité de la désaturase est contrôlée par les propriétés physicochimiques d'un seul résidu d'acide aminé dans le tunnel de liaison au substrat. Calcul. Structure. Biotechnol. J. 18, 1202-1209 (2020).

Article PubMed PubMed Central Google Scholar

Chen, M. et al. Les régions hypométhylées du génome des graines sont enrichies en gènes de facteurs de transcription. Proc. Natl Acad. Sci. États-Unis 115, E8315–E8322 (2018).

Article CAS PubMed PubMed Central Google Scholar

Niederhuth, CE et al. Variation naturelle généralisée de la méthylation de l'ADN dans les angiospermes. Génome Biol. 17, 194 (2016).

Article PubMed PubMed Central Google Scholar

Austin, I. et al. Méthylome d'ADN du génome de l'épinette de Norvège de 20 gigabases. Proc. Natl Acad. Sci. États-Unis 113, E8106–E8113 (2016).

Article CAS PubMed PubMed Central Google Scholar

Bewick, AJ & Schmitz, RJ Méthylation de l'ADN du corps génique chez les plantes. Courant. Avis. Végétal Biol. 36, 103-110 (2017).

Article CAS PubMed PubMed Central Google Scholar

Takuno, S., Ran, JH & Gaut, BS Les schémas évolutifs de méthylation génique de l'ADN varient selon les plantes terrestres. Nat. Plantes 2, 15222 (2016).

Article CAS PubMed Google Scholar

Lin, JY et al. La similarité entre les méthylomes des graines de soja et d'Arabidopsis et la perte de méthylation non-CG n'affectent pas le développement des graines. Proc. Natl Acad. Sci. États-Unis 114, E9730–E9739 (2017).

Article CAS PubMed PubMed Central Google Scholar

Chen, F., Tobimatsu, Y., Havkin-Frenkel, D., Dixon, RA et Ralph, J. Un polymère d'alcool caféylique dans les graines de plantes. Proc. Natl Acad. Sci. États-Unis 109, 1772–1777 (2012).

Article ADS CAS PubMed PubMed Central Google Scholar

Hiraide, H. et al. L'activité laccase localisée module la distribution des polymères de lignine dans le bois de compression des gymnospermes. N. Phytol. 230, 2186–2199 (2021).

Article CAS Google Scholar

Cosgrove, DJ Relâchement des parois cellulaires végétales par les expansines. Nature 407, 321–326 (2000).

Article ADS CAS PubMed Google Scholar

Vigeolas, H., van Dongen, JT, Waldeck, P., Huhn, D. & Geigenberger, P. Le métabolisme de stockage des lipides est limité par les faibles concentrations d'oxygène qui prévalent dans les graines de colza en développement. Physique Végétale. 133, 2048-2060 (2003).

Article CAS PubMed PubMed Central Google Scholar

Murray, MG & Thompson, WF Isolement rapide de l'ADN végétal de haut poids moléculaire. Nucleic Acids Res. 8, 4321–4325 (1980).

Article CAS PubMed PubMed Central Google Scholar

Zhu, W. et al. La compaction altérée de la chromatine et la méthylation des histones entraînent l'expression génique non additive dans un hybride interspécifique d'Arabidopsis. Génome Biol. 18, 157 (2017).

Article PubMed PubMed Central Google Scholar

Cheng, H., Concepcion, GT, Feng, X., Zhang, H. & Li, H. Assemblage de novo résolu par haplotype à l'aide de graphes d'assemblage par phases avec hifiasme. Nat. Méthodes 18, 170–175 (2021).

Article CAS PubMed PubMed Central Google Scholar

Roach, MJ, Schmidt, S. & Borneman, AR Purge Haplotigs : réduction de la synténie pour les assemblages de génomes diploïdes de troisième génération. BMC Bioinforma. 19, 460 (2018).

Article CAS Google Scholar

Bolger, AM, Lohse, M. & Usadel, B. Trimmomatic : un trimmer flexible pour les données de séquence Illumina. Bioinformatique 30, 2114–2120 (2014).

Article CAS PubMed PubMed Central Google Scholar

Zhang, X., Zhang, S., Zhao, Q., Ming, R. et Tang, H. Assemblage de génomes autopolyploïdes à l'échelle chromosomique conscients des allèles basés sur des données Hi-C. Nat. Plantes 5, 833–845 (2019).

Article CAS PubMed Google Scholar

Li, H. & Durbin, R. Alignement de lecture rapide et précis avec la transformée de Burrows-Wheeler. Bioinformatique 25, 1754–1760 (2009).

Article CAS PubMed PubMed Central Google Scholar

Xu, Z. & Wang, H. LTR_FINDER : un outil efficace pour la prédiction des rétrotransposons LTR pleine longueur. Nucleic Acids Res. 35, W265–W268 (2007).

Article PubMed PubMed Central Google Scholar

Flynn, JM et al. RepeatModeler2 pour la découverte génomique automatisée de familles d'éléments transposables. Proc. Natl Acad. Sci. États-Unis 117, 9451–9457 (2020).

Article ADS CAS PubMed PubMed Central Google Scholar

Bao, W., Kojima, KK & Kohany, O. Repbase Update, une base de données d'éléments répétitifs dans les génomes eucaryotes. Foule. ADN 6, 11 (2015).

Article PubMed PubMed Central Google Scholar

Tarailo-Graovac, M. & Chen, N. Utilisation de RepeatMasker pour identifier les éléments répétitifs dans les séquences génomiques. Courant. Protocole Bioinforma. 25, Chapitre 4 : Unité 4.10 (2009).

Article Google Scholar

Benson, G. Tandem répète finder : un programme pour analyser les séquences d'ADN. Nucleic Acids Res. 27, 573–580 (1999).

Article CAS PubMed PubMed Central Google Scholar

Ellinghaus, D., Kurtz, S. & Willhoeft, U. LTRharvest, un logiciel efficace et flexible pour la détection de novo des rétrotransposons LTR. BMC Bioinforma. 9, 18 (2008).

Article Google Scholar

Edgar, RC MUSCLE : alignement de séquences multiples avec une grande précision et un haut débit. Nucleic Acids Res. 32, 1792–1797 (2004).

Article CAS PubMed PubMed Central Google Scholar

Altschul, SF, Gish, W., Miller, W., Myers, EW & Lipman, DJ Outil de recherche d'alignement local de base. J. Mol. Biol. 215, 403–410 (1990).

Article CAS PubMed Google Scholar

Elle, R., Chu, JS, Wang, K., Pei, J. et Chen, N. GenBlastA : permettant à BLAST d'identifier des séquences de gènes homologues. Génome Res. 19, 143–149 (2009).

Article CAS PubMed PubMed Central Google Scholar

Birney, E., Clamp, M. & Durbin, R. GeneWise et genomewise. Génome Res. 14, 988–995 (2004).

Article CAS PubMed PubMed Central Google Scholar

Trapnell, C., Pachter, L. & Salzberg, SL TopHat : découverte des jonctions d'épissage avec ARN-Seq. Bioinformatique 25, 1105-1111 (2009).

Article CAS PubMed PubMed Central Google Scholar

Roberts, A., Pimentel, H., Trapnell, C. & Pachter, L. Identification de nouveaux transcrits dans des génomes annotés à l'aide d'ARN-Seq. Bioinformatique 27, 2325–2329 (2011).

Article CAS PubMed Google Scholar

Grabherr, MG et al. Assemblage du transcriptome complet à partir de données RNA-Seq sans génome de référence. Nat. Biotechnol. 29, 644–652 (2011).

Article CAS PubMed PubMed Central Google Scholar

Haas, BJ et al. Amélioration de l'annotation du génome d'Arabidopsis à l'aide d'assemblages d'alignement maximal de transcrits. Nucleic Acids Res. 31, 5654–5666 (2003).

Article CAS PubMed PubMed Central Google Scholar

Stanke, M. et al. AUGUSTUS : prédiction ab initio de transcrits alternatifs. Nucleic Acids Res. 34, W435–W439 (2006).

Article CAS PubMed PubMed Central Google Scholar

Pertea, M., Salzberg, SL & Majoros, WH TigrScan et GlimmerHMM : deux détecteurs de gènes eucaryotes ab initio open source. Bioinformatique 20, 2878–2879 (2004).

Article PubMed Google Scholar

Korf, I. Découverte de gènes dans de nouveaux génomes. BMC Bioinforma. 5, 59 (2004).

Article Google Scholar

Alioto, T., Blanco, E., Parra, G. & Guigó, R. Utilisation de geneid pour identifier les gènes. Courant. Protocole Bioinforma. 64, e56 (2018).

Article Google Scholar

Burge, C. & Karlin, S. Prédiction de structures génétiques complètes dans l'ADN génomique humain. J. Mol. Biol. 268, 78–94 (1997).

Article CAS PubMed Google Scholar

Haas, BJ et al. Annotation automatisée de la structure des gènes eucaryotes à l'aide d'EVidenceModeler et du programme d'assemblage d'alignements épissés. Génome Biol. 9, R7 (2008).

Article PubMed PubMed Central Google Scholar

Morishima, K., Tanabe, M., Furumichi, M., Kanehisa, M. & Sato, Y. KEGG : nouvelles perspectives sur les génomes, les voies, les maladies et les médicaments. Nucleic Acids Res. 45, 353–361 (2016).

Google Scholar

Mitchell, A. et al. InterProScan 5 : classification de la fonction des protéines à l'échelle du génome. Bioinformatique 30, 1236-1240 (2014).

Article PubMed PubMed Central Google Scholar

Emms, DM & Kelly, S. OrthoFinder : inférence d'orthologie phylogénétique pour la génomique comparative. Génome Biol. 20, 238 (2019).

Article PubMed PubMed Central Google Scholar

Nguyen, LT, Schmidt, HA, von Haeseler, A. & Minh, BQ IQ-TREE : un algorithme stochastique rapide et efficace pour estimer les phylogénies à vraisemblance maximale. Mol. Biol. Évol. 32, 268-274 (2015).

Article CAS PubMed Google Scholar

De Bie, T., Cristianini, N., Demuth, JP & Hahn, MW CAFE : un outil informatique pour l'étude de l'évolution de la famille de gènes. Bioinformatique 22, 1269-1271 (2006).

Article PubMed Google Scholar

Wang, Y. et al. MCScanX : une boîte à outils pour la détection et l'analyse évolutive de la synténie et de la colinéarité des gènes. Nucleic Acids Res. 40, 49 (2012).

Annonces d'article Google Scholar

Yang, Z. PAML 4 : analyse phylogénétique par maximum de vraisemblance. Mol. Biol. Évol. 24, 1586-1591 (2007).

Article CAS PubMed Google Scholar

Langmead, B., Trapnell, C., Pop, M. & Salzberg, SL Alignement ultrarapide et efficace en mémoire de courtes séquences d'ADN sur le génome humain. Génome Biol. 10, R25 (2009).

Article PubMed PubMed Central Google Scholar

Krueger, F. & Andrews, SR Bismark : un aligneur flexible et un appelant de méthylation pour les applications Bisulfite-Seq. Bioinformatique 27, 1571-1572 (2011).

Article CAS PubMed PubMed Central Google Scholar

Park, Y. & Wu, H. Analyse de méthylation différentielle pour les données BS-seq sous un plan expérimental général. Bioinformatique 32, 1446–1453 (2016).

Article CAS PubMed Google Scholar

Dobin, A. et al. STAR : aligneur RNA-seq universel ultrarapide. Bioinformatique 29, 15–21 (2013).

Article CAS PubMed Google Scholar

Anders, S., Pyl, PT & Huber, W. HTSeq-un framework Python pour travailler avec des données de séquençage à haut débit. Bioinformatique 31, 166–169 (2015).

Article CAS PubMed Google Scholar

Love, MI, Huber, W. & Anders, S. Estimation modérée du changement de pli et de la dispersion des données ARN-seq avec DESeq2. Génome Biol. 15, 550 (2014).

Article PubMed PubMed Central Google Scholar

Li, Y. et al. Le HGT est répandu chez les insectes et contribue à la parade nuptiale des mâles chez les lépidoptères. Cellule 185, 2975-2987.e10 (2022).

Article CAS PubMed Google Scholar

Télécharger les références

Cette recherche a été soutenue par des subventions de la National Natural Science Foundation of China (NSFC) à JW (subvention n° U20A2049), LS (subvention n° 31971699), XS (subvention n° 32102318), le Key Research and Development Program of Zhejiang Province to HL (subvention n° 2021C02001), le Scientific Research Startup Fund Project of Zhejiang A&F University to HL (subvention n° 2018FR028) et la subvention du State Key Laboratory of Subtropical Silviculture à JW (subvention n° ZY20180312 et ZY20180209). Les auteurs remercient le Dr Emily ED Coffey du Jardin botanique d'Atlanta (États-Unis) et le professeur Mark W. Schwartz de l'Université de Californie à Davis pour avoir fourni des échantillons de plantes.

Ces auteurs ont contribué à parts égales : Heqiang Lou, Lili Song, Xiaolong Li.

State Key Laboratory of Subtropical Silviculture, Zhejiang A&F University, Hangzhou, 311300, Zhejiang, Chine

Heqiang Lou, Lili Song, Weijie Chen, Yadi Gao, Shan Zheng et Jiasheng Wu

Centre d'innovation collaborative pour une production agricole efficace et verte dans les zones montagneuses de la province du Zhejiang, Université A&F du Zhejiang, Hangzhou, 311300, Zhejiang, Chine

Xiaolong Li et Xuepeng Sun

Laboratoire clé de contrôle de la qualité et de la sécurité des fruits et légumes subtropicaux, Ministère de l'agriculture et des affaires rurales, Hangzhou, 311300, Zhejiang, Chine

Xiaolong Li et Xuepeng Sun

Novogene Bioinformatics Institute, 100083, Pékin, Chine

Saluant Zi

Institut Boyce Thompson, Université Cornell, Ithaca, NY, 14853, États-Unis

Zhangjun Fei

Département américain de l'agriculture-Service de recherche agricole, Centre Robert W. Holley pour l'agriculture et la santé, Ithaca, NY, 14853, États-Unis

Zhangjun Fei

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

JW, XS, HL et LS ont conçu et supervisé le projet. WC, YG et SZ ont collecté des échantillons et effectué des expériences transgéniques. XS, XL et HZ ont construit des bibliothèques et effectué des analyses bioinformatiques. XS et HL ont rédigé le manuscrit. ZF et JW ont révisé le manuscrit.

Correspondance à Zhangjun Fei, Xuepeng Sun ou Jiasheng Wu.

Les auteurs ne déclarent aucun intérêt concurrent.

Nature Communications remercie Amanda De La Torre, Liang Guo, Nathaniel Street et Haifeng Wang pour leur contribution à l'examen par les pairs de ce travail. Les rapports des pairs examinateurs sont disponibles.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Lou, H., Song, L., Li, X. et al. Le génome de Torreya grandis éclaire l'origine et l'évolution de la biosynthèse de l'acide sciadonique spécifique aux gymnospermes. Nat Commun 14, 1315 (2023). https://doi.org/10.1038/s41467-023-37038-2

Télécharger la citation

Reçu : 28 octobre 2022

Accepté : 28 février 2023

Publié: 10 mars 2023

DOI : https://doi.org/10.1038/s41467-023-37038-2

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.