2016年9月6日 Nature Genetics 在线发表由浙江大学种质创新和分子育种检验实验室的张明方教授、杨景华老师与北京百迈客生物科技有限公司、中国农业部园艺植物生长发育与品质改良重点实验室、浙江园艺植物综合生物学省级实验室、中国农业科学院蔬菜和花卉研究所、北京蔬菜研究中心、西澳大利亚大学等合作研究的异源四倍体芥菜基因组,在此为大家深入的解读下这篇文章。
The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expression influencing selection.
一 研究背景
图1.芸薹属禹氏三角(From Wikipedia)
异源四倍体芥菜(AABB)属于十字花科芸薹属,是重要经济作物,主要包括菜用和油用芥菜两大类群,种植范围较广,经济价值较大。菜用芥菜主要分布在中国等东亚国家和地区,油用芥菜主要分布在印度等南亚国家和地区。芥菜是“禹氏三角”中重要的一员,由白菜和黑芥杂交后加倍而来,至少发生了三次古多倍化事件,因此非常具有研究价值。但是由于其为异源多倍体,相关的全基因组测序工作一直很难开展。来自浙江大学、北京百迈客等单位的团队共同合作,利用新的测序技术(PacBio+BioNano),成功的组装出高质量的芥菜基因组图谱,为进一步改良芥菜的农艺性状提供了基础,为多倍体物种遗传育种提供了新的方向。同时,也从多角度论证了芥菜A亚基因组起源问题,揭示了多倍体亚基因组间同源基因表达与选择机制。
二 研究方法
1、组装
基于文章设计,我们选取菜用芥菜的一个变种(榨菜),使用二代测序和三代测序相结合的方法进行初步组装,然后利用光学图谱进行校正,得到了一版高质量的芥菜基因组,其中contig N50 由 28Kb 提升到61Kb ,scaffold N50 由710k 提升到1.5Mb.基因组完整性达到85%。另外我们还利用二代测序技术组装了一版黑芥的基因组,基因组大小为591Mb,完整度为68%。
然后利用遗传图和光学图谱对A、B亚基因组进行区分,整体挂载效果非常好,A为91.48%,B为72.32%。利用光学图谱和遗传图谱对基因组进行区分,为其他多倍体物种基因组研究提供了参考。
2、基因组注释情况
在高质量的基因组的情况下,我们采用从头+同源+转录组结合的方法在芥菜基因组中获得了80050个编码蛋白的基因,其中有97.8%的基因可以注释到Nr库。另外黑芥基因组预测出来49826个编码蛋白的基因,其中94.7%可以注释到Nr。重复序列部分芥菜A基因组中重复序列比例为44.25%,B为52.37%。芥菜基因组特征情况见下图:
三 研究结果
1、芥菜A亚基因组起源问题
芥菜的基因组是异源四倍体(AABB),在“禹氏三角”中由白菜(AA),黑芥(BB)杂交后加倍形成,在演化过程中变异类型非常丰富。问题是油用芥菜的AA和菜用芥菜的AA是来自同一个亚种,还是来自多个亚种呢,这个问题就是A亚基因组的起源问题。
如上图,a中对芥菜A、白菜A、甘蓝型油菜A进行共线性分析,可以发现其是高度共线的。
我们对10个菜用的芥菜、7个油用的芥菜,5个甘蓝型油菜基因组、27个白菜基因组(多亚种)进行了重测序分析,并绘制如上图b中的进化树。从b图中可以看到芥菜全部聚在一起,没有出现分散的情况,说明芥菜中A的基因组是来源于同一个亚种,属于单系起源。
C图中对同源物种和芥菜进行了进化树构建,并计算了芥菜分化的具体时间为3-5万年。
除了从群体的角度研究了芥菜亚基因组A起源问题,还从PCA聚类和Fixed SNP角度验正了单系起源的结论。
2、基因表达的dominance现象
由于芥菜基因组是异源四倍体,也就是说基因组中存在两套非常相似的亚基因组,那么在基因表达的过程中,位于两套亚基因组上的等位基因的表达模式是怎么样的呢,是一起表达,是相互抑制,还是一方占主导?
通过计算等位基因的表达量,发现在不同的时期,不同组织之间,发现存在dominance基因,存在dominance的基因经受的选择压力大于Neutral基因(不存在dominance现象,功能非常重要,纯化作用较强,不轻易突变),但是小于Subordinate基因(作用不重要,纯化作用较小,易丢失)。
3、油用芥菜和菜用芥菜的选择与分化
通过菜用和油用芥菜群体进行选择清除分析,发现dominance的基因被筛选出来的比例较高,同时结合转录组数据,这部分基因在油用和菜用两个群体中差异表达。同时通过上面的分析发现与硫苷,脂类代谢显著相关并且存在dominance的基因组,这些基因在油用菜用群体中有各自独特基因分型。
四 文章亮点
1. 多倍体复杂基因组解决方案:二代+三代+光学,组装出高质量复杂基因组;
2. 多个角度证据解决芥菜亚基因组A亚基因组单系起源/杂交起源争论:Asubgenome phylogenetic tree,PCA, polymprphism and fixed SNP;
3. 通过构建群体模型及贝叶斯方法评估多倍体芥菜形成时间上下限,为新多倍体物种形成时间估算提供新方法;
4. 从不同发育时期,不同组织,不同处理条件,不同进化时期多个角度系统分析异源多倍体dominance 现象;
5. 通过油用菜用群体选择角度识别vegetable- and oil- use B. juncea 分化选择区域,发现与硫苷,脂类代谢显著相关并且存在dominance的基因组,这些基因在油用菜用群体中有各自独特基因分型;
6. 首次找到dominance gene 与潜在农艺性状选择相关性的证据,为多倍体物种遗传育种提供了新的方向和基因候选材料。
五 摘 要
The Brassica genus encompasses three diploid and three allopolyploid genomes, but a clear understanding of the evolution of agriculturally important traits via polyploidy is lacking. We assembled an allopolyploid Brassica juncea genome by shotgun and single-molecule reads integrated to genomic and genetic maps. We discovered that the A subgenomes of B. juncea and Brassica napus each had independent origins. Results suggested that A subgenomes of B. juncea were of monophyletic origin and evolved into vegetable-use and oil-use subvarieties. Homoeolog expression dominance occurs between subgenomes of allopolyploid B. juncea, in which differentially expressed genes display more selection potential than neutral genes. Homoeolog expression dominance in B. juncea has facilitated selection of glucosinolate and lipid metabolism genes in subvarieties used as vegetables and for oil production. These homoeolog expression dominance relationships among Brassicaceae genomes have contributed to selection response, predicting the directional effects of selection in a polyploid crop genome.
六 参考文献
[1] The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expression influencing selection.