多倍体是指含有 3 套或 3 套以上完整染色体组的生物体,根据染色体来源的不同分为同源多倍体与异源多倍体,其形成途径主要有:①二倍体亲本经过基因组加倍直接形成同源四倍体;②通过种间杂交形成单倍体杂种,然后经过染色体加倍形成异源多倍体;③自然产生的雌雄非减数配子通过融合形成异源多倍体;④两个同源四倍体亲本通过杂交形成异源四倍体;⑤异源多倍体通过染色体间的重组形成节段异源多倍体。也有利用突变体产生多倍体的途径[1]。多倍化能够拓宽物种的遗传变异并有利于新物种的形成。此外,多倍化有利于创建新型种质资源,增加物种变异,改良作物
近10年来, 随着DNA测序等技术的进步, 植物多倍化研究进入了基因组学时代, 植物多倍化研究也转移至基因组结构进化及其对物种分化与表型性状形成的作用机制领域[2]。

PART ONE

高质量基因组获得

异源多倍体

异源多倍体是指不同染色体组来自于已经产生生殖隔离(reproductive isolation)的不同物种间的杂交并加倍。常见的异源多倍体有很多,比如普通小麦(AABBDD),二粒小麦(AABB),芥菜(AABB),油菜(AACC),陆地棉/海岛棉(AADD),栽培花生(AABB)等。

正是因为始于不同祖先,使得异源多倍体基因组的亚基因组通常能被“轻松”组装出来。如图1所示,组装好的基因组是一个“混合体”,需要与祖先种/近似祖先种序列比对来拆分不同的亚基因组。(详情可见→基因组技术分享|多倍体如何区分亚基因组?)


图1 异源多倍体基因组组装与区分亚基因组示意图
(由百度图片拼接整理,侵删)

例如研究的较为成熟的花生,作者将组装好的异源四倍体栽培花生(AABB)与两种野生二倍体花生(A、B的可能祖先种)的组装结果进行全基因组比较,直接鉴定出相应的亚基因组。成功地将96.07%以上的序列分为A.mon-A和A.mon-B亚基因组。


图2 祖先种序列比对以及分亚基因组的Hi-C热图

同源多倍体

同源多倍体是指所有染色体组来源于一个个体的染色体组自我复制或同一个物种内不同个体间的杂交与多倍化。通常二倍体基因组装出单套基因组,异源四倍体能组装出两套基因组。而由于早期的技术限制,同源多倍体物种往往只能组装1-2套(例如2017年甘薯基因组)。随着技术的发展以及研究的深入,研究者发现仅单套的基因组数据难以完全演示该物种的全面信息。尤其是一些同源多倍体的物种,同源染色体之间不同遗传位点的组合对生物表型有重要影响,如动植物中的杂种优势、某些物种杂交不育现象等。单倍型等位基因间差异对基因表达、功能及其表型都有着重要影响,大多数杂交品种的优势表型都受等位基因调控。


图3 当前基因组模式与新兴基因组模式

目前主要通过识别差异位点来区分这些基因组单倍型,在准确度足够的情况下,测序结果即可支持单碱基变异(SNV)的分析,其中杂合基因座表明了同源染色体对之间的序列差异。长reads组装算法可以准确地纠正和解决不同的单倍型,使组装体超过单倍体基因组的大小。但基因组的单倍型之间同源性非常高,仅存在少量杂合位点。常规三代测序由于其需要reads间相互纠错,会将这些差异位点整合与纠正,最终导致难以区分杂合率较低的单倍型。这也是传统的低精度长读长测序的技术瓶颈,无法判断差异是来自于变异,还是本身就是读取时产生的错误。

困难有多少那办法也就有多少,通过不断的技术改进,已有几种有效单倍型区分方式:

(1)通过对父本母本区分单倍型——Trio-binning[3]、graph-binning[4]

通过父母本二代测序数据获得两个亲本特有的kmer,将三代reads区分为来自父本、母本以及部分无法区分的reads。而后将区分后的reads分别组装,便获得子代两套单倍体序列。(详情可见→基于hifi数据的组装软件–hifiasm介绍)


图4 单倍型组装材料构建示意图

(2)HiFi+Hi-C技术区分单倍型

大多研究是天然材料材料,这种就难以构建如上远源杂交的亲系。PacBio平台的HiFi技术基于其高准确率,无需reads间进行纠错,从而可以更为有效区分同源对之间的差异,再结合现有的Hifiasm、HiCanu等具有更强的区分单倍型的组装软件,使得多倍体的多套组装成为了可能。例如同源四倍体紫花苜蓿使用~22X CCS(HiFi)reads进行基因组组装后用ALLHiC进行同源染色体聚类,最终组装出四套单倍型[5]。李恒等大牛发布Hi-C结合HiFi的 DipAsm算法也为二倍体物种染色体规模的分相组装提供了可能[6]。


图5 紫花苜蓿Hi-C互作热图评估
(每个等位基因对应4条染色体)

(3)单细胞技术辅助分型Bar-coding[7]、Strand-seq[8]

Bar-coding:将花粉单细胞结合构建的人工染色体(BAC,artificialchromosome)进行单倍型分型。Strand-seq:短reads结合单细胞通过胸苷类似物选择性标记去除一条DNA链,并可与长reads测序数据结合使用来完成单倍型分型。


图6 Bar-coding及Strand-seq方法概要

从以上几种区分单倍型的方法我们不难发现,这三种方法均能有效的解决二倍体物种的单倍型区分,但针对同源多倍体材料来说,目前方法(2)是最合适也是操作相对简单的方式。当然也并不是所有同源多倍体材料都能直接组装出完整的单倍型,与物种本身的特性也有相当大的关系,这里篇幅有限,小编就不再赘述了。

PART TWO
多倍体基因组深入挖掘

基因组的差异——变异分析

随着单倍型的解析,不少研究发现在同源染色体间有大量的变异信息,而这些突变累积很可能引起等位基因的有害/有益替代。从而可以对亚基因组(同源染色体)间基因含量、GC含量、基因结构、重复元件分布等比较、亚基因组间结构变异(倒置、易位),结合TE分布等进行亚基因组(同源染色体)间差异分析。

例如在高杂合二倍体马铃薯中,作者发现马铃薯的两套单倍体间存在着大量的SNP、InDel、SV、PAV,甚至有超过106个长度大于100kb的SV。展示了基因组内单体型间存在2.1%的序列多样性,并检测到有害等位基因的紧密连锁[9]。


图7 马铃薯中同源染色体间SNP差异与共线性展示

不对称演化

大多数研究发现在多倍体植物中,其中一个亚基因组倾向拥有更多蛋白编码基因、保留较高的基因表达水平、维持较低的甲基化水平、经历较强的纯化选择(负选择)。这种现象称为亚基因组优势(subgenome dominance),例如异源四倍体芥菜、异源四倍体金鱼等研究中都有报道。而二倍体马铃薯的案例给我们成功展示了单倍型间,同样也有不对称的演化现象,该现象可能也同样存在于同源多倍体物种中。


图8 马铃薯基因组的单倍型差异(有害变异、甲基化水平、基因数等)

(1)不对称演化——选择压力

多倍体物种中,两个亚基因组(同源基因组)所受到的选择压力往往不同:某亚(同源)基因组经历更强的纯化选择,另一个则经历较宽松的选择,同源多倍体中可能同样有这种现象。


图9 金鱼A、B亚基因组Ka/Ks
(Xu P et al., Nature communications.2019)

(2)不对称演化——表达差异

优势亚基因组受到较高的纯化选择,往往会使其维持较高的基因表达水平,这些可能与物种的生理生态等特性相关。且在芥菜、金鱼,异源八倍体草莓,杂合二倍体马铃薯等众多物种中都发现明显的表达差异。


图10 亚基因组、单体型间基因表达差异研究
(Xu P et al., Nature communications.2019;P.E P et al., Nature genetics.2019;Zhou Q et al., Nature Genetics.2020)

起源与进化

(1)起源与进化——祖先来源

对于多倍体物种,其二倍体祖先种的探寻,一直是广大科研工作者重要的研究方向。近缘种初步找寻:①广泛收集已有的二倍体近缘物种,通过重测序/转录组加遗传分析找到哪种是可能的祖先,基于SNP进行进化树的构建来初步判断哪个种是更有可能的祖先材料(结果不一定理想);②构建线粒体和核基因序列的进化树等。深入研究,后续则还需要再将该疑似祖先种的材料进一步做denovo,并结合相关的细胞生物学及进化等分析来进一步深入的研究祖先。

(2)起源与进化——演化历程

除了祖先来源的探索,物种的进化与传播历程也是每一个种质资源研究者的重点关注对象。


图11 油菜传播历程及草莓形成历程
(Wu D et al., Molecular Plant.2018;P.E P et al., Nature genetics.2019)

三维基因网络调控

(1)同源/亚基因组间

早期研究先前的研究广泛地研究了平均染色质结构,一直忽视了同源染色体间的表观调控差异。近期研究表明,同源染色体间的三维结构同样具有差异。例如靳文菲课题组通过多组学技术研究杂交小鼠揭示同源染色体间的相互作用模式、三维结构、染色质动态、组蛋白修饰及其对基因表达的影响。


图12 小鼠子代单倍型间以及与双亲本间TAD边界比较
(Han Z et al., Genome Research.2020)

(2)祖先二倍体与多倍化

与祖先材料做研究比较更是多倍体中亘古不变的话题。物种在由祖先进化、加倍而成现代多倍体材料的过程中,三维结构发生如何的变化,是否引起相关功能的差异?例如相比于二倍体亚洲棉陆地棉和海岛棉的A/B compartment比较分析,发现存在大量A到B的转换,以及一定区域出现了B到A的转换。同时相对于祖先基因组,亚基因组发生了不同程度的Compartment的转换,At亚基因组转换明显高于Dt。


图13 棉花中A/B Compartment分布

(Wang M et al., Nature Plants. 2018)

小结

多倍体研究严重依赖于一个优质的基因组,单倍体基因组技术的出现使得自交不亲和的二倍体、同源多倍体的组装成为了可能,基因组的完整信息将一点点的被揭露。通过祖先的推演使得我们更充分的了解到现代多倍体物种的进化历程,也将更利于优良品种的改良与育种。除了上述几种方式之外其实还有很多研究方向,例如LTR类转座子爆发丰度和时间分析、加倍事件、分化时间、基因编辑还有近年研究火爆的泛基因组分析,都能从不同的层面进行解析。

参考文献

[1] 田恩堂等. 植物多倍体的形成及其二倍化机制[J]. 湖北农业科学, 2017(11)
[2] 李霖锋等. 植物多倍化与多倍体基因组进化研究进展[J]. 中国科学:生命科学, 2019, 049(004):327-337.
[3] Koren S et al., De novo assembly of haplotype-resolved genomes with trio binning.Nat Biotechnol.2019
[4] Haoyu Cheng et al., Haplotype-resolved de novo assembly with phased assembly graphs. arXiv. 2020
[5] Chen H et al., Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa. Nature Communications.2020
[6] Garg S et al. Chromosome-scale, haplotype-resolved assembly of humangenomes. Nat Biotechnol .2020
[7] Shi D et al., Single-pollen-cell sequencing for gamete-based phased diploid genome assembly in plants.Genome Research.2020
[8] Porubsky D et al. Fully phased human genome assembly withoutparental data using single-cell strand sequencing and long reads. NatBiotechnol.2020
[9] Zhou Q et al. Haplotype-resolved genome analyses of a heterozygous diploid potato. Nature Genetics.2020

最近文章