分类: 基因组测序

泛基因组由来

在漫长的物种进化过程中,由于自然选择和人为选择等因素的影响,每个个体都形成了极其特别的遗传性状。在种内遗传变异的经典观点中,每个个体的基因组被描述为共同参考基因组上的一组小变异。应用上常见的就是群体遗传研究中基于SNP进行QTL、GWAS等变异与性状关联分析。
近年来,对同一物种多个个体的基因组或基因组片段的比较分析表明,单个参考基因组不足以捕获一个物种的遗传多样性:不同生态型重测序数据一般只有50%~80%能比对到参考基因组上。

这些发现说明一个物种内的基因组可能以更显著的方式存在差异(包括结构变异(SV)的多样性),这些变异可能包含一个或多个基因。而大量研究表明,SV在重要农艺性状上发挥关键作用(例如抗生物胁迫和非生物胁迫、开花时间、植物结构、产量、籽粒或果实品质(Tao Y et al., 2019)。这些结果意味着一个物种的功能基因含量比以前想象的要更为多变。
因此对于一个物种来说,如果只使用单一的参考基因组进行遗传驯化变异的研究,可能会丢失掉很多有意义的基因信息。以上种种因素,共同推动了动植物泛基因组的构建与研究。

动植物泛基因组差别

不同物种泛基因组研究对象可能不同:细菌基因组主要由编码基因组成,非基因序列相对较少,因此细菌泛基因组研究更多的是针对蛋白编码基因含量进行。在动植物上则因为基因组上有大量的具有一定功能的非基因序列,因此真核生物中主要对序列和基因两种形式进行研究。与植物泛基因组不同,已发表的动物泛基因组中更多是以序列为单位进行。

上次着重给大家讲解植物泛基因组,尤其是现在非常热门的作物类泛基因组(点击回顾),今天小编带大家一起看看动物泛基因组。
从数量上看,植物有着更大的泛基因组。对多个人类泛基因组研究发现,相对于主要基于欧洲起源样本的人类参考基因组,亚洲和非洲人类基因组中有5 Mb的额外序列(Li R et al.,Nat. Biotechnol.2010)。这项人类全基因组研究表明人类全基因组比参考基因组多出10%。其他动物泛基因组包括猪(超出额外序列为72.5Mb),以及小鼠(16个小鼠中各有14-75Mb的非参考序列),这些都在人类泛基因组大小的三倍以内。

为什么植物的泛基因组比哺乳动物的泛基因组大得多?

为什么植物泛基因组文章层出不穷,动物却屈指可数?

这个问题的答案可以通过考虑产生物种多样性的突变和群体遗传过程来找到:与单核苷酸变异一样,结构变异最初以突变的形式出现;中性变异受遗传漂变的影响,而其他变异要么被固定(正选择)或丢失(负选择)。因此,分析泛基因组的关键参数是结构变异的突变率和控制遗传漂变的有效群体规模,以及中性SVs的相对比例。与动物相比,植物拥有更多的杂交品系、拥有更多的农艺性状、可以更多的生殖方式,因此植物在数量上有一些优势,这使得人们期望拥有更大的泛基因组。

在突变水平上,大量最近扩增的转座子(TEs)可以产生序列重复和缺失,为非等位同源重组提供了充足的底物。活跃的TEs也能调动相邻序列并产生结构变化。与其他类群杂交同样可以增加新的类群;从自然遗传变异的角度来看,这种基因迁移的效果类似于突变。另外,由于开花植物物种有古代复制的历史,剩余的有效冗余可能允许更多的SV(特别是缺失)是中性的。第二个关键参数是有效种群规模,因为较大的种群产生更多的突变,并且可以容纳更多因漂移而产生的持续变异。与哺乳动物相比,植物更大的有效群体规模解释了持续单核苷酸变异增加10倍以上的原因(引自Li L et al.,Annu. Rev. Plant Biol. 2021)。

动物群体规模基因组

基于以上种种原因,使得动物群体基因组研究内容及探索方向与植物泛基因组有所不同,根据材料选取的亲缘关系远近,我们可以将动物群体规模基因组分为谱系基因组研究与泛基因组研究:

(1)谱系基因组

近年来,通过构建大量动物基因组进行研究的文章,多是在种及种水平以上进行剖析,主要以探究物种间的进化谱系为核心来开展研究。文中往往通过构建大规模的群体基因组(De novo),着重关注具有某类特征的物种,来探索物种基因组结构特征差异、形成历史、分化地位、趋同进化、物种适应性、群体特征、基因组的演化和潜在功能等进化问题。

例如2021年Nature Genetics上发表的比目鱼基因组研究,作者解析了鲽形目中9个科内的11种比目鱼基因组,通过基因树与物种树等研究揭示了鲽形目的鲽亚目和鰜亚目在白垩纪晚期,通过二次独立的进化事件由不同的鲈形目鱼类祖先演变而来的演化历程。并对两种不同来源亚目的比目鱼具有类似基因和信号通路形成独特体轴的特性,进行趋同进化研究。该研究通过大量完整的基因组数据分析,为理解比目鱼不同寻常的身体结构的遗传起源提供了宝贵的资源和见解。

图1 比目鱼的多系起源与快速基因组进化(Lv Z et al., Nature Genetics.2021)

同样这样大规模不同科属研究的还有2020年Nature封面文章,通过6种蝙蝠基因组揭示演化和潜在功能,探索蝙蝠有别于其他哺乳动物的免疫调节机制。以及2020年发表在Science上的反刍动物基因组,该研究共进行了6个科的44个反刍动物De novo组装,结合化石信息,构建了所有节点100%支持的全基因组系统发育树,高置信度的进化树进一步确认了叉角羚科与长颈鹿科的姐妹类群关系,以及麝科与牛科姐妹类群关系等一直以来备受争议的分类问题。并对反刍动物基因组结构特征及演化进行研究,进而对反刍动物中的“消化系统”“多腔胃演化”“角形态”“体型”等特征进行解析。该研究基于大量的基因组数据,将反刍动物基因功能与动物的适应性性状联系起来,为动物谱系基因组打开了一个新的研究篇章。

图2 反刍动物系统发育树

除了上述跨越科水平的谱系基因组研究,其实还有很多同科内不同属间的动物群体基因组。例如通过构建硬蜱科内6种蜱虫基因组,解析不同蜱种的演化历程,揭示了蜱专性吸血的遗传机制以及蜱虫遗传多样性及分布规律,并通过宏基因组学研究等方式探究了蜱媒病原体的生态分布和进化机制(Jia N et al., Cell.2020)。

图3 蜱虫进化关系与基因组特征

针对于同一个属内不同种之间的研究,由于其间亲缘关系相对较近,基因组间相似度较高,往往是对其基因结构特征差异、转座子分析、属内分类研究、基因组间的基因渐渗现象、大型结构变异挖掘、基因正选择分析上进行。例如,作者通过构建20个新的袖蝶属基因组揭示基因渗入和不完全谱系分选的作用(Edelman N B et al.,Science.2020)、通过15个亚属的17种熊蜂基因组确定了关键生态和取食偏好等行为特征相关的变异(Sun C et al.,Mol Biol Evol.2020)。

图4 蝴蝶进化关系(上)与熊蜂进化关系及基因组结构特征(下)

(2)泛基因组

  • 对于一些农业畜牧养殖相关的动物,往往由于人工的干预或是自然环境的选择,在同一个种内水平下会有非常多的品系/亚种/变种。这些驯化前后的群体间表型和基因型的巨大差异可能隐藏在每个品系基因组种,因此能体现这些动物品系内的共性又能体现不同品种间差异的泛基因组就显得尤为重要。
    通常泛基因组研究除了构建pan-genome,会进行核心基因(core gene)、非核心基因(dispensable gene)以及特有基因(Private)来研究物种相关农艺性状与功能基因。而结构变异是泛基因组的重点研究对象,通过PAV(存在与缺失变异)、倒位、易位、拷贝数变异等结构变异信息寻找引起不同品系间差异性状的关键变异位点。除此之外,泛基因组还可以结合三维表观调控、群体遗传进化、全基因组关联分析、转录共表达、差异代谢物以及数据库构建存储等方式进行深入的数据挖掘。

    图5 核心与非核心基因示例图
    (Li L et al.,Annu. Rev. Plant Biol. 2021)

在动物物种中研究最广泛的还是人类的泛基因组,除了人类之外,已经对果蝇、小鼠、猪、鸡和鲑鱼等动物有了相关研究,并在2020年首次基于图形泛基因组(Graph-based)的方式构建牛泛基因组(Crysnanto D et al., Genome Biology.2020)。

这里面比较经典的泛基因组案例,例如:①作为重要家畜以及生物学模型的猪于2019年构建了泛基因组(Tian X et al.,SCIENCE CHINA Life Sciences.2019),将11个不同品种猪从头组装基因组与猪参考基因组进行比对,鉴定了约占全基因组3%的非冗余序列,从而构建泛基因组。并发现约9Mb的泛基因组序列在中国猪中频率显著高于欧洲猪,转录组显示一条14.3kb参与脂肪大写通路基因的序列在中国猪中高表达,说明该基因的存在或缺失可能是东西方猪品种表型差异的原因之一。同时,作者还基于Hi-C技术的染色体互作信息构建猪三维基因,鉴定泛基因组在A/B compartment、TAD结构及调控上的特性,说明了泛基因组序列的加入将助于准确描述整个基因组的三维结构。研究的最后也少不了构建一个数据库,将泛基因组和调控表达等数据进行整合,使其他科研学者可以更好的利用这些重要数据(http://animal.nwsuaf.edu.cn/code/index.php/panPig)。

图6 猪基因组特征及泛基因组A/B Compartment、TAD分布

② 地中海贻贝具有极强的环境适应性,是欧洲和中国重要的海产品。作者基于Illumina及PacBio等技术构建了1.28G地中海贻贝基因组,并对来自两个独立群体的14个个体进行了重新测序后,揭示了地中海贻贝的复杂泛基因组结构。研究发现,非核心基因与受结构变异影响的半合子基因组区域相关,这些区域总共占了参考基因组组装中未包含的近580 Mb DNA序列。富集分析表明,非核心基因显著富集在与环境适应性相关的通路中(如细胞凋亡、免疫信号传导等)。PAV也显著影响地中海贻贝中编码抗菌肽(AMPs)的基因家族,表明非核心基因组增强了地中海贻贝的环境适应性。这是报道在动物界广泛存在基因存在缺失变异的研究( Gerdol M et al., Genome Biology. 2020)。

图7 地中海泛基因组构建与PAV验证

③ 2021年Wang等首次使用664个个体构建了鸡泛基因组,该基因组鉴定出了参考基因组中缺失的额外约66.5 Mb序列。构建的泛基因组编码20491个预测蛋白编码基因,其中保守基因的表达水平高于非必需基因。存在/缺失变异(PAV)分析表明,鸡的PAV基因是由选择、遗传漂变和杂交形成的。基于PAV的GWAS鉴定了许多与生长、胴体成分、肉质或生理特性相关的候选突变。并首次报道了位于27号染色体上的鸡体大小QTL变异。鸡泛基因组是生物发现和育种的有用资源,它提高了我们对鸡基因组多样性的理解,并为揭示鸡驯化的进化历史提供了材料(Wang K et al.,Mol Biol Evol.2021)。

图8 鸡泛基因组构建及PAV鉴定与群体结构研究

小结

基于以上介绍,我们不难发现,在动物泛基因组研究的时候需要明确手中材料处于一个什么样的分类水平。基于不同的生物学研究目的来选择是做进化方向的谱系基因组还是做变异与驯化性状的泛基因组研究。泛基因组分析有助于理解物种的特征,同时泛基因组图谱提供的基因PAV变异或基因复制等复杂基因组变异,有助于解析动植物表型和性状的多样性。

那么动植物泛基因组研究的材料怎么选取、如何构建、分析如何开展呢?更多泛基因组知识可上百迈客云平台课程,免费学习! http://live.biocloud.net/course/187 (课程任务5)。

最近文章