近年来,人们对生物的认识不再是简单依据实验观测和描述,而是能够通过基因组数据系统的深入解析内在规律。基因组研究技术可为动植物序列多态性、物种栽培与驯化、基因定位、基因编辑、精细育种等提供精准信息。

三代基因组组装是仅利用Pacbio或者Nanopore平台得到的超长三代数据进行基因组序列拼接,从而获得高质量的基因组序列图谱的过程。HiFi reads是基于PacBio Sequel II平台推出的CCS(Circular Consensus Sequencing)测序模式产生的兼具长读长和高准确度的测序序列。在这种测序模式下,因酶读长(平均90-100 Kb)远大于插入片段长度(10-20 Kb),测序时,聚合酶会绕着DNA模板进行环形比对测序,使得插入片段被多次测序,产生多条subreads,来源于同一条模板链的subreads经过一致性校正,最终得到高准确度的HiFi reads,用于基因组组装。

2022年5月HiFi模式再次更新,可以在构建基因组的同时更快捷方便的获取全基因组甲基化信息,为基因组的调控挖掘提供了更省力省心的研究途径。

百迈客HiFi测序数据

对于一个技术的应用来说,数据是房屋搭建的基础。更高的产能、更长的片段是性价比的核心。百迈客自2019年开启HiFi测序以来,不断自主研发更新实验方法以获得更高质量的数据产出,以下是百迈客部分类别物种数据产出:

(注:物种类型、组织部位、材料状态都是影响数据产出与读长的关键因素,最终产出以实际项目为准)

基因组应用

(1) 基因组组装

搭建一个高质量的基因组是物种表型功能研究的重要基础。因此,在获得高质量HiFi数据后,需要进一步将数据拼接来搭建房屋框架。这里就涉及到组装软件的部署、参数调整、组装结果优化、组装结果的评估等多个步骤。

① 百迈客组装APP

百迈客云平台基因组组装评估分析APP具有上述提及的多种功能部署,并且只需要在windows平台界面上进行简单的鼠标点击,即可完成最为复杂的基因组组装、优化、结果评估等过程。该app自上线以来已完成200余项基因组组装任务,具有高质量+高效+极简等特点。

组装APP分析流程与结果查询:

部分项目组装APP运行情况:

(运行时间与物种特异性以及网站同期负载量相关,项目情况以物种实际分析周期为准)

② 百迈客动植物基因组组装结果展示(部分)

(contigN50与物种特性、测序深度、染色体平均长度有关,项目情况以实际组装结果为准)

(2)5mC甲基化

DNA甲基化是表观遗传调控的重要组成部分,在调控基因组印记、X染色体失活、转座子沉默、基因表达、表观遗传记忆、胚胎发育和肿瘤发生等方面发挥着重要作用,其广泛存在于细菌、植物和动物中,现在有的DNA甲基化类型主要有以下几种:5-甲基胞嘧啶(5-mC)、少量的N6-甲基腺嘌呤(N6-mA)及7-甲基鸟嘌呤(7-mG)。

其中,胞嘧啶第5位碳原子上的甲基化(5mC)动态修饰研究得较为深入。 在真核生物中,最常见的甲基化修饰是5mC。5mC 是DNA的CG双核苷酸的胞嘧啶被选择性的添加甲基,形成5-甲基胞嘧啶的过程。其作用方式:①抑制转录因子的结合, 从而抑制转录过程;②结合抑制因子, 从而抑制转录过程

5mC 特征

⚫ 哺乳动物甲基化多发生于CpG二核苷酸序列上

⚫ 植物甲基化多发生于CpG、CHG、CHH

⚫ CpG富集区域多位于基因的启动子区域

⚫ 位于启动子区域的甲基化一般会抑制转录

近日,PacBio 已经实现通过HiFi测序直接检测 DNA 样本中 CpG 位点的 5mC甲基化。基于HiFi 的 5mC 检测能够在提供既长又准的测序结果的同时,给出准确的单倍型甲基化信息。简单来说,做基因组就能额外获取甲基化信息,一份数据,双份收获!加倍快乐!

同时,具有甲基化信息的HiFi数据,所占存储仅增~5%,极大的压缩了可分析的空间,为表观遗传挖掘保驾护航!

应用上:

①  除了常规基因组中甲基化的修饰,大多数二倍体基因组组装都忽略了同源染色体之间的差异,将基因组组装成一个假的单倍体序列,但随着研究的深入,发现仅单套的基因组数据难以完全演示高杂合物种的全面信息。同源染色体之间不同遗传位点的组合对生物表型有重要影响,如动植物中的杂种优势、某些物种杂交不育现象等。单倍型等位基因间差异对基因表达、功能及其表型都有着重要影响,大多数杂交品种的优势表型都受等位基因调控。二倍体马铃薯(Zhou Q et al., Nature Genetics.2020)、苹果(Sun X P et al.,Nature Genetics.2020)、铁观音(Zhang X et al., Nature Genetics.2021)等单体型基因组的案例给我们成功展示了高杂合度的二倍体同源组间有不对称演化的现象,即某套单倍型上保留较高的基因表达水平、维持较低的甲基化水平、经历较强的纯化选择(负选择)等。

例如,马铃薯的20,583对等位基因中,有16.6%和30.8%的等位基因之间存在表达差异和甲基化差异,有害突变和差异表达的等位基因分散在两种单倍型中。因此,现在可以在构建单倍型基因组之后,直接通过HiFi数据解析其上甲基化信号,从而深入挖掘等位基因间的差异情况,为解析物种重要性状形成的遗传机制奠定重要基础。

马铃薯基因组的单倍型差异(有害变异、甲基化水平、基因数等)

②  在杂合度极低的物种中,往往会追求更完美和更准确的组装,尤其是解析其上高度复杂的着丝粒位点,植物的着丝粒位于染色体的异染色质区域,该区域由多种类型的DNA重复元件组成,主要包括卫星DNA序列、单一拷贝DNA、反转录元件、转座子和端粒类重复序列等。人类基因组完成图(Nurk S et al., Science.2022; Altemose N et al., Science.2022; Gershman A et al., Science.2022)、拟南芥T2T基因组(Naish M et al., Science.2021;Wang B et al., GPB.2021)等研究均说明,对着丝粒区的甲基化等表观调控进行解析,具有重要的研究意义。例如,拟南芥T2T基因组研究中,作者发现着丝粒的DNA甲基化高于着丝粒周围区域,但在着丝粒内部,CENH3信号富集的CEN180高度串联重复区域呈现低甲基化状态(Wang B et al., GPB.2021)。

拟南芥表观调控

小结

  • PacBio HiFi中更长的读长、更多的数据产出为高质量基因组的构建创造了良好的条件
  • 百迈客云平台APP为基因组的高质量快速组装提供了更便捷的平台(客户体验版即将上线,尽请期待!)
  • 5mC甲基化的加持,使得基因组表观研究有了新的突破!为物种的深度解析提供了额外辅助!

 

 

 

联系我们

最近文章