众所周知,要获得基因组的完整图片,就必须组装reads,以目前主要的测序技术来看,短读长测序提供了很高的准确性,但仅提供了少量数据片段,从而只能得到不完整的图片;而传统的长读长测序,可提供更大的图像,但缺乏准确性,因此很难分辨出真实的生物学变异与测序错误之间的区别。然而,兼顾长读长与高精度的HiFi测序正在改变一切,今天我们就来聊聊HiFi测序以及百迈客PacBio SequelⅡ平台HiFi最新产出情况吧。

一、何为 HiFi测序

HiFi reads(High Fidelity reads)是2019年由PacBio推出的基于环化共有序列(Circular Consensus Sequencing,CCS)模式产生的既兼顾长读长(10-20kb的长度)又具有高精度(>99%准确率)的测序结果。
在CCS测序模式下(图1),酶读长远大于插入片段长度,聚合酶会绕着模板进行滚环测序,插入片段会被多次测序。单次测序中产生的随机测序错误,通过环形测序生成的一系列Subreads来进行自我打磨,通过算法进行自我纠错校正,最终得到高准确度的HiFi reads。


图1 HiFi reads是如何生成的

二、SMRTbell文库的构建流程简述

1.SMRTbell文库的结构
bell即“铃”的意思,如图2,构建完成的bell文库形状就如同一个哑铃。其主要组成部分是:发卡状的接头(Hairpin Adapter)和双链DNA模板(Double Stranded DNA Template)。而文构建完成后、测序前还需要完成bell文库、Sequencing Primer、DNA Polymerase的混合工作(测序引物退火结合bell文库,然后引物-bell文库复合物结合DNA聚合酶)。最终产物如图3所示。

2.SMRTbell文库构建流程
以基因组HiFi文库为例(15-20K文库)(图4)。当得到gDNA后,先利用G-tube管或Megaruptor System将基因组片段化至合适大小,而后通过去除单链悬突、损伤修复和末端修复等步骤,得到完整的双链插入片段。接下来,通过将接头连接至双链DNA来创建SMRTbell文库,从而得到环状模板。完成接头连接后,需要对连接产物进行纯化,利用酶处理(图5)来消化线性或内部损伤环形DNA分子(游离的Hairpin Adapter、两端未连接Adapter的DNA模板、已成环但内部有损伤的DNA模板),酶处理完毕后,一般会利用Bulepippin或Sage ELF System切胶回收目标大小范围内的文库。



图5 酶处理示意图

三、HiFi测序的性能

1.使用HiFi Reads 进行基因组De Novo组装的能力
在基因组从头组装方面,研究者利用HiFi reads应用FALCON、Canu和wtdbg2算法分别对HG002基因组进行了从头组装,结果显示组装质量均较高,contigN50超过15Mb,并且与HG002标准结果高度一致,吻合率达到99.9983%(Q47.7)[1]。

表1 不同测序技术及分析流程组装结果

 

2.使用HiFi测序检测人类基因组变异的能力
基因组测序中最重要的自然是准确率,只有保证较高的准确率,基因组的研究才有价值。下图展示了最近的PrecisionFDA 真实挑战赛V2的结果(图6),在单一技术参赛结果中,使用PacBio HiFi数据(粉红色)在所有类别中,无论是全基因组范围(“所有基准区域”),还是在难以映射的区域或是主要的组织相容性复合体(MHC)中均提供了最高的准确性。所有的多技术参赛结果(橙色)中都使用了PacBio HiFi数据[2]。


图6 PrecisionFDA Truth Challenge V2结果

另外,由下图可以看出(图7),Google DeepVariant使用HiFi数据提交的结果在所有单一技术检测全基因组范围内的变异准确性最高,对SNV精确度和召回率可以达到99.9%,对插入缺失的精确度和召回率可以达到99.4%[2]。


图7 不同测序技术及分析流程结果对比

四、百迈客HiFi最新测序数据展示

百迈客自2019年引进PacBio SequelⅡ平台以来,在HiFi测序方面已经积累了大量的经验,在技术人员的不断优化下,HiFi文库单cell产出更是有了新的突破,下面跟大家分享一下最新的部分HiFi文库产出情况(表2)。在统计近1个月的HiFi cell中,我们单cell平均产出达416Gb。其中,单cell产出达400 Gb以上的占比达68%,同时,单cell的HiFi reads数据量高达32 Gb,占原始产出的比例最高可达7.96%。在读长方面,平均酶读长已超70Kb,HiFi reads长达18Kb。

表2 百迈客部分HiFi文库下机数据产出统计表

HiFi数据由于其长读长和高准确性,结合针对HiFi reads开发的组装软件,在基因组组装上有着较大优势。一般物种,单套30×CCS数据即可满足基因组组装需求,且无需繁琐的纠错过程,缩短组装时间,并能够识别复杂基因组区域的细微差别,有助于增加基因组组装的连续性、准确性和完整性。

在基因组组装方面,HiFi测序正受到众多科研工作者的青睐,已经成为越来越多研究者的不二之选,百迈客自2015年国内首家引进PacBio三代测序平台以来,在基因组研究领域已经有近百余篇合作文章发表于世界知名期刊,累计影响因子600+,目前已经拥有成熟的从测序到分析的完整HiFi流程,欢迎各位老师前来咨询!

 

参考文献

[1]Wenger A M , Peluso P , Rowell W J , et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome[J]. Nature Biotechnology, 2019, 37(11).

[2]PacBio.In precisionFDA Challenge,PacBio HiFi Reads Outperform Both Short Reads and Noisy Long Reads.https://www.pacb.com/blog/precisionfda-challenge/[EB/OL].2020.08.11

最近文章