基于全基因组测序的人类遗传学研究中,获取包含SNP、InDel、SV、CNV等基因组变异信息是研究的基础工作及关键目标。以Pacbio和Nanopore为代表的三代测序技术以及读长长的特点在人及动植物基因组研究中获得大量应用。

什么是“人三代重测序”

“人—三代重测序”是指基于三代测序技术对样品进行人全基因组测序,利用获得的10kb~20kb长reads与人参考基因组进行比对分析,可以精准开发得到样品与参考基因组或者样品间的DNA序列的遗传变异,如结构变异(Structural Variation,SV)和拷贝数变异(copy number variations, CNV)等,而这些大片段的序列变异的检测是二代重测序无法做到的。

为什么要做“人三代重测序”

利用开发得到SV、CNV可以应用到个体或群体间的差异性分析、疾病或癌症领域的HLA、STR等研究中。三代重测序以其长读长(可直接跨越大片段结构变异;可直接跨越串联重复区域、高GC区域、高度同源区域、高度多态性区域)、无需PCR扩增(避免PCR扩增引入的错误)等优势,成为挖掘人基因组遗传变异信息的全新策略。

“人三代重测序”信息分析流程

采用Nanopore测序,将测序得到的原始数据进行质量评估并过滤得到Clean Reads,用于后续的生物信息学的分析。生物信息分析流程图如下:

Nanopore全基因组重测序生物信息分析流程图

Nanopore全基因组重测序生物信息分析流程图

部分分析结果展示

1、数据质控

Nanopore测序数据下机后,将其数据转换为fastq格式,用于后续质控分析。原始fastq数据经进一步过滤接头、过滤短片段、过滤低质量reads后,得到总的数据集。

Nanopore数据长度分布图

2、变异检测

基因组结构变异,SVs,通常指的是长度大于50bp的大片段结构变异,包括许多类型,如缺失(DEL)、插入(INS)、重复(DUP)、倒位(INV)、拷贝数变异(CNV)等,它们在个体和群体水平上促进了人类基因组的多样性和进化。相比SNP,SVs在变异基数中所占比例更多,对基因组的影响更大,一旦发生变化,往往会给生命体带来重大影响。越来越多的证据表明,SVs与许多人类疾病有关,如神经发育疾病、心血管疾病和癌症等。因此,系统地分析人类基因组中的 SVs 对于生物学和临床研究至关重要。

本次分析采用长读长纳米孔测序,更有可能涵盖整个结构变异体和/或重复区域,从而获得更加准确以及精确的结构变异体,加深对结构变异以及结构变异在疾病、进化和遗传多样性的作用的理解。

结构变异circle图

3、重复序列分析

微卫星标记(microsatellite),又被称为短串联重复序列(short tandem repeats, STRs)或简单重复序列(simple sequence repeats, SSRs),是均匀分布于真核生物基因组中的简单重复序列,由2~6个核苷酸的串联重复片段(核心序列)串联重复组成,其重复单位的重复次数在个体间呈高度变异性并且数量丰富。目前已发现重复序列和40多种神经肌肉和神经退行性疾病等疾病有关,包括众所熟知的精神发育迟滞疾病—脆性X染色体、神经退行性疾病—亨廷顿舞蹈症、脊髓小脑性共济失调症等,此外微卫星不稳定性MSI也是许多癌症基因组特征。由于重复序列的扩张引起的疾病称为重复序列扩张疾病,当然有些重复序列缩短也能引起疾病。其发病机制与这些重复的微卫星序列的重复次数相关。利用三代长读长数据,可用来检测卫星序列重复次数。

Repeat结果统计表

Repeat结果统计表

4、HLA分型

主要组织相容性复合体MHC区域位于6号染色体的短臂上,是人类基因组上最复杂的区域之一(约4Mb),呈现出高度的多态性(有着超过10,000个等位)。其编码的分子参与抗原递呈,制约细胞间相互识别及诱导免疫应答。人类白细胞抗原(HLA)编码基因是 MHC 的一部分,是迄今已知基因中等位基因多态性最高的基因复合体,也是不同个体进行器官或组织细胞移植时发生排斥的主要成分。

与 HLA 相关的疾病多达100多种,涉及自身免疫性疾病、免疫缺陷性疾病、过敏性疾病、感染类疾病、代谢性疾病等,如糖尿病、类风湿性关节炎,银屑病、强直性脊柱炎、重症肌无力和哮喘等。同时,HLA在器官和骨髓等移植中起到至关重要的作用,也与许多药物的严重不良反应相关。因此,进行HLA 分型,有利于免疫相关疾病的研究、疫苗和药物靶向人群筛选、种族进化的研究、组织和器官移植等。

本次分析对样品的 HLA-A,HLA-B,HLA-C 基因进行单倍型鉴定。将测序的Nanopore reads与已知的HLA等位比对来识别候选的等位,接下来通过与候选等位的多重比对获取一致序列,最后通过将一致序列与参考数据库比对获取每个样品最终的单倍型。

样品单倍型统计表

样品单倍型统计表

不同分辨率下的等位基因的多样性

不同分辨率下的等位基因的多样性

总结

(1)通过三代重测序对人基因组进行SV、CNV等变异检测,系统分析人全基因组的结构变异。

(2)三代测序技术读长长,可轻松跨越基因组低复杂度区域,且无GC偏好性,利用三代长读长数据,更有利于检测STRs。

(3)二代测序技术受读长的限制,会导致 HLA 分型数据不明确,三代测序凭借其长读长特点,能够显著提高HLA分型的准确性。

所见即所得!以上分析内容均可在百迈客云(http://www.biocloud.net/)“全基因组重测序Nanopore分析平台”实现!更有“更新结题报告和个性化分析”等免费售后定制化!同时我们也在响应广大科研人员的分析需求,进一步实现分析内容多元化,欢迎大家持续关注!

百迈客专利技术《基于三代测序平台的全基因组重测序分析平台》

百迈客专利技术《基于三代测序平台的全基因组重测序分析平台》

 

 

 

 

 

 

 

 

最近文章