Nanopore全长转录组测序是指基于牛津纳米孔公司(Oxford Nanopore Technologies,ONT)三代测序平台进行全长转录组测序,无需打断,可直接读取从5’端到3’端polyA尾的高质量单个RNA分子全长序列,准确辨别二代测序无法准确识别的可变剪接(AS)、可选择性多聚腺苷酸化(APA)、融合基因、lncRNA及其靶基因,且可同时对基因和转录本进行定量分析。ONT全长转录组已广泛应用于生长发育、环境适应、免疫互作、突变表型、肿瘤的发生、临床诊断和药物研发等领域。
数据质控
Nanopore测序通过对纳米孔的DNA/RNA单分子实时电信号进行检测及对应,即可计算获得相应碱基的类型,完成序列的实时测定。为确保Reads有足够高的质量,将下机原始测序数据(raw reads)过滤短片段和低质量的reads,得到clean reads,保证后续分析的准确性。
将reads按照长度从短到长排序,平均分成10份,每一份统计reads的平均质量值,平均质量值Q10以上,即为合格。
可变剪切鉴定
基因转录生成的前体mRNA(pre-mRNA),有多种剪接方式,选择不同的外显子,产生不同的成熟mRNA,从而翻译为不同的蛋白质,构成生物性状的多样性。这种转录后的mRNA加工过程称为可变剪接或选择性剪接(Alternative splicing)。可变剪接类型包括:(A) 外显子跳跃;(B) 可变转录终止位点;(C) 可变外显子;(D)可变转录起始位点;(E) 内含子保留。
转录因子预测
转录因子(Transcription factor)是指能够结合在某基因上游特异核苷酸序列上的蛋白质,这些蛋白质可以调控RNA聚合酶与DNA模板的结合,从而调控基因的转录。
可选择性多聚腺苷酸化分析-APA
多聚腺苷酸化是指多聚腺苷酸与信使RNA(mRNA)分子的共价链结。在蛋白质生物合成的过程中,这是产生准备作翻译的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一种机制,令mRNA分子于它们的3’端中断。多聚腺苷酸尾(或聚A尾)保护mRNA,免受核酸外切酶攻击,并且对转录终结、将mRNA从细胞核输出及进行翻译都十分重要。前体mRNA的可变多聚腺苷酸化(alternative polyadenylation, APA)可能贡献于转录组多样性,基因组的编码能力以及基因的调控机制。
差异表达基因/转录本KEGG通路富集
KEGG Pathway富集可以系统分析基因产物在细胞中的代谢途径以及这些基因产物功能,把基因/转录本及表达信息作为一个整体的网络进行研究。
差异表达基因/转录本GO注释
GO注释分类统计图,直观的反映出在生物过程(biological process)、细胞组分(cellular component)和分子功能(molecular function),可深入挖掘差异基因和转录本的功能及所在的信号通路,筛选关注差异基因和转录本注释情况。
nanopore全长转录组测序是指基于牛津纳米孔公司(Oxford Nanopore Technologies,ONT)三代测序平台进行全长转录组测序。全长转录组测序,无需打断,基于三代测序平台直接获取转录本的5ˊ到3ˊ高质量全长序列,可准确识别可变剪接、基因融合、可选择性多聚腺苷酸化APA、等位基因特异性表达等转录本结构方面变异。基于nanopore三代测序平台进行全长转录组测序,除了可准确鉴别上述转录本结构变异,还可实现转录本(mRNA或polyA+ lncRNA)表达水平准确定量。
主要在于测序平台不同。Illumina平台主要是PE150测序,构建小片段文库,为边合成边测序,在建库以及测序过程中均需要PCR扩增,主要用于基因水平表达定量及差异表达分析。nanopre全长转录组测序无需打断RNA,可获得5’到3’全长转录本序列及其表达信息,对片段大小无偏好,直接检测电信号无需边合成边测序其GC偏好性远低于二代平台;同时由于无需拼接其在转录本层面的结构变异检测方面,比如可变剪接、融合基因、APA、新基因预测等具有绝对优势。
nanopore测序是基于电信号识别碱基序列的三代测序技术。DNA/RNA上不同碱基或带不同修饰时化学性质存在差异,当单链分子通过纳米孔通道时,碱基造成的阻碍大小不一,因此会形成特征性离子电流变化信号。通过对这些信号进行实时检测,即可获得相应碱基类型,完成测序。目前通过“递归神经网络(Recurrent Neural Network)”的复杂算法对碱基进行判读。
其特点为:
1)读长长:最长读长能达到2 Mb以上级别[ref1],有利于可变剪接、基因融合等结构变异检测;
2)低成本:相比其他三代测序技术,ONT测序样本处理极其简单,无需DNA聚合酶、连接酶和dNTPs,测序价格低;
3)测序过程不涉及PCR扩增:避免二代测序中PCR扩增可能引入的错误或丰度变化;
4)direct-RNA/DNA方式建库,可直接获取碱基修饰信息,如甲基化修饰5mC、6mA等,无须像二代测序需要经过重硫酸盐转化或者免疫沉淀富集实验;
5)低GC含量和碱基偏好性,针对RNA测序无需打断,转录本水平表达定量更准确。
二代转录组测序一般基于边合成边测序二代短读长的Illumina等平台,由于读长短(通常PE 150bp),需要进行片断化,打断到200-300bp,测序过程需要DNA聚合酶和dNTPs以及进行桥式PCR形成clusters放大荧光信号。
从二代转录组到nanopore三代全长转录组,平台升级,技术革新,解决二代不能解决的问题!
样品类型:PolyA RNA;样品浓度:≥50 ng/ul(Qubit HS RNA定量); 样品总量:cDNA-direct方式:>250ng(单次);总量>750 ng;(若提供总RNA,动物样品总量需按照PolyA RNA要求的100倍以上准备); cDNA-PCR方式:>1μg(单次);总量>3μg 样品纯度:OD260/280 ~2.0,OD260/230在2.0-2.2 之间,260nm处有正常峰值;样品无基因组DNA污染; 总RNA完整性: RIN值≥8.0,28S/18S≥1.0;图谱基线无上抬;5S峰正常。
研究表明,生物学重复可提高所有基因表达水平鉴定的准确性,而增加测序深度主要提高低表达基因表达量鉴定准确性。每种处理条件下至少3个生物学重复,当研究样本的生物学差异比较高,或者想研究更多的微小表达差异/fold change时,需要更多生物学重复。也就是,比如对于个体差异较大的临床样本可以5-10个/组以上,而生物学差异较小的细胞系样本则每组3个生物学重复以上即可。
使用三种纳米孔建库方式(PCR-cDNA、direct-cDNA和direct-RNA)数据和典型的短读长cDNA技术制备酵母转录组文库进行比较:
a)在所有情况下,纳米孔长读长数据集的GC偏好都比短读长数据集低。
b)与短读长测序数据相比,纳米孔长读长测序数据的长度偏倚都较小。
综上,nanopore全长转录组测序受基因的GC含量和长度偏好更小。
——图片来源于Oxford Nanopore Technologies官方白皮书The value of full-length transcripts without bias。
ONT平台目前我司下机数据碱基质量Q值平均约在10左右,即碱基平均错误率为10^(-1)=10%左右,但这是单碱基错误率;
比对时用的是全长序列和参考基因组或参考转录组进行比对,序列越长比对时对于碱基错配度容忍越高,因此不会对表达定量有影响;
当然由于比二代单碱基错误率高,故而百迈客将SNP和InDel检测分析内容去除了,因此想从RNA水平检测snp/indel的客户可能考虑做二代转录组测序。其实目前不乏使用nanopore测序数据检测snp的文章,如NC|nanopore全基因组重测序鉴定人类基因组非同义新生SNP。
下面列举了2个百迈客真实项目的数据质量表,大家可以参考。
ONT全长转录组测序一条reads即代表该转录本表达一次,而二代短reads需要非常多条才能覆盖一个转录本;oxford nanopore公司官方白皮书中数据显示:当相同数量的转录本被覆盖达95%时,ONT所需要的reads数比Illumina约少50倍,所需要碱基数约少7倍。
故而2G ONT数据能达到6G Illumina检测效果;
——图片来源于Oxford Nanopore Technologies官方白皮书The value of full-length transcripts without bias。
针对同一样本进行的饱和度分析显示,2G ONT全长除表达量极低的(CPM<1)其他转录本都达到饱和了,和二代Illumina 6G除表达量极低FPKM<1外的基因检测也饱和了,且前者更早趋向饱和;
目前已发表的人鼠文献中ONT全长测序的数据量大多也不到2G,比如文献精读|nanopore全长转录组测序揭示B细胞表面受体广泛的转录变异。
应用于慢性淋巴细胞白血病
英文题目:Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns
发表杂志:Nature Communications
发表时间:2020.03
影响因子:11.878
使用Nanopore分别对慢性淋巴细胞白血病(CLL)分离的SF3B1野生型,突变株和正常组B细胞样本进行全长转录组测序。基于Nanopore的全长cDNA测序可以检测转录本全长,通过算法优化,相对于短序列,可以更准确的检测3′末端剪切,内含子保留,分辨生产性异构体和非生产性异构体。该研究证明了Nanopore测序在癌症和可变剪切中的潜在使用价值。
应用于精神疾病
英文题目:Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain
发表杂志:Mol. Psychiatry
发表时间:2020.03
影响因子:11.973
在人脑中,与精神分裂症相关的基因组区域富集了在神经发育过程中表现出不同异构体使用的基因,本文通过ONT全长转录组技术研究疾病相关的CACNA1C亚型,有可能提供既有效又无外周副作用的新型精神药物。
应用于阿尔茨海默病
英文题目:Deleterious ABCA7 mutations and transcript rescue mechanisms in early onset Alzheimer’s disease
发表杂志:Acta Neuropathol
发表时间:2017.09
影响因子:14.251
阿尔茨海默病(AD)是一种起病隐匿的进行性发展的神经系统退行性疾病。本文研究了ABCA7 PTC突变在一个大型早发性AD对照队列中的患病率和疾病外显性,并用ONT全长转录组检查了其对转录水平的影响。揭示了不同程度的NMD和转录修饰事件,可能影响ABCA7的剂量、疾病的严重程度,并可能为AD的治疗干预创造机会。
应用于多囊肾病
英文题目:Human-Specific Abnormal Alternative Splicing of Wild-Type PKD1 Induces Premature Termination of Polycystin-1
发表杂志:Journal of The American Society of Nephrology
发表时间:2018.10
影响因子:9.274
常染色体显性遗传性多囊肾病的主要形式是由编码多囊蛋白-1(PC1)的基因杂合突变引起的,通过ONT全长转录组测序等方法确认存在多种剪接形式。研究发现,在杂合子个体中,低水平的全长PC1可能会将多囊蛋白信号降低到临界的“成囊”阈值以下。
应用于乳腺癌
英文题目:Nanopore sequencing of full-length BRCA1 mRNA transcripts reveals co-occurrence of known exon skipping events
发表杂志:Breast Cancer Res
发表时间:2017.11
影响因子:4.988
本研究探索了纳米孔测序技术在检测整个BRCA1 mRNA转录本以及对框内和框外剪接事件进行准确分类方面的应用。研究鉴定了32个完整的BRCA1亚型,其中包括18个新的亚型,还发现已知的BRCA1外显子跳跃事件,如Δ(9,10)和Δ21。这些发现对预测剪接转录本的翻译框架具有重要意义,对解释剪接变异体的临床意义也很重要。
应用于肺癌
英文题目:Long read sequencing reveals a novel class of structural aberrations in cancers:identification and characterization of cancerous local amplifications
bioRxiv
本研究中利用ONT全长转录组和ONT重测序技术在肺癌基因组中识别和表征结构畸变,揭示了由局部重复、倒位和微缺失的复杂组合组成的独特结构畸变CLCL,进一步分析并发现,即使在关键的癌症相关基因中,这些突变也发生在体内,这些突变可能阐明了致癌性事件和治疗策略仍然难以捉摸的患者的分子病因。
应用于细胞表面受体
英文题目:Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells
发表杂志:Nature Communications
发表时间:2017.07
影响因子:12.121
短reads RNAseq解析复杂isoform的能力有限,因为它无法测序RNA分子的全长cDNA拷贝。作者研究了使用长读取单分子Oxford Nanopore测序仪的RNAseq是否能够在不牺牲准确的基因表达定量的情况下,鉴定和定量复杂的isoform。在小鼠B1a细胞中鉴定了数千个未注释的转录起始和终止位点,以及数百个可变剪接事件,鉴定了在B1a细胞中表达的数百种基因,这些基因显示出多种复杂的isoform,包括几种B细胞特异性表面受体。本研究表明,可以在单细胞水平上识别和定量复杂的isoform。