分类: 转录组测序

英文题目:Depletion of hemoglobin transcripts and long read sequencing improves the transcriptome annotation of the polar bear (Ursus maritimus)

中文题目:去除血红蛋白转录组后的长读长测序完善北极熊转录组本注释

发表杂志:bioRxiv

研究背景

评估全血和组织的转录组研究常因高度丰富的转录本的过度表达而混淆。这些丰富的转录本是有问题的,因为它们与稀有RNA转录物竞争并阻止其检测,从而模糊了它们的生物学重要性。当使用长读长进行转录组分析时,这个问题更加突出,因为与短读长测序相比,它们的数据产出相对较低。因此,基于长读长的转录组分析对于非模式生物来说性价比极地。虽然有现成的试剂盒可用于选定的模式生物,它们能够消耗大量的(HBA)和(HBB)血红蛋白转录本,但不适用于非模式生物。为了解决这个问题,本研究采用了crispr/cas9基因耗尽法(通过杂交消耗大量序列)来进行长序列的全长cDNA测序,本研究称之为Long-DASH。使用具有适当引导RNA的重组Cas9蛋白,在进行短期和长期测序文库准备之前,可以在体外耗尽全长的血红蛋白转录本。基于此使用本研究的牛津纳米孔技术(ONT)为基础的R2C2长读长测序和基于Illumina短读长的Smart-seq2方法并行测序耗尽的全长cDNA。为了展示这一点,本研究应用本研究的方法从三只北极熊(Ursusmaritimus)的全血样本中创建了一个同型水平的转录组。使用Long-DASH,本研究成功地消耗了血红蛋白转录体,并产生了深度的Smart-seq2Illumina数据集和380万个R2C2全长cDNAReads。应用Long-DASH和本研究的异构体识别系统,本研究发现有大约6,000个高可信度的异构体和一些新的基因。这表明北海熊的基因亚型具有较高的多样性,目前尚未见报道。这种重复性和直接的方法不仅改进了北极熊的转录组注释,而且将作为未来研究北极圈19个北极熊亚种群内转录动力学的基础。

材料方法

3只北极熊全血样本(PB3,PB19,PB21)

实验方法

去除血红蛋白转录本样本(Crispr/cas9方法);未去除血红蛋白转录本样本。

数据分析

nanopore测序,illumina测序

结果分析

1.基于Long-DASH方法从全长cDNA中消化血红蛋白转录本

采用改进的Smart-seq2方法逆转录和扩增3只北极熊(PB3,PB19,PB21)70ng全血RNA的全长cDNA。然后,本研究对血红蛋白转录本进行了靶向性的耗竭,方法是针对HBA转录本和针对HBB转录本的8个sgRNAs将cas9蛋白与血红蛋白转录本-8sgrn特异的16种导向RNA(SgRNAs)共同孵育成全长的cDNA。

在2%琼脂糖凝胶上观察到已去除或未去除的血红蛋白转录本cDNA。实际上,在任何损耗之前,本研究在琼脂糖凝胶中观察到位于700-800bp的非常强的条带,这表明存在大量的HBA和HBB血红蛋白转录本(图2)。经过耗尽,再扩增和大小选择,全长cDNA产物再次可视化显示假定的血红蛋白条带的去除(图2)。在确认血红蛋白耗尽之后,这个cDNA就可以转换成基于ONT和illumina的文库,每个方案都使用相同的cDNA。

2.Long-dash与Smart-seq2文库制备相容,且不改变cDNA组成

接下来,本研究的目标是验证Long-DASH是否真正消耗了cDNA池中的血红蛋白转录本,并用Illumina公司的短读RNA-seq测序平台验证。为了说明这一点,本研究为每个去除的和未去除cDNA样本混池准备了独立的基于Tn5的Smart-seq2文库。然后,本研究在一个复合IlluminaHiSeqx2x151bp运行测序Smart-seq2。去除血红蛋白转录组本样本产生了大约2000万reads,未去除的样本产生了大约6000万reads。通过未去除样本进行高深度测序,本研究推断,在去除样本和未去除样本中,非血红蛋白基因获得同等的读取覆盖率。这使本研究能够对去除样本和未去除样品进行并排比较,以确保没有偏离目标的影响。

首先,本研究使用基于kmer的方法分析测序结果数据,以估计来自血红蛋白转录本的读数。在未耗尽的cDNA池中,48-68%的reads被评分为起源于血红蛋白转录本。在耗尽的样品中,这种读数减少到1-4%(图3A)。

其次,为了证明血红蛋白转录本的减少并没有改变cDNA池的其余部分,本研究将reads与北极熊的基因组对齐,并量化了所有之前注释过的基因的表达。基因表达量化表明,整体基因表达模式之间没有明显扭曲消耗和未消耗的样本。比较去除样本和未去除样本的基因表达值,剔除与血红蛋白基因位点一致的读数,三个北极熊样本的Pearsonr值为0.97-0.98(图3B)。如果在分析中包括与血红蛋白位点对齐的读数,那么在未去除的样本中与少数血红蛋白位点对齐的大量读数会扭曲RPM计算并改变整体相关性(图3C)。总的来说,这表明去除全长cDNA北京百迈客生物科技有限公司的血红蛋白是成功的,从而释放了绝大多数的测序读数来分析北极熊的其余转录组。

3.Long-DASH与全长cDNA测序方法兼容

在建立了Long-DASH与短读RNA-seq测定的相容性之后,本研究研究了是否可以用本研究的R2C2方法从缺失的cDNA产生一个长reads数据集。通过合并R2C2,本研究可以使用基于ONT长reads序列进行自我纠正,产生高准确率的全长cDNA读取。

从一只北极熊身上获得了大约5,000个R2C2一致读取的未耗尽cDNA片段,这使本研究能够比较耗尽和未耗尽样本之间的血红蛋白含量和一致读长度分布(图4)。在未耗尽的样本中,大多数R2C2读数是两个不同长度的,都在700bp左右,很可能代表了该样本中血红蛋白转录本的79.3%。5个缺失样本的读长度分布更均匀,中位血红蛋白含量为1.2%(0.6%-8.3%)(图4)。R2c2的血红蛋白水平高于Smart-seq2基因文库使用相同的cDNA(1-4%),这可能与R2C2偏向于500-1000bp之间的转录本有关。去除血红蛋白转录本样品的中位读长度略低于1kb,与迄今公布的cDNA读长度分布一致。这意味着,尽管由于现场条件的困难和样品采集与处理之间的滞后时间,RNA完整性的条件并不理想,但分析的RNA分子基本上是完整的。

4.去除血红蛋白样本的全长cDNA的R2C2序列可以提炼转录组注释

接下来,本研究从本研究的全长cDNA中生成了高度可信的信息,以完善当前可用的北极熊转录组注释。为此,本研究使用之前开发的Mandalorion管道分析了380万个R2C2一致读数。本研究使用minimap2将R2C2基因片段与北极熊基因组序列比对。这些排列,连同先前已知的个别剪接位点,然后作为输入文件到本研究的Mandalorion管道,读取高可信度的异构体。然后,本研究使用Squanti算法(33)对这5831个高可信剪接异构体进行分类,该算法确定了实验确定的异构体与参考注释中的基因和异构体之间的关系(图5)

5831个亚型中的1239个异构体被Mandalorion鉴定为新颖非编目”(NNC),这意味着它们与一个已知基因重叠,但至少包含一个未注释的剪接位点。对这个NNC小组的深入分析发现,它们总共包含521个新外显子。1301个亚型被归类为”目录中的小说”(novelincatalog,NIC),这意味着它们与一个已知基因重叠,只使用带注释的剪接位点,但至少有一次作为以前未注释的剪接位点的一部分。本研究总共观察到2540(1239NNC和1301NIC)具有未注释外显子构型的新异构体。总的来说,这个分析极大地提高了本研究对全血北极熊转录组的同型水平的知识(图5)。为了使这些知识能够直接用于未来的分析,本研究生成了一个包含了与r2c2/mandalorion异构体合并的RefSeqmRNA条目的gtf注释文件。

这些新的等形式和等形式特征如何改进了现有的注释可以在下面的三个例子中清楚地看到。在RBX1基因中,本研究发现了10个包含多个TSSs和polyA位点的新亚型,其中一些与新的末端第一外显子或末端外显子有关(图6A)。在GMFG基因中,本研究同样发现了包含未注释的内部外显子和末端外显子、内含子保留事件、TSSs和polyA位点的新异构体(图6B)。最后,本研究发现了一个新的基因位点,该位点包含两个亚型,在北极熊RefSeq信使核糖核酸集中完全缺失。然而,将这两种异构体与熊猫基因组(35)对齐导致了与CCDC72基因的独特匹配(图6C)。

讨论

为了更好地理解人类和环境的扰动如何影响受威胁或濒危物种,了解转录组动态的变化是至关重要的。分子水平和细胞水平的波动是环境变化的敏感指标;它们类似于血液转录组作为确定健康状况、疾病和暴露于环境毒物的代理兽医学。转录组水平的变化也可能是生态专门化的有用指标,因此对设计物种管理和保护的策略也是有用。然而,现有的从全血RNA生成转录组数据的方法要么是专门为短读测序(DASH)设计的,要么是为人类样本设计的,因此缺乏一种成本效益高的方法来分析非模式生物的同型转录组。

使用短序列或长序列研究全血转录组的任何研究都将大大受益于长序列分析法。有效且经济地从全血全长cDNA中删除血红蛋白转录本,然后用短序列或长序列进行测序。本研究通过消耗北极熊全血cDNA池中的血红蛋白来验证北京百迈客生物科技有限公司Long-DASH,并生成了Smart-seq2RNA-seq数据和380万个R2C2全长cDNA一致读数。本研究处理了380万个完整的R2C2序列,鉴定了近6000个高可信度的异构体,然后用这些异构体对北极熊全血转录组注释进行了提炼和改进。

最近文章