分类: 文献解读

公司新的三代项目文章-动物篇
兔子(Oryctolagus cuniculus),是重要的哺乳动物,基因组大小为2.66Gb,由于其与人类系统发育关系密切,并且具有生命周期短、性格温顺等特点,因此在生物医学研究中将兔子作为模式动物。特别是,兔子在脂蛋白代谢方面与人类相似,因此被认为是研究人类高胆固醇的常用动物模型。转录多样性对真核生物的生物调控有很大贡献,本研究中采用PacBio单分子长读长测序技术,用于绘制兔的转录本图谱。

1、材料和方法

材料:3只新西兰母兔,分别取21日龄、49日龄、84日龄,7个不同部位的组织器官(脑、心脏、肺、肝、脾、肠窦、后腿骨骼肌),共21个样本,分别提取RNA,等量RNA混合为单个样品,分别进行二代和三代测序。
测序策略:
二代测序:Illumina平台、PE150测序;
三代测序:构建0–1, 1–2, 2–3, 3–6 和5–10 kb五个文库,PacBio RS II平台测序,共测13个SMRT Cell
方法和思路:“3+2”测序模式,对混合的RNA进行测序,获得高可信度的转录本,完善参考基因组注释,比较三代全长转录组测序和二代转录组测序在旁系同源基因的还原上的优势,由此说明通过PacBio鉴定得到的转录本能够更好的注释基因以及还原基因结构。

2、结果与分析

2.1三代测序和纠错
共获得802,358个ROIs序列,其中有1.466,034全长非嵌合(FL)序列和316,000非全长(nFL)序列。
同时,二代测序获得~120百万clean reads,这些序列用来对三代的测序结果进行校正,显示总共135,178个序列(86.2%)被二代测序数据校正,错误片段的长度比例相对较低(中位数8%)。

 

Figure 1.ROIs的分类和纠错

2.2 可变剪接和聚腺苷酸化
PacBio鉴定到多达24,797个AS事件,并对这些可变剪接进行分类统计(Table 1),在兔的参考基因组中仅发现2,398个AS事件,将数据合并后共得到34,173个AS事件,且可变剪接事件包含不同的4中类型,另外,鉴定到11,184个APA事件。挑选5个基因,并用图表示出不同的isoform比对到参考基因模型上(Figure 2)。

Table 1.可变剪接事件分析(IR:内含子保留;ES:外显子跳跃;Alt.5’:可变的5’端;Alt.3’:可变的)

Figure 2. 三代测得转录本的不同isoforms,在数据库中的参考基因模型如图示中被标记有染色体位置、基因ID和基因名称

2.3 与已知参考基因比对分析
通过对PacBio鉴定到的转录本的分析发现,有3,334个基因位点包含了3,637个转录本在参考基因中没有注释,并且有12,112个转录本被注释到参考基因的内含子上,这些新发现的转录本大部分长度为1000~2000bp。

2.4 非编码RNA分类
通过比对到参考蛋白数据库,有30,183个转录本可编码蛋白、6,003个转录本不能编码蛋白,并且这些非编码的转录本外显子少、表达量低、且外显子与内含子在长度上的比值相较于可编码蛋白的转录本略高(Figure 3)。对转录本进行分类(Table 2)。
对非编码转录本基因进行分类,1,794个为基因间区、3,558个基因定位于可编码转录本。

Figure 3.可编码和非编码转录本比较

Table 2. 分类非编码转录本(U:上游;D:下游;E:外显子;I:内含子)

2.5 旁系同源基因分析
选择10个主要组织相容性复合体(MHC)旁系同源基因,这些基因都被注释在1.2-Mbp的12号染色体上(Figure 4)。结果显示除了HLA-A之外,与参考基因组注释相比,PacBio转录本的所有基因结构都得到很好得恢复。 此外,PacBio数据还支持很多尚未注释的转录本。所有的这些同源基因由于其转录本序列非常相似,很难通过二代组装的方式都还原,而三代测序方式能够很好地鉴定出旁系同源基因。

Figure 4.基因通过PacBio所测转录本和组装得到的转录本还原10个MHC基因。染色体定位、命名和每个基因的Ensembl编号(在左侧)。

如图所示:从上到下排列依次为,Ensembl中的参考转录本(黑色),外显子-内含子结构通过一个个方框分开;PacBio transcripts(红色);Cufflinks(绿色)和Trinity(褐色)为组装的转录本。

3、总结

二代测序由于短read组装的困难,获得全长转录本仍然是一个巨大的挑战。在本研究中采用PacBio单分子长读长测序技术,用于绘制兔的转录本图谱。结果提供了一整套全面的转录本参考数据集,从而有助于改进兔基因组的注释。

参考文献

Chen S Y, Deng F, Jia X, et al. A transcriptome atlas of rabbit revealed by PacBio single-molecule long-read sequencing[J]. Scientific Reports, 2017, 7(1):7648.

推荐文章