分类: 转录组测序

Nanopore三代测序是一种单分子实时电信号测序技术,又称为Isoform Sequencing(Iso-Seq),无需打断,可直接读取从5’端到3’端polyA尾的高质量单个RNA分子全长序列。2018年,北京百迈客与牛津纳米孔公司(Oxford Nanopore Technologies,简称ONT)达成长期合作,基于ONT测序平台进行产品开发与应用。目前,百迈客拥有MinION、GridION X5和PromethION三种型号全套纳米孔测序仪。相比于二代RNA-Seq测序技术,ONT三代测序无/低GC含量偏好性,多比对效率低,可准确识别可变剪接(AS),可选择性多聚腺苷酸化(APA),基因家族,融合基因,lncRNA及其靶基因,而且可同时对基因和转录本进行定量分析。

基于Nanopore测序平台的优势,ONT全长转录组越来越受到广大研究者的青睐,大家也越来越关注全长转录组研究应用方向,以及如何充分利用ONT测序数据,发表高分高质量文章。相较于农学科研研究,ONT全长转录组在医学研究方向日渐成熟,在各类疾病,如肺癌,白血病,精神病,肾病,乳腺癌等都有文章发表。今天小编跟大家分享一下ONT全长转录组应用方向和农学经典案例!

ONT全长转录组经典应用方向:

1. 完善基因组注释:由于ONT测序鉴定出新基因,新的isoforms,在完善基因组注释方面获得关注。

2. 基因结构的研究:可变剪接、APA、融合基因、基因家族、lncRNA及其靶基因预测。

1) 可变剪接事件的发生,使一个基因产生多个不同的mRNA转录本,进而能够翻译成多种不同的蛋白。可变剪切是调节基因表达和产生蛋白质多样性的重要原因,是转录后水平调节基因表达的重要机制之一。它在在动物的生长发育、细胞分化、细胞功能等方面具有重要作用。

2) APA是指一个基因上有多个多聚腺苷酸化位点,从而使得一个基因可以产生多条带有不同长度3’UTR的mRNA,或产生不同编码序列的转录本,APA增加了转录组的复杂性。APA影响胚胎发育、细胞分化、细胞增殖、神经元活性、免疫应答、肿瘤形成与转移等生物学过程。

3) 融合基因指两个个或多个基因的编码区首尾相连,置于同一套调控序列 (包括启动子、增强子、核糖体结合序列、终止子等) 控制之下构成的嵌合基因,由染色体重排产生,包括染色体易位、缺失、插入、颠倒等。研究表明,许多疾病、癌症与融合基因的发生相关。

4) 真核生物转录组中存在大量长非编码RNA(long non-coding RNA,lncRNA),这些lncRNA可能在基因表达调控中起关键性作用。挖掘lncRNA的序列、结构、表达及功能信息是研究生物学问题必不可少的部分。

3. 基因功能研究:通过传统Race获得整个转录本全长,实验经费、时间成本高,而通过三代测序可获得全长,无需RACE实验。

4. 转录本定量:ONT全长转录组可同时对基因和转录本进行定量,不需要二代数据辅助。而一些已知关键基因探索新功能,基因发生变异变化的是不同的转录本,不是整个基因的变化。而在进行差异基因研究时,基因表达没有差异,转录本定量可能会出现差异。

经典案例解读

成功案例一

英文题目:Comparative Analyses of Full-Length Transcriptomes Reveal Gnetum luofuense Stem Developmental Dynamics

中文题目:全长转录组的比较分析揭示了罗浮买麻藤茎的发育动力学

发表期刊:Frontiers in genetics

影响因子:4.599

原文链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8027257/

主要实验方法和材料

材料:GLN01(茎尖,直径=0.5-2mm)、GLN02(2-3 mm)、GLN03(3-4 mm)和GLN04(4-5 mm)。每个发育阶段制备了三个重复样品(两个来自雌性个体,一个来自雄性个体)

测序平台:MinION,共构建12个转录组文库。

主要研究结果与分析

1. AS和APA分析

在12个罗浮买麻藤茎样本中检测到总共24151个AS事件(图2A)。其中,内含子保留所占比例最大(7.793个事件;33.23%),而可变外显子所占比例最小(319个事件;1.32%)。内含子保留数在GLN02期和GLN04期之间显著增加(图2B)。可变5’剪接位点在GLN03和GLN04之间显著增加,而可变3’剪接位点和外显子跳跃仅在GLN03中显著增加(p值<0.05)。APA分析结果显示,3’末端有5个多聚腺苷酸化位点的转录本所占比例最大(57194;42.56%),其次是只有一个位点(18948;14.02%)或两个位点(16189;12.05%)的位点(图2C)。APA事件的数量在整个买麻藤茎发育过程中也没有显著差异(图2D)。在3’UTR上游50nt位置检测到尿嘧啶(U)的富集,而在下游50 nt位置发现腺嘌呤(A)的富集,这表明所有poly(A)位点存在核苷酸偏倚(图2E)。在所有转录本中,在poly(A)位点上游50 nt位置也检测到三个保守基序(即AAAUGC、CCAUGC和CCAUCC)(图2F)。

图2 AS和APA事件的鉴定
2. CDS and lncRNAs分析

总共鉴定了38108个ORF,包括30323个(79.57%)完整的ORF,它们同时具有起始密码子和终止密码子。就完整的ORF而言,100-200 bp(12855个ORF)、0-100 bp(12150个)和200-300 bp(3751个)长度所占比例最大(图3A)。共鉴定出728个lncRNAs,平均长度在298到4362 nt之间。这些lncRNAs进一步分类为545个基因间区lncRNAs(74.86%)、28个反义lncRNAs(3.85%)、13个内含子lncRNAs(1.79%)和142个正义lncRNAs(19.50%)(图3C)。研究还发现,这些lncRNAs调控的顺式靶基因比那些反式靶基因多(图3D)。发现在GLN01和GLN03之间(Student t检验,p=0.002),以及GLN01和GLN04之间(p=0.037),这些lncRNAs调控的顺式靶基因显著增加,而这些lncRNAs调控的反式靶基因在整个茎发育过程中未发现显著变化。

图3基于12个全长转录组的ORF和lncRNAs鉴定
3. TF and WGCNA Analyses

共鉴定出4251个TFs,属于208个基因家族。其中最丰富的是AP2/ERF(176)、MYB相关(135)和bHLH(133)(图4A),同时WGCNA分析也确定了与罗浮买麻藤茎发育高度相关的八个TFs模块(图4B、C)。绿松石色(编号1,315 TFs)、黑色(编号2,215 TFs)和黄色(编号7,75 TFs)最富集。绿松石色模块中的TF主要在GLN01中表达,而黑色和黄色模块中的TF分别在GLN02和GLN04中密集表达(图4B、C)。很明显,绿松石色模块中的TFs主要通过三种KEGG途径富集,“淀粉和蔗糖代谢”(11 TFs,ko00500)、“淀粉和蔗糖代谢”(8 TFs,ko00500)和“戊糖和葡萄糖醛酸盐相互转化”(6 TFs,ko00040)(图4D)。类似地,黑色模块中的TFs主要富集于“植物-病原体相互作用”(6 TFs,ko04626)、“碳代谢”(4TFs)和“苯丙烷生物合成”(4 TFs,ko00940),而黄色模块中的TFs主要富集于“氰基氨基酸代谢”(2 TFs,ko00460)和“糖酵解/糖异生”(2 TFs,ko00010)。此外,还发现绿松石色模块中bHLH、GRF和MYB相关蛋白高度表达;在黑色模块中EGAP2/ERF、NAC和MYB高度表达;在黄色模块中MYB、bZIP和PLATZ高度表达(图4E)。


图4 TFs的鉴定和WGCNA分析

4. DET s and K-Means Clustering

结果显示GLN01和GLN04之间有492个DET,其中283个上调,209个下调(图5A)。接着是GLN01和GLN02,GLN01和GLN03,分别有468个和136个。富集分析结果显示,GLN01和GLN04之间的DET在三条KEGG途径:“苯丙烷生物合成”(16个DET)、“淀粉和蔗糖代谢”(10个DET)和“氰基氨基酸代谢”(8个DET)中显著富集(图5C)。

然后,使用K-均值聚类算法将所有DET分为七类(图5D)。结果表明,来自K7簇的转录物主要表达在顶端(GLN01),而其余簇,K3和K4,主要表达在GLN02和GLN04之间。这七个簇的转录本在多个GO术语中富集(图5E),例如,K7簇转录物在“细胞壁生物发生”、“植物型细胞壁组织”和“细胞壁”术语中富集,来自K3簇的转录物在“调控茎尖分生组织发育”、“调控叶片发育”和“对内源刺激的反应”术语中富集,而来自K4簇的转录物在“氮化合物转运”、“脉管发育”和“光系统I”富集。

图5 DET-s和DET-s的K-均值聚类分析

5. 总结

在罗浮买麻藤茎的12个全长转录组中预测有24151个AS事件、134391个APA事件和728个lncRNAs。WGCNA和K-means聚类分析表明,关键转录因子与一系列KEGG途径有关,包括光合作用、氮运输和叶片个体发育。这些发现为与罗浮买麻藤相关的纤维和造纸工业提供了有价值的信息,并阐明了纳米孔测序技术在裸子植物全长转录组研究中的应用。

成功案例二

英文题目:Nanopore long-read RNAseq reveals regulatory mechanisms of thermally variable reef environments promoting heat tolerance of scleractinian coral Pocillopora damicornis

中文题目:ONT全长转录组揭示热变化的珊瑚礁环境中促进鹿角珊瑚耐热性的调节机制

发表期刊:Environmental research

影响因子:6.498

原文链接:https://pubmed.ncbi.nlm.nih.gov/33503412/

主要实验方法与材料

材料:位于中国海南三亚湾鹿回头边缘礁石头,高温浅水区HP和气温深水区LP组中,每十个样本中有两个以等摩尔量混合以制备新样本,以覆盖更多样本,即每组使用五个生物重复。

建库测序:PromethION平台,共构建了10个转录组文库(HP组的Q1-Q5和LP组的S1-S5)。

主要实验结果与分析

1. APA和AS鉴定

APA和AS的鉴定增强了我们对转录异构体多样性生物学作用的理解。在本研究中,确定了9035例AS事件,并将其分为五类(图2)。在检测到的全部转录本中,有6.86%由某种可变剪切形式产生,其中内含子保留是最常见的可变剪切事件。此外,在88092个基因位点上进一步确定了207955个APA事件。

图2 APA和AS鉴定

2. lncRNAs鉴定

有904个lncRNAs在Pfam、CPC、CNCI和CPAT都有鉴定到(图3A)。对lncRNAs进行分类和映射,发现基因间区的lncRNAs所占比例最多(688,76.1%)。

图3 lncRNAs鉴定

3. lncRNAs和mRNAs在不同环境中的动态表达

共鉴定出1390个mRNAs(671个上调,719个下调)和50个lncRNAs(22个上调,28个下调)(图4B和C)。在本研究中,预测DE-lncRNAs与其靶mRNA协同发挥其功能,从而说明珊瑚对环境变化的适应。对lncRNA靶向mRNAs进行KEGG富集分析,以探索鹿角珊瑚lncRNAs的功能。根据KEGG分析,DE-lncRNA靶向mRNA在五条途径中显著富集(q值<0.05),如ko00603鞘糖脂生物合成-球状系列、ko00531氨基糖降解、ko00604鞘糖脂生物合成-神经节苷脂系列、ko00511其他聚糖降解、ko04142溶酶体、,ko00520氨基糖和核苷酸糖代谢,以及ko03013 RNA转运。

图4 lncRNAs和mRNAs在不同环境中的动态表达

4. 总结

珊瑚礁热环境的变化促进了鹿角珊瑚的耐热性。本研究首次对APA和AS进行了全面分析,并验证了鹿角珊瑚对热变化礁环境的反应中lncRNA-mRNA共表达网络的有效性,这可能在其热适应反应中起着关键作用。此外,作者猜想热变化的珊瑚礁环境通过代谢调节促进了鹿角珊瑚的耐热性,并且较低的代谢率与耐热性的增加呈正相关。本文报告的数据提供了关于lncRNAs在鹿角珊瑚耐热性中作用的重要信息,为进一步阐明lncRNAs在无脊椎动物环境应激反应中调控mRNA表达的机制提供了基础。因此,这些发现表明,鹿角珊瑚在未来可能具有适应气候变化的潜力。

最近文章