分类: 医学研究, 转录组测序

百迈客一直秉承“生物科技长信,服务社会,造福人民”的企业使命,致力于让生物科技更快,更好的提高人类生活质量。通过整合高通量测序技术、生物信息技术与云计算、大数据等新兴IT技术,为用户开启生物科技服务2.0新时代。各种测序的经验也都是十分丰富,今天给大家带来一篇通过全长转录组研究转录本的结构变异影响蛋白翻译的文章,了解应用的新方向。详解见下文:

摘要

背景:全长转录组能够检测癌细胞中异常剪接异构体的结构。这些亚型有时候被翻译,被人类白细胞抗原(HLA)分子呈现,并被识别为新抗原。该研究使用(MinION)构建了一个非小细胞肺癌中异常剪接的目录,通过该目录可以识别新亚型和潜在的新抗原。

结果:对22组细胞系进行全长转录组测序,共鉴定出2021种新的剪接异构体。其中一些异构体的蛋白质表达通过蛋白质组分析进行验证。无义介导的mRNA衰减因子(NMD)UPF1的降低和剪接因子SF3B1的减少增加了异常转录本的比例。NetMHC对每种HLA分子结合的亲和力的评估显示,一些亚型可能产生新抗原候选体,还在7个非小细胞肺癌标本中发现了剪接亚型。酶联免疫吸附斑点试验表明,大约一半的候选肽有可能通过与人类白细胞抗原分子的相互作用激活T细胞反应。大约一半的多肽通过与HLA分子的相互作用具有激活T细胞反应的潜力。最后,作者通过参考构建的目录来估计癌症基因组图谱(TCGA)数据库中的亚型数量,发现NMD因子的破坏与TCGA-Lung Adenocarcinoma数据集中发现的剪接亚型数量显著相关。

结论:结果表明,全长转录组测序对于√确鉴定癌细胞中异常转录本至关重要。

材料和方法

实验材料:22组肺腺癌细胞系(A427、A549、ABC-1、H1299、H1437、H1648、H1650、H1819、H2126、H2228、H2347、H322、II-18、PC-14、PC-3、PC-9、RERF-LC-Ad1、RERF-LC-Ad2、RERF-LC-MS、RERF-LC-OK、RERF-LC-KJ和VMRC-LCD)

实验方法:全长转录组测序、RNA-seq测序

结果

1.肺癌细胞系的全长转录本

对22个NSCLC细胞系进行了全长转录组测序,其中肺癌特征基因组表达的突变和转录组本被表示。从每个细胞系中平均产生了350万条reads,平均reads长度为1.6 kb,获得的全长cDNA片段通过Minimap2测序与人类基因组比对。所有的剪接位点都通过二代转录组测序确认。将获得的可变剪接进一步与参考序列数据库(RefSeq)当前的转录本模型进行比较。在映射到RefSeq转录本的reads中,超过50%的reads成功覆盖了多达8000个基因的全长转录本。对于每个基因,MinION的reads(RPM)与二代转录本reads(TPM)具有很强的相关性。

文章鉴定了转录异构体的完整外显子-内含子结构,并将其分为以下类型:未标记外显子、外显子跳跃、互斥外显子、内含子保留、5’可变外显子和3’可变外显子(图 1a)。因此,文章从所有细胞系中鉴定出3474种非RefSeq亚型,并将它们命名为假定的“异常剪接亚型”,以下简称为“亚型”,2021种亚型包含至少一个在参考序列或基因代码数据集中没有出现的剪接事件(图1b)。还在单个全长转录本上鉴定了这些剪接事件的新组合,这很难通过短reads测序数据的片段reads检测到。

Fig. 1

每种非小细胞肺癌细胞系的模式和数量代表特征性异常剪接事件(图一d)。转录本的数量从323到725不等。不同细胞系的转录本组成不同。例如,内含子保留和替代的最后一个外显子构成了RERF-LC-Ad2中大比例的同种类型,而未标记的外显子和外显子跳跃是H1819的特征。这些结果表明,即使在细胞系中,异常剪接转录本的模式也是多样的。剪接事件的一个新的复杂组合转录本的例子如图1e所示。CTSV在ABC-1细胞中表达了两种亚型,其中一种包括发生在外显子2和3之间的替代性最后一个外显子和内含子保留的组合。

还观察到具有多种亚型的基因。例如,HNRNPA2B1显示了在PC-3细胞的3’UTR内包含选择性剪接事件的四种亚型(图1f)。作者总共鉴定了663个具有多种亚型的基因(图1g)。这些结果反映了全长转录组测序在全面检测新的复杂亚型方面的巨大潜力。

为了验证计算的准确性,比较流程和TALON软件检测到的可变剪接。在计算流程中检测到的725种转录本中有708种(98%)也在TALON中检测到,其中676种(93%)成功通过了TALON的过滤条件(图1h)。TALON检测不到的17种亚型由reads纠错工具校正。虽然仅在TALON中检测到21,745种亚型,但99%的亚型被作者之前的过滤条件过滤掉的reads所覆盖(归因于不明确的比对或低表达水平,数据未显示)。作者的过滤条件旨在避免假阳性检测,并保留更高表达的转录本,这些转录本可以翻译成新抗原;因此,作者的流程提取了比TALON提取的亚型更保守的亚型。
为了确认重复位点导致reads错位的影响,作者评估了22个细胞系中检测到的5508个剪接节点。作者提在剪接位点周围50 bp的区域,使用repeatmask搜索重复区域,结果,94.9%的拼接位点没有重叠重复序。这一结果表明,新的剪接位点与重复序列并不特别相关。

2.检测到的转录本

作者进一步发现了新的转录本,发现45%的转录本在细胞系中共有,在每个细胞系独有1894种转录本(图2a)。共有1354个基因在两个或多个细胞系中含有异常剪接转录本(图2b)。
为了表明富含同种亚型的基因,作者比较了有或无的同种亚型基因长度、外显子数量和表达水平。与不含同种亚型的基因相比,含有至少一种同亚型的基因显示出更短的序列长度,并且由较少数量的外显子组成;然而,发现含有同种亚型的基因的表达水平明显升高。作者还发现,同种亚型的多样性与基因长度和表达水平有关。具有一种同种亚型的细胞系的基因显示了具有两种或多种同种亚型在基因长度和表达水平上的显著差异。例如,在VMRC-LCD中,富含同种亚型的基因往往比只有一种同亚型的基因长度更短,表达量更高(图2c–e)。

为了检验表达水平和检测概率的关系,作者将VMRC-LCD细胞的测序reads再抽样至1/2、1/5、1/10、1/50和1/100(n= 100)并计算每个亚型的检测概率。作者将这些亚型分为三类,高、中、低,三类中的每一类如下:(1)基因的TPM(总基因表达),它是根据短reads RNA测序数据;(2)isoform-reads ratio(基因内的转录本频率);(3)isoform-reads。因此,作者发现三类isoform在“TPM”和“isoform-reads ratio”类别中显示出相似的检测概率,这表明isoform检测在某种程度上与这些类别无关。然而,在本研究进行的测序深度中,每个病例似乎都达到了饱和状态。平均单个肺癌细胞中有360000个mRNA分子。因此,每个细胞一个mRNA拷贝相当于3个TPM。在VMRC-LCD中,检测到至少一种亚型的基因的*小TPM为6 TPM。这些事实表明,作者能够识别细胞内表达水平非常低的亚型。
作者还使用具有至少一种转录本靶基因进行了基因本体分析,发现参与翻译途径的RNA结合蛋白显著富集。这一结果与先前对MDS临床标本的研究一致。该报道研究了患有SF3B1、U2AF1和SRSF2突变的患者中的异常剪接事件。一些核糖体蛋白基因和剪接相关基因的表达通常通过可变剪接事件来调控,因此可能容易受到可变剪接的影响。一般来说,核糖体蛋白基因比其他基因更短,表达水平更高。这一特征可能导致富含转录本的基因具有较短的基因长度和较高的表达水平(图2c–e)。

在细胞系中,未发现异常剪接异构体数量与EGFR、KRAS或NRAS驱动基因突变之间存在显著关联(图2g)。值得注意的是,作者发现异常剪接异构体的数量与基因组TMB相关性较差,而TMB是新抗原的来源,也是ICI有效性的已知标记之一(r = 0.3,图2h)。本研究检测到的异常剪接异构体也可能被翻译并作为新抗原呈现。


Fig. 2

3.异常剪接异构体的生物学验证

接下来,作者研究了癌细胞中异常剪接转录本的潜在原因。由于作者能够将转录本作为全长转录本的一种形式进行分析,作者计算了含有PTCs的异常转录本,它们可能是NMD的靶点。作者发现约30%的异常亚型含有PTCs(图3)。事实上,当作者检查VMRC-LCD的情况时,它显示了高数量的异常剪接异构体,作者发现这个细胞系含有一个剪接位点突变UPF1,这是一个关键的NMD因子。为了更直接地验证异常转录本积累的原因,作者在UPF1中对A549进行了siRNA敲除(图3b)。作者同样结合Illumina平台RNA测序数据分析了获得的全长cDNA MinION reads。正如预期的那样,UPF1敲除显著增加了nmd靶向异构体的比例(图3c)。例如,SURF2基因中内含子保留的亚型仅在UPF1敲除细胞中检测到,尽管该亚型含有PTC并可能被NMD靶向(图3d)。为了验证这种异构体在upf1缺失细胞中的特异性表达,作者使用引物进行RT-PCR。SURF2外显子2的5剪接位点对UPF1敲除实验的响应增加了两到三倍(图3e)。这种增加也被检测到在PCR产物之间的大小差异。

SF3B1是一种众所周知的剪接因子,在多种疾病中发生突变,并导致异常剪接亚型的增加。作者通过SF3B1敲除评估剪接损伤的影响以及研究剪接因子的畸变是否影响转录本的产生。作者发现外显子跳跃的比例显著增加(图3f),例如,PSMD7的外显子3和6 在敲除后被改变(图3g)。SF3B1-depleted的A549细胞中,外显子跳跃亚型的表达PSMD7在中显著增加,相反,RefSeq类型减少。为了确认剪接位点近端区域的共有序列,作者收集了仅在SF3B1在A549细胞中敲除检测到的外显子跳跃异构体。在这项分析中,作者用新的剪接连接的10 bp的区域,并跳过了外显子。具有外显子跳跃亚型的基因在翻译和泛素-蛋白酶体途径中显示出显著的富集,因此,这些因素的中断可能会改变至少一些异常剪接亚型,并可能导致它们在肺癌细胞中的积累。

K700E是位于SF3B1 的HEAT-repeat区域常见的突变之一。如先前的研究所示,K700E热点突变下调内含子保留并上调替代3’剪接位点事件。除了外显子跳跃,较受影响的是内含子保留。这个结果和预期一致,因为它被认为会对SF3B1产生相反的结果。其他3’剪接位点事件没有受到显著影响,这并不总是与之前的结果一致,这表明其他细胞环境也起作用。


Fig. 3

4. 异常转录本作为产生新抗原的潜在模板

据报道,肿瘤中积累的异常剪接转录本可能是新抗原的来源。为了研究检测到的转录本是否可以作为新抗原,作者试图分析由这些异常剪接转录本编码的异常肽的潜在抗原性。在多肽方面,通过考虑所有可能的 9-mer肽的全长转录本结构,推导出转录本的改变的多肽序列。事实上,异常剪接转录本通过引起移码或翻译的早期终止而频繁而剧烈地改变蛋白质序列。这些新抗原在大多数细胞系中占总潜在新抗原的*大比例(图4a),异常剪接转录本和移码突变导致了更多新多肽的产生(图4b)。正如预期的那样,被NetMHC预测为“强结合物”的新抗原的数量在剪接转录本和移码突变中也更多(图4c)。在对来自每种肽的*高NetMHC比较中,来自那些异常亚型的肽显示出比通常使用TMB检测方法鉴定的错义和内突变的多肽更高的评分分布(图4d)。

为了从实验上验证异常的转录本是否被翻译成蛋白质,对11种细胞系(A427、A549、H1650、H2228、II-18、PC-9、RERF-LC-Ad1、RERF-LC-Ad2、RERF-LC-KJ、RERF-LC-MS和VMRC-LCD)采用了使用液相色谱结合串联质谱(LC/MS/MS)对于多肽识别,作者基于每个细胞系的MinION数据定制了肽序列数据库。如前所述,普通转录组测序由于其测序能力,显示出比LC/MS/MS蛋白质组学更高的基因覆盖率。通过液相色谱/质谱/蛋白质组学检测的每个基因的肽数与通过转录组测序数据计算的TPM相关(r= 0.52,图4e)而且LC/MS/MS蛋白质组学检测到的大部分基因也被转录组测序覆盖(图4f)。作者成功地检测到7个翻译自异常剪接亚型特异性区域的多肽。例如,衍生自外显子3中具有选择性5’剪接的转录本的多肽KRT7存在于RERF-LC-Ad1(图4g)。在GENCODE数据库中没有发现这种转录本,但是在ENST00000547613中观察到了这种同中型特异性连接,其被认为是处理过的转录本。MinION也证实了在H1437、H2126和II-18中的表达(表1).此外,这种转录本有可能产生几个新抗原,这些新抗原是由NetMHC预测的。这些结果表明,一些异常剪接亚型被真正翻译成肽,并可能在癌症中产生新抗原中发挥作用。


Fig. 4


5.肺癌标本中的异常剪接异构体

为了检查体内癌细胞中是否也存在异常剪接转录本,作者接下来分析了临床肺癌标本。应用与临床样本细胞系分析相同的分析方案,能够识别每个患者的异常剪接亚型(图5a)。作者选择了在肿瘤样本中表达水平比非肿瘤样本高至少两倍的转录本(图5b)在所有临床样本中鉴定出982种富含癌症的剪接亚型。其中,448种亚型在参考序列或基因代码。异常亚型的数量和TMB之间没有显著的相关性(图5c)。作为检测到的转录本的一个例子,在SMOC2如图1所示5d和仅在病例3的肿瘤中表达。类似于细胞系分析的结果,作者可以识别独立剪接事件的几种独特组合模式,这些模式占这些未标记亚型的14.5%。还确定了保留在癌细胞中的潜在的NMD靶向亚型,这表明NMD机制在相应的癌症中被破坏。值得注意的是,在病例3和4中,发现*大数量的潜在NMD靶向亚型在关键NMD因子中存在移码或无义突变,UPF3B和SMG8(图5a)。

与用于分析细胞系数据集的方法类似,进行了NetMHC分析以鉴定可能是潜在新抗原的多肽。为此,作者使用临床样本的基因组测序数据。作者在每个病例中检测到101–255个新抗原候选物(图5e)。作者发现,与来自错义突变的多肽相比,来自剪接转录本的肽显示出更高的分布分数(图5f)。事实上,在大多数样品中,它们占了总新抗原候选肽的大部分(图5e)。这些结果支持了这样一个事实,即临床样本中的异常剪接事件可以被MinION检测到,并且比错义突变更有可能产生更多的新抗原候选肽。

Fig. 5

 

6.对临床样本中异常剪接异构体的评估

为了评估从异常剪接亚型和移码突变中鉴定的肽的抗原性,作者根据图6a所示的方案用候选肽免疫HLA-A24转基因小鼠。作者根据人类白细胞抗原-α:24:02的网络MHC评分选择了17种候选肽(表2)。作者通过BLAST-P证实了该肽序列与人或小鼠蛋白质数据库中的序列没有相似性,最后一次接种疫苗一周后,作者从小鼠中分离出脾细胞,并对分离物进行酶联免疫吸附斑点(ELISpot)分析。通过这样做,作者试图检测新抗原特异性脾淋巴细胞反应。酶联免疫吸附试验结果显示,17个多肽中有8个诱导显著高的干扰素-γ产生(n= 2)与PBS组和单独佐剂组相比(图6b,c)。这些结果表明,来自剪接亚型和移码突变的多肽可以通过与人类白细胞抗原的相互作用激活T细胞反应。

Fig. 6

 

 

结论

在这项研究中,作者指出肿瘤中全长转录组测序对于√确识别被普通转录组测序忽略的异常转录结构至关重要。异常剪接亚型显示出在肿瘤中产生大量新抗原的巨大潜力。从全长转录组测序中获得的这些新的转录本特征将有助于评估肿瘤免疫治疗的结果,当与目前仅使用基因组突变的指标结合使用时,这可能会提高免疫治疗应答预测的准确性。

关于百迈客

好的测序数据要配上专业的分析团队才能让故事叙述的更加完美,百迈客研发团队就是这样一个专业的团队。

   百迈客优势:
● 项目经验丰富:百迈客三代全长转录组成功案例累计发表 13 篇,是国内发表全长转录组成功案例多的公司;
●  平台齐全:拥有 MinION、 GridION X5 和 PromethION 三种型号全套纳米孔测序仪,是国内通量高的 ONT 平台的公司;
● ONT RNA 测序资质:百迈客是中国大陆推出 ONT 全长转录组测序的公司。中国大陆通过 PromethION / GridION双平台 DNA/RNA 样本的公司。
 
  优势点扩展:
● 定量:相比于普通二代基因水平的定量,转录本水平的定量更能精准挖掘基因的功能,从转录本找差异更全面。且ONT全长可同时提供基因和转录本水平定量。结构:ONT全长的长读长优势可对全长转录本进行结构分析,如可变剪接,基因 融合,APA等,结果比片段化的二代准确。
● 技术结果比较:不同表达水平基因饱和度与二代相似;ONT平台不同测序数据量之间,基因表达水平相关性在99%以上,转录本水平可达95%以上;与二代鉴定的差异表达基因相比,其一致性占比90%以上。
最近文章