分类: 公司新闻

生命科学是当今世界上最热门的学科之一。随着高通量测序技术的迅猛发展,科学界也开始越来越多地应用高通量测序技术来解决生物学问题。比如,用从头测序 (de novo sequencing)获得该物种的参考序列,为后续研究和分子育种奠定基础;对有参考序列的物种,进行全基因组重测序(whole genome resequencing),在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。在转录组水平上进行全转录组测序(whole transcriptome resequencing),从而开展差异表达基因分析、可变剪接、编码序列单核苷酸多态性(cSNP)等研究;或者进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,与染色质免疫共沉淀(ChIP)和 甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。目前,高通量测序也开始广泛应用于 寻找疾病的候选基因上。

与sanger测序相比,高通量测序的显著特点就是数据产出量增大,随之而来的统计学信息增多。曾有人用“找针”来形容两代测序的区别,sanger测序 是在黑暗的环境中找针,高通量测序是把灯点亮后找针。高通量测序的大量数据输出及复杂的统计学信息,就是照亮黑暗的明灯。那么,我们就先来了解一下高通量 测序的基本原理和数据分析的基本流程。

现在市场上占优势的高通量测序方法是Solexa法。它是一种基于边合成边测序技术(Sequencing-By-Synthesis,SBS)的新型测 序方法。通过利用单分子阵列实现在小型芯片(FlowCell)上进行桥式PCR反应。由于新的可逆阻断技术可以实现每次只合成一个碱基,并标记荧光基 团,再利用相应的激光激发荧光基团,捕获激发光,从而读取碱基信息。

 


数据分析流程根据建库的类型和研究目的的不同而各有差别,现以有参转录组信息分析流程为例来说明高通量数据分析的基本流程。

高通量测序数据以FASTQ格式来记录所测的碱基读段和质量分数。数据产出后,对样品测序获得的Reads进行统计,通过统计各样品Reads长度、数 量、碱基数以及GC含量等指标,评估数据量是否满足信息分析要求。之后对原始数据进行质量评估,过滤低质量数据,应用各种序列比对软件遮蔽数据中不属于表 达基因的赝象序列,去除镶嵌克隆,最后获得高质量的数据再进行后续组装和分析。对于有参转录组数据分析,首先将所有测序读段mapping到参考基因组 上,与参考基因组进行比对分析,挑选出匹配好的所有读段,同时进行读段的基因定位,这些信息都将用于后续分析。

后续数据分析主要有基因的结构分析、表达分析和新基因分析。基因注释是利用生物信息学方法,将未知基因序列在公共数据库进行相似性搜索比对,通过与数据库中已知基因序列的同源性比对,来推测未知基因的功能。

目前,除了个别实验室具有高通量测序数据分析能力外,通常情况下,数据分析工作需要由专业的机构或公司来完成,这种形式存在几个弊端:

1、根据客户的不同分析需求,收费标准不同。数据的基础分析结果不能完全满足科研需要,而个性化分析又需要支付高额的分析费用;

2、分析结果和预判结果存在差异时,需要经过反复沟通,反复修改,才可能达到分析目的;

3、数据的利用率低,一次分析后,所用数据基本处于搁置状态,再利用的可能性低,大量的自测数据和公有数据无法再利用;

4、项目完成周期较长,有可能会因分析公司业务量的变化而付出更多的等待时间。现在,完成高通量数据分析工作,我们有了第三种选择­–百迈客云。

 

百迈客云(BMKCloud)是一个基于基因大数据的挖掘、管理和科研协作的整合平台。可以使不具备生物信息分析基础的用户,快速掌握独立的生物信息分析能力,实现高通量数据的深度解读。

百迈客云提供:11大生物信息分析平台(重测序、外显子、转录组、非编码RNA等),基本分析+个性化分析,轻松实现原始数据到生物学问题准确解读的转化;158款数据分析工具,涵盖数据处理,文件操作,序列比对,基因注释和图表制作等,满足个性化数据分析需求。

百迈客云不仅仅是一个数据分析平台,更是一个挖掘研究思路的平台。客户通过在数据模块中检索跟自己研究相关的公共数据,然后通过分析平台进行数据的挖掘和解读,即可从中提炼科研思路,站在科学研究的前沿。

2016年3月,作为BMKCloud公共数据库项目的一部分,动物、植物、微生物、参考基因组、疾病和宏基因组高通量测序数据库正式上线。百迈客云的合 作伙伴现在可以在BMKCloud上免费访问六大数据库了。2016年4月1日,伴随着BMKCloud的全新改版,数据库的公共数据可以直接导入用户目 录“我的数据”中,利用BMKCloud上的分析平台进行各项基础分析和个性化分析,这极大加速了利用公共数据进行研究的步伐。更加令人期待的是,肿瘤和 肿瘤细胞系高通量测序数据库也在紧锣密鼓地筹划中,不久之后也会在BMKCloud云平台上与广大用户见面。BMKCloud公共数据库项目建立的目的也 是让科研工作者更高效、更快速的利用公共数据,提高公共数据的利用效率。使大数据的挖掘不仅仅局限于癌症的研究,能够在动物、植物、微生物等研究中都得到 很好的利用。科研工作者可以根据物种、类型、研究性状、研究结果、测序方法等设置快速检索感兴趣的数据,所有数据均可一键导入我的数据中保存。然后利用百 迈客提供的11大数据分析平台和158款工具进行数据的深度挖掘,高效、快速的挖掘基因大数据。

百迈客云从2014年5月开始开放试用到2015年10月份正式商用。对于广大的科研用户而言,百迈客生物云是一个完 整的交钥匙(Turn-Key)解决方案,用户只需要开通云平台账号,就有了属于自己的生物信息分析平台,以云治云,用“百迈客云”拨开生命疑云,“百迈客云”已经成为进行基因大数据的分析的常用平台。

最近文章