分类: 医学研究
对于从事生物生信分析的人员来说,NCBI的重要性不必多说,而GEO(Gene Expression Omnibus database)是NCBI负责维护的一个数据库,收集了大量表达谱、甲基化、LncRNA、miRNA、拷贝数变异(CNV)等各种芯片数据,并且还存储了一些二代数据和其他高通量测序数据。相信【实用帖】手把手教你如何上传GEO数据库已经为您解决数据上传的问题,那么今天小编继续带您玩转GEO数据下载,充分挖掘GEO数据库的价值,让GEO数据库成为您的研究数据后花园。

GEO数据库可以分为以下类型:a) GEO Platform (GPL) 芯片平台
b) GEO Sample (GSM) 样本ID号
c) GEO Series (GSE) study的ID号
d) GEO Dataset (GDS) 数据集的ID号这些数据均可以在ftp(ftp://ftp-trace.ncbi.nih.gov/geo/)进行下载。

一般我们在文章中看到的都是GSE的ID,那我们如何通过GSE的ID进行数据的下载呢,下面就让小编手把手教您如何进行GEO数据的下载。

咱们以下面篇文章为例:

我们在文末找到作者数据上传地址和GSE的ID

然后在GEO官网输入GSE115354,

首先我们可以看到是关于该study的描述信息,包括文章信息、测序物种、实验类型等等

而我们最关心的东西在页面的下方

如果我们想下载作者标准化后的数据,可以直接在这个页面中Supplementary file中进行下载,那如果我想下载原始数据怎么办呢,不要着急,您慢慢往下看。

我们点击页面中Sample对应的GSM的ID,每个样本都对一个GSM,我们以第一个为例,点击后进入以下界面

然后点击最下方SRA编号,进入下面的页面这里面包含了这个样本的基本信息,包括测序平台、文库类型、数据量等基本信息,然后点击页面右上方的Send to按钮,选择File,Format选择RunInfo,然后点击Creat file下载一个csv文件,打开文件,可以看到一个下载链接

点击链接就可以直接下载数据了。

下载完成后您可能有些疑问,我们一般测序数据都输pair-end的双端reads,为什么我下载的是一个.sra结尾的数据呢?难道是一个单端数据吗?这个当然不是,SRA为了节省空间,一般上传的数据都是.sra的压缩文件,那我们如何将sra文件转化成常用的双端数据呢?这里就要用到SRA提供的一个工具:fastq-dump,

下载网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

官方说明文档:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump

当然,这个软件需要在Linux系统下进行操作,命令行如下:

fastq-dump *.sra --split-3

这里的–split-3会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件。运行完成后就能获得了您想要的原始数据了。如果您还想学习更多实用的高通量测序数据挖掘和分析的知识,欢迎点击下方按钮联系我们。

立即咨询
最近文章