怎么从geo数据库下载数据文件？【图文详细教程】 |

发布于 2022年9月30日

对于从事生物生信分析的人员来说，NCBI的重要性不必多说，而GEO（Gene Expression Omnibus database）是NCBI负责维护的一个数据库，收集了大量表达谱、甲基化、LncRNA、miRNA、拷贝数变异（CNV）等各种芯片数据，并且还存储了一些二代数据和其他高通量测序数据。相信【实用帖】手把手教你如何上传GEO数据库已经为您解决数据上传的问题，那么今天小编继续带您玩转GEO数据下载，充分挖掘GEO数据库的价值，让GEO数据库成为您的研究数据后花园。

GEO数据库可以分为以下类型：a) GEO Platform (GPL) 芯片平台
b) GEO Sample (GSM) 样本ID号
c) GEO Series (GSE) study的ID号
d) GEO Dataset (GDS) 数据集的ID号这些数据均可以在ftp（ftp://ftp-trace.ncbi.nih.gov/geo/）进行下载。

一般我们在文章中看到的都是GSE的ID，那我们如何通过GSE的ID进行数据的下载呢，下面就让小编手把手教您如何进行GEO数据的下载。

咱们以下面篇文章为例：

我们在文末找到作者数据上传地址和GSE的ID

然后在GEO官网输入GSE115354，

首先我们可以看到是关于该study的描述信息，包括文章信息、测序物种、实验类型等等

而我们最关心的东西在页面的下方

如果我们想下载作者标准化后的数据，可以直接在这个页面中Supplementary file中进行下载，那如果我想下载原始数据怎么办呢，不要着急，您慢慢往下看。

我们点击页面中Sample对应的GSM的ID，每个样本都对一个GSM，我们以第一个为例，点击后进入以下界面

然后点击最下方SRA编号，进入下面的页面这里面包含了这个样本的基本信息，包括测序平台、文库类型、数据量等基本信息，然后点击页面右上方的Send to按钮，选择File，Format选择RunInfo，然后点击Creat file下载一个csv文件，打开文件，可以看到一个下载链接

点击链接就可以直接下载数据了。

下载完成后您可能有些疑问，我们一般测序数据都输pair-end的双端reads，为什么我下载的是一个.sra结尾的数据呢？难道是一个单端数据吗？这个当然不是，SRA为了节省空间，一般上传的数据都是.sra的压缩文件，那我们如何将sra文件转化成常用的双端数据呢？这里就要用到SRA提供的一个工具：fastq-dump，

下载网址：https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

官方说明文档：https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump

当然，这个软件需要在Linux系统下进行操作，命令行如下：

fastq-dump *.sra --split-3

这里的–split-3会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件。运行完成后就能获得了您想要的原始数据了。如果您还想学习更多实用的高通量测序数据挖掘和分析的知识，欢迎点击下方按钮联系我们。