BMKMANU DG1000数据准备有2种分析策略,从原始FQ文件到Seurat读入的矩阵文件,
第一种;直接使用提供的BSCMatrixx进行运行;
第二种;如果习惯使用cellranger,可以使用提供的FQ_BMKMANU_to_10X 模块将BMKMANU DG1000的数据转换为10X格式直接使用cellranger分析
策略一
直接使用BSCMatrix进行分析
1、软件依赖与安装
1).Python: 3.8及以上,需要安装模块: plotly lz4 numpy Cython h5py scipy pandas pytables sklearn
2).R: 4.0及以上,需要安装包: Seurat dplyr tibble ggplot2 plotly htmlwidgets kableExtra htmltools shiny knitr rmarkdown optparse
3).Cell Ranger: 7.0及以上
4).Seqkit (https://bioinf.shenwei.me/seqkit/download/)
依赖的软件需要使用export添加到环境变量中,以实现流程的调用。
2、数据准备
1).测序数据,双端FASTQ数据
2).参考基因组数据,基因组序列文件和gtf文件(配置文件使用的注释文件需要包含gene和exon)
3、配置文件填写
### Globle parameters
## data 测序数据
FQ1 /path/to/read_1.fastq
FQ2 /path/to/read_2.fastq
## Ref genome 参考基因组和gtf文件
FA /path/to/ref/file
GFF /path/to/gtf/file
## out put 输出路径以及输出结果前缀
OUTDIR /path/to/result/dir/
PREFIX outfile-prefix
##other parameters 其它配置参数(期望细胞数、线程数目、内存上限100Gb,Nobam 设置为0代表不输出bam,设置其它字符代表输出)
EC 3000
Threads 8
RAM 100
Nobam 1
ENV ###R和python解释器路径(可选,如果不提供,则放到环境变量中)
Rscript /path/to/R/bin/
PYTHON /path/to/python/bin/
4、流程运行
1).流程说明
流程分为4个步骤,功能如下:
1.1步骤1,运行fastq2BcUmiSC_v1.1,识别fastq数据中的barcode、umi
1.2步骤2,调用Cell Ranger程序,获取基因表达矩阵
1.3步骤3,运行QC,进行umap和tsne分析
1.4步骤4,运行WebReport,得到网页版报告
2).流程参数
-c config.txt 配置文件
-s 步骤选择,0为运行1-4所有步骤,也可选择个别步骤单独运行,多个步骤中间使用”,”分割。
3).参考命令
./BSCMatrix -c config.txt -s 0
./BSCMatrix -c config.txt -s 1,2,3,4
./BSCMatrix -c config.txt -s 1,2
5、结果说明
01.fastq2BcUmiSC ##步骤1运行结果目录
├── prefix.bc_stat ##不同barcode统计
├── prefix.filter ##barcode 过滤信息
├── prefix.qual.stat ##Reads 统计
├── prefix.stat ##barcode检测统计
└── prefix.umi ##Reads barcode umi信息
02.cellranger/ ##步骤2 运行结果目录
├── bmk_10x_barcode.xls ## barcode对照表
├── data/ ##数据存放目录
├── INDEX/ ##参考基因组索引文件夹
├── Log.out ##索引构建日志文件
├── R1.fq.gz ## R1端数据
├── R2.fq.gz ## R2 端数据
├── ReadID.xls ##ReadID 信息
└── prefix/ ##调用Cell Ranger 软件分析结果目录
03.cluster/ ## 步骤3 运行结果目录
├── cluster.csv ##细胞聚类结果
├── marker_gene.csv ##marker gene
├── tsne_df.xls ##tsne聚类结果
├── tsne_files/ ##tsne html附录文件
├── tsne.html ##tsne html 格式图片
├── tsne.pdf ##tsne pdf格式图片
├── umap_df.xls ##umap 聚类结果
├── umap_files/ ##umap html附录文件
├── umap.html ##umap html格式图片
└── umap.pdf ##umap pdf格式图片
04.WebReport/ ##步骤4 运行结果目录
├── 10x ##调用Cell Ranger程序执行的结果
└── bmk ##网页报告
##############BSCMatrix 环境依赖######################################
1、conda 安装
#下载
wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.12.0-Linux-x86_64.sh
#下载完成之后运行(按提示安装)
sh Miniconda3-py39_4.12.0-Linux-x86_64.sh
#安装完成后执行以下命令
source ~/.bashrc
2、conda 环境配置
conda create -n (环境名) python=3.9
#激活创建的环境
conda activate (环境名)
#添加镜像源
conda config –add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config –add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config –add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/
conda config –add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/
#查看镜像源
conda config –show-sources
3、安装python模块
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple plotly
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple lz4
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple Cython
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple h5py
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple scipy
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple tables
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple sklearn
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas
4、安装指定R版本(v4.2)
conda install -c conda-forge r-base=4.2
5、安装R包
conda install -c conda-forge r-seurat=4.3.0
conda install -c conda-forge r-dplyr=1.1.0
conda install -c conda-forge r-tibble=3.1.8
conda install -c conda-forge r-plotly=4.10.1
conda install -c conda-forge r-htmlwidgets=1.6.1
conda install -c conda-forge r-kableextra=1.3.4
conda install -c conda-forge r-htmltools=0.5.4
conda install -c conda-forge r-shiny=1.7.4
conda install -c conda-forge r-knitr=1.42
conda install -c conda-forge r-rmarkdown=2.20
conda install -c conda-forge r-optparse=1.7.3
6、Cell Ranger安装
#下载
wget -O cellranger-7.1.0.tar.gz “https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1675964753&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NzU5NjQ3NTN9fX1dfQ__&Signature=IFr7ONDqEkZRR6QpU~A6719a9Mc2SD2tI1z6RrGldFFTCiY6Z7VR0x0Gr90jtvTUmYTJ2S0NyuK6SVmdeIZUCcbjz9elG1ImGx7AprTCRD3m~0se-xha2lFr87bEsbAa-7uoyW14wXRlj17b0oG9WomNvVSNNKJSzSSfCkqX3Ev9B82b~DMD-7-Hlb8lAsorv18R8y41T4UihIRdY-LE-I5Gk3fTodmBUjvSEuI3VEalsrVsrN5AdBDpwiCPqSiExODVM0RIsUDV158ceAYFiu5Y9wgbwQVOFMZGYI0d-6tO1VPo4RwwWl0X7c2q21im6BNSQrhQzoDv5cj5COesmQ__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA”
##下载完成之后解压
tar -zxvf cellranger-7.1.0.tar.gz
##配置环境变量
echo “PATH=安装路径/cellranger/7.1.0/bin:$PATH” >~/.bashrc
7、安装seqkit
conda install -c bioconda seqkit
策略二
使用FQ_BMKMANU_to_10X 对原始数据进行转换,然后使用cellranger进行分析
#########################软件说明#########################################
./dealFQ
Description:
Version:v1.0
Usage:
-r1 Read1 Fastq must be given #########R1端数据
-r2 Read2 Fastq must be given #########R2端数据
-o outdir optional [./] ########输出路径
-k keyword optional [bmk] #########关键字
-t threads optional [4] ##########线程数目
-h help document
Example:
dealFQ -r1 R1.fq.gz -r2 R2.fq.gz -o analysis -k bmk -t 8
#########################结果说明##########################################
├── 01.fastq2BcUmiSC
│ ├── *.bc_stat ##不同barcode统计
│ ├── *.filter ##barcode 过滤信息
│ ├── *.qual.stat ##Reads 统计
│ ├── *.stat ##barcode检测统计
│ └── *.umi ##Reads barcode umi信息
└── 02.data
├── bmk_10x_barcode.xls ## barcode对照表
├── data
│ ├── *_S1_L001_R1_001.fastq.gz ##cellranger分析所需数据 (R1.fq.gz的硬链接)
│ └── *_S1_L001_R2_001.fastq.gz ##cellranger分析所需数据(R2.fq.gz的硬链接)
├── R1.fq.gz
├── R2.fq.gz
└── ReadID.xls ##ReadID 信息
######################################
可以使用软件dealFQ 将DG1000数据转换成10x cellranger兼容数据,然后用cellranger进行下游分析,文件夹内02.data/data数据即是cellranger分析所需数据。