百创DG1000数据分析策略 |

作者： Biomarker

发布于 2023年2月21日

分类：智能制造

BMKMANU DG1000数据准备有2种分析策略，从原始FQ文件到Seurat读入的矩阵文件，

第一种；直接使用提供的BSCMatrixx进行运行；

第二种；如果习惯使用cellranger，可以使用提供的FQ_BMKMANU_to_10X 模块将BMKMANU DG1000的数据转换为10X格式直接使用cellranger分析

策略一

直接使用BSCMatrix进行分析

1、软件依赖与安装

1).Python: 3.8及以上，需要安装模块: plotly lz4 numpy Cython h5py scipy pandas pytables sklearn

2).R: 4.0及以上，需要安装包: Seurat dplyr tibble ggplot2 plotly htmlwidgets kableExtra htmltools shiny knitr rmarkdown optparse

3).Cell Ranger: 7.0及以上

4).Seqkit (https://bioinf.shenwei.me/seqkit/download/)

依赖的软件需要使用export添加到环境变量中，以实现流程的调用。

2、数据准备

1).测序数据，双端FASTQ数据

2).参考基因组数据，基因组序列文件和gtf文件（配置文件使用的注释文件需要包含gene和exon）

3、配置文件填写

### Globle parameters

## data 测序数据

FQ1 /path/to/read_1.fastq

FQ2 /path/to/read_2.fastq

## Ref genome 参考基因组和gtf文件
FA /path/to/ref/file
GFF /path/to/gtf/file

## out put 输出路径以及输出结果前缀

OUTDIR /path/to/result/dir/

PREFIX outfile-prefix

##other parameters 其它配置参数（期望细胞数、线程数目、内存上限100Gb，Nobam 设置为0代表不输出bam，设置其它字符代表输出）

EC 3000

Threads 8

RAM 100

Nobam 1

ENV ###R和python解释器路径（可选，如果不提供，则放到环境变量中）

Rscript /path/to/R/bin/

PYTHON /path/to/python/bin/

4、流程运行

1).流程说明

流程分为4个步骤，功能如下：

1.1步骤1，运行fastq2BcUmiSC_v1.1，识别fastq数据中的barcode、umi

1.2步骤2，调用Cell Ranger程序，获取基因表达矩阵

1.3步骤3，运行QC，进行umap和tsne分析

1.4步骤4，运行WebReport，得到网页版报告

2).流程参数

-c config.txt 配置文件

-s 步骤选择，0为运行1-4所有步骤，也可选择个别步骤单独运行，多个步骤中间使用”,”分割。

3).参考命令

./BSCMatrix -c config.txt -s 0

./BSCMatrix -c config.txt -s 1,2,3,4

./BSCMatrix -c config.txt -s 1,2

5、结果说明

01.fastq2BcUmiSC ##步骤1运行结果目录
├── prefix.bc_stat ##不同barcode统计
├── prefix.filter ##barcode 过滤信息
├── prefix.qual.stat ##Reads 统计
├── prefix.stat ##barcode检测统计
└── prefix.umi ##Reads barcode umi信息

02.cellranger/ ##步骤2 运行结果目录
├── bmk_10x_barcode.xls ## barcode对照表
├── data/ ##数据存放目录
├── INDEX/ ##参考基因组索引文件夹
├── Log.out ##索引构建日志文件
├── R1.fq.gz ## R1端数据
├── R2.fq.gz ## R2 端数据
├── ReadID.xls ##ReadID 信息
└── prefix/ ##调用Cell Ranger 软件分析结果目录

03.cluster/ ## 步骤3 运行结果目录
├── cluster.csv ##细胞聚类结果
├── marker_gene.csv ##marker gene
├── tsne_df.xls ##tsne聚类结果
├── tsne_files/ ##tsne html附录文件
├── tsne.html ##tsne html 格式图片
├── tsne.pdf ##tsne pdf格式图片
├── umap_df.xls ##umap 聚类结果
├── umap_files/ ##umap html附录文件
├── umap.html ##umap html格式图片
└── umap.pdf ##umap pdf格式图片

04.WebReport/ ##步骤4 运行结果目录
├── 10x ##调用Cell Ranger程序执行的结果
└── bmk ##网页报告

##############BSCMatrix 环境依赖######################################

1、conda 安装

#下载
wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.12.0-Linux-x86_64.sh

#下载完成之后运行（按提示安装）
sh Miniconda3-py39_4.12.0-Linux-x86_64.sh

#安装完成后执行以下命令
source ~/.bashrc

2、conda 环境配置

conda create -n (环境名) python=3.9

#激活创建的环境
conda activate (环境名)

#添加镜像源
conda config –add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config –add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config –add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/
conda config –add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/

#查看镜像源
conda config –show-sources

3、安装python模块
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple plotly
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple lz4
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple Cython
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple h5py
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple scipy
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple tables
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple sklearn
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas

4、安装指定R版本（v4.2）
conda install -c conda-forge r-base=4.2

5、安装R包
conda install -c conda-forge r-seurat=4.3.0
conda install -c conda-forge r-dplyr=1.1.0
conda install -c conda-forge r-tibble=3.1.8
conda install -c conda-forge r-plotly=4.10.1
conda install -c conda-forge r-htmlwidgets=1.6.1
conda install -c conda-forge r-kableextra=1.3.4
conda install -c conda-forge r-htmltools=0.5.4
conda install -c conda-forge r-shiny=1.7.4
conda install -c conda-forge r-knitr=1.42
conda install -c conda-forge r-rmarkdown=2.20
conda install -c conda-forge r-optparse=1.7.3

6、Cell Ranger安装
#下载
wget -O cellranger-7.1.0.tar.gz “https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1675964753&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NzU5NjQ3NTN9fX1dfQ__&Signature=IFr7ONDqEkZRR6QpU~A6719a9Mc2SD2tI1z6RrGldFFTCiY6Z7VR0x0Gr90jtvTUmYTJ2S0NyuK6SVmdeIZUCcbjz9elG1ImGx7AprTCRD3m~0se-xha2lFr87bEsbAa-7uoyW14wXRlj17b0oG9WomNvVSNNKJSzSSfCkqX3Ev9B82b~DMD-7-Hlb8lAsorv18R8y41T4UihIRdY-LE-I5Gk3fTodmBUjvSEuI3VEalsrVsrN5AdBDpwiCPqSiExODVM0RIsUDV158ceAYFiu5Y9wgbwQVOFMZGYI0d-6tO1VPo4RwwWl0X7c2q21im6BNSQrhQzoDv5cj5COesmQ__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA”

##下载完成之后解压
tar -zxvf cellranger-7.1.0.tar.gz

##配置环境变量
echo “PATH=安装路径/cellranger/7.1.0/bin:$PATH” >~/.bashrc

7、安装seqkit
conda install -c bioconda seqkit

策略二

使用FQ_BMKMANU_to_10X 对原始数据进行转换，然后使用cellranger进行分析

#########################软件说明#########################################
./dealFQ
Description:
Version:v1.0

Usage:
-r1 Read1 Fastq must be given #########R1端数据
-r2 Read2 Fastq must be given #########R2端数据
-o outdir optional [./] ########输出路径
-k keyword optional [bmk] #########关键字
-t threads optional [4] ##########线程数目
-h help document

Example:
dealFQ -r1 R1.fq.gz -r2 R2.fq.gz -o analysis -k bmk -t 8

#########################结果说明##########################################
├── 01.fastq2BcUmiSC
│   ├── *.bc_stat ##不同barcode统计
│   ├── *.filter ##barcode 过滤信息
│   ├── *.qual.stat ##Reads 统计
│   ├── *.stat ##barcode检测统计
│   └── *.umi ##Reads barcode umi信息
└── 02.data
├── bmk_10x_barcode.xls ## barcode对照表
├── data
│   ├── *_S1_L001_R1_001.fastq.gz ##cellranger分析所需数据（R1.fq.gz的硬链接）
│   └── *_S1_L001_R2_001.fastq.gz ##cellranger分析所需数据（R2.fq.gz的硬链接）
├── R1.fq.gz
├── R2.fq.gz
└── ReadID.xls ##ReadID 信息

######################################
可以使用软件dealFQ 将DG1000数据转换成10x cellranger兼容数据，然后用cellranger进行下游分析，文件夹内02.data/data数据即是cellranger分析所需数据。

百创DG1000