联系我们
 分类: 时空组学

BSTMatrix v_2.2流程说明

1.软件依赖

1)python: 版本3.8及以上,安装cv2模块(4.0以上版本),matplotlib,seaborn,pandas
2)Star:版本2.6.1d及以上版本
3)perl:threads及threads::shared模块
4)Rscript:需要以下R包,seurat、dplyr、tibble、ggplot2、broom、purrr、cowplot、cluster、ggpubr、plotly、htmlwidgets、kableextra、htmltools、shiny、knitr、rmarkdown、optparse。
依赖的软件需要使用export添加到环境变量中,以实现流程的调用。

2.输入数据准备

1)测序数据:双端测序fastq数据。
2)参考基因组数据:基因组序列文件,gtf文件(第3列需要包含exon),gff文件(可选)(第3列需要包含gene、exon)。
3)features.tsv文件:可使用gtf文件生成,参考命令:perl ./tools/features_generate.pl -i xxx.gtf -o features.tsv
4)STAR基因组索引文件:可使用基因组序列文件和gtf文件生成,参考命令:STAR –runThreadN 8 –runMode genomeGenerate –genomeDir star/ –genomeFastaFiles genome.fa –sjdbGTFfile gene.gtf
5)荧光解码文件及HE图片文件。

3.配置文件编写

配置文件:
## fq测序数据文件路径,支持.gz格式
FQ1 /path/to/read_1.fq.gz
FQ2 /path/to/read_2.fq.gz
## Flu info file 荧光解码文件路径
FLU /path/to/flu_info.txt
## 参考基因组STAR建库目录及gff/gtf文件路径
INDEX /path/to/STAR/index/dir/
GFF /path/to/ref/gene/gff3/file #(也可使用gtf文件)
## 参考基因组features.tsv文件路径
FEATURE /path/to/features.tsv
## HE染色图片路径
HE /path/to/HE.tif
## 输出目录及输出文件前缀
OUTDIR /path/to/result/dir/
PREFIX outfile-prefix
### 程序参数
## fastq2BcUmi
BCType V2 #barcode 版本类型(一般为V2版本)
BCThreads 8 #线程数
## Umi2Gene
Sjdboverhang 100 #STAR建库时使用的-sjdboverhang参数值,默认100
STARThreads 8 #STAR比对线程数

ENV python和Rscript的路径,如不提供则使用系统环境中的版本(不提供请注释掉以下参数)
PYTHON /path/to/python/dir/
Rscript /path/to/Rscript/dir/

4.流程运行

1)流程说明:
流程分为6个步骤,如下所示:
A)步骤1:运行fastq2BcUmi,识别fastq数据中的barcode、umi。
B)步骤2:运行LinkBcChip,识别荧光数据的barcode信息并对应到芯片上位置。
C)步骤3:运行Umi2Gene,将reads与参考基因组比对,得到每个UMI对应的基因信息。
D)步骤4:运行MatrixMake,获得基因表达矩阵。
E)步骤5:运行AllheStat,处理HE图片。
F)步骤6:运行cluster.R,进行聚类分析。
G)步骤7:运行WebReport,得到网页版报告。
2)流程参数:
-c config.txt 数据配置文件
-s 步骤选择,0为运行1-7所有步骤,也可选择个别步骤单独运行,多个步骤中间使用“,”分割。
3)参考命令:
./BSTMatrix -c config.txt -s 0
./BSTMatrix -c config.txt -s 1,2,3,4,5,6,7
./BSTMatrix -c config.txt -s 1,3

5.结果文件说明

1)目录结构及结果说明:
outdir/
├── 01.fastq2BcUmi 步骤1运行结果目录
│   ├── prefix.bc_dist 不同barcode检测统计
│   ├── prefix.bc_stat 不同barcode检测统计
│   ├── prefix.bc_umi_read.tsv barcode类型、对应的umi及reads数统计文件
│   ├── prefix.bc_umi_read.tsv.id barcode类型、对应的umi及reads id文件
│   ├── prefix.filter 没有完整识别出来barcode的reads信息
│   ├── prefix.full_stat barcode类型对应的reads数、umi数
│   ├── prefix.id_map id编号对应关系文件
│   ├── prefix.qual.stat reads统计文件
│   ├── prefix.select_id 完整识别出barcode和UMI的reads id文件
│   ├── prefix.stat barcode检测统计
│   ├── prefix.umi reads对应的barcode类型及umi
│   └── prefix.umi_cor.info umi校正信息
├── 02.LinkBcChip 步骤2运行结果目录
│   ├── prefix.barcode_pos.tsv barcode类型对应的芯片位置文件
│   ├── prefix.barcode.tsv 芯片对应的barcode类型文件
│   ├── prefix.used.barcode
│   └── prefix.pos reads对应的芯片位置及barcode类型文件
├── 03.Umi2Gene 步骤3运行结果目录
│   ├── prefixAligned.sortedByCoord.out.bam STAR软件比对结果
│   ├── prefix.final.transcript
│   ├── prefixLog.final.out STAR软件比对结果信息文件
│   ├── prefix.cut90.fq 剪切成90bp长度的reads文件
│   ├── prefixLog.out
│   ├── prefixLog.progress.out
│   ├── prefix.map2exon
│   ├── prefix.map2gene reads比对到的基因信息
│   ├── prefix.map2intron
│   ├── prefix.map2transcript
│   ├── prefix.mapadjust.exon
│   ├── prefix.mapadjust.intron
│   ├── prefix.mapadjust.transcript
│   ├── prefixSJ.out.tab
│   ├── prefix_STARgenome
│   ├── prefix_STARpass1
│   ├── prefix_STARtmp
│   ├── prefix.stat
│   ├── prefix.total.stat reads比对结果统计文件
│   └── prefix.umi_gene.tsv barcode对应的umi及基因文件
├── 04.MatrixMake 步骤4运行结果目录
│   ├── prefix.matrix.tsv 基因表达矩阵文件
│   ├── prefix.matrix.tsv.filt
│   ├── prefix.select.bc_umi_read.tsv
│   ├── prefix.select.umi_gene.tsv
│   ├── prefix.select.umi_gene.tsv.filter
│   └── prefix.sequencing_saturation.stat
├── 05.AllheStat 步骤5运行结果目录
│   ├── allhe
│   ├── all_level_stat.txt 不同水平的spots统计
│   ├── BSTViewer_project BSTViewer软件输入数据
│   ├── heAuto_level_matrix 不同分辨率组织内spot的矩阵目录
│   ├── level_matrix 不同分辨率的矩阵目录
│   ├── stat.txt
│   └── umi_plot umi count图片统计图目录
├── 06.Cluster 步骤6 聚类结果目录
│   ├── L13 L13水平聚类结果目录
│   ├── L3 L3水平聚类结果目录
│   ├── L4 L4水平聚类结果目录
│   ├── L5 L5水平聚类结果目录
│   ├── L6 L6水平聚类结果目录
│   └── L7 L7水平聚类结果目录
├── 07.WebReport 步骤7运行结果目录
│   ├── prefix.filelist
│   ├── report.html 单文件版网页版报告文件
│   ├── index.html 网页版报告html文件
│   └── src 网页版报告src目录
└── prefix 收集的基因表达矩阵等文件目录
├── barcode_pos.tsv barcode类型对应的芯片位置文件
├── barcode.tsv 芯片对应的barcode类型文件
├── bc_umi_read.tsv.gz barcode类型、对应的umi及reads数统计文件
├── umi_gene.tsv.gz barcode对应的umi及基因文件
├── features.tsv features.tsv文件
└── matrix.tsv 基因表达矩阵文件

最近文章