1. 软件依赖
BSTMatrix-FFPE下载解压后参考目录下的“环境配置.rst”安装软件依赖,已经安装conda软件的可以通过目录下的setup.yaml文件以下边命令创建环境:
conda env create -f setup.yaml -n (环境名)
2. 输入数据准备
- 测序数据:双端测序fastq数据。
- 参考基因组数据:基因组序列文件,gtf文件(第3列需要包含exon),包含gene_biotype。
- tsv文件:可使用gtf文件生成,参考命令:perl ./tools/features_generate.pl -i xxx.gtf -o features.tsv
- bed文件:可使用gtf文件生成,参考命令:perl ./tools/gtf2bed.pl genes.gtf > genes.bed
- STAR基因组索引文件:可使用基因组序列文件和gtf文件生成,参考命令:STAR –runThreadN 8 –runMode genomeGenerate –genomeDir star/ –genomeFastaFiles genome.fa –sjdbGTFfile gene.gtf
- 荧光解码文件及HE图片文件。
- 荧光图片文件(HE和荧光图片至少给定1个)。
3. 配置文件编写
配置文件:
## fq测序数据文件路径,支持.gz格式
FQ1 /path/to/read_1.fq.gz
FQ2 /path/to/read_2.fq.gz
## Flu info file 荧光解码文件路径
FLU /path/to/flu_info.txt
#CT /paht/to/chip_type.txt #芯片类型参数文件,不给流程自动判断
## AllheStat.py 组织识别参数
HE /path/to/HE.tif #明场染色图片,和组织荧光图片至少给一个
#INSIDE 1 #是否对组织内部空白进行识别,0不识别,1识别
#GRAY 200 #组织图像识别灰度阈值,默认自动判断
## CellSplit 是否做细胞分割及荧光图片路径、颜色通道
CellSplit True #是否做细胞分割分析,T/True表示做,否则不做
fluorescence /path/to/fluorescence.tiff #组织荧光图片,可选。
fluorescence_channl 0 #图片颜色通道,默认0
#FLGRAY 15 #荧光图片识别灰度阈值,默认自动判断
#cells_npy /path/to/cells/npyfile #已有细胞分割pny结果文件,给定则用此文件分析
#细胞分割参数
#YAML /path/to/cell_split/parameter/file #细胞分割参数文件,可选
#enhance 1 #细胞比较密集选1,细胞核颗粒分明可以选0
## 参考基因组STAR建库目录及gff/gtf文件路径
GenomeVer xxx #基因组版本信息,报告中使用
INDEX /path/to/STAR/index/dir/
GFF /path/to/ref/gene/gff3/file #(也可使用gtf文件)
BED /path/to/ref/gene/bed/file #基因bed文件
## 参考基因组features.tsv文件路径
FEATURE /path/to/features.tsv
## 输出目录及输出文件前缀
OUTDIR /path/to/result/dir/
PREFIX outfile-prefix
### 程序参数
## fastq2BcUmi
BCType V2 #barcode 版本类型(一般为V2版本)
BCThreads 8 #barcode识别线程数
##reads过滤参数
Threads 8 #程序线程数
MinLen 20 #过滤时保留的最短reads长度
## 是否跳过基因类型占比分析(基因注释信息不完善的需要选1,如gtf中只包含蛋白编码类型基因)
#SKIP 1
## Umi2Gene
Sjdboverhang 100 #STAR建库时使用的-sjdboverhang参数值,默认100
STARThreads 8 #STAR比对线程数
#STAR_para –outFilterMatchNminOverLread 0.66 –outFilterScoreMinOverLread 0.66 –outFilterMatchNmin 17
## ENV python和Rscript的路径,如不提供则使用系统环境中的版本(不提供请注释掉以下参数)
PYTHON /path/to/python/dir/
Rscript /path/to/Rscript/dir/
注:要进行细胞分割分析配置文件中CellSplit需选True,植物细胞分割不需要提供荧光图,只需在HE参数中给定明场图,并且注释掉荧光图参数fluorescence 。
4. 流程运行
1)流程说明:
流程分为9个步骤,如下所示:
- 步骤p:预处理,对reads进行剪切和过滤,去掉接头序列。
- 步骤1:运行fastq2BcUmi,识别fastq数据中的barcode、umi。
- 步骤2:运行Umi2Gene,将reads与参考基因组比对,得到每个UMI对应的基因信息。
- 步骤3:运行LinkBcChip,识别荧光数据的barcode信息并对应到芯片上位置。
- 步骤4:运行MatrixMake,获得基因表达矩阵。
- 步骤5:运行AllheStat,处理HE图片。
- 步骤6:运行R,进行聚类分析。
- 步骤7:运行CellSplit,进行细胞分割分析。
- 步骤8:运行WebReport,得到网页版报告。
2)流程参数:
-p 预处理数据,对reads过滤接头等操作。
-c config.txt 数据配置文件
-s 步骤选择,0为运行1-8所有步骤,也可选择个别步骤单独运行,多个步骤中间使用“,”分隔。
注:选0时如果要做细胞分割分析,配置文件中CellSplit参数需要选True。
注:植物细胞分割时不需要荧光图,只需要在配置文件的HE参数中提供明场图,CellSplit参数选True即可进行分析。
3)参考命令:
./BSTMatrix-FFPE -p -c config.txt -s 0
./BSTMatrix-FFPE -p -c config.txt -s 1,2,3,4,5,6,7,8
./BSTMatrix-FFPE -p -c config.txt -s 1,3
5. 结果文件目录结构
目录结构及结果说明:
outdir/
├── 00.cut_reads 步骤p 序列剪切结果目录
│ ├── cut.done 标记文件
│ ├── xxx_cutA_cutread_cutTSO_1.fq.gz 剪切后的read1序列文件
│ ├── xxx_cutA_cutread_cutTSO_2.fq.gz 剪切后的read2序列文件
│ ├── xxx_cutA_cutread_cutTSO.len_stat 剪切后的序列长度统计文件
│ ├── xxx_cutA_cutread_cutTSO.len_stat.plot.png 剪切后的序列长度分布图
│ ├── xxx.cutadapt.log cutadapt日志文件
│ └── xxx.cut_reads.stat reads过滤统计文件
├── 01.fastq2BcUmi 步骤1 序列barcode及umi检测结果目录
│ ├── xxx.bc_dist 不同barcode检测统计文件
│ ├── xxx.bc_stat 不同barcode检测统计文件
│ ├── xxx.bc_umi_read.tsv barcode类型、对应的umi及reads数统计文件
│ ├── xxx.bc_umi_read.tsv.id barcode类型、对应的umi及reads id文件
│ ├── xxx.filter 没有完整识别出barcode的reads信息文件
│ ├── xxx.full_stat barcode类型对应的reads数、umi数文件
│ ├── xxx.id_map id编号对应关系文件
│ ├── xxx.qual.stat reads统计文件
│ ├── xxx.select_id 完整识别出barcode和UMI的reads id文件
│ ├── xxx.stat barcode检测统计文件
│ ├── xxx.umi reads对应的barcode类型及umi文件
│ └── xxx.umi_cor.info umi校正信息文件
├── 02.Umi2Gene 步骤2 基因表达信息结果目录
│ ├── actb02mean.stat ACTB gene覆盖度统计文件
│ ├── xxx_100000.bam 抽取的10w条reads比对结果
│ ├── xxx_100000.sort.bam 抽取的10w条reads比对排序结果
│ ├── xxx_100000.sort.bam.bai
│ ├── xxxAligned.sortedByCoord.out.bam STAR比对结果bam文件
│ ├── xxxAligned.sortedByCoord.out.bam.bai
│ ├── xxx.biotype_stat 基因类型占比统计文件
│ ├── xxx.biotype_stat_barplot.pdf 基因类型占比统计图
│ ├── xxx.biotype_stat_barplot.png 基因类型占比统计图
│ ├── xxx.biotype_stat_piechart.pdf 基因类型占比统计图
│ ├── xxx.biotype_stat_piechart.png 基因类型占比统计图
│ ├── xxx.counts_by_biotype.txt 基因类型占比统计文件
│ ├── xxx.counts_by_biotype.txt.summary 基因类型占比统计文件
│ ├── xxx.cut0.fq 选择进行比对的read2序列文件
│ ├── xxx.geneBodyCoverage.curves.png 基因区覆盖度曲线图
│ ├── xxx.geneBodyCoverage.r 基因区覆盖度曲线图脚本
│ ├── xxx.geneBodyCoverage.txt 基因区覆盖度曲线图数据
│ ├── xxxLog.final.out STAR比对统计输出文件
│ ├── xxxLog.out STAR比对日志文件
│ ├── xxxLog.progress.out STAR比对日志文件
│ ├── xxx.map2gene 比对到基因上的reads信息文件
│ ├── xxx.map2gene_U_100000.txt 提取的10w条reads唯一比对的结果
│ ├── xxx_reads_mapped2Middle_genebody.stat 覆盖基因中间区域的比例统计文件
│ ├── xxxSJ.out.tab STAR比对的剪切位点信息文件
│ ├── xxx_STARtmp STAR比对临时文件目录
│ ├── xxx.stat 初步比对信息统计文件
│ ├── xxx.total.stat 比对情况统计文件
│ └── xxx.umi_gene.tsv barcode对应的umi及基因文件
├── 03.LinkBcChip 步骤3 barcode空间定位结果目录
│ ├── xxx.barcode_pos.tsv barcode类型对应的芯片位置文件
│ ├── xxx.barcode.tsv 芯片对应的barcode类型文件
│ ├── xxx.barcode_umi.tsv 芯片对应的barcode位置和umi数文件
│ ├── xxx.chip_type 芯片对应芯片类型
│ ├── xxx.dup_distinct 芯片重复信号对应的解码中间文件
│ ├── xxx.one_distinct 芯片对应多个barcode的解码中间文件
│ └── xxx.null 无法识别的芯片位置信息文件
├── 04.MatrixMake 步骤4 表达矩阵结果目录
│ ├── xxx.matrix.tsv 基因表达矩阵文件
│ ├── xxx.matrix.tsv.filt 过滤文件
│ ├── xxx.select.bc_umi_read.tsv barcode对应的umi及reads数文件
│ ├── xxx.select.umi_gene.tsv barcode对应的umi及基因文件
│ ├── xxx.select.umi_gene.tsv.filter 过滤掉的barcode基因信息文件
│ ├── xxx.sequencing_saturation.stat 测序饱和度统计文件
│ └── xxx.sequencing_saturation.png 测序饱和度曲线图
├── 05.AllheStat 步骤5 组织表达分析结果目录
│ ├── allhe 组织区域信息目录
│ │ ├── he_roi_small.png HE组织区域识别后png图片文件
│ │ ├── he_roi.tif HE组织区域识别后tif图片文件
│ │ ├── roi_heAuto.json 组织区域json文件
│ │ └── stat.txt 组织区域统计文件
│ ├── all_level_stat.txt 不同分辨率水平统计文件
│ ├── BSTViewer_project BSTViewer软件输入数据目录
│ │ ├── cell_split 细胞分割数据目录
│ │ ├── cluster 空
│ │ ├── he_roi_small.png HE组织区域识别后png图片文件
│ │ ├── he.tif HE染色图片文件
│ │ ├── imgs 空
│ │ ├── level_matrix 不同分辨率水平表达矩阵目录
│ │ ├── project_setting.json BSTViewer项目json文件
│ │ ├── roi_groups 组织及HE图片json文件目录
│ │ └── subdata 组织区域不同分辨率水平表达矩阵目录
│ ├── heAuto_level_matrix 组织区域不同分辨率水平表达矩阵目录
│ │ └── subdata 组织区域不同分辨率水平表达矩阵目录
│ ├── level_matrix 芯片不同分辨率水平表达矩阵目录
│ │ ├── level_1 level 1水平表达矩阵目录
│ │ ├── level_18 level 18水平表达矩阵目录
│ │ ├── level_2 level 2水平表达矩阵目录
│ │ ├── level_3 level 3水平表达矩阵目录
│ │ ├── level_4 level 4水平表达矩阵目录
│ │ ├── level_5 level 5水平表达矩阵目录
│ │ ├── level_6 level 6水平表达矩阵目录
│ │ ├── level_7 level 7水平表达矩阵目录
│ │ └── level_9 level 9水平表达矩阵目录
│ ├── lncRNA_level_stat.txt lncRNA不同分辨率水平统计文件
│ ├── lncRNA_level_stat.txt.merge 总的不同分辨率水平统计文件
│ ├── stat.txt 组织区域分析统计文件
│ └── umi_plot umi画图结果目录
│ ├── all_umi_count_small.png 芯片区域umi-count png图片
│ ├── all_umi_count.tif 芯片区域umi-count tif图片
│ ├── roi_umi_count_small.png 组织区域umi-count png图片
│ ├── roi_umi_count.tif 组织区域umi-count tif图片
│ ├── roi_umi_count_white_small.png 组织区域白底umi-count png图片
│ └── roi_umi_count_white.tif 组织区域白底umi-count tif图片
├── 06.Cluster 步骤6 聚类分析结果目录
│ ├── L18 level 18水平聚类结果目录
│ │ ├── cluster.csv 聚类结果文件
│ │ ├── L18_cluster_files 聚类html附录文件目录
│ │ ├── L18_cluster.html 聚类html格式图片文件
│ │ ├── L18_cluster.pdf 聚类pdf格式图片文件
│ │ ├── L18_cluster.png 聚类png格式图片文件
│ │ ├── L18_umap_clstr.pdf 合并后pdf格式图片文件
│ │ ├── L18_umap_clstr.png 合并后png格式图片文件
│ │ ├── L18_umap_files umap html附录文件目录
│ │ ├── L18_umap.html umap html格式图片文件
│ │ ├── L18_umap.pdf umap pdf格式图片文件
│ │ └── L18_umap.png umap png格式图片文件
│ ├── L3 level 3水平聚类结果目录
│ │ ├── cluster.csv 聚类结果文件
│ │ ├── L3_cluster_files 聚类html附录文件目录
│ │ ├── L3_cluster.html 聚类html格式图片文件
│ │ ├── L3_cluster.pdf 聚类pdf格式图片文件
│ │ ├── L3_cluster.png 聚类png格式图片文件
│ │ ├── L3_umap_clstr.pdf 合并后pdf格式图片文件
│ │ ├── L3_umap_clstr.png 合并后png格式图片文件
│ │ ├── L3_umap_files umap html附录文件目录
│ │ ├── L3_umap.html umap html格式图片文件
│ │ ├── L3_umap.pdf umap pdf格式图片文件
│ │ └── L3_umap.png umap png格式图片文件
… …
│ └── L9 level 9水平聚类结果目录
│ ├── cluster.csv 聚类结果文件
│ ├── L9_cluster_files 聚类html附录文件目录
│ ├── L9_cluster.html 聚类html格式图片文件
│ ├── L9_cluster.pdf 聚类pdf格式图片文件
│ ├── L9_cluster.png 聚类png格式图片文件
│ ├── L9_umap_clstr.pdf 合并后pdf格式图片文件
│ ├── L9_umap_clstr.png 合并后png格式图片文件
│ ├── L9_umap_files umap html附录文件目录
│ ├── L9_umap.html umap html格式图片文件
│ ├── L9_umap.pdf umap pdf格式图片文件
│ └── L9_umap.png umap png格式图片文件
├── 07.CellSplit 步骤7 细胞分割结果目录
│ ├── cell_split_result 细胞分割结果目录
│ │ ├── 0_0.npy 局部细胞分割结果
│ │ ├── 0_0_ori.tif 局部荧光图片
│ │ ├── 0_0.tif 局部细胞识别后荧光图片
… …
│ │ ├── 9500_9500.npy 局部细胞分割结果
│ │ ├── 9500_9500_ori.tif 局部荧光图片
│ │ ├── 9500_9500.tif 局部细胞识别后荧光图片
│ │ ├── all_barcode_num.txt 细胞barcode id对应文件
│ │ ├── all_outline.tif 添加细胞核边界的荧光图片
│ │ ├── cell_color.tif 识别的细胞图片文件
│ │ ├── cellConts.json 识别的细胞json文件
│ │ ├── cells.npy 识别的细胞npy文件
│ │ ├── colors.npy 细胞和颜色对应文件
│ │ ├── conts.tif 细胞分割组织边界信息
│ │ ├── fluorescence.tif 组织荧光图片
│ │ ├── nucleus_color.tif 识别的细胞核图片文件
│ │ ├── nucleusConts.json 识别的细胞核json文件
│ │ ├── nucleus.npy 识别的细胞核pny文件
│ │ ├── progress.txt 进度百分比文件
│ │ └── SegtoBarcode.log 日志文件
│ ├── cluster 聚类结果目录
│ │ ├── cell_cluster_color_img.tif 细胞分割聚类图不含图例tif图片文件
│ │ ├── cell_cluster_color_outline_img.tif 细胞分割聚类图不含图例添加细胞白色边界tif图片文件
│ │ ├── cell_cluster_with_legend_img.png 细胞聚类图含图例png图片文件
│ │ ├── cell_cluster_with_legend_img_small.png 细胞聚类图含图例低分辨率png图片文件
│ │ ├── cell_cluster_with_legend_img.tif 细胞聚类图含图例tif图片文件
│ │ ├── cluster.csv 聚类结果
│ │ ├── cluster_cells_num.csv 聚类类别细胞数统计文件
│ │ ├── clusters_colors.npy 聚类类别和颜色对应结果
│ │ ├── colors.npy 细胞和颜色对应结果
│ │ ├── legend.tif 聚类图例
│ │ ├── marker_gene.csv marker gene信息文件
│ │ ├── object.RDS 细胞分割矩阵得到的Seurat对象结果
│ │ ├── UMAP.pdf umap聚类结果pdf图片文件
│ │ └── UMAP.png umap聚类结果png图片文件
│ ├── images 细胞分割相关图片结果目录
│ │ ├── fluorescence_cell_split.png 荧光图片细胞分割结果png图片文件
│ │ ├── fluorescence_cell_split_small.png 荧光图片细胞分割结果低分辨率png图片文件
│ │ ├── fluorescence_cell_split.tif 荧光图片细胞分割结果tif图片文件
│ │ ├── fluorescence.png 组织荧光png图片文件
│ │ ├── fluorescence_small.png 组织荧光低分辨率png图片文件
│ │ ├── fluorescence.tif 组织荧光tif图片文件
│ │ ├── he_cell_split.png 组织HE染色细胞分割png图片文件
│ │ ├── he_cell_split_small.png 组织HE染色细胞分割低分辨率png图片文件
│ │ ├── he_cell_split.tif 组织HE染色细胞分割tif图片文件
│ │ └── he_hr.tif 组织HE染色tif图片文件
│ └── mtx 细胞分割矩阵结果目录
│ ├── barcodes.tsv.gz 细胞barcode文件
│ ├── barcodes_pos.tsv.gz 细胞barcode位置文件
│ ├── cells_center.txt 细胞质心位置文件
│ ├── cells_center.tif 细胞质心图片文件
│ ├── features.tsv.gz 细胞features文件
│ ├── matrix.mtx.gz 细胞矩阵文件
│ └── stat.xls 细胞统计信息文件
├── 08.WebReport 步骤8 网页版报告结果目录
│ ├── src 网页版报告src目录
│ ├── xxx.filelist 生成网页版报告所用的相关文件信息文件
│ ├── xxx.stat.xls 分析结果统计信息文件
│ ├── xxx.rs_stat.xls 分析结果统计信息文件
│ └── xxx.html 网页版报告文件
└── xxx 原始表达矩阵结果目录
├── barcode_pos.tsv barcode及对应芯片位置文件
├── barcode.tsv barcode文件
├── bc_umi_read.tsv.gz barcode对应的umi及reads数文件
├── features.tsv features文件
├── matrix.tsv 矩阵文件
└── umi_gene.tsv.gz barcode对应的umi及基因文件


京公网安备 11011302003368号