分类: 时空组学, 智能制造

1. 软件依赖

BSTMatrix-FFPE下载解压后参考目录下的“环境配置.rst”安装软件依赖,已经安装conda软件的可以通过目录下的setup.yaml文件以下边命令创建环境:

conda env create -f setup.yaml -n (环境名)

2. 输入数据准备

 

  • 测序数据:双端测序fastq数据。
  • 参考基因组数据:基因组序列文件,gtf文件(第3列需要包含exon),包含gene_biotype。
  • tsv文件:可使用gtf文件生成,参考命令:perl ./tools/features_generate.pl -i xxx.gtf -o features.tsv
  • bed文件:可使用gtf文件生成,参考命令:perl ./tools/gtf2bed.pl genes.gtf > genes.bed
  • STAR基因组索引文件:可使用基因组序列文件和gtf文件生成,参考命令:STAR –runThreadN 8 –runMode genomeGenerate –genomeDir star/ –genomeFastaFiles genome.fa –sjdbGTFfile gene.gtf
  • 荧光解码文件及HE图片文件。
  • 荧光图片文件(HE和荧光图片至少给定1个)。

3. 配置文件编写

配置文件:

## fq测序数据文件路径,支持.gz格式

FQ1     /path/to/read_1.fq.gz

FQ2     /path/to/read_2.fq.gz

## Flu info file 荧光解码文件路径

FLU     /path/to/flu_info.txt

#CT     /paht/to/chip_type.txt     #芯片类型参数文件,不给流程自动判断

## AllheStat.py  组织识别参数

HE /path/to/HE.tif               #明场染色图片,和组织荧光图片至少给一个

#INSIDE 1                      #是否对组织内部空白进行识别,0不识别,1识别

#GRAY   200                    #组织图像识别灰度阈值,默认自动判断

## CellSplit 是否做细胞分割及荧光图片路径、颜色通道

CellSplit True                    #是否做细胞分割分析,T/True表示做,否则不做

fluorescence /path/to/fluorescence.tiff     #组织荧光图片,可选。

fluorescence_channl    0          #图片颜色通道,默认0

#FLGRAY   15                      #荧光图片识别灰度阈值,默认自动判断

#cells_npy /path/to/cells/npyfile     #已有细胞分割pny结果文件,给定则用此文件分析

#细胞分割参数

#YAML   /path/to/cell_split/parameter/file  #细胞分割参数文件,可选

#enhance        1                     #细胞比较密集选1,细胞核颗粒分明可以选0

## 参考基因组STAR建库目录及gff/gtf文件路径

GenomeVer xxx                #基因组版本信息,报告中使用

INDEX   /path/to/STAR/index/dir/

GFF     /path/to/ref/gene/gff3/file    #(也可使用gtf文件)

BED     /path/to/ref/gene/bed/file    #基因bed文件

## 参考基因组features.tsv文件路径

FEATURE     /path/to/features.tsv

## 输出目录及输出文件前缀

OUTDIR  /path/to/result/dir/

PREFIX  outfile-prefix

### 程序参数

## fastq2BcUmi

BCType V2       #barcode 版本类型(一般为V2版本)

BCThreads       8         #barcode识别线程数

##reads过滤参数

Threads     8             #程序线程数

MinLen      20           #过滤时保留的最短reads长度

## 是否跳过基因类型占比分析(基因注释信息不完善的需要选1,如gtf中只包含蛋白编码类型基因)

#SKIP   1

## Umi2Gene

Sjdboverhang    100        #STAR建库时使用的-sjdboverhang参数值,默认100

STARThreads     8          #STAR比对线程数

#STAR_para       –outFilterMatchNminOverLread 0.66 –outFilterScoreMinOverLread 0.66  –outFilterMatchNmin  17

## ENV      python和Rscript的路径,如不提供则使用系统环境中的版本(不提供请注释掉以下参数)

PYTHON  /path/to/python/dir/

Rscript   /path/to/Rscript/dir/

 

注:要进行细胞分割分析配置文件中CellSplit需选True,植物细胞分割不需要提供荧光图,只需在HE参数中给定明场图,并且注释掉荧光图参数fluorescence 。

4. 流程运行

1)流程说明:

流程分为9个步骤,如下所示:

  • 步骤p:预处理,对reads进行剪切和过滤,去掉接头序列。
  • 步骤1:运行fastq2BcUmi,识别fastq数据中的barcode、umi。
  • 步骤2:运行Umi2Gene,将reads与参考基因组比对,得到每个UMI对应的基因信息。
  • 步骤3:运行LinkBcChip,识别荧光数据的barcode信息并对应到芯片上位置。
  • 步骤4:运行MatrixMake,获得基因表达矩阵。
  • 步骤5:运行AllheStat,处理HE图片。
  • 步骤6:运行R,进行聚类分析。
  • 步骤7:运行CellSplit,进行细胞分割分析。
  • 步骤8:运行WebReport,得到网页版报告。

2)流程参数:

-p  预处理数据,对reads过滤接头等操作。

-c  config.txt 数据配置文件

-s  步骤选择,0为运行1-8所有步骤,也可选择个别步骤单独运行,多个步骤中间使用“,”分隔。

注:选0时如果要做细胞分割分析,配置文件中CellSplit参数需要选True。

注:植物细胞分割时不需要荧光图,只需要在配置文件的HE参数中提供明场图,CellSplit参数选True即可进行分析。

3)参考命令:

./BSTMatrix-FFPE -p -c config.txt -s 0

./BSTMatrix-FFPE -p -c config.txt -s 1,2,3,4,5,6,7,8

./BSTMatrix-FFPE -p -c config.txt -s 1,3

5. 结果文件目录结构

目录结构及结果说明:

outdir/

├── 00.cut_reads                            步骤p 序列剪切结果目录

│   ├── cut.done                              标记文件

│   ├── xxx_cutA_cutread_cutTSO_1.fq.gz          剪切后的read1序列文件

│   ├── xxx_cutA_cutread_cutTSO_2.fq.gz          剪切后的read2序列文件

│   ├── xxx_cutA_cutread_cutTSO.len_stat          剪切后的序列长度统计文件

│   ├── xxx_cutA_cutread_cutTSO.len_stat.plot.png  剪切后的序列长度分布图

│   ├── xxx.cutadapt.log                        cutadapt日志文件

│   └── xxx.cut_reads.stat                       reads过滤统计文件

├── 01.fastq2BcUmi                          步骤1 序列barcode及umi检测结果目录

│   ├── xxx.bc_dist                             不同barcode检测统计文件

│   ├── xxx.bc_stat                             不同barcode检测统计文件

│   ├── xxx.bc_umi_read.tsv                      barcode类型、对应的umi及reads数统计文件

│   ├── xxx.bc_umi_read.tsv.id                    barcode类型、对应的umi及reads id文件

│   ├── xxx.filter                                没有完整识别出barcode的reads信息文件

│   ├── xxx.full_stat                             barcode类型对应的reads数、umi数文件

│   ├── xxx.id_map                              id编号对应关系文件

│   ├── xxx.qual.stat                             reads统计文件

│   ├── xxx.select_id                             完整识别出barcode和UMI的reads id文件

│   ├── xxx.stat                                 barcode检测统计文件

│   ├── xxx.umi                                 reads对应的barcode类型及umi文件

│   └── xxx.umi_cor.info                          umi校正信息文件

├── 02.Umi2Gene                             步骤2 基因表达信息结果目录

│   ├── actb02mean.stat                          ACTB gene覆盖度统计文件

│   ├── xxx_100000.bam                          抽取的10w条reads比对结果

│   ├── xxx_100000.sort.bam                      抽取的10w条reads比对排序结果

│   ├── xxx_100000.sort.bam.bai

│   ├── xxxAligned.sortedByCoord.out.bam           STAR比对结果bam文件

│   ├── xxxAligned.sortedByCoord.out.bam.bai

│   ├── xxx.biotype_stat                          基因类型占比统计文件

│   ├── xxx.biotype_stat_barplot.pdf               基因类型占比统计图

│   ├── xxx.biotype_stat_barplot.png               基因类型占比统计图

│   ├── xxx.biotype_stat_piechart.pdf              基因类型占比统计图

│   ├── xxx.biotype_stat_piechart.png              基因类型占比统计图

│   ├── xxx.counts_by_biotype.txt                 基因类型占比统计文件

│   ├── xxx.counts_by_biotype.txt.summary         基因类型占比统计文件

│   ├── xxx.cut0.fq                             选择进行比对的read2序列文件

│   ├── xxx.geneBodyCoverage.curves.png          基因区覆盖度曲线图

│   ├── xxx.geneBodyCoverage.r                  基因区覆盖度曲线图脚本

│   ├── xxx.geneBodyCoverage.txt                 基因区覆盖度曲线图数据

│   ├── xxxLog.final.out                          STAR比对统计输出文件

│   ├── xxxLog.out                              STAR比对日志文件

│   ├── xxxLog.progress.out                      STAR比对日志文件

│   ├── xxx.map2gene                           比对到基因上的reads信息文件

│   ├── xxx.map2gene_U_100000.txt               提取的10w条reads唯一比对的结果

│   ├── xxx_reads_mapped2Middle_genebody.stat    覆盖基因中间区域的比例统计文件

│   ├── xxxSJ.out.tab                            STAR比对的剪切位点信息文件

│   ├── xxx_STARtmp                            STAR比对临时文件目录

│   ├── xxx.stat                                 初步比对信息统计文件

│   ├── xxx.total.stat                             比对情况统计文件

│   └── xxx.umi_gene.tsv                         barcode对应的umi及基因文件

├── 03.LinkBcChip                            步骤3 barcode空间定位结果目录

│   ├── xxx.barcode_pos.tsv                       barcode类型对应的芯片位置文件

│   ├── xxx.barcode.tsv                          芯片对应的barcode类型文件

│   ├── xxx.barcode_umi.tsv                      芯片对应的barcode位置和umi数文件

│   ├── xxx.chip_type                            芯片对应芯片类型

│   ├── xxx.dup_distinct                         芯片重复信号对应的解码中间文件

│   ├── xxx.one_distinct                         芯片对应多个barcode的解码中间文件

│   └── xxx.null                                无法识别的芯片位置信息文件

├── 04.MatrixMake                           步骤4 表达矩阵结果目录

│   ├── xxx.matrix.tsv                           基因表达矩阵文件

│   ├── xxx.matrix.tsv.filt                        过滤文件

│   ├── xxx.select.bc_umi_read.tsv                barcode对应的umi及reads数文件

│   ├── xxx.select.umi_gene.tsv                   barcode对应的umi及基因文件

│   ├── xxx.select.umi_gene.tsv.filter               过滤掉的barcode基因信息文件

│   ├── xxx.sequencing_saturation.stat             测序饱和度统计文件

│   └── xxx.sequencing_saturation.png             测序饱和度曲线图

├── 05.AllheStat                            步骤5 组织表达分析结果目录

│   ├── allhe                                   组织区域信息目录

│   │   ├── he_roi_small.png                        HE组织区域识别后png图片文件

│   │   ├── he_roi.tif                              HE组织区域识别后tif图片文件

│   │   ├── roi_heAuto.json                         组织区域json文件

│   │   └── stat.txt                                组织区域统计文件

│   ├── all_level_stat.txt                         不同分辨率水平统计文件

│   ├── BSTViewer_project                       BSTViewer软件输入数据目录

│   │   ├── cell_split                               细胞分割数据目录

│   │   ├── cluster                                 空

│   │   ├── he_roi_small.png                        HE组织区域识别后png图片文件

│   │   ├── he.tif                                  HE染色图片文件

│   │   ├── imgs                                   空

│   │   ├── level_matrix                            不同分辨率水平表达矩阵目录

│   │   ├── project_setting.json                      BSTViewer项目json文件

│   │   ├── roi_groups                             组织及HE图片json文件目录

│   │   └── subdata                                组织区域不同分辨率水平表达矩阵目录

│   ├── heAuto_level_matrix                     组织区域不同分辨率水平表达矩阵目录

│   │   └── subdata                                组织区域不同分辨率水平表达矩阵目录

│   ├── level_matrix                            芯片不同分辨率水平表达矩阵目录

│   │   ├── level_1                                 level 1水平表达矩阵目录

│   │   ├── level_18                                level 18水平表达矩阵目录

│   │   ├── level_2                                 level 2水平表达矩阵目录

│   │   ├── level_3                                 level 3水平表达矩阵目录

│   │   ├── level_4                                 level 4水平表达矩阵目录

│   │   ├── level_5                                 level 5水平表达矩阵目录

│   │   ├── level_6                                 level 6水平表达矩阵目录

│   │   ├── level_7                                 level 7水平表达矩阵目录

│   │   └── level_9                                 level 9水平表达矩阵目录

│   ├── lncRNA_level_stat.txt                      lncRNA不同分辨率水平统计文件

│   ├── lncRNA_level_stat.txt.merge                总的不同分辨率水平统计文件

│   ├── stat.txt                                 组织区域分析统计文件

│   └── umi_plot                               umi画图结果目录

│       ├── all_umi_count_small.png                 芯片区域umi-count png图片

│       ├── all_umi_count.tif                        芯片区域umi-count tif图片

│       ├── roi_umi_count_small.png                 组织区域umi-count png图片

│       ├── roi_umi_count.tif                        组织区域umi-count tif图片

│       ├── roi_umi_count_white_small.png            组织区域白底umi-count png图片

│       └── roi_umi_count_white.tif                  组织区域白底umi-count tif图片

├── 06.Cluster                              步骤6 聚类分析结果目录

│   ├── L18                                     level 18水平聚类结果目录

│   │   ├── cluster.csv                             聚类结果文件

│   │   ├── L18_cluster_files                       聚类html附录文件目录

│   │   ├── L18_cluster.html                        聚类html格式图片文件

│   │   ├── L18_cluster.pdf                         聚类pdf格式图片文件

│   │   ├── L18_cluster.png                         聚类png格式图片文件

│   │   ├── L18_umap_clstr.pdf                      合并后pdf格式图片文件

│   │   ├── L18_umap_clstr.png                     合并后png格式图片文件

│   │   ├── L18_umap_files                         umap html附录文件目录

│   │   ├── L18_umap.html                          umap html格式图片文件

│   │   ├── L18_umap.pdf                           umap pdf格式图片文件

│   │   └── L18_umap.png                          umap png格式图片文件

│   ├── L3                                      level 3水平聚类结果目录

│   │   ├── cluster.csv                             聚类结果文件

│   │   ├── L3_cluster_files                        聚类html附录文件目录

│   │   ├── L3_cluster.html                         聚类html格式图片文件

│   │   ├── L3_cluster.pdf                          聚类pdf格式图片文件

│   │   ├── L3_cluster.png                          聚类png格式图片文件

│   │   ├── L3_umap_clstr.pdf                       合并后pdf格式图片文件

│   │   ├── L3_umap_clstr.png                       合并后png格式图片文件

│   │   ├── L3_umap_files                           umap html附录文件目录

│   │   ├── L3_umap.html                            umap html格式图片文件

│   │   ├── L3_umap.pdf                             umap pdf格式图片文件

│   │   └── L3_umap.png                             umap png格式图片文件

… …

│   └── L9                                      level 9水平聚类结果目录

│       ├── cluster.csv                             聚类结果文件

│       ├── L9_cluster_files                        聚类html附录文件目录

│       ├── L9_cluster.html                         聚类html格式图片文件

│       ├── L9_cluster.pdf                          聚类pdf格式图片文件

│       ├── L9_cluster.png                          聚类png格式图片文件

│       ├── L9_umap_clstr.pdf                       合并后pdf格式图片文件

│       ├── L9_umap_clstr.png                       合并后png格式图片文件

│       ├── L9_umap_files                           umap html附录文件目录

│       ├── L9_umap.html                           umap html格式图片文件

│       ├── L9_umap.pdf                            umap pdf格式图片文件

│       └── L9_umap.png                            umap png格式图片文件

├── 07.CellSplit                            步骤7 细胞分割结果目录

│   ├── cell_split_result                       细胞分割结果目录

│   │   ├── 0_0.npy                                 局部细胞分割结果

│   │   ├── 0_0_ori.tif                             局部荧光图片

│   │   ├── 0_0.tif                                 局部细胞识别后荧光图片

… …

│   │   ├── 9500_9500.npy                           局部细胞分割结果

│   │   ├── 9500_9500_ori.tif                       局部荧光图片

│   │   ├── 9500_9500.tif                           局部细胞识别后荧光图片

│   │   ├── all_barcode_num.txt                     细胞barcode id对应文件

│   │   ├── all_outline.tif                         添加细胞核边界的荧光图片

│   │   ├── cell_color.tif                          识别的细胞图片文件

│   │   ├── cellConts.json                          识别的细胞json文件

│   │   ├── cells.npy                               识别的细胞npy文件

│   │   ├── colors.npy                              细胞和颜色对应文件

│   │   ├── conts.tif                               细胞分割组织边界信息

│   │   ├── fluorescence.tif                        组织荧光图片

│   │   ├── nucleus_color.tif                       识别的细胞核图片文件

│   │   ├── nucleusConts.json                       识别的细胞核json文件

│   │   ├── nucleus.npy                             识别的细胞核pny文件

│   │   ├── progress.txt                            进度百分比文件

│   │   └── SegtoBarcode.log                        日志文件

│   ├── cluster                                 聚类结果目录

│   │   ├── cell_cluster_color_img.tif              细胞分割聚类图不含图例tif图片文件

│   │   ├── cell_cluster_color_outline_img.tif      细胞分割聚类图不含图例添加细胞白色边界tif图片文件

│   │   ├── cell_cluster_with_legend_img.png        细胞聚类图含图例png图片文件

│   │   ├── cell_cluster_with_legend_img_small.png  细胞聚类图含图例低分辨率png图片文件

│   │   ├── cell_cluster_with_legend_img.tif        细胞聚类图含图例tif图片文件

│   │   ├── cluster.csv                             聚类结果

│   │   ├── cluster_cells_num.csv                   聚类类别细胞数统计文件

│   │   ├── clusters_colors.npy                     聚类类别和颜色对应结果

│   │   ├── colors.npy                              细胞和颜色对应结果

│   │   ├── legend.tif                              聚类图例

│   │   ├── marker_gene.csv                         marker gene信息文件

│   │   ├── object.RDS                              细胞分割矩阵得到的Seurat对象结果

│   │   ├── UMAP.pdf                                umap聚类结果pdf图片文件

│   │   └── UMAP.png                                umap聚类结果png图片文件

│   ├── images                                  细胞分割相关图片结果目录

│   │   ├── fluorescence_cell_split.png             荧光图片细胞分割结果png图片文件

│   │   ├── fluorescence_cell_split_small.png       荧光图片细胞分割结果低分辨率png图片文件

│   │   ├── fluorescence_cell_split.tif             荧光图片细胞分割结果tif图片文件

│   │   ├── fluorescence.png                        组织荧光png图片文件

│   │   ├── fluorescence_small.png                  组织荧光低分辨率png图片文件

│   │   ├── fluorescence.tif                        组织荧光tif图片文件

│   │   ├── he_cell_split.png                       组织HE染色细胞分割png图片文件

│   │   ├── he_cell_split_small.png                 组织HE染色细胞分割低分辨率png图片文件

│   │   ├── he_cell_split.tif                       组织HE染色细胞分割tif图片文件

│   │   └── he_hr.tif                               组织HE染色tif图片文件

│   └── mtx                                     细胞分割矩阵结果目录

│       ├── barcodes.tsv.gz                         细胞barcode文件

│       ├── barcodes_pos.tsv.gz                     细胞barcode位置文件

│       ├── cells_center.txt                         细胞质心位置文件

│       ├── cells_center.tif                          细胞质心图片文件

│       ├── features.tsv.gz                          细胞features文件

│       ├── matrix.mtx.gz                           细胞矩阵文件

│       └── stat.xls                                细胞统计信息文件

├── 08.WebReport                            步骤8 网页版报告结果目录

│   ├── src                                     网页版报告src目录

│   ├── xxx.filelist                             生成网页版报告所用的相关文件信息文件

│   ├── xxx.stat.xls                             分析结果统计信息文件

│   ├── xxx.rs_stat.xls                          分析结果统计信息文件

│   └── xxx.html                                网页版报告文件

└── xxx                                     原始表达矩阵结果目录

├── barcode_pos.tsv                         barcode及对应芯片位置文件

├── barcode.tsv                             barcode文件

├── bc_umi_read.tsv.gz                      barcode对应的umi及reads数文件

├── features.tsv                            features文件

├── matrix.tsv                              矩阵文件

└── umi_gene.tsv.gz                         barcode对应的umi及基因文件

推荐文章