代谢组数据预处理 | 百迈客生物

发布于 2019年4月16日

在代谢组学的研究中，进行主成分分析、差异分析等之前往往需要先对数据进行缺失值填补、标准化等处理，目前处理方法也有很多种，下面将介绍常见的缺失值填补和标准化方法。

对缺失值的处理，简单粗暴的方法是直接去除所有含有缺失的代谢物，对于一些代谢物如果是在样本中大量缺失（比如超过了50%）确实可以舍弃，而少量缺失如果丢弃则可能会丢失一些有重要生物学意义的代谢物，所以对于少量缺失，较为稳妥的办法就是用值填补。比较简单的方法是用0值、均值、中值或最小值的一半进行填补，复杂一点的则是使用机器学习的算法如邻近算法（KNN）、随机森林（RF）、奇异值分解（SVD）等方法。由于代谢组目前可分为靶向和非靶向两大类型，在不同的类型中往往是采取不同的处理办法。有研究者认为非靶向的推荐使用KNN算法（Do et al.,2018）；也有认为GC-MS数据使用随机森林方法（Gromski et al.,2014）；还有的则认为需要按缺失类型，对于完全非随机缺失的可使用最小值的一半进行填补，完全随机缺失或随机缺失的使用随机森林方法（Wei et al.,2018）。所以目前没有统一的标准。

标准化主要是为了去除实验、技术等带来的误差，常见的方法有：内标，即代谢物除以内标丰度，可用于GC-MS；总峰面积标准化，即代谢物除以所有代谢物的总峰面积，可用于非靶向LC-MS；对数变换即直接对丰度取对数，LC-MS和GC-MS都有用到；PQN （Probabilistic Quotient Normalization）即每个代谢物除以了一个稀释因子，这个因子则是依赖于样本与参考样本比值的分布，在NMR分析中被认为是一种稳健的方法；此外还有均值标准化、分位数标准化、中值标准化、z-score标准化等（Li et al.,2017），这些方法也可以结合使用（Di et al.,2016）。不同方法可能会引起不同分析目的的差异，比如进行差异分析的时候，使用分位数方法可能比PQN方法好，而在进行代谢标志物筛选时，则表现差不多（Li et al.,2017）。因此，在分析的时候也可多尝试一些标准化的方法。

总的来说，缺失值和标准化的处理方法目前并无完全统一的标准，需要结合具体的实验方法、目的进行多次的调试以达到所期望的目标。目前，百迈客云上的代谢组分析平台已包含上述部分处理方法，操作简单，分析速度快，后续也会不断增加更多的处理方式以满足不同需求。

参考文献：

[1] Do K T, Wahl S, Raffler J, et al. Characterization of missing values in untargeted MS-based metabolomics data and evaluation of missing data handling strategies[J]. Metabolomics, 2018, 14(10): 128.

[2] Gromski P, Xu Y, Kotze H, et al. Influence of missing values substitutes on multivariate analysis of metabolomics data[J]. Metabolites, 2014, 4(2): 433-452.

[3] Wei R, Wang J, Su M, et al. Missing value imputation approach for mass spectrometry-based metabolomics data[J]. Scientific reports, 2018, 8(1): 663.

[4] Di Guida R, Engel J, Allwood J W, et al. Non-targeted UHPLC-MS metabolomic data processing methods: a comparative investigation of normalisation, missing value imputation, transformation and scaling[J]. Metabolomics, 2016, 12(5): 93.

[5] Li B, Tang J, Yang Q, et al. NOREVA: normalization and evaluation of MS-based metabolomics data[J]. Nucleic acids research, 2017, 45(W1): W162-W170.

云平台, 代谢组, 生物云, 百迈客