关键词:
代谢组学
条件高斯贝叶斯网络
变量筛选
分类预测
计算负担
摘要:
背景与目的:
在疾病的发生发展过程中,生物体内代谢物的变化可能早于外在疾病症状的发生,因此代谢物指标可以作为疾病早期诊断标志物或者探讨疾病发生和预后的内在原因。与经典分类模型不同,贝叶斯网络模型在分类预测时,不要求预测变量间的独立性,而且可以同时考虑变量间的依赖关系,因此,贝叶斯网络模型在代谢组学领域应用潜力巨大。然而,随着变量数的增加,贝叶斯网络的建模复杂度会呈指数级增加,导致计算负担过大,方法实用性降低。因此,探讨贝叶斯网络在实际应用时,如何合理结合数据降维技术的组合策略尤其重要。本研究利用模拟研究和实例数据,探讨结合变量筛选方法的两步法贝叶斯网络模型的分类性能,并应用于实际代谢组学数据的分类预测和代谢物及代谢通路的识别,为类似特征资料的分析提供方法学支持。
主要研究内容:
模拟研究:生成不同特征的模拟数据(自变量间不同相关系数大小、不同网络稀疏程度、自变量和因变量线性和非线性关系、不同变量数),主要探讨Boruta、递归特征消除(Recursive Feature Elimination,RFE)和最大互信息系数(Maximal Information Coefficient,MIC)变量筛选方法与条件高斯贝叶斯网络(Conditional Gaussian Bayesian Network,CGBN)组成两步法模型的分类性能,并与偏最小二乘判别(Partial Least Squares Discrimination Analysis,PLSDA)、支持向量机(Support Vector Machine,SVM)和人工神经网络(Artificial Neural Network,ANN)等方法进行比较,进而选出最适合CGBN的变量筛选方法。以“变量筛选方法+CGBN”的模式命名该两步法模型,如Boruta_CGBN、RFE_CGBN和MIC_CGBN。
实例分析:将前述研究策略和方法用于2019年至2021年“食管癌筛查及早诊早治项目”筛查人群的非靶向代谢组学数据分析,探讨了前述两步法模型相比直接建模和其他经典方法的分类预测性能、计算负担和重要节点与通路识别的能力;设置多种超参数情形,探讨最大父节点数对CGBN预测性能的影响。
主要结果:
模拟研究:在不同模拟情形下,相比于CGBN直接建模,两步法模型的预测性能更好,计算负担也更小。以样本量为100,自变量间低相关,低稀疏网络,非线性模拟数据为例,Boruta_CGBN和RFE_CGBN两种方法的受试者工作特征(Receiver Operating Characteristic,ROC)曲线下面积(Area Under Curve,AUC)分别为0.682和0.676,与专注于结局预测的PLSDA(AUC:0.713)、SVM(AUC:0.712)和ANN(AUC:0.696)方法十分接近。RFE_CGBN的计算时间为0.891秒,与PLSDA、SVM和ANN接近,Boruta_CGBN的计算时间虽然略高于经典方法,但仍在可接受范围内。在模型过拟合方面,Boruta_CGBN、RFE_CGBN和MIC_CGBN的训练集与测试集AUC差值分别为0.143,0.163和0.111,均低于PLSDA、SVM和ANN等经典方法。CGBN方法的过拟合程度在线性数据中高于经典方法,在非线性情形中略低于经典方法,但其随着变量数的增加,过拟合程度增幅更高。
实例分析:当限制最大父节点数为2时,CGBN(AUC:0.860)的AUC高于所有两步法模型,但同时其过拟合程度更高,计算时间远高于其他所有模型;两步法模型中,Boruta_CGBN、RFE_CGBN和MIC_CGBN的分类预测性能十分接近。计算负担方面,Boruta_CGBN的计算时间最长,RFE_CGBN的时间最短;相比于经典方法,基于CGBN的模型可以识别出更多的重要化合物,其中,Boruta_CGBN重要代谢物占网络总节点数的比例最大(60/107=0.561),其建立网络的平均中间中心性(0.0006)、聚集性(0.0737)和网络密度(0.0150)也最大;随着最大父节点数增加,各模型预测性能改善,但同时也增加了模型过拟合风险和计算负担,当最大父节点数为10和20时,模型各项指标保持稳定。
主要结论:
在代谢组学数据的分类预测中,基于CGBN两步法模型表现与经典分类方法接近,可识别变量间的非线性作用,且过拟合程度较低,大大地降低了单步法CGBN建模的计算负担;在模拟研究和实例分析均显示Boruta_CGBN和RFE_CGBN分类预测性能最佳;Boruta_CGBN的识别重要代谢物和通路的效率高于其他基于CGBN的方法,是值得推荐的一种方法;最大父节点数可以限制网络的复杂度,当数据较为复杂时,较小的父节