关键词:
统计模型
机器学习
整合应用
摘要:
经典统计模型通常有比较好的解释性,但有时在预测性能上表现欠佳;与之相反,机器学习方法在一些问题中表现出了良好的预测性能,但往往难以对问题机制做出解释。面对实际问题,恰当地将统计模型与机器学习方法相结合,则有助于对问题进行深入研究,揭示其中的机理。本文通过两个交叉研究课题,即“金属-有机单层结构的合成和生长机理”以及“食管癌复发的相关因素分析”,对统计模型与机器学习的整合应用进行一些探索和尝试。在探究金属-有机单层结构的合成和生长机理中,我们着重研究对相的分类问题和对目标产物的厚度预测问题。关于相的分类,利用随机森林实现对相的精确归类,Kappa值达到0.86;对于厚度的预测,在保留线性回归模型良好的解释力的情况下,先采用聚类分析,寻求表现较优的区域,然后采用判别分析、Logistic回归探究样本空间的特征;接着,为进一步探究反应机理,引入中间产物,建立回归模型,利用逐步回归进行变量选择,研究反应物、中间产物的关系;进而在只有反应物、目标产物的数据中预测中间产物用量;最后,我们尝试将厚度预测问题转化为“厚-薄”二分类问题,基于反应物、预测的中间产物建立随机森林模型。经过比较,发现随机森林模型的预测性能明显优于仅用反应物建立的模型,Kappa值从0.4067提升至0.6179。这提示了引入的中间产物对于厚度研究起着关键作用。在食管癌复发的相关因素分析中,首先进行单因素分析,利用Pearson卡方检验、Fisher精确性检验、log-rank检验,探究年龄、性别、病变长度等因素与瘤床区复发、吻合口复发、远端转移和生存时间的相关关系,发现切端阳性患者吻合口复发的几率更高(P=0.064),病变长度长的患者出现远端转移的几率更高(P=0.091),溃疡型肿瘤患者出现远端转移的几率更高(P=0.03),病变长度长(P=0.068)、淋巴结个数多(P=0.081)、切端阳性(P=0.015)患者的生存时间更短。然后根据单因素分析的结果,将部分变量纳入多因素分析,建立Logistic回归模型和COX比例危险模型模型,发现病变长度、肿瘤类型、切端类型为危险因素,病变长度长、溃疡型肿瘤的病人有更高的远端转移的几率,病变长度长、切端阳性的病人生存的时间相对较短。最后,利用基于树的机器学习算法iRF,探究变量间可能存在的交互作用,发现对于瘤床区复发,T分期、淋巴结个数之间存在交互作用;对于远端转移,病变长度、淋巴结个数之间存在交互作用;对于吻合口复发,病变长度、淋巴结清扫个数之间存在交互作用。