关键词:
集成学习
非甾体镇痛药
白细胞降低不良反应
不平衡数据
组合模型
摘要:
疼痛一直是困扰医生和患者的一大难题,近年来镇痛药的种类也逐渐增多,从生活中常用来缓解头痛、腰痛的布洛芬,到医院手术常用的吗啡等药物,镇痛药的使用极大地减轻了患者的疼痛,也有利于医生为患者进行更好地治疗。但也出现了镇痛药物滥用现象,其中使用非甾体镇痛药会导致患者出现白细胞降低不良反应也引起医生和学者的关注。但目前缺少对于患者使用非甾体镇痛药后是否出现白细胞降低不良反应的合理预测模型,本文建立机器学习模型,并进行逐步挑选、改进,得到更为优质的预测模型,能够为医生在开具非甾体镇痛药时提供参考意见,有效减少因使用非甾体镇痛药而导致患者出现白细胞降低不良反应的风险。本文通过山东省某三甲医院2020年使用非甾体镇痛药的患者信息,以一部分符合标准的患者信息数据为样本,利用非甾体镇痛药患者的各种身体指标建立KNN模型、Logistic回归模型(LR)、ANN模型三种常用单一机器学习模型和随机森林(RF)、XGBoost两种常见集成学习模型,计算各模型准确度、灵敏度、特异度、AUC值、F1值,对比不同模型的优劣,并通过选取采样方式、组合模型等方法,形成表现更优的机器学习模型——SE-XGRF模型(SMOTE+ENN采样的XGBoost+RF模型)。同时,本文以使用非甾体镇痛药后出现白细胞降低不良反应的患者为样本,将白细胞降低不良反应的时间分为0-7天、8-14天两段和0-3天、4-7天、8-10天、11-14天四段,利用各种模型预测患者出现白细胞降低不良反应的时间,并比较准确度,寻找合适的时间段预测模型,希望可以为医生开具非甾体镇痛药以及患者使用非甾体镇痛药后的检测提供帮助。研究结果表明:(1)三种单一机器学习模型在判断患者总体使用非甾体镇痛药后是否出现白细胞降低不良反应方面表现较好,同时三个模型的特异度均大于90%,表现也较好。但从灵敏度来看,logistic回归模型为14.1%,KNN模型灵敏度为12.4%,ANN模型的灵敏度为18%,灵敏度均较低。随机森林、XGBoost的灵敏度为28.1%、32.4%,虽较单一机器学习模型有所提升,但在灵敏度上的表现依旧有所欠缺。(2)基于原始样本数据不均衡问题,本文采用SMOTE过采样、EasyEnsemble欠采样、SMOTE+ENN混合采样对XGBoost和RF模型进行数据平衡,通过对比不同采样方式下的模型性能,发现SMOTE+ENN采样方式下的XGBoost和RF模型灵敏度分别为77%、69%,优于其他两种采样方式。(3)为进一步提高模型预测性能,本文在SMOTE+ENN采样方式下使用Soft Voting方法组合XGBoost和RF模型,组合模型各项指标均优于XGBoost和RF模型。(4)将白细胞降低发生时间分为两段时,使用Logistic模型、ANN模型均能实现很好得预测;将时间分为四段时,Logistic模型的表现较为优异。本文的研究目的是补充目前对于使用非甾体镇痛药后白细胞降低不良反应的研究,将机器学习尤其是集成学习应用到非甾体镇痛药不良反应的研究中,挑选出灵敏度较高的机器学习模型,并对其进行合理的改进,在保证准确度的前提下尽可能提升模型的灵敏度,另一方面是补充对药物不良反应的研究,创新性提出SE-XGRF模型,能够更好平衡药物不良反应的数据,提高灵敏度,优化模型性能。