关键词:
冠心病
RBF-DDA神经网络
支持向量机
随机森林
慢性病筛查
摘要:
目的:针对慢性病调查数据,建立RBF-DDA神经网络、支持向量机、随机森林三种冠心病识别模型,探索不同机器学习方法在冠心病筛查识别中的应用,验证多种机器学习方法在冠心病筛查中应用的可能性,为冠心病筛查方法的改进提供支持。方法:将2012年开展的吉林省成人慢性病及其危险因素调查的数据划分为训练数据集和测试数据集。首先利用训练数据集建立RBF-DDA神经网络模型、支持向量机模型和随机森林模型的冠心病筛查识别模型,利用测试数据集的输入变量输入已经建立好的模型,预测识别输出变量,并与测试数据集中的实际输出变量进行对比,产生模型的识别效果。然后通过手工、十折交叉验证等方式对不同模型中涉及的参数进行优化。最后,利用最优参数建立三种模型,对模型的筛查识别效果进行检验,并通过精度、灵敏度、特异度等指标对不同模型的筛查识别效果进行比较。结果:***-DDA神经网络取得的最优参数为:激活阈值(0.5)和抑制阈值(0.5)。将RBF-DDA神经网络模型在测试集中的是否患冠心病预测值与实际值进行比较,模型的精度55.83%、灵敏度58.88%、特异度55.46%、G-Mean57.14%。RBF-DDA神经网络模型的结果优于传统RBF神经网络。2.支持向量机有四种不同的核函数,不同核函数建立四种支持向量机模型:linear-SVM、radial-SVM、sigmoid-SVM、polynomial-SVM。linear-SVM模型的最优参数为,cost=0.5;radial-SVM模型的最优参数为,cost=2、gamma=0.01;sigmoidSVM模型的最优参数为,cost=4、gamma=0.001、coef0=0.25;polynomial-SVM模型的最优参数为,cost=8、gamma=0.001、coef0=0.25、degree=3。经过参数优化后,得到四种模型的最优识别效果。linear-SVM模型的精度68.03%、灵敏度76.45%、特异度67.01%、G-Mean71.57%。radial-SVM模型的精度65.32%、灵敏度77.57%、特异度63.84%、G-Mean70.37%。sigmoid-SVM模型的精度67.93%、灵敏度77.94%、特异度66.71%、G-Mean72.11%。polynomial-SVM模型的精度67.58%、灵敏度79.07%、特异度66.19%、G-Mean72.34%。3.随机森林模型采用手工和十折交叉验证两种参数优化方式。手工参数优化取得的最优参数为:mtry=6、ntree=300。十折交叉验证参数优化取得的最优参数为:mtry=6、ntree=290。手工优化的随机森林模型的精度66.86%、灵敏度81.50%、特异度65.08%、G-Mean72.83%。十折交叉验证优化的随机森林模型的精度66.49%、灵敏度80.56%、特异度64.79%、G-Mean72.24%。4.三种模型识别效果的比较,随机森林的综合效果最好,模型的精度66.86%、灵敏度81.50%、特异度65.08%、G-Mean72.83%。在精度和特异度上,随机森林与支持向量机相差不大,且均比RBF-DDA神经网络模型要好。在灵敏度上,随机森林最好,比支持向量机高2.43%,比RBF-DDA神经网络高22.62%。在综合指标G-Mean上,随机森林比支持向量机高0.49%,比RBF-DDA神经网络高15.69%。结论:***-DDA神经网络、支持向量机和随机森林三种模型在基于慢性病调查资料的冠心病识别运用中具有可行性。2.针对模型参数的优化,对RBF-DDA神经网络、支持向量机和随机森林三个模型的冠心病识别效果均有提升。3.三个模型的识别效果:随机森林模型最好、支持向量机其次、RBFDDA神经网络最差。