关键词:
脑卒中
特征降维
不平衡
过采样技术
深度强化学习
损失函数
摘要:
随着中国老龄化的进程加速,脑卒中这一具有高致残率、高致死率的特点,严重危害国民健康的疾病呈现了爆发式的增长。脑卒中疾病是可控的,对其进行早期筛查、干预可以起到很好的预防效果。分析脑卒中筛查数据对疾病进行提前的干预诊断,可以有效的阻断病情的发病风险。然而,传统的分类算法没有考虑脑卒中筛查数据高维、非平衡等数据特点,难以得到良好的分类效果。为解决脑卒中筛查数据分类预测时存在的问题,一方面从数据预处理角度解决特征冗余问题及数据不平衡现象,另一方面从模型构建及优化角度建立了一种基于深度强化学习的脑卒中分类预测模型。脑卒中筛查数据集的特点:一是数据集呈现高维性并含有冗余特征;二是不同类别的样本数量呈现不平衡分布。首先,脑卒中筛查数据集的特征维度过多,会对分类性能造成干扰影响,通过降低特征,不仅可以提高分类性能,还可以缓解计算复杂度,降低成本。去除冗余噪声,选出与脑卒中类别相关性强的特征,得到与脑卒中发病风险至关重要的危险因素,从而在早期就可以对脑卒中疾病进行干预治疗。其次,脑卒中筛查数据集的不平衡性,导致分类偏向于多数类的类别。然而,在疾病诊断中,少数类的样本恰恰是最重要的。因此,如何解决这一问题也是本课题研究的重点。目前对于脑卒中筛查数据分类往往采用的是传统的机器学习分类算法,然而这些模型训练性能较差不能满足疾病诊断对高性能的要求,为取得更好的分类效果,提出了改进损失函数的深度强化学习分类模型。本课题的具体研究内容如下:(1)针对脑卒中筛查数据集存在冗余特征的缺陷,提出了一种混合特征降维方法FS-FE。首先,通过最大信息系数(Maximal Information Coefficient,MIC)改进基于相关性的特征选择算法(Correlation-based Feature Selection,CFS),给出了一种改进的特征选择算法MCFS,以弥补CFS进行在特征选择时容易倾向于选择更多属性取值特征的缺陷。然后,将选择出的特征子集采用PCA特征提取算法对特征子集进一步精简,得到最优特征组合。为验证FS-FE特征降维方法的有效性,采用CFS、信息增益算法与Relief特征选择算法与FS-FE方法比较,分别使用Na?ve Bayes、J48、SVM和KNN四种机器学习分类模型,在公共数据集与脑卒中筛查数据集进行实验,实验结果证明FS-FE特征降维方法可以取得更好的分类效果,且适用于多种分类器。(2)由于脑卒中筛查数据呈现不平衡现象,为防止这种分布影响发病风险分类预测性能,提出了基于MAHAKIL过采样技术和孤立森林算法的过采样技术(MAHAKIL Random and Isolation Forest,MARAIF)。首先,为了提高新生成样本的多样性,将MAHAKIL过采样技术中生成新样本单一取平均值的方法使用随机数进行替换。此外,考虑到合成新样本时容易生成噪声样本,本研究将新合成的样本采用孤立森林算法检测噪声样本,并将其去除。最终,使用机器学习分类器进行分类。与SMOTE、ADASYN、MAHAKIL过采样技术相对比,实验结果表明,与不同的分类器相结合,MARAIF算法可以获得更好的分类性能,AUC值与F1-measure分别最高可提高25.50%、11.32%,验证了算法的有效性。此外,实验结果可以看出,MARAIF过采样技术对高失衡样本存在一定的局限性。考虑到SMOTE算法合成新样本容易加剧数据集类内不均衡,但是相近少数类合成新样本时会携带更多的少数类信息,提出了融合MARAIF算法与SMOTE算法的两阶段过采样技术(Combine MARAIF and SMOTE,CMRIS)。首先,将原始不平衡数据集通过MARAIF算法合成一部分少数类样本,将所得新样本与原始数据结合形成新的不平衡数据集,最后采用SMOTE算法得到最终的平衡数据集。实验结果表明,与SMOTE、ADASYN、MAHAKIL过采样技术对比,CMRIS适用于高失衡数据集,且在不同的分类器上可以获得更高的AUC和F1-measure,验证了算法的有效性。(3)针对脑卒中筛查数据集使用传统的分类算法效果较差的问题,为实现脑卒中发病风险高效的诊断预测,基于Double DQN与Dueling DQN构建了一种改进损失函数的深度强化学习分类预测模型(New Loss Function Deep Q Network,NL-DQN),分别从优化算法、激活函数两个方面对模型进行优化。为提高神经网络的稳定性与收敛性,解决传统损失函数对离群点的惩罚力度过大的问题,提出一种更具鲁棒性的损失函数。最后,对比已有的Na?ve Bayes、J48、SVM、KNN和DQN模型在一般数据集与不平衡数据集的实验结果,结果表明所提出的NL-DQN模型不仅在一般数据集上优于已有分类器,在不平衡数据集上