关键词:
糖尿病预测
离群值处理
不平衡数据处理
卷积神经网络
摘要:
根据世界卫生组织发布的最新数据显示,全球糖尿病患者数量呈不断增长的趋势,从1980年的1.08亿增长至2021年的5.37亿,预计在2050年将达到13.1亿。通常,早期糖尿病难以被察觉,直至出现并发症才会引起重视。尽管现有的医疗水平已经高度发达,但目前仍缺乏有效的糖尿病治疗方案,因此,尽早地发现并做出及时的干预显得尤为重要。随着人工智能的不断发展与进步,越来越多的学者将机器学习相关算法应用于疾病预测领域,并且取得了显著的成效。然而,现有的糖尿病预测方法中仍然存在以下问题:(1)离群值问题。糖尿病数据集中,离群值是由于测量错误、数据输入等原因所导致的,而离群值的存在会影响分类器的学习效果;(2)不平衡数据问题。在糖尿病数据集中,不平衡数据主要表现为患病样本数量远远少于未患病样本的数量。这种情况可能导致模型在训练过程中,更倾向于对多数类样本的学习,而忽略了少数类样本,从而降低对少数类样本的学习效果;(3)分类器问题。传统的分类算法存在一定的局限性,特别是在特征学习方面。此外,对于复杂的非线性关系建模,传统的分类算法表现亦显不足。值得注意的是,在大多数研究中,对上述三个问题未进行深入讨论与解决。
基于上述问题,论文做了具体的分析和研究工作,具体研究内容如下。
(1)提出一种基于四分位数与Kolmogorov-Smirnov检验(以下简称KS检验)的离群值处理方法。该方法首先使用四分位距对离群值进行检测,随后通过KS检验评估离群值所在特征的数据分布情况,根据不同的特征分布情况,选择均值或中值进行替换,确保替换数据的匹配度。具体而言,如果离群值所在特征呈正态分布,则使用相应的均值进行替换;反之,则选择中值进行替换。该方法避免了直接删除离群值所在行或列所导致重要原始数据丢失问题,同时解决了直接使用均值或中值替换所导致的替换数据匹配度不高的问题。在PIMA糖尿病数据集上进行测试,结果表明,论文所提出的方法优于直接删除离群值所在行或列、直接使用均值或中值替换的处理方式。
(2)提出一种基于样本空间划分与K近邻算法的不平衡数据处理方法,旨在有效识别噪声数据并生成高质量的合成数据。在该方法中,首先利用K近邻算法对样本空间进行划分,将样本空间划分为安全部分、边界部分及噪声部分,具体的划分是通过分析每个样本K个最近邻居的属性来确定其在空间划分中的归属。对于被识别为噪声的样本,采取删除处理。而对于删除操作后的数据集中的少数类样本,采用一种全新的过采样方法进行处理,该过采样方法突破传统合成少数类过采样技术的限制,对合成规则进行一定的拓展,有效避免了在合成数据时生成噪声数据,同时还避免了合成的新数据导致多数类与少数类数据边界被模糊的问题。最后,在24个不平衡数据集上进行测试,使用随机森林算法和支持向量机算法完成分类任务时,相较于几种常见的不平衡数据处理算法,论文提出的方法在召回率、F1值、G均值和AUC等指标上表现更优秀。
(3)设计了一种用于糖尿病预测的卷积神经网络模型。设计的卷积神经网络模型由卷积层和全连接层构成,经过全面验证,充分证实了其在糖尿病预测方面的可行性。在验证过程中,将该模型与传统机器学习分类方法、基于随机森林改进的算法及长短期记忆网络进行比较,包括在未做任何处理情况下的对比,仅对数据集进行离群值处理情况下的对比,对数据集进行离群值处理与不平衡数据处理情况下的对比,以及对数据集进行离群值与不平衡数据处理且对传统机器学习分类算法使用网格搜索优化超参数的情况下的对比。实验结果表明,论文所提出的卷积神经网络模型在PIMA糖尿病预测中表现出色,达到了最佳效果。