关键词:
乳腺癌
癌症预诊断
不平衡数据
多组学数据
数据处理
随机森林
深度学习
摘要:
乳腺癌作为全球范围内女性最常见的恶性肿瘤之一,其诊断与治疗已成为医学研究的重点。在乳腺癌的预诊断过程中,准确性和早期发现对于提高患者的生存率至关重要。随着机器学习的飞速发展,二分类和亚型多分类算法被广泛应用于乳腺癌的早期诊断和分型。二分类算法主要用于区分乳腺癌患者和健康个体,这对于早期发现乳腺癌患者并进行干预至关重要。而亚型多分类算法则进一步在乳腺癌恶性肿瘤中进行细分,根据肿瘤的分子特征将其分类为不同的亚型,从而为患者提供更为精准的治疗方案。尽管机器学习技术的应用前景广阔,但乳腺癌数据的天然不平衡特性及该疾病的生物学复杂度仍然为当前的诊断方法带来了一系列的挑战,对此,本研究主要研究结果如下:
(1)乳腺癌的早期发现会大大提高治疗的成功率。在乳腺癌的早期筛查中,数据往往呈现出不平衡的特点,即健康样本的数量远远大于患病样本的数量,但准确识别患病样本却非常重要。因此,提出了一种基于聚类和双层过采样的不平衡乳腺癌数据处理方法(CDLS)。通过聚类将数据分成不同的簇,并在簇内和簇间进行新的少数类样本的合成,并且对于簇边缘上重叠不可分的样本对进行删除,以此来平衡数据。实验结果表明,该方法提高了乳腺癌不平衡数据的分类准确率,在公开的 Breast Cancer Wisconsin、Breast Cancer Coimbra 和 Mammography三个乳腺癌数据集,23352个乳腺癌样本上取得了最好的分类结果。三个数据集的 Sensitivity 指标分别为 100%、89.5%和 78.9%,F1 score 指标分别为 97.1%、90.3%和 63.1%,AUC 指标分别为 98.1%、91.1%和 88.2%。
(2)基于乳腺癌早筛数据的不平衡处理,对从常规血液分析中收集的参数(葡萄糖、胰岛素、瘦素、脂联素、抵抗素等)进行了进一步的分类研究。为了进一步提高乳腺癌分类的准确率,提出了一种基于随机森林和粒子群算法的乳腺癌二分类方法(RFPS),通过优化所提方法的性能,实现了更高的分类精度。该方法通过粒子群优化算法,初始化粒子群代表随机森林超参数组合,通过迭代更新寻找最优组合,提高模型适应度。在11600个乳腺癌数据样本中进行方法的实验,在 Accuracy、F1 score 和 AUC 指标上分别达到了 92.6%、93.3%和 94.8%,相比于随机森林提升了 9.7%、14.7%和12.6%,有效提升了随机森林的分类准确性,并且该方法在其他20个数据集上的表现也十分优异。
(3)近年来,随着基因组学、表观遗传学、转录组学等多组学研究的快速发展,乳腺癌亚型分类研究成为了解乳腺癌异质性、指导精准治疗的关键环节。因此,提出了一种基于深度神经注意力网络的乳腺癌亚型多分类方法(DNAM),通过整合TCGA数据库中的mRNA、DNA甲基化和CNV组学数据对乳腺癌的亚型进行准确划分。利用特征选择和降维技术,从复杂的组学数据中提取关键基因表达信息,并通过神经聚焦注意力模块赋予关键特征更高的权重,进一步通过特征融合模块对来自不同组学信息通路的数据进行高维特征表示,最后通过前馈神经网络进行亚型的分类。实验结果表明,相较于其他多分类方法,本方法在Accuracy、F1macro和F1weighted这三个关键性能指标上均达到了优越的表现,分别为89.6%、86.5%及79.5%,显著优于其他方法,有效地提高了乳腺癌亚型分类的性能。此外,通过结合特征选择和神经聚焦注意力模块,能显著改善乳腺癌亚型的分类性能。进一步分析显示,通过结合多种组学数据进行分析,与单独使用mRNA、DNA甲基化和CNV组学数据相比,Accuracy指标分别提升了 9.0%、5.7%和21.8%。这一结果凸显了多组学数据在乳腺癌诊断和治疗领域中潜在的重要价值。
综上所述,本文提出的三个方法有效提高乳腺癌不平衡数据处理水平及早期诊断和亚型分类的准确度。这不仅为乳腺癌的早期筛查和精准治疗提供了新的思路,而且展现了人工智能技术在处理复杂医学数据方面的潜力。未来,这些方法的进一步优化和应用将对乳腺癌的管理产生更深远的影响。