关键词:
机器学习
3D区域增长
亚型分类
MLW-gcForest模型
深度学习
基因突变预测
摘要:
肺癌的发病率和死亡率位居恶性肿瘤之首。通过影像基因数据的分析从多角度对肺癌进行智能诊断是提高患者生存率的重要手段。在影像学上,早期肺癌的主要呈现形式是各种类型的肺结节,其中疑似肺癌的疑难型肺结节较难诊断,而磨玻璃结节又是疑难型肺结节的代表,因此,通过对PET/CT影像数据的分析来对磨玻璃结节的辅助诊断方法展开研究。肺癌的自动分型和分期对于辅助其个性化诊疗具有重要的意义,在对基因数据进行深入分析的基础上,提出新的机器学习算法进行肺癌的分型和分期。此外,针对目前在肺癌的研究中存在的影像和基因的关联度比较低等问题,开展对肺癌CT影像和关键致病基因的关联分析,探索利用CT影像来预测关键致病基因突变的潜力,以期实现无创地进行基因突变的预测。本文通过对肺癌的PET/CT影像和多组学基因数据的分析以及对现有的辅助诊断关键技术的研究,提出了一些创新性的算法和模型,主要的研究贡献如下:(1)针对磨玻璃型肺结节恶性度高、边界模糊、对比度低、形状不规则等特点而导致分割困难的问题,提出一种基于超体素的3D区域增长分割方法。首先,结合PET图像自动定位CT中的种子点,有效减少用户交互并节省时间;其次,构建3D掩模作为区域增长的约束条件,构建模糊连通图作为超体素之间连通性的度量规则;最后,在模糊连通图上以超体素为基本单位进行3D区域增长,完成结节的分割。整个区域增长过程无需设置种子点和阈值,避免了由于种子点和阈值的选择而导致分割结果的不稳定性。实验结果显示,提出的方法能够获得准确性较高的分割结果。(2)针对肺癌基因数据样本量小、维数高、类别不均衡等问题,采用传统机器学习方法对肺癌亚型进行准确分类仍然具有挑战性。本文提出了一种多级加权的深度森林模型(Multi-Weighted gcForest,MLW-gcForest),基于DNA甲基化进行细粒度的肺腺癌亚型分类。提出的MLW-gcForest模型对标准的深度森林模型gcForest的改进主要包括两个方面:(1)根据随机森林分类能力的差异,将不同的权重分配给不同的随机森林;充分利用不同随机森林之间的相互协同作用。(2)提出了排序优选算法,为不同滑动窗口下生成的特征向量赋予不同的权重,充分利用不同滑动窗口下产生的特征向量的互补性。文中提出的多级加权策略有助于随机森林提取更丰富的多层次特征,从而有效地提高了标准gcForest模型对小样本、高维度基因数据进行分类的能力。实验结果证明了提出的MLW-gcForest算法在肺腺癌亚型分类方面的优异性能。(3)由于肺腺癌复杂的发病机制,使用单一基因数据难以获得满意的分期结果,针对此问题,提出了基于多组学基因数据(基因表达、DNA甲基化和拷贝数变异)的改进的多级加权深度森林模型(Improved MultiWeighted gcForest,IMLW-gcForest)进行分期。首先,针对收集到的肺腺癌的样本为三期,将提出的MLW-gcForest模型中赋予不同随机森林权重的方法根据生物信息学的多流超体积进行改进,构建出IMLW-gcForest模型;其次,采用多组学基因数据作为输入分别训练三个IMLW-gcForest模型,充分利用多组学基因数据之间的互补性;最后,对训练的三个模型进行决策融合,实现对肺腺癌的精准分期。实验结果表明,基于多组学基因数据的IMLWgcForest模型显著提高了肺腺癌分期的准确性。(4)靶向治疗是中晚期肺癌的主要治疗手段之一,针对其基因检测过程存在侵入性、时间长、费用高等问题,本文提出了多通道多任务的深度学习模型(Multi-channel and Multi-task deep learning model,MMDL),以期利用非小细胞肺癌的CT影像来预测关键致病基因EGFR和KRAS的突变。首先,提取3D肺结节的九个剖面视图,利用多视图的互补性来全面表征结节的特征;其次,构建预训练的加入注意力机制的Inception-attention-resnet模型,学习不同视图的图像特征,缓解小样本医学图像导致的模型过拟合问题;再次,通过多通道学习来同时预测EGFR和KRAS突变,使得多项预测任务相互促进。此外,将患者的少许病历信息嵌入模型中,加入更多与突变相关的先验知识。最后,采用自适应加权方案对模型进行决策融合获得最终的预测结果。实验结果表明,提出的MMDL模型具有无创的检测基因突变的潜力。综上所述,本文围绕肺癌辅助诊断的四个问题,从不同的角度进行了相关算法的研究和模型的构建,研究工作具有一定的理论意义和临床应用前景。