关键词:
CT
肺鳞癌
肺腺癌
影像组学
深度学习
摘要:
肺癌的发病率和死亡率中在恶性肿瘤均位于首位,在中国也是最为常见的恶性肿瘤。肺癌的不同组织学亚型有不同的生物学行为,恶性程度、转移倾向、不同治疗敏感度等需要进行肺癌组织学诊断后才可得出结论。临床上组织学检查有多种取样方法,但均为有创的检查手段。电子计算机断层扫描(Computed Tomography,CT)影像是肺癌诊断的有效方法,本文基于CT影像,采用机器学习方法,探寻人工智能技术对肺鳞癌与肺腺癌分类的应用价值。本研究首先使用影像组学机器学习技术针对193例CT影像的病灶提取包括灰度统计量的强度特征、肿瘤形状-大小特征以及多种纹理特征的1409个特征,使用合成少数过采样方法(synthetic minority oversampling technique,SMOTE)对训练集的特征进行数据扩充,以消除不同子类型之间的不平衡,采用方差分析与最小绝对收缩和选择算法进行特征筛选,选择出对鳞癌与腺癌分类更有价值的特征。使用支持向量机(support vector machine,SVM)、逻辑回归(logistics regression,LR)、多层感知机(multilayer perceptron,MLP)方法构建不同的传统机器学习模型,并使用网格搜索结合5折交叉验证的方式选择最优模型参数,使用受试者工作特征曲线(receiver operating characteristic curve,ROC)、敏感性及特异性进行模型评估。结果显示,71个特征具有良好效果,使用独立测试集对机器学习模型评估发现,MLP和LR显示出良好性性能,SVM的模型效果较差。本研究尝试使用深度学习技术实现肺癌两种亚型端到端的分类,采用迁移学习弥补数据量较少的缺陷,应用组归一化(Group Normalization,GN)改进深度残差网络(residual networks,Res Net),搭建Res Net GN深度学习网络,对肺结节良恶性分类的源网络进行微调(fune tuning)。首先针对图像获取合适的网络输入作为感兴趣区域(region of interest,ROI),将数据分为训练集和测试集,对训练集数据进行旋转、镜像的扩充,随后经预处理之后裁剪不同的大小输入经预训练的Res Net GN网络。优化网络参数后显示,针对193例数据的分析中,Res Net GN的2D模型效果优于3D模型,且迁移学习对模型性能有较大提升。本文对比了三种传统的机器学习方法以及不同输入大小的深度学习方法,深入挖掘影像信息,获取肺癌的影像特征,构建了基于CT影像的肺腺癌与肺鳞癌分类模型。实验证明,机器学习方法具有较强的影像信息挖掘能力,经更多数据学习、多中心验证后可应用于临床实践,进而辅助医师制定合理治疗方法。图30幅,表4个,公式15个,参考文献51篇。