关键词:
胸片报告生成
胸片异常检测
多模态文本生成
多模态学习
对比学习
目标检测
摘要:
医学影像在患者的诊断、治疗和监测中发挥着关键作用。然而,在临床医学影像科领域存在着一系列问题,其中包括专业经验丰富的医学影像专家数量的有限性、不同地区医学影像科医生水平的不一致性,以及传统的医学影像分析方式存在高人工成本和低效率的问题。为解决这些问题,本文致力于通过深度学习方法实现医学影像的智能分析,旨在显著减轻医学影像科医生的工作负担,提高问诊效率,以此让更多患者享受到高质量、高效率的诊疗服务。
胸片是一类医学影像,具有获取成本低、应用广泛的特点。通过对胸片的分析可以判断出多种疾病,其在病人身体情况的评估中发挥着显著的作用,因此本文选择特别针对胸片这一医学影像类型展开研究。与一般领域的图片数据相比,胸片和报告数量较为有限,而且大多数胸片和报告都属于非异常情况,其大体特征相似。这使得针对胸片的报告生成所面临的问题不仅包括一般多模态生成模型所面临的多模态之间难以对齐、生成文本不可信等问题,同时还包括数据不平衡、图像特征难提取的问题。针对上述问题,本文提出了跨模态记忆增强的胸片报告对比生成网络模型CCMN(Contrastive Cross-Modal Network,CCMN)并在该算法的基础上构建了一个医学智能分析与生成原型系统。本文的具体工作内容如下:
首先,为解决胸片特征提取困难的问题,本文提出将胸片异常部位检测作为胸片报告生成模型的预训练任务。具体做法是将经过胸片异常部位检测预训练的视觉特征提取模块作为CCMN的视觉提取模块。本文通过消融实验分析,证明经过胸片异常部位检测任务预训练的视觉特征提取模块显著提升了最终生成报告的质量。
其次,为解决数据不平衡的问题,本文引入对比学习的思想,将对比学习模块引入CCMN模型。由此,在数据有限的情况下,通过充分利用文本和图像之间的对应关系,使得CCMN学习到良好的视觉特征与文本特征。本文在两个公开数据集上进行了实证研究,发现对比学习模块在较大的数据集上有效提升了文本生成的质量,在较小的数据集上并未观察到显著影响。
最后,为解决文本模态和图像模态难以对齐的问题,本文在CCMN模型中引入记忆模块。在编码阶段和解码阶段共用记忆矩阵,以促使文本模态和图像模态在训练过程中自然对齐。这一方法使得在有限模型容量的情况下,CCMN模型取得了与当前最先进技术水平的模型相媲美的生成效果。
基于前述提出的CCMN模型,本文设计与实现了一个医学影像智能分析与生成的原型系统。该系统实现了胸片报告的生成、胸片异常部位检测,为医学影像领域的智能分析提供了强有力的支持。