关键词:
医学影像分析及诊断
分类
文本生成
跨模态检索
摘要:
医学影像的诊断分类和基于检索的文本生成在“互联网+医疗健康”领域具有重要的价值,它可以减少专业医生的工作量,提高医学影像分析及诊断效率。现有的医学影像的诊断分类和基于检索的文本生成算法有以下几点可以改进:1)期望改善影像分辨率,避免影像间差异性小造成的分类模型不佳的问题;2)期望增强跨模态数据之间的相关性,减小跨模态数据之间的异质性差距的问题;3)期望优化检索文本和生成模型的融合策略,减少生成过程中的冗余信息的问题。针对以上问题,本文的主要研究内容和贡献如下:(1)基于Transformer分解编码器的尘肺3D CT分类。现有的诊断分类中基于X射线影像诊断最为常见,但X射线影像包含语义信息少,模型无法准确区分同一种疾病的不同时期的影像。其次,现有基于CT的算法涉及大量卷积运算,计算成本较高,而且CT切片之间无法进行长远离远程交互。针对以上问题,本文构建了高分辨率的尘肺CT数据集,提出了一种基于Transformer分解编码器的方法,探索CT切片内和切片间的远程交互,解决了影像间差异性小造成的分类模型不佳的问题。该方法的准确率比Covid-net方法提升了2.94%。(2)基于统一视角下的多级跨模态相似性的跨模态检索。现有算法衡量跨模态相似性时容易忽略跨模态数据之间的局部关系,使模型的性能受限。其次,在计算标签相似性时,分类器产生的分类偏差也会降低检索精度。本文提出一种统一视角下的多级跨模态相似性方法,实现了公共特征空间下的多级跨模态相似性的度量。在Pascal Sentence、Wikipedia和XMedia Net三个数据集上,该方法的平均归一化折损累积增益(Normalized Discounted Cumulative Gain,NDCG)结果比基于双重语义关系的DSRAN方法分别提升了3.6%、3.7%和6.5%。(3)基于半监督的跨模态记忆库的跨模态检索。现有算法在衡量无标记数据之间的相关性时,假设无标记数据与预定义的K近邻相关,这导致两组不相关的无标记数据之间会产生错误连接,这些错误连接会降低跨模态检索的准确性。本文提出一种半监督的跨模态记忆库的跨模态检索方法,利用跨模态记忆库中成对的跨模态数据的特征表示和有标记数据的类概率来提高伪标签的准确性。在监督率为10%的Wikipedia、NUS-WIDE和MS-COCO三个数据集上,该方法的平均MAP@50比半监督方法SCLss分别提高了2.6%、1.8%、4.9%。实验证明该方法均优于对比方法。(4)基于检索的自适应融合策略的医学影像文本生成方法。现有方法使用X射线影像作为生成模型的输入时,影像之间差异性小,导致生成文本相似度高。其次,融合策略的不完善导致生成的文本存在大量冗余信息,影响生成文本的质量。本文构建了包含8种肺部疾病的CT影像-文本数据集,提出了一种基于检索的自适应融合策略,该策略将带有权重的检索概率叠加到生成概率中,减少了融合过程中与影像不相关的冗余信息。在基于共识的图像描述评估得分(Consensusbased Image Description Evaluation,CIDEr)上,该策略比没有权重的融合检索方法提升了15.9%,实验结果表明,本文方法生成的文本更接近人工生成的文本。