关键词:
医学影像识别
长尾识别
开集识别
小样本类增量学习
摘要:
人工智能技术的飞速发展促进了医学影像辅助诊断技术取得了一系列重大突破,并迅速从实验阶段过渡到临床试用阶段,缓解了我国医疗资源短缺这一长期存在的问题。但是尽管如此,由于缺少高质量医学数据集,使得医学影像辅助诊断系统的成功部署面临着诸多挑战,具体包括:(1)医学数据长尾分布导致模型对尾部类疾病识别精度低的问题。临床场景中疾病发病率不同,使得医学数据集呈现高度不平衡的长尾分布,导致智能辅助诊断模型在训练过程中被头部类疾病所主导,而削弱了对少见类和罕见类疾病的学习;(2)闭集识别设置导致模型无法检测出未知类疾病的问题。智能辅助诊断模型大都是在闭集识别设置的条件下进行研发的,无法检测出临床场景中随时出现的未知类疾病影像,导致漏诊误诊;(3)小样本新类疾病增量式辅助诊断的问题。动态开放的医疗场景中会不断出现未知新类疾病,要使得系统稳定运行,需要对这些疾病进行增量式辅助诊断,然而新类疾病的数据量往往较少,即使重新训练模型也无法保证对新类疾病的正确决策。针对上述挑战,本文研究了基于人工智能的医学影像辅助诊断关键技术,重点从长尾分布医学影像识别、医学影像开集识别、小样本新类疾病增量式辅助诊断三方面开展深入研究,具体研究内容如下:(1)针对医学数据长尾分布导致尾部类疾病识别精度低的问题,提出了一种基于多分支网络的长尾医学影像识别技术(MBNM)。首先,提出了一种包括常规学习分支、尾类学习分支和融合平衡分支的多分支网络架构,三个分支从不同角度出发分别专注于常见类疾病的识别、尾部类疾病的识别以及长尾数据综合识别性能的提升,从而缓解了统一分类器识别偏差的问题。其次,提出基于特征存储的尾类学习分支,通过反向采样策略存储历史特征来训练独立的分类器,以增强尾部类类内多样性,提升少见类和罕见类疾病的决策性能。最后,提出了基于自适应Dice损失的融合平衡分支,对常规学习分支和尾类学习分支的决策优势进行更好的权衡,并通过自适应Dice损失缓解因疾病本身诊断的难易程度不同而造成的模型偏差问题。MBNM在皮肤病Skin-7数据集和眼科F-OCT数据集上平衡准确率(BACC)分别提升了 2.78%和3.21%,表明了 MBNM模型的有效性。同时,在两个公开的自然影像数据集上验证了 MBNM的通用性和先进性,尤其是在不平衡因子为100的长尾CIFAR-100数据集上,准确率比当前SOTA的MBJ方法提升了 1.87%。(2)针对闭集识别设置导致模型无法检测出未知类疾病的问题,提出了一种基于数据混合和空间位置约束损失的细粒度医学影像开集识别技术(DM-SPCL)。首先,提出了一种简单有效的数据混合方法,通过生成不同难度级别的虚拟未知类来预知真实临床场景中细粒度、多样性的未知类分布情况。其次,提出了一种空间位置约束损失来控制已知类、真实未知类和虚拟未知类在特征空间中的位置分布。具体的,通过原型位置约束损失迫使所有的已知类分布在特征空间的外围区域,同时将虚拟未知类分布控制在已知类和真实未知类之间的区域,起到隔离作用;通过非对称实例对比损失将已知类样本特征更好的聚类,并将虚拟未知类推离,以获得已知类和未知类之间简洁明确的决策边界。DM-SPCL在眼科F-OCT数据集和胃肠内窥镜HyperKvasir数据集上AUROC分别提升了 4.32%和4.56%,证明了 DM-SPCL可以在保证已知类识别精度的基础上显著提升未知类的检测性能。同时,在三个自然影像数据集上验证了 DM-SPCL的通用性和先进性,尤其是在CIFAR10数据集上,AUROC比当前SOTA 的 ARPL+CS 方法提升了 1.73%。(3)针对小样本新类疾病的增量式辅助诊断问题,提出了一种基于特征增强和分类器自适应的小样本医学影像增量式辅助诊断技术(FSCIL-FACA),从而随着增量任务的进行,自适应调整不同任务类别之间的决策边界。首先,提出了特征增强网络,该网络通过自监督学习提高了泛化性,并通过调制注意力机制来更好地提取稀疏样本独特的判别特征。其次,提出了自适应增量分类器,通过混合关系映射网络在新旧任务之间校准统一分类器权重,并对特征表示进行自适应调整以适应全局分类任务。最后,提出了一种基于元学习的伪增量情节训练方法,通过伪增量情节选择方法构建伪增量任务,对混合关系映射网络进行多阶段训练,以快速适应新任务并具备小样本类增量学习的扩展能力。FSCIL-FACA在胃肠内窥镜HyperKvasir数据集和皮肤病Skin-7数据集上平均准确率(Avg)分别提升了 2.79%和1.39%,证明了 FSCIL-FACA显著提升了小样本新类疾病增量任务的总体性能。同时,在两个自然影像数据集上验证了 FSCIL-FACA的通用性和先进性,取得了 SOTA的效果。