关键词:
物体定位与识别
目标检测
全景分割
有限标签
弱监督设置
开集设置
摘要:
物体定位与识别是计算机视觉领域的主要目标之一,其旨在对图像、视频等视觉场景中感兴趣的物体进行定位和分类,并在安防、医学、农业等领域有着非常广泛的应用。该方向根据物体定位的精细程度可以分为两部分,即物体框级别和像素级别。其中,前者的一个相关任务是目标检测,该任务要求使用紧贴物体的矩形框对物体进行定位。后者的一个相关任务是全景分割,该任务要求区分不同物体和背景所对应的像素区域。然而,现阶段高性能的物体定位与识别方法大多依赖于完整且有着精细标注的数据,而获取这些数据往往需要耗费大量的人力和物力,不利于这些方法在新场景下的应用。因此,基于有限标签的物体定位与识别任务得到越来越多的关注,该任务能够在大幅减少对标签完整性、精细度需求的情况下,实现对物体的定位与识别。
基于有限标签的物体定位与识别任务根据标签的完整和精细程度可以划分为多种设置,如:弱监督设置和开集设置。弱监督设置缺少精细的物体级别的标签,而开集设置缺少完整的类别标签。近年来,基于有限标签的物体定位与识别任务取得了许多可观的进展,但该任务的方法在定位与识别性能上与使用完备标签的方法还有着一定的差距。为了缩小这一差距,提升有限标签设置下的物体定位与识别性能,本文从提升伪标签质量和改进训练引导模式两个方面,以基于弱监督设置的目标检测任务和基于开集设置的全景分割任务为例,针对基于有限标签的物体定位与识别任务展开研究。
本文的研究内容和创新点主要包含以下四个方面:
首先,在提升弱监督目标检测的伪标签质量方面,本文提出了一个基于类别特征存储机制的弱监督目标检测方法。现有的弱监督目标检测框架大多把多实例检测网络作为基础检测器,并利用其结果生成伪标签训练后续的自训练网络。然而,由于只有图像级别的标签作为监督,多实例检测网络倾向于寻找同类物体间最相似的特征,而忽略了类内多样性这一特点,即同类物体往往有着不同的形态(如:姿势、形状)。针对这一问题,本文首先提出类别特征存储模块用于收集和在线更新多样性信息。基于收集到的多样性信息,本文又提出了一个特征引导的样本挖掘模块,利用多样性信息寻找图像中潜在的更完整的物体,从而提升伪标签生成质量。所提方法能在不引入额外数据的情况下获取并利用类内多样性信息,并在多个检测数据集上取得了性能提升。
其次,在提升弱监督目标检测的伪标签质量方面,本文提出了一个基于前景信息引导的弱监督目标检测方法。相较于弱监督目标检测框架中所普遍使用的多分类任务,前景-背景二分类任务能够引导网络关注所有前景物体间的相似部分,并提升模型鉴别前景和背景特征的能力,因此对前者是个有效的补充。基于这一特性,本文首先将前景-背景二分类任务引入弱监督目标检测框架,并设计了一个前景信息引导的自训练模块。此模块结合多分类信息和前景信息定位出图像中更准确的种子正样本,从而生成更高质量的伪标签。同时,此模块还使用多种子训练的策略减少噪声伪标签对自训练网络训练所产生的影响。所提方法结合了多分类任务和前景-背景二分类任务各自的优点,提升了网络的特征表达和伪标签的质量,相较于现有算法实现了明显的性能提升。
第三,在改进弱监督目标检测的训练引导模式方面,本文提出了一个基于循环引导标注的弱监督目标检测方法。受限于图像级别的训练标注,多实例检测网络的定位准确度并不理想。相对而言,使用物体级别伪标签训练的自训练网络往往有着更好的检测性能。基于这一特点,本文首先基于自训练网络建立一个性能更佳的教师模型,并使用其检测结果对多实例检测网络进行基于排序分布的知识蒸馏,引导后者在相邻候选框间生成更合理的排序分布。通过这种方式,本文将弱监督目标检测框架中原有的单向引导拓展为循环引导模式,从而提升了其性能上限。大量的实验数据和可视化结果表明,所提方法能有效缓解原有弱监督检测方法中的多个典型问题,并在多个检测数据集上达到了领先性能。
最后,在提升开集全景分割的伪标签质量方面,本文提出了一个面向现实场景的开集全景分割方法。原有的开集全景分割基准设置偏离了现实场景,且在标注数据上存在一定的缺陷。针对这一问题,本文从数据集标注扩充、类别划分等方面对开集全景分割基准设置进行改进和完善,使其更贴合现实场景且更具挑战性。进一步地,本文针对开集全景分割任务的重要影响因素进行探究,并设计了一个二阶段开集全景分割框架。本文在该框架中使用了类别无关设置和半监督的训练策略,有效提升了未知类别物体的伪标签质量,使得开集全景分割模型能够有效定位出分布广、样本少的未知类别物体。本文的大量的实验数据表明,该方法在未知类别上实现了明显的性能提升,并同时有着不错的泛化性能。