关键词:
示例检索
标签检索
物体定位
局部特征
深度学习
摘要:
物体检索与定位,是指给定查询目标在某种模态下的信息,在大规模图像视频数据集中定位该目标的技术。物体检索与定位具有广泛且重要的应用价值,是计算机视觉技术最核心的课题之一。然而,由于光照、视角、遮挡等外部因素和物体本身的形变、类别多样性等内部因素的共同影响,图像在不同层次上存在复杂的表象变化。除此之外,示例、图像和标签之间的层次关联繁杂多样。这些都给物体检索与定位带来了很大的困难。本文从实际应用的角度出发,针对示例检索、标签检索和物体定位三个相关问题展开研究。以视觉词袋模型和深度卷积网络模型为基础,从模型表示、模型学习和关联匹配几个方面进行扩展和完善。具体的研究工作包括:1.针对基于视觉词组的示例检索模型进行了研究。首先,优化了视觉词组的定义方式,提高了视觉词组的区分性。其次,分析了一类容易被忽视的现象,即视觉词组的突爆匹配。接着,基于概率模型,提出了一种新颖的贝叶斯池化模型用于消除突爆匹配,从而优化了图像之间的相似性度量,提高了示例检索的准确性。2.针对基于深度卷积网络的示例检索模型进行了研究。针对示例检索的查询敏感的空间位置关联性问题,提出了一种空间位置对齐的模型框架。更进一步,提出了一种基于排序的深度卷积网络,用于建模物体的类内和类间差异性。为了训练这个网络,设计了一种半监督的训练样本收集策略。该策略不需要任何对查询物体的先验知识,并且极大地减少了人工收集训练样本所需的成本。实验结果表明这一方法显著地提高了深度模型下示例检索的准确性。3.针对前背景的模糊性,从特征学习的角度,提出了一种多示例在线学习模型解决弱监督条件下的图像标注和物体定位问题。首先,在现有的多示例学习模型的基础上,改进了训练样本的选择和更新策略。改进后的策略能够收集准确多样的正样本以及有区分性的负样本,从而提高前背景的区分性。其次,设计了一个端到端的模型同时进行训练样本的选择和物体检测器的训练。最后,通过对示例标注和图像标注进行关联,从而通过一个模型联合学习图像标注和物体检测算法。实验结果表明,这一模型有效地提高了图像标注和物体定位的性能。4.从特征表示的角度对标签检索和物体定位问题进行了研究。具体地,本文提出了一种基于显著性的深度特征模型,改善基于矩形框的物体特征表示。显著性模型使得矩形框内背景区域的特征响应被抑制,而前景中重要的视觉区域的特征激活得到增强。这样的特征表示模型使得前景区域和背景区域的类内差异变小,类间差异变大,从而减少了前背景的模糊性。这一显著性特征模型可以与当前最好的弱监督物体检测模型融合,从而进行端到端的联合训练。这一方法在多个数据集上验证了其可靠性。