关键词:
视觉依据
视觉语义关联
模块化网络
特征融合
上下文相关语言表示
摘要:
深度学习给物体的识别和检测带去了重大进展,但它们的本质只是将视觉信息和有限的语言符号进行关联。本文将它们的目标向更广义的智能推进一步,通过视觉信息和任意语言描述的关联,使得智能体能像人类一样理解对物体的指示说明,从而能在视觉感知图像中,唯一定位出符合语言指令的目标区域,这个任务叫做视觉依据。本任务的输入为图像和文本,输出为目标物体的占据区域,属于视觉和语言的交叉领域。由于认知功能的复杂性,本文采用基于深度神经网络的模型,通过对大量数据样本的学习,使得模型的预测输出能够逐渐逼近真实观测。网络模型主要由三个部分组成,其中,视觉网络从图像输入中学习到视觉特征,语言网络从文本输入中学习到语言特征,关联网络计算两种特征的相关性,从而在图像中定位出和描述最匹配的物体区域。基于上述框架,本文具体分析了基于前向卷积网络的视觉特征应用到本任务时的语义缺失问题和分辨率低下问题,并对应设计了一种自顶向下的特征融合方案,融合得到的视觉特征更全面准确地表达了视觉信息,促进了和语言信息的关联;另一方面,本文通过注意力机制建模了文本中词语的背景信息,从而消除了语言在形式上的歧义,得到了随上下文自适应变化的语言特征,促进了和视觉信息的关联。实验结果表明了以上两种特征表示的有效性。关联网络的设计是本文算法的最重要的贡献,为了说明它的必要性,本文首先分析了整体关联法的不足,尤其是其对背景信息的低效使用,并说明了现有模块化关联算法在应对语言形式变化时的局限性,然后提出了一种自适应模块关联法,关联网络由内部模块、近邻模块、全局模块三个并行部分组成,分别从物体自身属性、物体和近邻物体关系、物体和全局的关系三方面对语言和视觉信息进行关联,并且模块的权重能随着语言形式的变化而自适应调整,不再需要限制语言的结构形式,该分解方法降低了语义的复杂度,同时提高了对背景图像的利用能力,从而提升了整体的关联准确度,实验结果表明了其优越性。