关键词:
视频内容分析
深度学习
多模态融合
推理
注意力机制
摘要:
随着传感器和互联网通信技术的快速发展,利用手机等移动设备拍摄、观看和分享视频成为了现代人们生活与工作的一部分。视频作为重要的信息载体,其数据量在网络中以几何级的速度增长,给视频处理工作带来了极大的挑战。因此,研究如何快速、准确地对视频数据进行分类管理并分析提取有效信息具有重要的理论意义和实用价值。视频内容分析旨在根据视频中的视觉信息、场景信息和音频信息等特征,从多种角度比如情感分析、动作识别等,对视频中的内容进行分析,达到对视频数据进行监管和处理的目的。视频内容分析技术作为计算机视觉领域的一个重要研究方向,被广泛应用于视频理解、视频监控、人机智能交互等诸多应用。本文围绕视频内容分析问题进行研究,在分析现有的视频内容分析方法优缺点的基础上,结合视频数据本身的特性,以视频特征融合和视觉推理理论指导深度学习网络的设计,增强深度学习网络的可解释性。具体的研究内容包括以下三个方面:(1)提出了一种针对视频情感分析的多模态局部-全局融合网络。视频的本质是一种多模态媒体,以声音和视觉信号的形式提供信息,各个模态之间互为补充,共同刺激情感的产生。基于视频的这一特点,本文提出了一种用于视频情感分析的多模态局部-全局注意融合网络。该网络模拟人脑对多模态信息的处理过程,对视频的不同模态进行融合,以获得有效的视频表达用于视频情感分析。该网络以视觉外观、运动、音频和音调四个模态特征作为输入,并将注意力机制扩展到多级融合,设计了一个多模态局部-全局融合单元,用于获得视频情感的全局表示。在局部注意阶段,网络对各个时间点的多模态特征进行融合,通过注意力机制从多个模态中筛选出关键信息,以获得代表性的局部表达;在全局注意阶段,网络通过注意力机制对不同时刻的局部表达进行融合,捕捉视频中对情感分析结果起决定性作用的时刻,以获得视频的全局表达。多模态局部-全局注意融合网络能够有效地对输入的多模态信息进行融合,利用不同模态间的互补性,得到用于视频情感分析任务的完整有效的视频表达。同时,多模态局部-全局融合框架可以用于多种多模态融合相关的视频情感分类和回归任务。(2)提出了一种用于细粒度关系转移建模的目标关系推理图卷积网络。动作是由目标状态的变化以及不同目标间关系状态的变化组成。受此启发,针对目标关系标签辅助下的视频动作识别问题,本文提出了一种基于目标级别和关系级别两种图卷积结构的推理网络。目标级别图以目标的特征为图节点进行目标级别的推理,用于捕获动作发生过程中目标状态的变化;关系级别图以目标间视觉关系的特征为图节点进行关系级别的推理,用于捕获动作发生过程中目标间视觉关系的变化。此外,为了使两个图中的信息进一步耦合,本文创新性地提出图聚合模块,通过多头注意边到节点消息传递结构将关系级别图中的信息反向更新回目标级别图中,以更好地理解视频并得到动作识别的结果。目标关系推理图卷积网络以视频中的目标及目标间关系为基本单元,充分地利用视频中目标和关系的视觉特征、空间特征和语义特征,对视频中的目标属性转移和关系转移进行细粒度建模。(3)提出了一种基于目标的三维可变形卷积时序推理网络。视频中的动作是由动作主体及其周围的相关物体在时空维度上不断变化而形成的。目标间关系的时空建模和推理有助于视频动作识别任务的完成。为了使网络具有捕捉长程依赖关系的能力并对不同目标之间的关系变化进行时序推理,本文提出了一个基于目标的三维可变形卷积时序推理模块来学习视频中不同目标之间潜在的关系依赖及变化。网络主要包括空间建模模块和时序推理模块两个部分。其中,空间建模模块对帧内的三维目标特征图采用三维可变形卷积操作获取多目标之间的关系依赖;时间推理模块采用卷积长短时记忆网络对来自不同视频帧的多目标关系依赖特征进行时序推理,以获得目标之间潜在的关系变化并用于视频内容的分析。同时,该网络还可以作为一个基础模块嵌入到其他三维卷积网络的框架中,以协助捕获视频中目标在时空维度的关系依赖。