关键词:
多视点视频
随机游走
时空镜头图
视频摘要
图像集分割
摘要:
随着数码摄像机和摄像头等数字视频获取设备的日益普及以及计算机网络通信技术的快速发展,人们所能接触到的视频数量正呈爆炸性的增长。在面向公共安全的视频监控以及影视特效制作和广播等领域,所获取的视频多为多视点视频数据,场景内容同时被具有相关性和相异性的多个视频摄像机或摄像头所捕获,针对大量的多视点视频数据,如何快速、高效地对其进行存储和管理,同时使用户能够便捷地浏览接触其内容就显得非常重要。本论文围绕多视点视频内容的分析与处理所涉及的部分关键、核心问题展开研究,主要工作包括:
首先,对于多视点视频内容的分析,一项关键技术是多视点视频、关键帧图像集的前景物体分割。本文提出了一种基于采样的交互式多视点视频、关键帧图像集内容分割方法,我们称之为Collection Snapping。目前交互式的视频、图像集分割算法极大地简化了图像物体前景分割的任务,但这些方法多数只能对单张图像或含有单个共同物体的图像集进行分割。如果以之精确分割多视点视频、关键帧图像集等数据,则需耗费大量的用户精力来对每张图像进行交互。为此,本文提出了更适用的方法,其主要包括两大步骤:交互式的视频关键帧集初始分割及增量式的迭代修正。具体而言,在第一步中用户只需要提供少量几笔对视频或图像集选取的采样图像分割与修正;对于视频或图像集的其它图像,通过找到与之内容相似的采样图像,并应用相应的外观模型来指导分割。在第二步中,针对初始的分割结果欠佳的图像,用户对一张图像进行增量式修正,并通过计算相关映射,以该张图像的修正指导其它不满意的相关图像。我们的实验展示了该方法可以在分割内容变化很大的视频或图像集时,有效地减少用户交互,从而节省用户精力。该方法还可以应用于对一般图像集的交互式分割。本文的实验结果验证了该方法的有效性。
其次,针对大数据量的多视点视频数据,如何有效的对其内容进行表示、评价从而提取关键信息是非常重要的,我们系统地提出了基于时空图多视点视频内容的表示方法、内容分析方法及摘要处理方法。以前的视频摘要方面的研究多关注于单视点视频,但是这些方法在处理多视点视频时,由于很多不利因素的影响,比如多视角之间的视觉相似性,导致最终的效果往往欠佳。本文方法的核心思想是根据多视点内容的分析,以时空镜头图(Spatio-temporal Shot Graph)建模表示原视频内容,从而把视频摘要问题抽象成一个图标记任务。时空镜头图用超图(Hypergraph)的形式表示,超图用超边刻画多视点视频镜头节点间的不同属性关系。在时空镜头图建模视频内容的基础上,本文方法以视频事件为中心,采用随机游走的方法聚类镜头节点;进而根据本文提出的低级特征的高斯熵和高级语义特征相结合的方法计算出每个镜头重要度,在每一个类中采用多目标最优化方法,按照用户摘要的不同需求计算得出多层次摘要结果。为了更直观地表示多视点视频摘要结果,本文给出了用多视点故事板和事件板来展示多视点摘要,这样可以更方便快速地浏览多视点的视频摘要。
再次,由于学术界并没有适合于多视点视频摘要研究的数据集,我们制作、发布了一组多视点视频摘要数据集,并对其中的3个数据集制定了事件的客观标准(Groundtruth)。据我们所知,该组数据集已被国际上的研究同行所使用,如香港中文大学和德国慕尼黑的NTTDocomo实验室相关研究人员。
本文工作的创新点概括如下:
·在视频内容的前景分割方面:我们的方法可以极大地减少分割视频、关键帧图像集内容时所需的人工交互,从而方便对视频和图像集前景的精确分割;
·在多视点视频内容的分析与摘要方面,本文在国际上第一次提出多视点视频摘要所涉及的问题、基本研究理论和实现方法。其特点主要有:
1.时空镜头图建模多视点视频。该表示方式使多视点视频摘要问题可以很方便地借助数学上比较完备的图理论来解决。
2.基于随机游走的事件镜头节点聚类。本文用随机游走以事件为中心对时空镜头图聚类。在每一个类别中,多目标最优化可以根据不同的用户需求设定不同的参数,进而很方便地产生不同的、多层次摘要结果。
3.基于多视点故事板和事件板的视频摘要结果展示。故事板很自然地反映多个视点摘要结果之间的相关性和相异性:事件板则是在同一类别中按照事件发生时间顺序串接多视点镜头摘要结果。这两种展示方法可以帮助用户快速理解多视点视频内容。