关键词:
微视频
内容分析
似物性采样
显著物体检测
标签精化
个性化推荐
摘要:
随着互联网技术和移动设备的飞速发展,视频的采集、存储和传播变得越来越普及和便捷.由于集成了视觉、听觉、文本等模态,视频具有丰富生动的表现能力,逐步成为了社会媒体中分享信息的重要媒体形态.微视频是一种时长受限的新型视频形态,其时长通常被限定为几秒至十几秒.这大大降低了视频制作、传播和观看的要求,因而微视频在社交媒体网站上呈现出爆炸式增长.构建面向微视频的有效管理和智能化服务的需求也应运而生.作为视频有效管理和消费的基础,视频内容分析技术近年来取得了长足进展.但与传统长视频相比,微视频具有来源广泛、多样性强、信息密度高、标签稀疏等特点.这对面向微视频的内容分析技术提出了新的挑战.本文从微视频的自身特点入手,围绕面向微视频的内容分析关键技术展开研究,主要关注面向微视频的似物性采样、显著物体检测、标签精化和个性化推荐,从而为有效管理和消费微视频提供有力支撑.本文的创新性工作主要包括:(1)提出了一种基于多特征融合的微视频似物性采样方法.相比于面向图像的似物性采样,视频似物性采样难以直接获取候选区域,需要分析不同模态的似物性特征,并且要求提供具有准确位置和持续时间的边界框轨迹作为结果,因而具有更高的难度.根据视频中物体的特性,本文提出了一种融合微视频中多种特征的似物性采样方法,可以有效地检测出具有不同特性的物体.此外,本文充分利用了视频内容的时空一致性和冗余性,对视频似物性采样中关键帧似物性采样和短时长边界框轨迹的跟踪和匹配等关键环节进行改进,有效地控制了计算开销.该方法能够有效地处理包含复杂场景的视频,在综合考虑效果和效率的情况下,取得比已有代表性视频似物性采样方法更好的效果.(2)提出了一种基于时空差异度和一致性的微视频显著物体检测方法.相比于面向图像的显著物体检测,视频显著物体检测除了需要考虑视频帧内的静态显著性特征,还需要考虑帧间运动显著性特征、显著度一致性以及处理效率等问题,因而面临更多的挑战.根据视频中显著物体具有的特性,本文提出了一种融合微视频内容的空间差异度和时间差异度的显著物体检测方法,可以同时有效地检测出静止和运动的显著物体.同时,本文充分利用了相邻视频帧在内容上的冗余性,仅在关键帧上直接进行显著物体检测,并根据时空一致性传播显著性来生成其它各帧的显著性图,从而提高了方法效率.该方法能够有效处理包含复杂物体运动和场景的视频,在综合考虑效果和效率的情况下优于已有代表性视频显著物体检测方法.(3)提出了一种基于多源数据辅助的微视频标签精化方法.微视频的哈希标签存在严重的分布不均、质量低下等问题,很难直接采用哈希标签来描述微视频内容;同时,由于难以构建大规模的、人工标注的微视频数据集,直接训练有效的微视频自动标注模型也十分困难.考虑到许多已有人工标注的数据集在内容上与微视频具有较强的相关性,本文采用多个用于物体检测、行为检测和场景检测的公开数据集,提出了基于多源数据辅助的微视频标签精化方法,从而克服了微视频标签精化中哈希标签质量过低、训练数据严重不足等困难.该方法对拥有不同质量哈希标签甚至缺乏哈希标签的微视频均能取得较好的标签精化结果.同时,本文构建了一个面向微视频标签精化的测试数据集,可以用作微视频标签精化任务的评测基准.(4)提出了一种基于层次式用户兴趣建模的微视频个性化推荐方法.由于微视频的时长很短,用户在观看微视频时不可能逐个人工选择,而需要依赖于社会媒体网站的自动推荐.微视频推荐除了要考虑流行度等微视频的自身属性外,还需要根据用户观看历史和点赞、评论等反馈来对用户兴趣建模.考虑到用户的个性化兴趣及其随时间的变化,本文提出了一种面向微视频的层次式用户兴趣模型,可以同时有效地描述用户职业爱好引起的长期兴趣和观看微视频过程中的临时兴趣.以此为基础,本文提出了一种微视频个性化推荐方法,其推荐结果会满足不同用户需要并随时间推移而变化.该方法能够有效地描述用户观看微视频时的兴趣,从而取得比已有代表性方法更好的微视频推荐效果.