关键词:
数字图像处理
人体动作识别
动作分析
摘要:
视频人体动作的分析与表示是计算机视觉领域的一个研究热点,其主要任务是从视频中检测、提取和表示人体运动信息,它涉及图像处理、机器学习、应用物理、数学等多个学科,具有重要的理论和实际应用价值。由于人体运动的复杂性和多样性,尽管经历了十几年的研究,视频人体动作识别仍然难以应用于实际环境。作为人体动作识别的核心,动作表示和识别仍然存在大量亟待解决的问题。本文开篇阐明了视频人体动作识别的研究背景、研究意义、主要任务以及典型模型,并从研究现状及存在问题两个方面出发,对运动检测、特征提取及描述,编码技术进行了简单讨论。在总结分析已有研究成果的基础上,本文主要内容包括四个方面:1)人体在时空中的运动会形成空间三维体,该三维体的形状信息是重要的人体运动信息,这种形状信息能够被局部邻域特征的位置关系所描述,为准确描述这种关系,我们提出两种局部邻域特征构造算法:基于正多面体的局部时空邻域特征,和基于多尺度的时空方向邻域特征。前者是利用正多面的多个空间轴作为特征位置的参考定位系统,精确描述局部特征相对位置信息。后者是在局部邻域的构造中引入时空尺度参数,使得邻域特征具有方向选择性。2)协方差特征是一种强有力的局部特征,本论文我们将局部人体运动信息表示为协方差特征,然后研究它在两种情况下的动作识别率:第一种情况,我们首先使用矩阵对数映射,将协方差从黎曼空间映射到Log-Euclidean空间,然后在Log-Euclidean空间进行聚类、编码操作;第二种情况,为保持协方差特征在黎曼流形上的几何结构信息,我们直接对协方差矩阵在黎曼流形上进行聚类操作,生成黎曼矩阵字典,然后使用提出的局部黎曼流形编码算法实现特征编码。此外,我们还对不同矩阵距离度量下,协方差聚类中的批量均值更新和顺序均值更新做了深入研究。3)基于Grassmann随机流形森林的人体动作识别。传统局部时空特征利用时空网格划分局部时空体,然后分别计算每个网格的特征统计量,最后级联所有网格的特征统计量,获得局部特征描述子。这种网格划分不仅破坏了帧与帧之间的时间关联性,而且网格尺度没有统一标准,需要依靠经验和实验确定。为解决该问题,我们直接将每帧图像拉成列向量,局部时空立方体被表示为列向量矩阵,为度量这些矩阵的相似度,我们使用Grassmann流形距离,然后利用Grassmann随机流形树描述Grassmann流形的数据概率分布信息和实现人体动作分类。4)特征编码在动作识别中占据重要地位,一直以来都是研究的热点。我们通过对经典局部约束线性编码(Locality-constrained Linear Coding,LLC)算法的研究,提出一种LLC的加权版本,即WLLC编码算法。LLC算法是近来提出的一种优秀稀疏编码,它的优点包括编码是稀疏的、编码速度快、重构误差小,主要缺点是在其字典生成阶段完全抛弃了数据聚类中心附近样本的概率分布信息,使得在编码阶段每个被选中的单词对编码的贡献是一样的。我们所提WLLC算法的基本思想是,由于每个单词(聚类中心)周围训练样本分布的差异,使得它们的可信度不同,在特征编码中,高可信度的单词应该对编码做出更大的贡献。实验证明,通过引入WLLC编码算法,动作识别率被有效提高。此外,特征位置信息对于动作识别具有重要意义,为此,我们提出一种混合特征,配合提出的多尺度空间位置编码算法,达到准确描述人体动作在时空中的概率分布信息。论文最后对视频人体动作的分析与表示进行了展望,并提出下一步工作的主要内容。