关键词:
动作识别
深度图像
帧序金字塔
特征融合
传感器技术
摘要:
人体动作识别是计算机视觉领域的一项重要且极富挑战性的课题。因其在视频监控、智能人机交互、虚拟现实等方面有着广阔的应用前景,近年来人体动作识别问题得到了广泛的关注。针对基于传统视觉传感器的动作识别容易受图像背景、光照变化等因素干扰,存在识别精度不高、实际应用难度大等问题,新近出现的商业级深度传感器为解决动作识别问题提供了新的研究方向。本文围绕基于深度图像的人体动作识别开展研究工作,取得以下成果:1.为了改进深度运动图像(Depth Motion Maps)无法区分动作时序的不足,以提高动作特征描述能力为目的,提出了一种基于自适应帧序金字塔模型的特征提取方法。该模型以动作运动能量为帧序划分依据,构建了人体动作的多层描述特征,增强了特征描述能力。同时,该模型对动作速率的差异具有鲁棒性,即模型的建立不受被识别动作的动作节奏、速率等因素干扰,具有“自适应”能力。结合改进后的基于稀疏表示的动作分类方法,对军事手语测试集中观察源C0位置所获取动作的平均识别率达到96.875%。2.构建了军事手语动作测试集。针对军事手语动作的实际应用特点,创新性地提出在5个观察源方位上采集深度图像与骨架关节点信息,设计了8个具有代表性的军事手语动作,构建了针对军事手语动作的测试集。该测试集包含多角度的丰富的人体动作深度图像和骨架关节点信息,满足了针对军事手语动作的识别算法的开发与测试。3.针对不同观察源下获取人体同一动作的不同特征,提出一种基于特征层融合的多观察源动作识别算法。通过分析多传感器图像融合策略,构建了多观察角度深度图特征层融合模型,并基于Fisher准则实现了多观察角度特征融合算法。该算法通过选取5个观察源角度下的人体动作信息的最大可分方向,保证融合后的特征向量具有最小的类内距离和最大的类间距离,使动作识别的准确率从多观察源下的平均值93.07%提高到98.75%。4.为解决动作识别算法无法处理未划分深度图像序列的问题,提出一种基于骨架关节点坐标的动作起始帧判据。该判据通过骨架关节点坐标处理,实时判断动作发生帧,从而对连续帧进行划分,并提取出待识别的动作帧序列。该判据具有计算简便、存储需求低的特点,在实际验证分析中能满足帧序划分的有效性与实时性。5.针对读取、处理连续深度图像帧序列时算法占据内存过大的问题,提出了算法的优化方案。在详细分析MATLAB的内存分配机制的基础上,通过优化算法结构和调整数据处理流程,解决了这一问题。本文的上述研究工作为下一步建立基于深度图像动作识别的军事手语动作识别系统提供了基本的理论和技术支持,对加快推进我军信息化作战水平乃至无人作战平台的建立具有重大的现实意义和深远的战略意义。