关键词:
智能视频分析
骨骼信息
暴力行为时序定位
暴力行为识别
施暴者跟踪
摘要:
近年来,国际社会的安全形势日益严峻,恐怖袭击和暴力冲突事件持高发态势。视频监控技术广泛应用在学校、医院、商场和街道等公共场所,是我国保障社会安全稳定的主要安防监控方式。此外,随着互联网技术的迅速发展,网络视频成为传递信息的重要载体,而其中充斥的暴力、色情等不良信息,对用户特别是青少年造成了不良的影响。伴随监控终端的广泛部署和网络视频量的爆炸式增长,视频监控技术需更加智能化。传统的监控系统仅实现现场视频的采集和储存功能,而对数据的审查多数依靠人力完成,这种方式不仅费时费力,且易出现漏检和误检。因此,针对公共场所和网络视频的暴力行为智能监控技术已成为满足人民切实需要的一项研究内容。在众多监控方法中,按数据类型的不同可分为三类:彩色信息、深度信息和骨骼信息。基于彩色信息和深度信息的智能监控技术易受遮挡、背景和光照等干扰因素的影响,且从大尺寸或低分辨率的图像中提取特征比较困难。本文结合实际问题,针对基于骨骼信息的暴力行为智能监控技术展开研究,主要工作如下:(1)针对Kinect提取的骨骼信息受采集距离限制的问题,本文以大变焦网络摄像头作为监控设备,使用卡内基梅隆大学的tf-pose深度网络从采集的RGB视频中提取出人体骨骼信息,并建立一个暴力行为数据集。(2)考虑到安防环境对监控系统智能化和功能多样化的要求,搭建一个集数据采集与提取、暴力行为定位、暴力行为识别和施暴者跟踪功能于一体的暴力行为智能监控系统,介绍了该系统的相关硬件和各模块的软件设计思路。(3)针对传统监控方法效率低下的问题,提出一种暴力行为时序定位方法。该法包含两个阶段,阶段一采用一些先验知识,借助人体间距和关节点运动特性剔除在长视频序列中占绝大部分的安全片段,阶段二通过BP神经网络精确定位可疑片段,以便于后续使用暴力行为识别网络进行针对性的识别。(4)搭建基于深度学习的端到端暴力行为识别网络,该网络由数据增强模块、训练模块和融合模块组成。首先采用一种新的骨骼信息分割方法将人体骨架分为四个子空间,以降低网络提取特征的难度。然后数据增强模块在时间维度和空间维度上丰富暴力行为数据集,解决了因网络层数增多而产生的过拟合问题。之后在训练模块中通过以双向长短时记忆模型为主体的深度网络自动提取暴力动作的特征,训练出四个子空间模型。最后在融合模块中将四个子空间模型的识别结果进行加权融合,以进一步提升识别准确率。(5)为智能捕捉更多有关施暴者的信息,提出一种基于KCF的尺寸自适应目标跟踪算法,结合骨骼信息快速检测施暴者在图像中的位置,并通过调整电动云台的位姿对其进行针对性的监控,解决了因施暴者姿态和大小发生大幅变化而导致的目标丢失问题。