关键词:
深度学习
智慧城管
城管图像数据集
图像生成
案件识别
物体定位
生成对抗网络
弱监督学习
摘要:
近年来,随着城市的发展越来越快,城市管理的任务变得越来越重,要求也变得越来越高,传统的“数字城管”已逐步进化为大数据支撑的“智慧城管”。智慧城管系统数据库中存储着海量的城管图像,它涵盖了城市中各种复杂的街道场景和几乎所有的城管案件类型。因此,如何充分地挖掘和利用这些图像数据,从而更好地实现智能化城市管理,是一个重要的研究课题,具有很高的科学价值和应用价值。目前,学术界还不存在公开的大规模的智慧城管图像数据集,因此,制作并推出一个大规模且高质量的数据集是该研究领域的首要任务。然而,城管图像中存在着大量的人脸隐私信息,在人脸信息安全日益被重视的今天,防止隐私泄露是数据集公开必须要解决的问题。案件识别是智慧城管场景理解中最基础的任务。借助它,可以快速准确地识别城管巡逻人员拍摄上传的照片内或城市监控摄像头实时画面中存在的案件,进而通知相应部门前往处理,实现自动化、智能化的城市管理。由于城市场景十分复杂且部分案件的关键物体较小,准确识别案件类型非常困难。因此,研究并解决这些问题是突破当前算法识别率瓶颈的关键。在案件识别的基础上,定位城管场景中的关键物体也尤为重要,它可以帮助实现更为高效精准的城市管理。使用传统的全监督物体定位或检测算法需要花费大量的人力来标注物体边界框,而近年来提出的弱监督物体定位算法又存在着定位物体不完整和定位过多背景等问题。本文主要研究内容是基于深度学习的生成(Generation)、识别(Recognition)与定位(Localization)算法在智慧城管图像场景理解中的应用。研究结合了生成对抗网络(Generative Adversarial Networks,GAN)和弱监督学习(Weakly Supervised Learning)等前沿技术。论文的主要工作和创新如下:1)构建了城管图像数据集—UMC。学术界目前还没有一个公开的可供研究的城管图像数据集。本文首先采集清洗了 15万张城管图像,制作推出了第一个大规模智慧城管图像数据集。其涵盖19个常见的城管案件场景。此外,本文使用了图像生成与处理算法对数据集质量进行了提升,其中包括提升图像分辨率的图像超分算法,以及消除运动模糊的图像去模糊算法。实验表明,在处理后的UMC数据集上,识别算法准确率提高了 0.4-0.6个百分点,定位算法准确率提高了 0.7-0.8个百分点。2)针对城管场景中的人脸隐私保护问题,提出高保真的人脸生成与替换算法FIT-GAN及AP-GAN。算法可以使用任意指定身份(sourceidentity)或者虚假身份(fakeidentity)替换掉图像或视频中的目标人脸身份(target identity),在不影响图像或视频质量和观感的前提下有效保护人脸隐私,便于数据集的公开。本文提出的算法无论在视觉效果上还是在各种性能指标上,都领先于目前最先进的人脸生成与替换算法。3)提出一种双向特征通道与多级分类器融合的城管案件识别算法。针对城管场景复杂、部分案件关键物体较小等问题,本文提出Multi-Level Ensemble Network(MLEN)。MLEN 在网络浅层引入分类器,利用浅层特征辅助识别,最终使用多分类器集成(multi-classifier ensemble)的方式得到预测结果。同时,本文详细分析了引入浅层分类器对神经网络的影响,并提出“特征通道”(Feature Transfer Path,FTP)。在UMC数据集上,MLEN取得了 0.884的识别准确率,比主流的识别网络高出了 2个百分点。此外,在公开数据集上,只有92层的MLEN取得了 0.576的识别准确率,比主流识别网络中性能最好的拥有131层的DPN高出了 0.6个百分点。这足以说明MLEN可以在使用更少的参数量的同时实现更精准的案件识别。4)提出一种可以强化目标并抑制背景的自适应注意力增强模块,显著提升弱监督物体定位算法在城管场景中的应用效果。为改善主流弱监督定位算法无法定位完整的目标物体以及定位过多背景的缺陷,本文提出了 一种自适应注意力增强模块(Adaptive Attention Augmentor,A3),它可以方便地嵌入到任何识别网络中,在注意力图(attentionmaps)上自适应地增强物体注意力(objectattention)并抑制背景注意力(background attention),从而准确定位目标物体。在ILSVRC数据集上,A3比主流的弱监督定位算法的定位准确率高出了2个以上的百分点。在CUB-200和Cars-196数据集上,A3也同样达到了 state-of-the-art的水平。相比主流弱监督定位算法,A3对城管图像中的关键物体的定位准确率也高出1个以上的百分点。综上所述,本文首先构建了研究领域内第一个大规模的城管图像数据集—U