关键词:
物体检测
物体定位
时空先验
轨迹预测
计算机视觉
摘要:
物体定位是计算机视觉领域中的一个重要研究方向,它构成了许多其他计算机视觉问题的基础,如实例分割,物体追踪等。同时,物体定位在许多应用场景中具有重要的作用,如智能交通、安防监控、医学影像分析等。时空域物体定位问题不仅包含在空间域内的物体定位,同样包含在时间域内的定位问题。其中典型的任务为物体轨迹追踪以及物体运动预测。物体轨迹追踪为给定一个时序信号序列,检测出其中的物体在该时间片段中的运动轨迹。物体运动预测即为对物体在未来一段时间内的运动轨迹进行预测。物体的检测与轨迹追踪,预测组合起来构成了对给定时空域内的物体的属性(类别)及运动的刻画。在实际应用中,物体定位面临着许多挑战,如背景复杂、遮挡和运动模糊等。针对这些问题,研究者们提出了许多不同的方法,如基于视觉注意力的方法、基于时空先验的方法等。其中,基于时空先验的方法是近年来越来越受到关注。该方法主要是利用物体在时间和空间上的先验知识,来提高物体检测和定位的准确性。例如,利用物体的边界位置信息,辅助确定物体的位置和大小,进而提高检测和定位的精度。以及利用物体在时间上的持续性和运动方向等信息,来进行更加精确的定位和跟踪。本文在通用定位任务:2D目标检测中,以及在特定定位任务:自动驾驶感知中,分别对如何利用时空先验来帮助物体定位进行了研究。对于通用的2D图像物体检测,本章(第二章)提出了基于条件注意力的2D物体检测模型。该方法从物体检测中的边界位置先验信息入手,探究了基于变换器的物体检测器DETR训练难度大,收敛时间过长的问题。由于变换器相较CNN而言,拥有全图大小的感受域,导致变换器的训练难度更大,严重的提高了训练成本。可以发现,DETR的解码器中的注意力机制倾向于去寻找物体的一个边界区域。同时,本章认为物体检测器需要收集物体边缘的特征信息来进行准确的物体框预测。于是,本章提出了条件DETR的模型,引入条件空间嵌入,来使得注意力机制能够显式地定位到物体的边缘区域,缩小物体的搜索范围,加速模型训练。通过大量实验分析,条件DETR相较DETR能够达到最高10倍的训练加速。在自动驾驶场景的联合3D感知与预测任务中,本章(第三章)提出了混合运动表征学习方法。由于自动驾驶场景的特殊性,本文采用激光雷达点云数据作为输入以获得更精确的物体位置信息。本章通过利用刚体整体运动与其中内部每个点的运动先验,探索了每个物体整体的运动状态(全局运动),与物体中每个雷达扫描点的运动状态(局部运动)之间的关系。研究发现,局部运动状态和全局运动状态包含的信息具有互补的特性,如局部运动不依赖于物体检测结果,但同时运动的噪声会较大;而全局运动状态重度依赖于物体检测,但同时物体的运动状态较为鲁棒,噪声较小。基于此,本章提出了用于联合3D感知与预测的混合运动表征学习框架,该框架将局部运动状态与全局运动状态通过变换器模型联系起来,以达到使局部运动预测和全局运动预测互相受益的效果。在搭建了车载的物体检测与定位系统后,本章意识到了车载感知系统的一些局限性,如遮挡。于是,本章继续对路侧的感知系统进行了研究,希望能够通过路侧感知系统来弥补车载感知系统的先天缺陷。本章(第四章)搭建了一个多摄像头的端到端物体感知系统。该系统具有物体检测,定位,追踪及运动预测的能力。在系统搭建中,本章通过对路侧摄像头视角偏移先验信息进行分析,提出了实时的视角偏移补偿模块。同时,本章也包含了对该系统的各个模块都进行的测试。测试结果表明,该系统能够实现较为精确的车辆检测定位,并且,感知系统延迟仅有40毫秒,基本可以达到实时检测的需求。与此同时,本章还基于路侧的感知系统,构建了一个下游应用:交通冲突检测系统。本章通过这个交通冲突检测系统构建了一套半自动化收集交通冲突事件的流程,并提出了一个交通冲突数据集。该数据集能够为交通安全相关研究人员提供关于交通冲突的研究数据,帮助他们对交通事故的成因进行研究。本文主要研究物体定位在实际应用中的需求,重点研究如何在不同的实际场景中去探索时空先验来提高检测和定位性能。本文分别对通用2D物体检测,以及两个具体的应用场景:车载物体感知和路侧感知中进行了研究,对推动物体检测与定位在场景理解,自动驾驶,智能交通,增强现实等领域的应用有着重要意义。