关键词:
计算机视觉
三维点云
点云分割
神经网络
摘要:
三维视觉是近几年迅速发展的一个方向,已经成为了计算机视觉领域研究的一大热点。近些年研制出的各种三维视觉传感器对自动驾驶,工业监测,虚拟现实和目标抓取等各个领域的研究与工程起到了推动作用。三维视觉数据相比平面图像包含着更丰富的信息,在将其中包含的信息应用到实际场景中之前,首先要让计算机理解三维场景。点云分割是对点云进行理解的一种常见形式,对于实现目标物体抓取,点云空间避障,路径规划,AR现实等后续研究都有着很重要的意义。然而由于点云数据的复杂性,无序性和大数据量等特性使得点云分割过程中存在着较多难点。点云场景数据量大,冗余度很高,实际有利用价值的目标物体信息量很小,在存储和计算上需要占用大量的资源,导致场景分割计算时间过长。此外点云场景中不同物体的比例不均衡,网络训练难度大,很多小型目标经常被忽视。针对以上问题,本文借助了发展时间更长,更成熟的2D图像分割技术,以点云处理和基于神经网络的方法,设计提出了一个室内场景目标物体的定位分割系统。RGBD相机并不能直接获取三维彩色点云数据,而是从深度图与RGB图像构建得到。为了解决小型物体检测效果不好的情况,本文首先利用运行速度快,对小型目标检测效果好的YOLOv5 网络,在彩色图片上框选出小型目标物体的候选区域。并将框选区域映射到三维空间当中,增强图像与点云之间的关联性,后续小型物体的分割将会单独在这些经过处理后的候选区域中进行。为了将点云区域中的目标物体与背景分离开,本文设计了两个点云分割系统,分别使用传统方法与深度学习方法对点云进行分割,进行对比。传统方法使用RANSAC拟合方法和一种加入颜色的区域生长方法,去除掉非目标点云的影响;另一种方法设计了一个神经网络,将目标物体与背景分离。该网络以PointNet网络为基础网络,进行了多处优化改进。在网络模型方面改进主要体现在以下几点:其一:为了更好的提取特征,在对全局特征进行提取时使用了一个自编码器网络来取代原方法中的全局池化,更好的编码全局特征。其二:针对本文特有的网络设计了独有的损失函数,保证了类别数据的训练平衡。其三:增加注意力模块来增强网络的特征提取能力。使用该网络在ShapeNet数据集上进行分类得到了比原始网络更好的分割精度。为了比较两种分割方法的表现,在RGB-D Scenes数据集上进行不同检测难度下结果的分析,测试验证其可行性与稳定性,确定使用深度学习的分割方法用于本文系统小型点云的分割。对于分割后的目标物体,本文使用主成分分析法计算方向包围框对其定位表示。最后在RGB-D Scenes数据集和真实室内复杂场景下进行整体试验,证明了实验的适用性与鲁棒性。