当前位置: 首页 > 专利查询>广州大学专利>正文

基于点柱的二阶多注意力机制3D点云目标检测方法技术

技术编号:37143122 阅读:13 留言:0更新日期:2023-04-06 21:52
本发明专利技术提供了基于点柱的二阶多注意力机制3D点云目标检测方法,该方法包括以下步骤:提出基于点柱的二阶点注意力机制、二阶通道注意力机制、伪图像空间注意力机制三种机制来分别实现目标检测的方法;提供一种网络,该网络主要由二阶点注意力机制、点柱特征网络、二阶通道注意力机制、主干网络、伪图像空间注意力机制和SSD检测头组成,然后将点云体素化,对点云进行二阶点注意力机制操作,转换成伪图像的特征,伪图像的特征进行二阶通道注意力机制操作,输出伪空间的特征,对伪空间的特征进行伪图像空间注意力机制操作,输出得到检测结果;通过本发明专利技术,保证了相对较高的检测速度也保证了提取的准确性。了提取的准确性。了提取的准确性。

【技术实现步骤摘要】
基于点柱的二阶多注意力机制3D点云目标检测方法


[0001]本专利技术属于3D纯激光雷达点云目标领域,具体涉及基于点柱的二阶点注意力机制、二阶通道注意力机制、伪图像空间注意力机制三种机制来分别实现目标检测的方法。

技术介绍

[0002]当前,3D点云目标检测方法在计算机视觉、自动驾驶、机器人和虚拟现实等领域得到越来越多的广泛应用。与二维图像的目标检测相比,激光雷达可以提供更可靠的深度信息,更准确地定位物体并提供形状信息。但由于3D点云无纹理、遮挡截断和反射不均匀,激光雷达点云稀疏且密度变化很大,基于手工特征的传统的3D目标检测方法的精度常常因此受到影响。近些年,随着深层神经网络展现出优异的特征提取能力,可以处理高维数据,基于深度神经网络的3D点云目标检测方法在精度上得到一定程度的提升。尽管如此,由于点云的高度稀疏性和本质上的不规则性等原因,一些类别的检测结果的精度还是有很大的提升空间。
[0003]如2016年Li等人提出了VeloFCN,将点云转换为前视特征图表示,然后使用现成的探测器。(参考B.Li,T.Zhang,and T.Xia,“VeloFCN:Vehicle detection from 3Dlidar using fully convolutional network,”in Robotics,2016.)。2017年Qi等人提出了PointNet,PointNet首次将原始点云数据投入到深度神经网络训练的模型。(参考C.R.Qi,H.Su,K.Mo,and L.J.Guibas,“Pointnet:Deep learning on point sets for 3dclassification and segmentation,”in CVPR,2017.)。2018年Martin Simon等人推出了Complex

yolo,此模型把点云投影到二维平面,用图像的方法做目标检测,从而加速网络推理。但是投影的方式受到点云的稀疏性的限制,使卷积无法较好的提取特征。(参考M.Simon,S.Milz,K.Amende,and H.

M.Gross.“Complex

YOLO:Real

time 3dobject detection on point clouds,”arXiv:1803.06199,2018.)。为了缓解前视图重叠导致的遮挡问题,Yang等人提出了PIXOR,将点云栅格化为更紧凑的BEV表示,但存在的很明显的缺点就是需要手动提取特征,然而手工设计不仅不能充分利用物体的三维信息,也不利于推广到其他雷达上应用。(参考B.Y ang,W.Luo,and R.Urtasun,“Pixor:Real

time 3d object detection from point clouds,”in CVPR,2018.)。2018年,Zhou等人首次提出了一种端到端的可训练网络VoxelNet,一种通用的3D检测框架。与之前的大多数工作不同,VoxelNet开始学习信息丰富的特征表示,并且可以同时从点云中学习不同的特征表示。然而,3D卷积的缺点是它太耗时,并且面临大量的计算量,导致网络的推理速度慢。(参考Y.Zhou and O.Tuzel,“Voxelnet:End

to

end learning for point cloud based 3d object detection,”In CVPR,2018.)。接着Yan等人提出了SECOND,其通过稀疏卷积运算来减少内存消耗并加快计算速度。(参考Y.Yan,Y.Mao,and B.Li,“SECOND:Sparsely embedded convolutional detection,”.In Sensors,18(10),2018.)。为了利用标准的2D卷积检测管道提高推理速度,H.Lang等人在2019年提出PointPillars将点云编码成垂直列,其本质上是体素的特殊划分。(参考A.H.Lang,S.V ora,H.Caesar,L.Zhou,J.Y ang,and O.Beijbom,

Pointpillars:Fast encoders for object detection from point clouds,”in CVPR,2019.)。
[0004]此外,现有技术论文A.H.Lang,S.Vora,H.Caesar,L.Zhou,J.Y ang,and O.Beijbom,“Pointpillars:Fast encoders for object detection from point clouds,”in CVPR,2019.中提出了的方法,该方法的具体实现步骤为:首先对输入的原始点云进行区域的划分,将点云体素化,再转换成稀疏伪图像的形式。每个pillar中随机保留固定数量的点,在这个步骤对pillars中的点的特征维度进行增广操作,从原始4维信息增广到9维,此时激光雷达中的每个点都具有了9维的特征。在骨干网络中,使用2D网络进行特征的学习。主干网络中包含两个子网络:一个自上而下的网络以越来越小的空间分辨率产生特征,以及第二个网络执行上采样和串联自顶向下的功能。最终输出的特征是源自不同步幅相同维度的所有特征的串联。在检测头模块中,选用SSD检测头进行Bbox的回归。使用了2D联合截面(Iou)将先验盒和地面的真实情况进行匹配。Bbox的高度和高程没有用于匹配,这里采用的是2D匹配,高度和高程作为附加的回归目标。虽然PointPillars网络提出了利用pillars对点云体素化提升了速度,然而主干网络下采样过程中通常会丢失输入图像的特征信息,而且体素中的点和点之间具有关联性,孤立的对点云中的点进行处理势必会丢掉一部分有用的几何信息,进而影响检测精度。在主干网络中,分别孤立的对各个通道进行处理忽略了通道与通道之间的关联性,这样就会损失一部分有用信息,降低检测精度。在生成伪图像后,对伪空间中的特征做了相同的处理。由于不是全部伪空间的特征对检测任务具有同样的贡献,与任务相关性越大的区域重要性越大,直接做相同的处理也会降低最后的检测精度,所以迫切需要一种实时精准的3D点云目标检测方法,在速度和精度之间实现一个动态平衡。

技术实现思路

[0005]有鉴于现有技术的上述缺陷,本专利技术的目的是提供一种实时精准的3D点云目标检测方法,在速度和精度之间可以实现一个动态平衡,并且分别通过基于点柱的二阶点注意力机制,二阶通道注意力机制,伪图像空间注意力机制三种机制,解决了现有方法无法实时进行更高精度目标检测的问题。
[0006]本专利技术解决的技术问题:
[0007]第一、在特征提取网络步骤中,主干网络下采样过程中通常会丢失输入图像的特征信息,而且体素中的点和点之间具有关联性,孤立的对点云中的点进行处理势必会丢掉一部分有用的几何信息,进而影响检测精度。本专利技术提出一种基于点柱的二阶点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于点柱的二阶多注意力机制3D点云目标检测方法,其特征在于,包括:S1:提出基于点柱的二阶点注意力机制、二阶通道注意力机制、伪图像空间注意力机制三种机制来分别实现目标检测的方法;S2:基于S1提供一种网络,该网络主要由二阶点注意力机制、点柱特征网络、二阶通道注意力机制、主干网络、伪图像空间注意力机制和SSD检测头组成,该网络也分为二阶注意力模块、二阶点注意力模块和二阶通道注意力模块;S3:将点云体素化,然后对点云进行二阶点注意力机制操作,转换成伪图像的特征;S4:对伪图像的特征进行二阶通道注意力机制操作,输出伪空间的特征;S5:对伪空间的特征进行伪图像空间注意力机制操作,输出得到检测结果;其中,SSD检测头使用主干的特征来预测物体的三维边界盒;二阶注意力模块包含全局最大池化、协方差池化和行卷积;S3中将点特征作为二阶注意力模块的输入的情况下,将获得二阶点注意力机制权重作为输出,该过程为二阶点注意力模块;当通道特征输入到二阶注意力模块时,将获得二阶通道注意力机制权重,该过程为二阶通道注意力模块。2.根据权利要求所述1的一种基于点柱的二阶多注意力机制3D点云目标检测方法,其特征在于:在给定的第K个体素中,对于体素中所有的点其中N代表点的数量的最大值、C表示通道的数量,在经过全局最大池化后,得到每个维度上的最大值组成的向量将输入到一层全连接层,其中N
×
1代表N行1列的向量,得到向量其中t是经过W1全连接层减少之后的点的数量,W1全连接层后面使用ReLU激活函数,计算得到同一体素中两点之间的协方差矩阵其中在二阶点注意力机制则t为点的数量、在二阶通道注意力机制则t为通道的数量、t
×
t为维度,对协方差矩阵进行逐行卷积,获得向量然后将向量输入到W2全连接层并使用激活函数Sigmoid函数,获得N维注意力向量所述S3中,二阶点注意力机制表示为:s=σ(W2RC(Cov(σ(W1(GMP(X))))))式中,Cov(
·
)为计算点的协方差矩阵、RC(
·
)为行卷积、GMP(
·
)为全局最大池化、σ为ReLU激活函数、与为两个不同的全连接层、X为给定的第K个体素中的点二阶通道注意力机制与二阶点注意力机制类似,通道特征经过二阶注意力模块后,输出产生了类似的权重,所述S4中,二阶通道注意力机制表示为:M=σ(W2RC(Cov(σ(W1(GMP(Y))))))式中,为伪图像的特征,上标H、W为伪图像的高度和宽度。3.根据权利要求所述2的一种基于点柱的二阶多注意力机制3D...

【专利技术属性】
技术研发人员:严一尔李鑫
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1