System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于增强型特征提取网络的点云3D目标检测方法技术_技高网

一种基于增强型特征提取网络的点云3D目标检测方法技术

技术编号:41199952 阅读:3 留言:0更新日期:2024-05-07 22:27
本发明专利技术提供了一种基于增强型特征提取网络的点云3D目标检测方法,该方法设计了一种增强的2D伪图像特征提取网络,该网络在常规卷积特征提取网络的基础上加入了基于注意力机制的特征提取支路,该支路由若干基于移动窗口的分层视觉转换器构成,用于提取伪图像的高级特征。相比经典的视觉转换器Swin‑Transformer,本发明专利技术所设计的分层视觉转换器去掉了位置嵌入层、去掉了随机丢弃层、将层归一化替换为批归一化,从而更适用于点云3D目标检测任务。本发明专利技术通过对2D伪图像特征提取网络的改进,有效增强算法对伪图像的特征提取能力,从而提高点云3D目标检测算法的性能,尤其是对小目标的检测性能。

【技术实现步骤摘要】

本专利技术涉及深度学习的3d目标检测领域,具体涉及一种基于增强型特征提取网络的点云3d目标检测方法。


技术介绍

1、三维目标检测是计算机视觉领域的一个重要研究方向,它旨在从三维点云数据中识别和定位感兴趣的目标,如汽车、行人、自行车等。三维目标检测在自动驾驶、智能监控、增强现实等应用场景中具有重要的意义。

2、3d目标检测的难点在于,点云数据具有高维、稀疏、无序、不规则等特点,不易于直接使用传统的图像处理和机器学习方法进行处理。为了解决这一问题,近年来,许多基于深度学习的3d目标检测算法被提出。其中,用于从点云中检测物体的快速编码器,如pointpillars算法是一种基于柱体的点云目标检测算法,它将点云数据在水平面上划分成互不重叠的柱体;使用全连接神经网络对每个柱体内的每个点进行特征提取,然后对每个柱体进行最大值池化,得到每个柱体的特征向量;将提取后的特征映射为二维伪图像,最后利用卷积神经网络提取伪图像特征,并采用ssd检测头进行目标检测。这样的转化过程使得算法在第二阶段可以有效利用目前更加成熟的二维图像处理方法,同时避免了三维卷积操作,有效提升了算法的处理速度。这种方法是目前自动驾驶领域3d环境感知中应用最广泛的算法。

3、但是在提取为伪图像特征的过程中使用卷积神经网络时,卷积层数较浅会导致网络缺乏较大的感受野,无法建模全局信息的相互依赖关系;而3d感知任务中目标面积占鸟瞰地图(bev)面积的比例非常低,因此卷积层数较深会导致小目标特征的丢失。以上两点会导致提取出的为图像特征较为粗糙,缺乏全局信息和局部的关键信息,因此限制了这种方法的检测精度,如何在提取伪图像特征的过程中提高特征的质量和表达能力,增强算法的检测性能是一个亟待解决的问题。


技术实现思路

1、针对上述问题,本专利技术提供了一种基于增强型特征提取网络的点云3d目标检测方法,设计了一种增强的2d伪图像特征提取网络,该网络在常规卷积特征提取网络的基础上加入了基于注意力机制的特征提取支路。该支路由若干基于移动窗口的分层视觉转换器构成,用于提取伪图像的高级特征,实现了对点云数据多尺度和多角度的特征融合。相比经典的视觉转换器swin-transformer,本专利技术所设计的视觉转换器去掉了位置嵌入层、去掉了随机丢弃层、将层归一化替换为批归一化,从而更适用于点云3d目标检测任务。

2、具体地,本专利技术采用如下技术方案:

3、一种基于增强型特征提取网络的点云3d目标检测方法,通过所设计的2d伪图像特征提取网络增强对伪图像特征的提取能力,进而增强算法的目标检测性能。包括以下步骤:

4、s1:将输入的三维点云数据在水平面上分割为互不重叠的柱体,每个柱体包含n个点,n是设定的柱体内点的最大个数;

5、s2:使用全连接神经网络对每个柱体内的每个点进行特征提取,得到每个点的特征向量,然后对每个柱体进行最大值池化,得到每个柱体的特征向量;

6、s3:将每个柱体的特征向量按照其在水平面上的位置重新排列,得到一个二维的伪图像;

7、s4:使用一个2d伪图像特征提取网络对二维伪图像进行特征提取,该网络包括一个基于卷积神经网络的特征提取支路和一个基于注意力机制的特征提取支路,将两个支路的输出进行融合;

8、s5:使用特征融合模块对不同尺度和不同方式提取到的二维伪图像特征进行融合,得到最终的2d融合特征;

9、s6:使用一个单阶段多框检测器ssd对2d融合特征进行目标检测,得到最终的3d目标检测结果。

10、其中,在步骤s4中,所述一个基于卷积神经网络的特征提取支路包括若干个卷积块,每个卷积块包含一个下采样卷积层和若干个普通卷积层,用于提取二维伪图像的局部特征;所述一个基于注意力机制的特征提取支路包含若干个基于移动窗口的分层视觉转换器,用于提取二维伪图像的全局上下文信息;所述分层视觉转换器去掉了位置嵌入层、随机丢弃层,将层归一化替换为批归一化。

11、进一步的,所述2d伪图像特征提取网络还包括:

12、一个输入层,输入二维伪图像尺度为h×w×c,其中h、w和c分别是输入二维伪图像的高度、宽度和通道数。

13、进一步的,所述一个基于卷积神经网络的特征提取支路,包括三个卷积块,每个卷积块包含一个下采样卷积层和若干个普通卷积层,卷积核大小均为3×3,下采样卷积层的步长为2,普通卷积层的步长为1;每个卷积层输出均通过批归一化和relu激活函数对特征进行非线性变换,输出特征尺度分别为和其中c′是设定的特征维度;

14、所述一个基于注意力机制的特征提取支路,由三个阶段组成,每个阶段分别包括一个下采样模块和若干个基于移动窗口的分层视觉转换器;每个分层视觉转换器都包含基于窗口的多头注意力模块和基于移动窗口的多头注意力模块;所述一个基于注意力机制的特征提取支路按照如下步骤进行特征提取:首先将二维伪图像划分成大小为4×4的图像块,然后通过线性嵌入层将图像块变换成一个c′维的向量,作为注意力模块的输入;其次,将这些c′维的向量按照原图像块的相对位置划分到相同大小的局部窗口内,每个窗口包含7×7个向量;在每个局部窗口内部计算注意力,然后进行窗口移动,在移动后的窗口内计算注意力,以建模全局的特征关系,通过基于窗口的多头注意力模块和基于移动窗口的多头注意力模块可以分别捕捉二维伪图像中的局部特征和全局特征;最后,通过图像块合并的方式实现下采样。

15、其中,基于注意力机制的特征提取支路输出特征的尺度与基于卷积神经网络的特征提取支路输出特征的尺度保持相同。

16、进一步的,所述的特征融合模块包括:

17、一个拼接层,将两个支路输出的相同尺度的特征沿通道维度拼接,得到3个尺度为和的伪图像特征,并通过一个卷积层对特征进行融合,该卷积层的卷积核大小为1×1,步长为1,输出通道数为

18、一个上采样层,将不同尺度的特征统一上采样到并通过relu函数对特征进行非线性激活;最后将上采样到统一尺度的特征沿通道维度拼接,得到最终的2d融合特征,其尺度为

19、与现有算法相比,本专利技术的技术方案所带来的有益效果是:

20、本专利技术通过在二维特征提取网络中加入了改进的swin-transformer支路,可以有效地建模伪图像的全局依赖关系和上下文信息;相比于仅使用卷积层和池化层的pointpillars算法,可以更准确地检测出三维目标的类别和位置,尤其是对小目标的检测性能。同时,本专利技术提出的特征增强模块设计十分巧妙,不受具体模型的约束,可以轻松的移植到其他模型中,因此适用范围很广。

本文档来自技高网...

【技术保护点】

1.一种基于增强型特征提取网络的点云3D目标检测方法,其特征在于,通过所设计的2D伪图像特征提取网络增强模型对伪图像特征的提取能力,包括以下步骤:

2.根据权利要求1所述的基于增强型特征提取网络的点云3D目标检测方法,其特征在于,所述2D伪图像特征提取网络还包括:

3.根据权利要求1所述的基于增强型特征提取网络的点云3D目标检测方法,其特征在于,所述一个基于卷积神经网络的特征提取支路包括三个卷积块,每个卷积块包含一个下采样卷积层和若干个普通卷积层,卷积核大小均为3×3,下采样卷积层的步长为2,普通卷积层的步长为1;每个卷积层输出均通过批归一化和ReLU激活函数对特征进行非线性变换,输出特征尺度分别为和其中C′是设定的特征维度;

4.根据权利要求1所述的基于增强型特征提取网络的点云3D目标检测方法,其特征在于,所述特征融合模块包括:

【技术特征摘要】

1.一种基于增强型特征提取网络的点云3d目标检测方法,其特征在于,通过所设计的2d伪图像特征提取网络增强模型对伪图像特征的提取能力,包括以下步骤:

2.根据权利要求1所述的基于增强型特征提取网络的点云3d目标检测方法,其特征在于,所述2d伪图像特征提取网络还包括:

3.根据权利要求1所述的基于增强型特征提取网络的点云3d目标检测方法,其特征在于,所述一个基于卷积...

【专利技术属性】
技术研发人员:王智灵李军儒
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1