面向开放场景的三维行人检测方法、系统、设备及介质技术方案

技术编号：39982083 阅读：7 留言：0更新日期：2024-01-09 01:36

本发明专利技术公开一种面向开放场景的三维行人检测方法、系统、设备及介质，涉及行人检测技术领域，包括：将点云数据编码为支柱特征，引入外部注意力机制和基于挤压和激励的注意力机制对点通道、特征通道和支柱通道进行监督，抑制编码过程中的噪声，得到编码支柱特征；通过空间注意力机制增强行人尺度感知能力，利用自上而下和自下而上的双向传播路径进行尺度融合，由此进行三维目标行人的检测，增强支柱特征的尺度感知能力，缓解行人检测中的尺度混淆问题，同时提高检测速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及行人检测，特别是涉及面向开放场景的三维行人检测方法、系统、设备及介质。

技术介绍

1、目前基于深度学习的实时三维目标行人检测的方法主要采用基于网格的点云表示，大致分为基于三维体素和基于支柱的方法。

2、基于体素的方法通常将输入的点云分割成规则的三维体素网格，然后使用基于三维卷积编码器学习多层次的几何表示。有研究将点云编码为体素，并使用三维卷积提取体素特征，但三维卷积需要大量计算，速度较慢。因此，有研究引入三维稀疏卷积，能有效学习体素特征，加快体素特征的提取速度并提高检测精度。到目前为止，基于三维体素的方法在大多数三维检测基准数据集中占主导地位。然而，即使使用三维稀疏卷积，也难以同时实现高检测精度和快速检测速度。

3、基于支柱的方法将三维点云投影到二维伪图像平面上，然后在特征金字塔网络上融合多尺度特征，增强网络检测不同尺度目标的能力。有研究使用单个全连接层用于支柱的特征编码，将三维支柱特征转换为二维伪图像，使二维卷积技术可以应用于三维目标检测，改善了体素方法的检测效率。有研究在保持支柱检测效率的同时，隐式地利用基于体素的特征学习机制来获得更好的性能。还有研究首先在图像中搜索可能包含目标的二维框，并将这些框投影到视锥空间，并生成支柱特征，用全连接层进行编码。但是，仅仅使用简单的全连接层编码是不够的，上述方法忽略了对支柱特征编码的重要性，这将直接影响二维伪图像生成的质量。

4、目前，基于支柱的方法已经广泛用于自动驾驶的车辆检测，但是，在检测行人方面的有效性受到限制。这是因为：其一，由于

技术实现思路

1、为了解决上述问题，本专利技术提出了一种面向开放场景的三维行人检测方法、系统、设备及介质，将待检测目标行人的点云数据编码为支柱特征后，通过多注意力模块监督支柱特征的编码过程，抑制支柱特征编码过程中的噪声，通过具有尺度感知能力的注意力双向特征金字塔模块，增强支柱特征的尺度感知能力，解决行人检测中的尺度混淆问题，提高检测效率。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、第一方面，本专利技术提供一种面向开放场景的三维行人检测方法，包括：

4、获取待检测目标行人的点云数据，将点云数据编码为支柱特征，所述支柱特征的维度包括点通道、特征通道和支柱通道；

5、引入外部注意力机制对点通道和特征通道分别计算注意力权重，根据点通道的注意力权重图和特征通道的注意力权重图得到第一权重图，将第一权重图与支柱通道上的中心点串联后，压缩点通道和特征通道得到第二权重图，根据第一权重图对第二权重图加权并与支柱特征连接后得到编码支柱特征；

6、将编码支柱特征经投影得到伪图像，对伪图像提取多尺度特征，对每个尺度的特征均生成空间注意力权重图，并与对应尺度下的特征执行元素乘法和元素求和后得到具有尺度感知的伪图像特征；

7、对多尺度下的伪图像特征，利用自上而下和自下而上的双向传播路径进行尺度融合，由此根据融合后的特征图进行三维目标行人的检测。

8、作为可选择的实施方式，得到第一权重图的过程包括：对点通道和特征通道分别进行最大池化操作，引入两个不同的记忆单元和作为键和值；将最大池化操作后的点通道和特征通道分别与执行元素乘法操作后再与执行元素乘法操作，由此得到点通道的注意力权重图和特征通道的注意力权重图，点通道的注意力权重图和特征通道的注意力权重图乘法得到第一权重图。

9、作为可选择的实施方式，生成空间注意力权重图的过程包括：每个尺度的特征进行平均池化和最大池化操作，将平均池化和最大池化的结果连接后使用卷积核进行激励操作，由此生成空间注意力权重图。

10、作为可选择的实施方式，将每个尺度的空间注意力权重图与对应尺度下的特征执行元素乘法后与对应尺度下的特征进行元素求和得到具有尺度感知的伪图像特征。

11、作为可选择的实施方式，利用自上而下和自下而上的双向传播路径进行尺度融合的过程包括自上而下的聚合路径网络和自下而上的聚合路径网络；

12、具体地，得到的多尺度下的伪图像特征为，i表示第i个尺度，，根据第二层伪图像特征和第三层伪图像特征得到用于自上而下传播的聚合路径网络，为第三层伪图像特征和第二层伪图像特征分配权重并融合；根据第一层伪图像特征和得到自下而上的聚合路径网络中的第一层传播层，为和分配权重并融合；继而在第一层传播层的基础上根据第二层伪图像特征和得到第二层传播层，为、和分配权重并融合；最后在第二层传播层的基础上，根据第三层伪图像特征得到第三层传播层，为和分配权重并融合。

13、作为可选择的实施方式，自上而下的聚合路径网络为：

14、；其中，resize是上采样或下采样操作；conv是卷积操作；是常数；、分别表示融合路径中相对浅层的特征和相对深层的特征。

15、作为可选择的实施方式，自下而上的聚合路径网络为：

16、；

17、；

18、；

19、其中，是自下而上的聚合路径网络，；resize是上采样或下采样操作；conv是卷积操作；是常数；、、、、分别表示融合路径中相对浅层特征的权重；、、、分别表示融合路径中相对深层特征的权重。

20、第二方面，本专利技术提供一种面向开放场景的三维行人检测系统，包括：

21、点云处理模块，被配置为获取待检测目标行人的点云数据，将点云数据编码为支柱特征，所述支柱特征的维度包括点通道、特征通道和支柱通道；

22、多注意力处理模块，被配置为引入外部注意力机制对点通道和特征通道分别计算注意力权重，根据点通道的注意力权重图和特征通道的注意力权重图得到第一权重图，将第一权重图与支柱通道上的中心点串联后，压缩点通道和特征通道得到第二权重图，根据第一权重图对第二权重图加权并与支柱特征连接后得到编码支柱特征；

23、尺度感知模块，被配置为将编码支柱特征经投影得到伪图像，对伪图像提取多尺度特征，对每个尺度的特征均生成空间注意力权重图，并与对应尺度下的特征执行元素乘法和元素求和后得到具有尺度感知的伪图像特征；

24、尺度融合模块，被配置为对多尺度下的伪图像特征，利用自上而下和自下而上的双向传播路径进行尺度融合，由此根据融合后的特征图进行三维目标行人的检测。

25、第三方面，本专利技术提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

26、第四方面，本专利技术提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。...

【技术保护点】

1.面向开放场景的三维行人检测方法，其特征在于，包括：

2.如权利要求1所述的面向开放场景的三维行人检测方法，其特征在于，得到第一权重图的过程包括：对点通道和特征通道分别进行最大池化操作，引入两个不同的记忆单元和作为键和值；将最大池化操作后的点通道和特征通道分别与执行元素乘法操作后再与执行元素乘法操作，由此得到点通道的注意力权重图和特征通道的注意力权重图，点通道的注意力权重图和特征通道的注意力权重图乘法得到第一权重图。

3.如权利要求1所述的面向开放场景的三维行人检测方法，其特征在于，生成空间注意力权重图的过程包括：每个尺度的特征进行平均池化和最大池化操作，将平均池化和最大池化的结果连接后使用卷积核进行激励操作，由此生成空间注意力权重图。

4.如权利要求1所述的面向开放场景的三维行人检测方法，其特征在于，将每个尺度的空间注意力权重图与对应尺度下的特征执行元素乘法后与对应尺度下的特征进行元素求和得到具有尺度感知的伪图像特征。

5.如权利要求1所述的面向开放场景的三维行人检测方法，其特征在于，利用自上而下和自下而上的双向传播路径进行尺度

6.如权利要求5所述的面向开放场景的三维行人检测方法，其特征在于，自上而下的聚合路径网络为：；

7.如权利要求5所述的面向开放场景的三维行人检测方法，其特征在于，自下而上的聚合路径网络为：

8.面向开放场景的三维行人检测系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.面向开放场景的三维行人检测方法，其特征在于，包括：

4.如权利要求1所述的面向开放场景的三维行人检测方法，其特征在于，将每个尺度的空间注意力权重图与对应尺度下的特征执行元素乘法后与对应尺度下的特征...

【专利技术属性】
技术研发人员：阎维青，刘世乐，任金来，李湘南，徐金东，
申请(专利权)人：烟台大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人