基于图像与点云信息补全的三维目标识别与定位方法技术

技术编号：40512813 阅读：15 留言：0更新日期：2024-03-01 13:29

本发明专利技术公开了一种基于图像与点云信息补全的三维目标识别与定位方法，涉及目标识别、深度学习和计算机视觉技术领域。输入点云和图像信息，首先对点云进行深度补全预处理；然后将图像信息输入到改进的yolov5s网络中，得到目标框，并且映射目标框内的信息映射到点云视锥区域；最后将视锥点云进行实例分割与目标框预测，得到最终的三维目标检测结果。本发明专利技术可应用于三维目标检测领域，与现有技术相比，本发明专利技术首先提高二维检测框的输出精度，其次优化被扫描的目标物的点云信息，提高数据质量，进而加强整个框架的训练效果、提升整个方法的三维目标的检测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标识别、深度学习和计算机视觉，特别涉及一种基于图像与点云信息补全的三维目标识别与定位方法。

技术介绍

1、近年来，计算机视觉和环境感知技术的交叉结合不断推动着新生活的发展。3d目标检测作为环境感知技术中的研究热点之一，广泛应用于自动驾驶、机器人导航等诸多领域。目前，摄像机、双目相机、深度相机与激光雷达等传感器可为3d目标检测提供图像与深度信息，这为三维目标检测领域奠定了坚实的研究基础。但是要实现在真实三维立体场景中应用，3d目标检测必须满足实时性和精准性。虽然相机成本相对低廉，获取的包含丰富的色彩、纹理等信息，但是易受光照等外界环境影响，获取三维深度信息相对困难，检测精确度难以达到标准。激光雷达获取的点云是三维立体场景的主要数据来源，但由于其数据量庞大、密度不均匀与稀疏性等缺点，导致信息处理时间较长，检测难度增加，检测结果难以满足实际工程需要。因此，本算法结合图像与补全后的点云这两种数据来源，兼容现有2d目标检测算法并更改，使用图像语义信息来辅助检测，在减少在三维立体场景中对点云信息的搜索时间的同时，提高3d目标的检测精度。此外，补全后的点云可以改善点云稀疏性的缺点，以达到更好的3d检测效果。

技术实现思路

1、本专利技术的目的在于提供了一种基于图像与点云信息补全的三维目标识别与定位方法。对于上述点云数据处理任务量庞大等问题，改进现有成熟的2d目标检测模型，在缩短网络模型在三维空间的搜索时间的同时，提高图像检测的准确性。对于上述深度信息获取困难、深度信息缺失的问题，

2、本专利技术所采取的技术方案是，一种基于图像与点云信息补全的三维目标识别与定位方法，具体实施步骤为：

3、步骤s1：图像与点云数据的获取与信息预处理。

4、步骤s2：整理点云的数据，对点云信息的进行深度补全。

5、步骤s3：改进二维目标检测框架(yolov5s)，使用kitti训练数据集进行预训练。训练完毕后，将测试集的图像信息输入到二维目标检测框架，得到目标检测框，并且映射目标框内的信息映射到点云视锥。

6、步骤s4：整理kitti 3d数据集，构建点云实例分割模块与3d边界框预测模块的总损失函数，将两个模块联合训练。

7、步骤s5：将视锥点云输入到训练完毕的点云实例分割模块中，经3d边界框预测，得到三维目标的检测与定位信息。

8、本专利技术的特点在于：

9、步骤s2中整理点云数据，引用ip-basic算法对点云信息进行补全，得到稠密的点云信息。具体按照以下步骤实施：

10、步骤s2.1对点云数据的有效(非空)像素深度值进行深度反演。根据将有效(非空)像素深度倒转，这一操作会使有效和空的像素的值存在20米的缓存差值。使深度图在应用膨胀处理时，算法保护边缘信息，20米缓冲区也是用于抵消有效深度，以便在后续操作中屏蔽无效的像素。

11、步骤s2.2自定义核膨胀：我们从最接近有效像素的空像素开始填充，因为它们最有可能与有效深度共享接近的深度值。

12、步骤s2.3小空洞闭合运算：使用形态学闭运算来对小深度图中的小空洞进行闭合。

13、步骤s2.4空洞填充：在深度图中，虽然已经进行了膨胀和小空洞闭合运算，但是存在一些中等大小的空洞没有被填充。为填充这些空洞，对中等大小的空洞进行填充。

14、步骤s2.5将深度图扩展到图像顶部：考虑到较高处目标，例如：树和建筑物在深度图的上方，为了补齐这些像素，将每列顶端值延伸到图像的顶端。

15、步骤s2.6大空洞填充，最后的填充步骤处理深度图中没有完全填充的大洞。因为这些区域不包含点，也不使用图像数据，所以这些像素的深度值是从附近的值外推的。使用31*31全核扩展操作填充任何剩余的空像素，同时保持有效像素不变。

16、步骤s2.7中值和高斯模糊处理：经先前步骤处理后，可以得到一个稠密的深度图。为了对稠密的深度图进行去噪，分别进行中值模糊去噪和高斯模糊来平滑物体边缘。

17、步骤s2.8深度反演：进行一步深度取反操作，与第一步对应来得到最终真实的深度图，最终输出的稠密的深度图。

18、步骤s3中，改进二维目标检测框架(yolov5s)，使用kitti训练数据集进行预训练。训练完毕后，将测试集的图像信息输入到二维目标检测框架，得到目标检测框，并且映射目标框内的信息映射到点云视锥。具体按照以下步骤实施：

19、步骤s3.1对yolov5s引入高效通道自注意力机制(danet)，增强特征的判别能力。该自注意力机制主要包括两个模块，位置注意力模块(pam)和通道注意力模块(cam)。特征图分别经过位置注意模块和通道注意模块，获得集合了自注意力后的特征图，并进行融合操作，得到最终结果。其中，位置注意力模块将更广泛的上下文信息编码为局部特征，从而增强了它们的表示能力。给定一个局部特征a∈rc×h×w,首先将其送入卷积层，分别生成两个新的特征映射b和c，其中{b，c}∈rc×h×w；然后将他们重新整形为rc×n,其中n＝h×w为像素的数量，最后在c和b的转置之间执行矩阵乘法，并应用softmax层来计算空间注意力图，如下所示：

20、

21、其中sji为第i个位置对第j个位置的影响。同时将特征a送入卷积层，生成新的特征映射d∈rc×h×w，并将其整形为rc×n。然后在d和s的转置之间执行矩阵乘法，将其结果整形为d∈rc×h×w。最后，将此结果乘尺度参数α并对特征a执行逐元素求和运算，以获得最终的输出e∈rc×h×w。如下所示：

22、

23、通道注意力利用通道图之间的相互依赖关系，可以强调相互依赖的特征图，改善特定语义的特征表示。与位置注意力不同的是，我们直接从原始特征a∈rc×h×w计算通道注意力图x∈rc×c,具体的，我们将a整形为rc×n，然后在a以及其转置之间执行矩阵乘法，最后应用softmax层来获得通道注意力图x∈rc×c，如下所示：

24、

25、其中，xji为第i个通道对第j个通道的影响。此外，还对x和a的转置矩阵进行了矩阵乘法运算，并将其结果整形为rc×h×w，然后将输出结果乘以尺度参数β，并与a执行逐元素求和运算，以获得最终输出e∈rc×h×w，如下所示：

26、

27、步骤s3.2：整理kitti数据集，使用kitti的训练集对更改后的yolov5s网络进行训练，训练完毕后，将测试集输入到此网络，得到二维目标检测框，并如下所示，将目标框内的信息映射到三维空间，得到三维视锥点云区域。

28、

29、

30、上述公式中，(x,y,z)为激光雷达坐标系，r、t为激光雷达坐标系转换到相机坐标系的旋转矩阵和平移矩阵(xc,yc,zc)为相机坐标系，fu以及fv是水平方向和垂直方向的有效焦距，u0、v0是像平面的中心本文档来自技高网...

【技术保护点】

1.基于图像与点云信息补全的三维目标识别与定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图像与点云信息补全的三维目标识别与定位方法，其特征在于，所述步骤S1：图像与点云数据的获取与信息预处理，包括：通过单目摄像机采集图像数据，激光雷达采集点云数据，对图像数据进行高频滤波预处理，达到增强图像边缘的作用，对收集到的图像与点云数据分别以时间为划分，成对存储，以保证点云数据与图像数据在时间维度上的一致性。

3.根据权利要求1所述的基于图像与点云信息补全的三维目标识别与定位方法，其特征在于，所述步骤S2对点云信息的进行深度补全，主要包括深度反演、自定义核膨胀、小空洞闭合运算、空洞填充、扩展到图像顶部、中值和高斯模糊处理、再次深度反演的以上八个过程。

4.根据权利要求1所述的基于图像与点云信息补全的三维目标识别与定位方法，其特征在于，所述步骤S3：改进YOLOv5s框架，使用KITTI训练数据集进行预训练；训练完毕后，将测试集的图像信息输入到二维目标检测框架，得到目标检测框，并且映射目标框内的信息映射到点云视锥，包括以下步骤：

【技术特征摘要】

1.基于图像与点云信息补全的三维目标识别与定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图像与点云信息补全的三维目标识别与定位方法，其特征在于，所述步骤s1：图像与点云数据的获取与信息预处理，包括：通过单目摄像机采集图像数据，激光雷达采集点云数据，对图像数据进行高频滤波预处理，达到增强图像边缘的作用，对收集到的图像与点云数据分别以时间为划分，成对存储，以保证点云数据与图像数据在时间维度上的一致性。

3.根据权利要求1所述的基于图像与点云信息补全...

【专利技术属性】
技术研发人员：刘越，刘芳，骆万博，刘军，姜志宇，孟轲音，
申请(专利权)人：长春工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人