一种基于多模态数据的零部件检测与定位方法及装置制造方法及图纸

技术编号：40580784 阅读：41 留言：0更新日期：2024-03-06 17:23

本发明专利技术提供一种基于多模态数据的零部件检测与定位方法及装置，该方法在基于增强现实的制造符合性检查系统中使用融合RGB图像与深度图像的多模态神经网络算法，分别对RGB图像与深度图像进行特征提取并融合，最后利用二维检测结果与深度信息对零部件进行三维空间定位。本方法提高了零部件检测算法在光照不足等复杂环境下的鲁棒性，并提高了模型的准确率、召回率与平均精度均值。同时，本方法可以基于检测后输出的零部件2D边框中心点与对齐后的深度图像，对零部件进行三维空间定位。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标识别领域，具体涉及一种基于多模态数据的零部件检测与定位方法及装置。

技术介绍

1、目标检测是计算机视觉领域的一个重要任务，旨在识别和定位图像或视频中感兴趣的目标物体。目前，常见的目标检测算法主要使用与检测任务相关的单模态图像作为训练数据。这些方法在通常情况下都能取得不错的效果，尤其是在光照条件良好、目标清晰可见的环境下。然而，仅使用单一模态的数据在复杂环境下的检测效果仍存在限制，比如在光照不足、雾霾、或者存在其他视觉干扰因素较强的情况下，这些模型的性能往往会大打折扣。例如，rgb图像对光照的变化较为敏感，其在光照条件良好时可以提供丰富的颜色和纹理等视觉信息，但在夜间或光照不足的情况下则容易出现细节丢失，导致目标物体的边缘与特征不明确，进而难以提供充足的信息来进行目标检测任务。综上所述，传统的基于单一模态数据的目标检测算法虽然在某些场景下可以取得较好的检测效果，但却无法完全满足复杂环境下的检测性能需求。

技术实现思路

1、本专利技术的目的在于提供一种基于多模态数据的零部件检...

【技术保护点】

1.一种基于多模态数据的零部件检测与定位方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于多模态数据的零部件检测与定位方法，其特征在于，所述RGB图像与深度图像通过相机采集。

3.根据权利要求1所述的基于多模态数据的零部件检测与定位方法，其特征在于，所述YOLOv5网络输入的深度图像与RGB图像采用高度与宽度均为640的像素。

4.根据权利要求1所述的基于多模态数据的零部件检测与定位方法，其特征在于，所述YOLOv5网络包括2个并行的特征提取层，分别对深度图像与RGB图像进行特征提取。

5.根据权利要求4所述的基于多模态数据的零部件...

【技术特征摘要】

1.一种基于多模态数据的零部件检测与定位方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于多模态数据的零部件检测与定位方法，其特征在于，所述rgb图像与深度图像通过相机采集。

3.根据权利要求1所述的基于多模态数据的零部件检测与定位方法，其特征在于，所述yolov5网络输入的深度图像与rgb图像采用高度与宽度均为640的像素。

4.根据权利要求1所述的基于多模态数据的零部件检测与定位方法，其特征在于，所述yolov5网络包括2个并行的特征提取层，分别对深度图像与rgb图像进行特征提取。

5.根据权利要求4所述的基于多模态数据的零部件检测与定位方法，其特征在于，所述yolov5网络的特征提取层后面增加特征融合层，将rgb图像的特征图与深度图像的特征图进行拼接融合，并使用1×1卷积操作将拼接后的特征图通道数量减半。

6.根据权利要求5所述的基于多模态数据的零部件检测与定位方法，其特征在于，所述拼接融合后的特征图为：

<...

【专利技术属性】
技术研发人员：李蔚清，王浩宇，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人