本发明专利技术公开了一种点云与图像自注意力机制融合的3D目标检测方法。首先,提出一种基于三维点云的多层三维特征提取方法。然后,提出一种基于图像几何和语义特征投票机制的二维特征提取方法。其次,提出一种几何原则的方法,将二维特征转换到点云的3D检测管道中,并传递到点云结构。最后,提出一种多塔训练方案,优化二维和三维特征梯度融合协同性,并根据融合结果进一步精细化调整。本发明专利技术利用相机参数将二维特征提升到三维通道,并用多塔训练方法采用自注意力机制实现二维、三维特征有机梯度融合,克服了固有的基于三维点云稀疏数据检测方法,充分利用图像高分辨率和丰富纹理信息对三维目标检测进行补充优化,来实现精确的三维目标检测。本发明专利技术所提出方法的3D目标检测结果具有较高的精确度,优于现有的大多数3D目标检测方法,具有良好的准确性和鲁棒性。
A 3D object detection method based on fusion of point cloud and image self attention mechanism
【技术实现步骤摘要】
一种基于点云与图像自注意力机制融合的3D目标检测方法
本专利技术涉及计算机技术及图像处理领域,尤其设计一种基于点云与图像自注意力机制融合的3D目标检测方法。
技术介绍
由于在点云的深度学习方面的进步,三维物体检测已经取得了快速得进展,一些研究甚至展示了仅使用点云输入的最新性能,然而,点云数据有其固有的局限性,它们是稀疏的,缺乏颜色信息,经常受到传感器噪声的影响。另一方面,图像具有高分变率和丰富的纹理,因此,他们可以补充点云提供的三维几何图形。RGB图像在3D对象检测中具有价值。事实上,图像和点云提供了互补的信息,RGB图像的分辨率高于深度图像或激光雷达点云,并且包含在点域中不可用的丰富纹理,此外,图像可以覆盖有源深度传感器的“盲区”,这些区域通常是由于反射面而出现的,另一方面,由于缺乏三维点云所能提供的目标深度和尺度的绝对尺度,图像在三维检测任务中受到限制,这些观察,增强了我们的直觉,即图像可以帮助基于点云的三维检测。然而,如何在3D检测流水中有效地利用2D图像仍然是一个有待解决的问题。因此,专利技术一种基于点云与图像自注意力机制融合的3D目标检测方法,它有效的解决了3D检测流水中不能利用2D图像的问题,它的3D目标检测结果具有较高的精确度,优于现有的大多数3D目标检测方法,具有良好的准确性和鲁棒性。
技术实现思路
本专利技术针对上述问题克服现有的缺陷,提供一种基于点云与图像自注意力机制融合的3D目标检测方法。为了实现上述目的,本专利技术提供了如下的技术方案:本专利技术公开了一种点云与图像自注意力机制融合的3D目标检测方法,包括输入RGB-D场景信息、三维点云的多层三维特征提取模块、图像几何和语义特征投票机制的二维特征提取模块、多塔训练模块、获得最优化三维目标。首先,提出一种基于三维点云的多层三维特征提取方法。然后,提出一种基于图像几何和语义特征投票机制的二维特征提取方法。其次,提出一种几何原则的方法,将二维特征转换到点云的3D检测管道中,并传递到点云结构。最后,提出一种多塔训练方案,优化二维和三维特征梯度融合协同性,并根据融合结果进一步精细化调整。本专利技术利用相机参数将二维特征提升到三维通道,并用多塔训练方法采用自注意力机制实现二维、三维特征有机梯度融合,克服了固有的基于三维点云稀疏数据检测方法,充分利用图像高分辨率和丰富纹理信息对三维目标检测进行补充优化,来实现精确的三维目标检测。本专利技术所提出方法的3D目标检测结果具有较高的精确度,优于现有的大多数3D目标检测方法,具有良好的准确性和鲁棒性。优选的,所述三维点云的多层三维特征提取模块包括三维点云处理、建立三维点云特征模型、构建高维特征场景采样集、对多个种子特征进行MLP投票、形成特征聚集点云、点云网络进行点云分类、三维点云特征塔层。优选的,所述图像几何和语义特征投票机制的二维特征提取模块包括二位RGB图像处理、YOLO_5网络生成M个目标候选框、候选框中每个像素对所在框中心形成一个投票(包括一个像素对应多个框的情况)框外像素背填充为0、框中像素对应种子点、二维几何线索、二维语义线索、二维纹理线索、通过相机参数和坐标转换关系映射到三维点云结构中、二维图像特征塔层。优选的,所述多塔训练模块包括具有级联图像和点云特征的种子点生成对三维对象的投票、联合特征塔层、加权损失函数。优选的,方法包括以下步骤:S1:建立三维特征模型,通过三维空间中点的欧几里得坐标向量表达三维对象特征信息;S2:建立三维多层特征权重机制,由MLP网络对提取的三维特征进行权重计算,在此基础上,通过点云网络进行处理,进行目标分类;S3:研究基于二维特征提取机制,提出二维多层特征权重机制;S4:通过二维检测器生成初步检测框,建立二维特征向量、几何、语义和纹理模型;S5:分析二维特征,计算二维特征权重;S6:通过坐标转换原则,将二维特征转换至三维特征通道;S7:提出二维图像特征与三维点云特征融合机制,进行特征融合与多塔训练,优化三维目标检测。优选的,所述多塔训练模块使用多塔体系结构来平衡来自两种模式的特性,而不是简单地对连接的特性进行培训。附图说明在附图中:图1为本专利技术提供的一种基于点云与图像自注意力机制融合的3D目标检测方法结构系统图;图2为本专利技术提供的一种基于点云与图像自注意力机制融合的3D目标检测方法三维点云的多层三维特征提取模块结构系统图;图3为本专利技术提供的一种基于点云与图像自注意力机制融合的3D目标检测方法图像几何和语义特征投票机制的二维特征提取模块结构系统图;图4为本专利技术提供的一种基于点云与图像自注意力机制融合的3D目标检测方法多塔训练模块结构系统图;图中标号:1、输入RGB-D场景信息;201、三维点云处理;202、建立三维点云特征模型;203、构建高维特征场景采样集;204、对多个种子特征进行MLP投票;205、形成特征聚集点云;206、点云网络进行点云分类;207、三维点云特征塔层;301、二位RGB图像处理;302、YOLO_5网络生成M个目标候选框;303、候选框中每个像素对所在框中心形成一个投票(包括一个像素对应多个框的情况)框外像素背填充为0;304、框中像素对应种子点;305、二维几何线索;306、二维语义线索;307、二维纹理线索;308、通过相机参数和坐标转换关系映射到三维点云结构中;309、二维图像特征塔层;401、具有级联图像和点云特征的种子点生成对三维对象的投票;402、联合特征塔层;403、加权损失函数;5、获得最优三维目标;具体实施方式以下结合附图对专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例:请参阅图1,本专利技术一种基于点云与图像自注意力机制融合的3D目标检测方法,包括输入RGB-D场景信息(1)、三维点云的多层三维特征提取模块(2)、三维点云处理(201)、建立三维点云特征模型(202)、构建高维特征场景采样集(203)、对多个种子特征进行MLP投票(204)、形成特征聚集点云(205)、点云网络进行点云分类(206)、三维点云特征塔层(207)、图像几何和语义特征投票机制的二维特征提取模块(3)、二位RGB图像处理(301)、YOLO_5网络生成M个目标候选框(302)、候选框中每个像素对所在框中心形成一个投票(包括一个像素对应多个框的情况)框外像素背填充为0(303)、框中像素对应种子点(304)、二维几何线索(305)、二维语义线索(306)、二维纹理线索(307)、通过相机参数和坐标转换关系映射到三维点云结构中(308)、二维图像特征塔层(309)、多塔训练模块(4)、具有级联图像和点云特征的种子点生成对三维对象的投票(401)、联合特征塔层(402)、加权损失函数(403)、获得最优化三维目标(5)。最后应说明的是:以上所述仅为本专利技术的优选实施例而已,并不用于限制本专利技术,尽管参照前述实施例对本专利技术本文档来自技高网...
【技术保护点】
1.一种基于点云与图像自注意力机制融合的3D目标检测方法,包括输入RGB-D场景信息、三维点云的多层三维特征提取模块、图像几何和语义特征投票机制的二维特征提取模块、多塔训练模块、获得最优化三维目标。/n
【技术特征摘要】
1.一种基于点云与图像自注意力机制融合的3D目标检测方法,包括输入RGB-D场景信息、三维点云的多层三维特征提取模块、图像几何和语义特征投票机制的二维特征提取模块、多塔训练模块、获得最优化三维目标。
2.根据权利要求1所述的一种基于点云与图像自注意力机制融合的3D目标检测方法,其特征在于:所述三维点云的多层三维特征提取模块包括三维点云处理、建立三维点云特征模型、构建高维特征场景采样集、对多个种子特征进行MLP投票、形成特征聚集点云、点云网络进行点云分类、三维点云特征塔层。
3.根据权利要求1所述的一种基于点云与图像自注意力机制融合的3D目标检测方法,其特征在于:所述图像几何和语义特征投票机制的二维特征提取模块包括二位RGB图像处理、YOLO_5网络生成M个目标候选框、候选框中每个像素对所在框中心形成一个投票(包括一个像素对应多个框的情况)框外像素背填充为0、框中像素对应种子点、二维几何线索、二维语义线索、二维纹理线索、通过相机参数和坐标转换关系映射到三维点云结构中、二维图像特征塔层。
4.根据权利要求1所述的一种基于点云与图像自注意力机制融合的3D目标检...
【专利技术属性】
技术研发人员:万琴,肖岳平,李志雄,
申请(专利权)人:湖南工程学院,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。