基于图像和深度的桌面冰壶三维检测方法技术

技术编号:35831838 阅读:22 留言:0更新日期:2022-12-03 14:01
本发明专利技术涉及一种基于图像和深度的桌面冰壶三维检测方法,包括:利用深度相机采集桌面冰壶的RGB图像和深度数据;对二维的RGB图像使用成熟的二维目标检测方法进行二维的桌面冰壶检测;通过深度相机参数将深度图转换为三维点云数据;将二维目标检测获得的每个点的语义、纹理和几何信息通过针孔相机模型一一映射到三维点云中的每个点上;基于霍夫投票让每个点通过投票得出其所属物体的中心点;然后以预测的中心点为基础,通过固定半径内所有点的特征生成最终的三维包围盒的参数。本发明专利技术的方法采用多模态数据跨层级跨模态互补融合的检测框架,先对二维数据进行检测,二维图像丰富的语义信息与检测结果一起添加到三维点云中进行特征增强,以提高物体中心点投票的准确度,从而获得更为精准的三维检测包围盒。从而获得更为精准的三维检测包围盒。从而获得更为精准的三维检测包围盒。

【技术实现步骤摘要】
基于图像和深度的桌面冰壶三维检测方法


[0001]本专利技术涉及三维点云模型检测领域,具体而言涉及基于图像和深度的桌面冰壶三维检测方法。

技术介绍

[0002]三维点云是一种简单高效的三维场景表示形式,其通过一个个三维坐标点可以对场景进行三维建模,直观地描绘出场景中不同物体地形状,包含丰富地语义信息,因此点云广泛地被用于三维视觉方向的研究。但是由于点云具有不规则性和稀疏性等天然的特性,对其进行有效特征提取变得十分困难。尤其在桌面冰壶检测中,相对于桌面,冰壶的体积十分小,反映在点云上,冰壶往往只有很少数量的点,难以被检测出来。相对的,二维图像虽然缺少了深度位置信息,但是其包含了丰富的纹理和语义信息,并且由于其规则排列的特性,很容易进行特征提取。

技术实现思路

[0003]为了解决上述问题,针对二维图像和三维点云具有不同类型的特征信息,本专利技术从二维图像和三维点云分别进行特征提取,然后用包含丰富语义和纹理信息的图像特征去辅助具有丰富几何信息的点云特征进行检测包围盒的生成。本专利技术提出根据多模态特性互补的检测框架,将二维的特征融合进三维特征中作为辅助进行三维目标检测。
[0004]为实现上述目的,本专利技术采用如下技术方案:基于图像和深度的桌面冰壶三维检测方法,包括以下步骤:
[0005](1)获取桌面冰壶的二维RGB图像和三维点云数据;
[0006](2)用二维目标检测算法和PointNet++分别对图像和点云进行特征提取,获取图像每个像素的几何、语义和纹理信息和点云特征;r/>[0007](3)将二维像素的特征与三维点云的特征拼接在一起,基于霍夫投票预测出检测目标的中心点;
[0008](4)对投票后的点云进行采样和聚集操作,生成一个个点云聚类,然后应用自我注意力机制提取上下文信息;
[0009](5)对处理后的聚类特征进行池化操作,然后生成每个包围盒的参数,接着进行非极大值抑制,过滤掉冗余的部分,得到最终精确的结果。
[0010]进一步地,步骤(1)包括如下子步骤:
[0011](1.1)使用RGBD相机采集桌面冰壶的RGB图像和深度数据;
[0012](1.2)根据RGBD相机的内部参数将采集的二维深度图中每个像素i坐标为(u,v)的深度值d转换为三维空间中的点坐标为(x,y,z)。
[0013]进一步地,步骤(2)包括如下子步骤:
[0014](2.1)对于二维RGB图像,应用成熟的二维目标检测算法来检测图像中的冰壶,并用二维检测框将其包围起来;
[0015](2.2)然后用一个0

1向量来表示每个像素的语义值,在包围框中的像素作为检测出的目标,语义值置为1,包围框外的目标视作背景,语义值置为0;
[0016](2.3)接着为每一个像素分配一个二维的向量来描述每个像素到其所属包围框中心的方位,包围框外的像素置为0,用来表示每个像素的几何信息;
[0017](2.4)每个像素的RGB值则作为该像素的纹理信息;
[0018](2.5)应用PointNet++网络对点云进行特征提取,将原始的点云从三维的坐标通过堆叠的多层感知器MLP提升到更高的一个维度,作为点的初始特征;具体地:将原始的点云特征(N
×
3)通过多层感知器提升到更高的一个维度(N
×
C),作为点的初始特征,原来的每个点只有一个三维的坐标(x,y,z)特征,之后升维到C维度的特征,其中每一维度的特征值由之前的(x,y,z)坐标进行加权求和得出,其中PointNet++就是通过多个多层感知器的堆叠来对场景特征进行非线性的模拟,并且通过最远点采样来减少点的数量以降低计算量,输出最终提取的特征为(K
×
(3+F)),其中K为采样后点的数量,3为每个点的坐标,F为每个点学习到的特征数量。
[0019]进一步地,步骤(3)包括如下子步骤:
[0020](3.1)点云特征和图像特征通过一个自我注意力机制学习一个点层级的上下文信息帮助缓解数据丢失的问题和聚集相似点之间的补充信息;
[0021](3.2)通过一个简单的针孔相机模型,根据RGBD相机的参数,将二维图像上的每一个像素与三维点云中的每一个点都对应起来,以此将二维像素中的几何、语义和纹理信息都添加三维点的特征上来;
[0022](3.3)拼接的特征与点云特征和图像特征并行的执行相同的后续操作共同训练,防止由某一特征主导训练过程而产生的过拟合;
[0023](3.4)经过特征增强后的点云通过霍夫投票算法,每个点投出一票来确定其所属三维物体的中心点,得票数最高者即为预测的中心点。
[0024]进一步地,(3.1)中,自我注意力机制是通过三个转换函数α(.),β(
·
),θ(
·
)将原来的点云特征由(K
×
F)转换为(K
×
F/2),然后通过矩阵间的相乘得到获取上下文信息之后的点云特征:A'=f((α(A)
×
β(A))
×
θ(A)),(α(A)
×
β(A))得到(K
×
K)的注意力权重矩阵,然后再与θ(A)相乘得到(K
×
F/2)的点云特征,最后通过f(
·
)转换函数将特征维度恢复到F,得到最终点云特征(K
×
F)。
[0025]进一步地,(3.4)中,经过特征增强后的点云通过霍夫投票算法,原先的点云特征P(K
×
(3+F))通过多层感知器(MLP)输出相同维度的偏移特征P
o
(K
×
(3+F)),表示每个点到其所属物体中心点的坐标和特征的偏移量,然后将预测的偏移量和原先的特征进行数值的相加得到预测的物体中心点的坐标和特征P
c
=P+P
o
(K
×
(3+F))。
[0026]进一步地,步骤(4)包括如下子步骤:
[0027](4.1)对投票后的点云进行最远点采样,采样出的N个点,以采样出的每个点作为中心,半径为R画一个球,取球中距离中心点最近的前n个点视为一个聚类,得到的这N个聚类(N
×
n
×
(3+F))就是检测物体的雏形;
[0028](4.2)对聚类进行最大池化,使每个聚类中的多个点特征压缩为单一的表示整个聚类的特征;
[0029](4.3)接着对于采样和聚集后每个聚类使用自我注意力机制,使每个聚类可以感
知其他聚类的物体层级的上下文特征;
[0030](4.3)最后将点层级和物体层级的上下文特征进行拼接,得到全局层级的上下文特征,然后再与聚类特征相乘用以感知全局的信息。
[0031]进一步地,步骤(5)包括如下子步骤:
[0032](5.1)对于获取全局上下文信息的聚类特征(N
×
...

【技术保护点】

【技术特征摘要】
1.基于图像和深度的桌面冰壶三维检测方法,其特征在于,包括以下步骤:(1)获取桌面冰壶的二维RGB图像和三维点云数据;(2)用二维目标检测算法和PointNet++分别对图像和点云进行特征提取,获取图像每个像素的几何、语义和纹理信息和点云特征;(3)将二维像素的特征与三维点云的特征拼接在一起,基于霍夫投票预测出检测目标的中心点;(4)对投票后的点云进行采样和聚集操作,生成一个个点云聚类,然后应用自我注意力机制提取上下文信息;(5)对处理后的聚类特征进行池化操作,然后生成每个包围盒的参数,接着进行非极大值抑制,过滤掉冗余的部分,得到最终精确的结果。2.根据权利要求1所述的基于图像和深度的桌面冰壶三维检测方法,其特征在于,步骤(1)包括:(1.1)使用RGBD相机采集桌面冰壶的RGB图像和深度数据;(1.2)根据RGBD相机的内部参数将采集的二维深度图中每个像素i坐标为(u,v)的深度值d转换为三维空间中的点坐标为(x,y,z)。3.根据权利要求1所述的基于图像和深度的桌面冰壶三维检测方法,其特征在于,步骤(2)包括:(2.1)对于二维RGB图像,应用成熟的二维目标检测算法来检测图像中的冰壶,并用二维检测框将其包围起来;(2.2)然后用一个0

1向量来表示每个像素的语义值,在包围框中的像素作为检测出的目标,语义值置为1,包围框外的目标视作背景,语义值置为0;(2.3)接着为每一个像素分配一个二维的向量来描述每个像素到其所属包围框中心的方位,包围框外的像素置为0,用来表示每个像素的几何信息;(2.4)每个像素的RGB值则作为该像素的纹理信息;(2.5)应用PointNet++网络对点云进行特征提取,将原始的点云从三维的坐标通过堆叠的多层感知器MLP提升到更高的一个维度,作为点的初始特征;具体地:将原始的点云特征(N
×
3)通过多层感知器提升到更高的一个维度(N
×
C),作为点的初始特征,原来的每个点只有一个三维的坐标(x,y,z)特征,之后升维到C维度的特征,其中每一维度的特征值由之前的(x,y,z)坐标进行加权求和得出,其中PointNet++就是通过多个多层感知器的堆叠来对场景特征进行非线性的模拟,并且通过最远点采样来减少点的数量以降低计算量,输出最终提取的特征为(K
×
(3+F)),其中K为采样后点的数量,3为每个点的坐标,F为每个点学习到的特征数量。4.根据权利要求1所述的基于图像和深度的桌面冰壶三维检测方法,其特征在于,步骤(3)包括:(3.1)点云特征和图像特征通过一个自我注意力机制学习一个点层级的上下文信息帮助缓解数据丢失的问题和聚集相似点之间的补充信息;(3.2)通过一个简单的针孔相机模型,根据RGBD相机的参数,将二维图像上的每一个像素与三维点云中的每一个点都对应起来,以此将二维像素中的几何、语义和纹理信息都添加三维点的特征上来;
(3.3)拼接的特征与点云特征和图像特征并行的执行相同的后续操作共同训练,防止由某一特征主导训练过程而产生的过拟合;(3.4)经过特征增强后的点云通过霍夫投票算法,每个点投出一票来确定其所属三维物体的中心点,得票数最高者即为预测的中心点。5.根据权利要求4所述的基于图像和深度的桌面冰壶三维检测方法,其特征在于,(3.1)中,自我注意力机制是通过三个转换函数α(
·
),β(
·
),θ(
·
)将原来的点云特征由(K
×
F)转换为(K
×
F/2),然后通过矩阵间的相乘得到获取上下文信息之后的点云特征:A'=f((α(A)
×
β(A))
×
θ(A)),(α(A)
×
β(A))得到(K
×
K)的注意力权重矩阵,然后再与θ(A)相乘得到(K
×
F/2)的点云特征,最后通过f(
·
)转换函数将特征...

【专利技术属性】
技术研发人员:魏明强陈柏安陈松灿陈涛
申请(专利权)人:南京体医融合康复产业研究院有限公司南京聚众体育科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1