一种单目三维工件位姿估计方法技术

技术编号：38917894 阅读：11 留言：0更新日期：2023-09-25 09:30

本发明专利技术公开了一种单目三维工件位姿估计方法，所述方法包括：通过游戏引擎搭建工件位姿估计数据集，模拟实际应用中的各种环境条件，包括不同的背景、光照和视角；应用数据增强技术，包括添加噪声、改变光照条件、应用随机的几何变换，提升数据的多样性和模型的鲁棒性；搭建三维目标位姿估计网络，包括三维重建模块，三维目标检测模块，以及位姿估计模块，完成从单目图像的三维重建，到三维场景中工件的检测，再到检测出的工件的位姿估计；将生成和增强后的图像及深度图数据输入到三维目标位姿估计网络中进行训练。本发明专利技术能够仅利用单目相机实现可靠精准的工件三维位姿识别。机实现可靠精准的工件三维位姿识别。机实现可靠精准的工件三维位姿识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种单目三维工件位姿估计方法

[0001]本专利技术涉及深度学习和三维计算机视觉领域，尤其涉及一种单目三维工件位姿估计方法。

技术介绍

[0002]三维工件位姿估计是指通过对三维点云或二维图像进行处理，以获得工件在三维空间中的位置和姿态的任务。其输入可以是三维点云或二维图像，输出包括工件的位置和姿态信息。该任务通常用于工业自动化领域中的物体检测、跟踪和定位等任务，如机器人操作、自动化装配和品质检测等。三维工件位姿估计的准确性对于保障生产线的稳定性和效率至关重要，因此该任务在工业自动化领域中具有广泛的应用前景。
[0003]单目场景下的三维工件位姿估计具有硬件成本低、适用范围广、算法可扩展性强和便于集成和部署等优点。这使得单目相机系统成为了许多工业自动化和智能交通等领域的首选方案。然而，在单目场景下，三维工件位姿估计存在着困难之处。首先，在单目图像中缺乏深度信息，需要通过其他手段获取深度信息，例如使用结构光或者多视角图像。其次，单目相机只能提供单一视角的图像，需要处理物体在不同视角下的变化。此外，光照和阴影、物体形状和纹理等因素也会影响位姿估计的准确性，需要使用深度学习或者其他算法来处理这些问题。以此如何克服上述难点，实现高精度的可靠的单目场景下的三维工件位姿具有很大的研究价值和产业价值。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此，本专利技术公开了一种单目工件三维位姿估计方法。所述方法相比之前的单件三维位姿估计方法，能够有效应对单目图像中缺乏深度信息、单

【技术保护点】

【技术特征摘要】
1.一种单目工件三维位姿估计方法，其特征在于，所述方法包括：步骤1，通过游戏引擎搭建工件位姿估计数据集，模拟实际应用中的各种环境条件，包括不同的背景、光照和视角；步骤2，应用数据增强技术，包括添加噪声、改变光照条件、应用随机的几何变换，提升数据的多样性和模型的鲁棒性；步骤3，搭建三维目标位姿估计网络，包括三维重建模块，三维目标检测模块，以及位姿估计模块，完成从单目图像的三维重建，到三维场景中工件的检测，再到检测出的工件的位姿估计；步骤4，将生成和增强后的图像及深度图数据输入到三维目标位姿估计网络中进行训练。2.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的通过游戏引擎搭建工件位姿估计数据集，包括以下步骤：步骤101，创建虚拟环境和工件模型；使用Blender创建需要的3D模型，包括工件模型和环境模型，将创建的模型导入Unity环境，在Unity中配置相机并设置位置、旋转、视场、焦距参数，配置光照并设置光源的类型、颜色、强度参数；步骤102，工件位姿生成和标注；在虚拟环境中，控制工件的位姿，并且获取工件的位姿，将位置和旋转转换为一个七元数(x，y，z，w，q
x
，q
y
，q
z
)，其中(x，y，z)是位置，这三个值构成了一个三维矢量，表示从参考点到工件的位移，(w，q
x
，q
y
，q
z
)是四元数表示的旋转，w是实部，(q
x
，q
y
，q
z
)构成了虚部，旋转轴由(q
x
，q
y
，q
z
)确定，旋转角由w确定，将这个七元数保存为位姿标签；步骤103，图像渲染和深度图获取；在Unity中，为每个相机渲染出图像和深度图，并保存在硬盘上。3.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的数据增强技术，单独或组合使用以下步骤：步骤104，添加噪声；设位姿P由一个平移向量t和一个旋转矩阵R组成，即P＝[R|t]，表达式为：达式为：P
′
＝[R
′
|t
′
]其中R
′
和t
′
表示增强后的旋转矩阵和平移向量，P
′
表示增强后的位姿，和是均值为0，方差分别为和的高斯分布；σ
t
和σ
R
是噪声的强度，根据实际需要进行调整，*是矩阵乘法，exp是矩阵指数函数，用于将旋转向量转换为旋转矩阵；步骤105，随机旋转：给定一个角度范围θ，生成一个θ范围内的随机旋转角α，并将其应用到原始的旋转矩阵上，表达式为：α＝U(
‑
θ，θ)R
′
＝R*rot(α)P
′
＝[R
′
|t]其中R
′
表示增强后的旋转矩阵，P
′
表示增强后的位姿，U(
‑
θ，θ)是在[
‑
θ，θ]之间均匀分
布的随机数，rot(α)是旋转矩阵，用于表示角度为α的旋转；步骤106，随机平移；给定一个平移范围d，生成一个d范围内的随机平移向量Δt，并将其应用到原始的平移向量上，表达式为：Δt＝U(
‑
d，d)t
′
＝t+ΔtP
′
＝[R|t
′
]其中U(
‑
d，d)是在[
‑
d，d]之间均匀分布的随机向量，t
′
是增强后的平移向量，P
′
是增强后的位姿；步骤107，改变光照条件；设光源L由一个位置向量l和一个颜色向量c组成，即L＝[l|c]，改变光照条件表达式为：l
′
＝l+U(
‑
δ
l
，δ
l
)c
′
＝c*U(1
‑
δ
c
，1+δ
c
)L
′
＝[l
′
|c
′
]其中U(
‑
δ
l
，δ
l
)是在[
‑
δ
l
，δ
l
]之间均匀分布的随机向量，U(1
‑
δ
c
，1+δ
c
)是在[1
‑
δ
c
，1+δ
c
]范围内的均匀分布，δ
l
和δ
c
是位置和颜色的变化范围，根据实际需要进行调整，l
′
和c
′
是增强后的位置和颜色向量，L
′
是增强后的光源。4.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的三维重建模块，包括以下步骤：步骤108，编码；编码器部分由多个卷积层和最大池化层组成；对于输入的2D图像I，通过卷积层和激活函数进行特征提取，然后通过最大池化层进行下采样，这个过程表示为：Pi＝MaxPool(F
i
)其中，Conv表示卷积操作，MaxPool表示最大池化操作，表示第i个卷积层的参数，F
i
表示第i个卷积层的输出特征图，Pi表示第i个池化层的输出；步骤1()9，解码，解码器部分由多个上采样层和卷积层组成；对于编码器的输出P，首先通过上采样层进行上采样，然后通过卷积层和激活函数进行特征提取；这个过程表示为：U
i
＝UpSample(P
i
)其中，UpSample表示上采样操作，表示第i个卷积层的参数，U
i
表示第i个上采样层的输出，F
′
i
表示第i个卷积层的输出特征图；步骤110，残差连接，在解码器部分，加入残差连接；这些连接将编码器的特征图F
i
直接传递到解码器的对应层，然后将这些特征图与解码器的特征图F
′
i
进行拼接，这个过程表示为：C
i
＝Concat(F
i
，F
′
i
)其中，Concat表示拼接操作，C
i
表示拼接后的特征图；步骤111，输出层，通过一个最后的卷积层将解码器的输出C
n
转化为深度图D：D＝Conv(C
n
；θ
d
)
其中，θ
d
表示最后一个卷积层的参数。5.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的三维目标检测模块，包括以下步骤：步骤112，三维映射；对于深度图中的每个像素点(u，v)，其对应的3D点(X，Y，Z)通过以下公式计算：Z＝D(u，v)X＝(u
‑
c
x
)*Z/fY＝(v
‑
c
y
)*Z/f其中，(u，v)是像素点的坐标；D(u，v)是深度图在(u，v)处的像素值，表示深度；(c
x
，c
y
)是相机的光心，是图像的中心点；f是相机的焦距；(X，Y，Z)是3D点的坐标；步骤113，构建图结构；3D点云中的每个点视为一个节点；每个节点的特征由对应的RGB值和3D坐标组成；这个过程表示为：V
i
＝Node(P
i
)其中，Node表示将3D点转化为节点的操作，P
i
表示3D点云中的第i个点，V
i
表示第i个节点；根据点之间的三维距离来确定边的存在；具体来说，为每个节点定义一个邻域，如果两个节点的距离小于某个阈值，那么就在这两个...

【专利技术属性】
技术研发人员：王振宇，叶中英，陈胜，李金锞，杨奇，陆佳东，谷帅，
申请(专利权)人：无锡埃姆维工业控制设备有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人