物体姿态估计模型训练方法、系统、装置及介质制造方法及图纸

技术编号:25124357 阅读:44 留言:0更新日期:2020-08-05 02:53
本申请公开了一种物体姿态估计模型的训练方法、系统、装置及介质。该方法通过获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;分别确定分割过程中的第一损失值、映射过程中的第二损失值和姿态估计过程中的第三损失值,基于上述多个损失值对模型的参数进行训练更新。通过使用本申请中的训练方法,能够更好地兼顾姿态估计的全局信息,加快模型训练的速度;还能够使得训练的姿态估计模型具有更强的判别能力,对物体进行姿态估计时,在物体被严重遮挡的情况下也能够得到鲁棒的效果。本申请可广泛应用于人工智能技术领域内。

【技术实现步骤摘要】
物体姿态估计模型训练方法、系统、装置及介质
本申请涉及人工智能
,尤其是一种物体姿态估计模型训练方法、系统、装置及介质。
技术介绍
姿态估计问题就是确定某一三维目标物体的空间方位指向问题。在空间中,物体具有六个自由度,即沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度,要完全确定物体的位置,就需要得到这六个自由度,所以该技术一般也称为六自由度(6D)姿态估计。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。近年来,随着人工智能技术的发展,基于人工神经网络进行姿态估计的方法取得了很大的进展。其中包括对输入图像直接进行6D姿态回归的,但是它主要依赖于模板匹配技术,对杂乱的环境和外观变化比较敏感;还有部分技术融合了输入图像的图像纹理特征和几何特征,进行了像素级的姿态估计,相对前述的方法在面对物体遮挡的情况下效果稍好。但是目前的姿态估计方式,模型中的人工神经网络复杂,训练时间较长,而且在物体遮挡严重的情况下想利用物体可视部分的像素级特征来推断物体整体的姿态比较困难,估计的效果欠佳。目前,现有技术中还缺少一种良好的姿态估计技术方案,以用于解决以上问题。
技术实现思路
本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。为此,本申请实施例的一个目的在于提供一种物体姿态估计模型的训练方法,通过该方法训练的姿态估计模型的估计精度更高,且训练费时更短。本申请实施例的另一个目的在于提供一种物体姿态估计模型的训练系统。为了达到上述技术目的,本申请实施例所采取的技术方案包括:第一方面,本申请实施例提供了一种物体姿态估计模型的训练方法,包括以下步骤:获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;根据所述像素对特征,通过所述姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。另外,根据本申请上述实施例的物体姿态估计模型的训练方法,还可以具有以下附加的技术特征:进一步地,在本申请的一个实施例中,所述分割提取模块包括卷积神经网络;所述通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值步骤,包括:通过所述卷积神经网络对所述RGB图像进行分割,得到物体的掩膜;根据所述掩膜和物体真实掩膜,确定第一损失值。进一步地,在本申请的一个实施例中,所述分割提取模块还包括点云神经网络;所述提取所述掩膜覆盖区域的像素级特征步骤,包括:通过所述卷积神经网络提取所述RGB图像中所述掩膜覆盖区域的像素的颜色特征;通过所述点云神经网络提取所述深度图像中与掩膜覆盖区域对应位置的像素的几何特征;将对应位置的像素的所述颜色特征和所述几何特征进行融合处理,得到所述像素的像素级特征。进一步地,在本申请的一个实施例中,所述稠密对应映射模块包括多层感知机;所述多层感知机用于将所述像素级特征映射到物体坐标系,得到所述像素级特征对应的三维坐标。进一步地,在本申请的一个实施例中,所述基于映射后的像素级特征得到像素对特征步骤,包括:将所述像素级特征分为两个子集,两个所述子集互斥;从两个所述子集中选择像素级特征进行配对,并通过低秩双线性池化得到像素对特征。进一步地,在本申请的一个实施例中,所述姿态估计输出模块包括第一神经网络和级联的多个相同的第二神经网络;所述通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果步骤,包括:根据所述像素对特征,通过第一神经网络对所述物体进行姿态估计,得到初始姿态估计结果;将所述掩膜覆盖区域的像素的颜色特征和所述初始姿态估计结果输入到级联的各个第二神经网络,得到姿态估计的各个改进结果;根据所述初始姿态估计结果和各个所述改进结果,得到所述姿态估计结果。进一步地,在本申请的一个实施例中,所述确定姿态估计过程中的第三损失值步骤,包括:根据所述初始姿态估计结果和物体的真实姿态,确定第四损失值;根据所述改进结果和物体的真实姿态,确定第五损失值;以所述第四损失值和第五损失值之和作为姿态估计过程中的所述第三损失值。第二方面,本申请实施例提出了一种物体姿态估计模型的训练系统,包括:获取模块,用于获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;分割模块,用于根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;映射模块,用于通过稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;估计模块,用于将根据所述像素对特征,通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;训练模块,用于根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。第三方面,本申请实施例提供了一种物体姿态估计模型的训练装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的物体姿态估计模型的训练方法。第四方面,本申请实施例还提供了一种介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现上述的物体姿态估计模型的训练方法。本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:本申请实施例采用端到端的方式,在分割提取模块、稠密对应映射模块和姿态估计输出模块分别提供了监督信号,以使模型在优化的过程中能更好地兼顾全局信息,加快训练的速度;还能够使得训练的姿态估计模型具有更强的判别能力,通过该模型对物体进行姿态估计时,在物体被严重遮挡的情况下也能够得到鲁棒的效果。附图说明为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。图1本文档来自技高网...

【技术保护点】
1.一种物体姿态估计模型的训练方法,其特征在于,包括以下步骤:/n获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;/n根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;/n通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;/n根据所述像素对特征,通过所述姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;/n根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。/n

【技术特征摘要】
1.一种物体姿态估计模型的训练方法,其特征在于,包括以下步骤:
获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;
根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;
通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;
根据所述像素对特征,通过所述姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;
根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。


2.根据权利要求1所述的方法,其特征在于:所述分割提取模块包括卷积神经网络;
所述通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值步骤,包括:
通过所述卷积神经网络对所述RGB图像进行分割,得到物体的掩膜;
根据所述掩膜和物体真实掩膜,确定第一损失值。


3.根据权利要求2所述的方法,其特征在于:所述分割提取模块还包括点云神经网络;
所述提取所述掩膜覆盖区域的像素级特征步骤,包括:
通过所述卷积神经网络提取所述RGB图像中所述掩膜覆盖区域的像素的颜色特征;
通过所述点云神经网络提取所述深度图像中与掩膜覆盖区域对应位置的像素的几何特征;
将对应位置的像素的所述颜色特征和所述几何特征进行融合处理,得到所述像素的像素级特征。


4.根据权利要求1所述的方法,其特征在于:所述稠密对应映射模块包括多层感知机;所述多层感知机用于将所述像素级特征映射到物体坐标系,得到所述像素级特征对应的三维坐标。


5.根据权利要求1所述的方法,其特征在于,所述基于映射后的像素级特征得到像素对特征步骤,包括:
将所述像素级特征分为两个子集,两个所述子集互斥;
从两个所述子集中选择像素级特征进行配对,并通过低秩双线性池化得到像素对特征。


6.根据权利要求1所述的方法,其特征在于,所述姿态估计输...

【专利技术属性】
技术研发人员:许泽林陈轲张键驰贾奎
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1