物体姿态估计模型训练方法、系统、装置及介质制造方法及图纸

技术编号：25124357 阅读：44 留言：0更新日期：2020-08-05 02:53

本申请公开了一种物体姿态估计模型的训练方法、系统、装置及介质。该方法通过获取含待估计物体的RGB图像和深度图像，输入所述姿态估计模型；分别确定分割过程中的第一损失值、映射过程中的第二损失值和姿态估计过程中的第三损失值，基于上述多个损失值对模型的参数进行训练更新。通过使用本申请中的训练方法，能够更好地兼顾姿态估计的全局信息，加快模型训练的速度；还能够使得训练的姿态估计模型具有更强的判别能力，对物体进行姿态估计时，在物体被严重遮挡的情况下也能够得到鲁棒的效果。本申请可广泛应用于人工智能技术领域内。

全部详细技术资料下载

【技术实现步骤摘要】
物体姿态估计模型训练方法、系统、装置及介质
本申请涉及人工智能
，尤其是一种物体姿态估计模型训练方法、系统、装置及介质。
技术介绍
姿态估计问题就是确定某一三维目标物体的空间方位指向问题。在空间中，物体具有六个自由度，即沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度，要完全确定物体的位置，就需要得到这六个自由度，所以该技术一般也称为六自由度(6D)姿态估计。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。近年来，随着人工智能技术的发展，基于人工神经网络进行姿态估计的方法取得了很大的进展。其中包括对输入图像直接进行6D姿态回归的，但是它主要依赖于模板匹配技术，对杂乱的环境和外观变化比较敏感；还有部分技术融合了输入图像的图像纹理特征和几何特征，进行了像素级的姿态估计，相对前述的方法在面对物体遮挡的情况下效果稍好。但是目前的姿态估计方式，模型中的人工神经网络复杂，训练时间较长，而且在物体遮挡严重的情况下想利用物体可视部分的像素级特征来推断物体整体的姿态比较困难，估计的效果欠佳。目前，现有技术中还缺少一种良好的姿态估计技术方案，以用于解决以上问题。
技术实现思路
本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。为此，本申请实施例的一个目的在于提供一种物体姿态估计模型的训练方法，通过该方法训练的姿态估计模型的估计精度更高，且训练费时更短。本申请实施例的另一个目的在于提供一种物体姿态估计模型的训练系统。为了达到上述技...

【技术保护点】
1.一种物体姿态估计模型的训练方法，其特征在于，包括以下步骤：/n获取含待估计物体的RGB图像和深度图像，输入所述姿态估计模型；所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块；/n根据所述RGB图像和所述深度图像，通过所述分割提取模块分割得到物体的掩膜，确定分割过程中的第一损失值，并提取所述掩膜覆盖区域的像素级特征；/n通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系，确定映射过程中的第二损失值，并基于映射后的像素级特征得到像素对特征；/n根据所述像素对特征，通过所述姿态估计输出模块对所述物体进行姿态估计，得到姿态估计结果，确定姿态估计过程中的第三损失值；/n根据所述第一损失值、第二损失值和第三损失值，对所述姿态估计模型的参数进行训练更新。/n

【技术特征摘要】
1.一种物体姿态估计模型的训练方法，其特征在于，包括以下步骤：
获取含待估计物体的RGB图像和深度图像，输入所述姿态估计模型；所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块；
根据所述RGB图像和所述深度图像，通过所述分割提取模块分割得到物体的掩膜，确定分割过程中的第一损失值，并提取所述掩膜覆盖区域的像素级特征；
通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系，确定映射过程中的第二损失值，并基于映射后的像素级特征得到像素对特征；
根据所述像素对特征，通过所述姿态估计输出模块对所述物体进行姿态估计，得到姿态估计结果，确定姿态估计过程中的第三损失值；
根据所述第一损失值、第二损失值和第三损失值，对所述姿态估计模型的参数进行训练更新。

2.根据权利要求1所述的方法，其特征在于：所述分割提取模块包括卷积神经网络；
所述通过所述分割提取模块分割得到物体的掩膜，确定分割过程中的第一损失值步骤，包括：
通过所述卷积神经网络对所述RGB图像进行分割，得到物体的掩膜；
根据所述掩膜和物体真实掩膜，确定第一损失值。

3.根据权利要求2所述的方法，其特征在于：所述分割提取模块还包括点云神经网络；
所述提取所述掩膜覆盖区域的像素级特征步骤，包括：
通过所述卷积神经网络提取所述RGB图像中所述掩膜覆盖区域的像素的颜色特征；
通过所述点云神经网络提取所述深度图像中与掩膜覆盖区域对应位置的像素的几何特征；
将对应位置的像素的所述颜色特征和所述几何特征进行融合处理，得到所述像素的像素级特征。

4.根据权利要求1所述的方法，其特征在于：所述稠密对应映射模块包括多层感知机；所述多层感知机用于将所述像素级特征映射到物体坐标系，得到所述像素级特征对应的三维坐标。

5.根据权利要求1所述的方法，其特征在于，所述基于映射后的像素级特征得到像素对特征步骤，包括：
将所述像素级特征分为两个子集，两个所述子集互斥；
从两个所述子集中选择像素级特征进行配对，并通过低秩双线性池化得到像素对特征。

6.根据权利要求1所述的方法，其特征在于，所述姿态估计输...

【专利技术属性】
技术研发人员：许泽林，陈轲，张键驰，贾奎，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人