获取用于生成形封闭抓取位姿的控制策略的方法、计算设备和介质技术

技术编号:39286518 阅读:5 留言:0更新日期:2023-11-07 10:57
本申请实施例提供了一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法,该方法包括:基于抓取主体与时间步对应的当前位姿和抓取对象构建第一观测向量,第一观测向量表征抓取主体上的点到抓取对象的距离和方向;基于抓取对象与时间步对应的物体代理构建第二观测向量,第二观测向量表征物体代理与抓取主体之间的接触情况,物体代理包括抓取对象的符号距离函数等值面;利用策略网络基于抓取主体的当前位姿、第一观测向量和第二观测向量络输出抓取主体与下一时间步对应的更新位姿,以对策略网络进行训练;以及响应于抓取主体的更新位姿满足对抓取对象的形封闭条件而停止对策略网络的训练,并将经训练的策略网络确定为控制策略。策略网络确定为控制策略。策略网络确定为控制策略。

【技术实现步骤摘要】
获取用于生成形封闭抓取位姿的控制策略的方法、计算设备和介质


[0001]本申请涉及人工智能
,尤其涉及一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法、计算设备和存储介质。

技术介绍

[0002]抓取生成是计算机图形学、机器人和人机交互的一个重要的研究问题。动画和游戏中的虚拟人物或角色在与周围世界进行交互时经常需要对不同的物体进行抓取,例如,在一些场景中,虚拟人物或角色需要抓取鱼竿、酒杯等物体,这样的抓取动画往往需要大量的人力和物力来手工制作。另一方面,抓取是机器人完成许多任务的基础操作,例如搬运物体或使用工具,而越复杂的任务和对于抓取的要求通常也越高。因此,为给定物体和抓取主体(例如,手部模型或机器人手)生成抓取轨迹和抓取位姿已成为一个重要的研究问题。
[0003]一般而言,抓取生成方法可以被分为三个大类:第一类方法是基于分析的方法,其是通过预先定义的抓取质量指标来辅助抓取的生成和质量的评估,最常见的两种抓取指标是力封闭和形封闭。由于抓取问题本身的复杂性,已有的基于分析的方法普遍存在对于抓取问题过度简化的问题,这使得这类算法不能应用于复杂的手部模型和物体。基于力封闭的方法依赖于具体的摩擦系数,但是摩擦系数在实际运行时很难获取。而基于形封闭的方法目前都无法应用于复杂的物体和手部模型上。第二类方法是基于物理仿真的方法,这类方法会通过诸如摇晃物体、抬高物体的物理仿真测试来评估和生成抓取位姿。这类方法依旧依赖于具体的摩擦系数,并且需要较长的计算时间。第三类方法利用基于深度学习的方式进行抓取生成,一方面,这些方法生成的抓取的质量容易受限于合成数据集本身的性能;另一方面,高质量的动作捕捉数据集需要花费大量的人力和资源,并且不适合机械手的抓取生成。

技术实现思路

[0004]本申请提供了一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法,该方法包括:基于所述抓取主体与时间步对应的当前位姿和所述抓取对象构建第一观测向量,所述第一观测向量表征所述抓取主体上的点到所述抓取对象的距离和方向;基于所述抓取对象与时间步对应的物体代理构建第二观测向量,所述第二观测向量表征所述物体代理与所述抓取主体之间的接触情况,所述物体代理包括所述抓取对象的符号距离函数等值面;利用策略网络基于所述抓取主体的当前位姿、所述第一观测向量和所述第二观测向量络输出所述抓取主体与下一时间步对应的更新位姿,以对所述策略网络进行训练;以及响应于所述抓取主体的所述更新位姿满足对所述抓取对象的形封闭条件而停止对所述策略网络的训练,并将经训练的策略网络确定为所述控制策略。
[0005]本申请的另一实施例提供了一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的装置,该装置包括:第一观测向量构建模块,其被配置成基于所述抓取
主体与时间步对应的当前位姿和所述抓取对象构建第一观测向量,所述第一观测向量表征所述抓取主体上的点到所述抓取对象的距离和方向;第二观测向量构建模块,其被配置成基于所述抓取对象与时间步对应的物体代理构建第二观测向量,所述第二观测向量表征所述物体代理与所述抓取主体之间的接触情况,所述物体代理包括所述抓取对象的符号距离函数等值面;策略网络模块,其被配置成基于所述抓取主体的当前位姿、所述第一观测向量和所述第二观测向量络输出所述抓取主体与下一时间步对应的更新位姿,以使策略网络经受训练;以及训练控制模块,其被配置成响应于所述抓取主体的所述更新位姿满足对所述抓取对象的形封闭条件而停止对所述策略网络的训练,并将经训练的策略网络确定为所述控制策略。
[0006]本申请的另一实施例还提供了一种计算设备,包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如前述方法实施例中任一实施例所述的方法。
[0007]本申请的又一实施例还提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如前述方法实施例中任一实施例所述的方法。
[0008]本申请的又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例中任一实施例所述的方法。
[0009]对于本申请实施例提供的方法,通过构建第一观测向量和第二观测向量,实际上分别以抓取主体和抓取对象为中心构建了关于抓取对象的完整的几何信息以及抓取主体和抓取对象之间的交互的数据观测,这些数据观测有助于抓取主体更好地接近抓取对象并已环绕抓取对象的姿势抓握抓取对象,促进抓取主体对抓取对象的形封闭抓取位姿的形成。同时,本申请实施例提供的方法不需要抓取主体的动作捕捉数据以及抓取对象的摩擦系数,且可以被应用于具有高自由度的抓取主体。
[0010]根据下文描述的实施例,本申请的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本申请的这些和其它优点。
附图说明
[0011]现在将更详细并且参考附图来描述本申请的实施例,其中:
[0012]图1图示了根据本申请的一个实施例提供的获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法中的步骤;
[0013]图2图示了根据本申请的一个实施例提供的基于抓取主体与时间步对应的当前位姿和所述抓取对象构建第一观测向量所包括的步骤;
[0014]图3图示了根据本申请一个实施例的以手部模型为中心的数据表达(第一观测向量)的样例;
[0015]图4图示了根据本申请一个实施例的基于所述抓取对象与时间步对应的物体代理构建第二观测向量可包括的步骤;
[0016]图5图示了根据本申请一个实施例的以抓取对象为中心的数据观测(第二观测向量)的二维展示;
[0017]图6以抓取主体为人类的手部模型为例示意性地示出了对策略网络的训练过程;
[0018]图7示出了根据本申请的另一实施例提供的获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法所包括的一些步骤;
[0019]图8和图9分别示出了根据本申请的一个实施例提供的策略网络和奖励值预测网络的结构的示例;
[0020]图10示意性地示出了根据本申请的另一实施例提供的策略网络基于奖励值预测网络输出的预测奖励值生成更新位姿;
[0021]图11示意性地图示了根据本申请提供的获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的装置;
[0022]图12图示了一个示例系统,其包括代表可以实现本文描述的各种方法或装置的一个或多个系统和/或设备的示例计算设备。
具体实施方式
[0023]下面的描述提供了本申请的各种实施例的特定细节,以便本领域的技术人员能够充分理解和实施本申请的各种实施例。应当理解,本申请的技术方案可以在没有这些细节中的一些细节的情况下被实施。在某些情况下,本申请并没有示出或详细描述一些熟知的结构或功能,以避免这些不必要的描述使对本申请的实施例的描述模糊不清。在本申请中使用的术语应当以其最宽泛的合理方式来理解,即使其是结合本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法,其特征在于,所述方法包括:基于所述抓取主体与时间步对应的当前位姿和所述抓取对象构建第一观测向量,所述第一观测向量表征所述抓取主体上的点到所述抓取对象的距离和方向;基于所述抓取对象与时间步对应的物体代理构建第二观测向量,所述第二观测向量表征所述物体代理与所述抓取主体之间的接触情况,所述物体代理包括所述抓取对象的符号距离函数等值面;利用策略网络基于所述抓取主体的当前位姿、所述第一观测向量和所述第二观测向量络输出所述抓取主体与下一时间步对应的更新位姿,以使所述策略网络经受训练;以及响应于所述抓取主体的所述更新位姿满足对所述抓取对象的形封闭条件而停止对所述策略网络的训练,并将经训练的策略网络确定为所述控制策略。2.根据权利要求1所述的方法,其中所述基于所述抓取主体与时间步对应的当前位姿和所述抓取对象构建第一观测向量包括:获取抓取对象的多个区域编码,所述多个区域编码分别对应于所述抓取对象的表面上彼此独立的多个区域;以及将处于与所述时间步对应的当前位姿的所述抓取主体上的点的坐标信息和所述多个区域编码提供给第一观测向量获取网络,以获得所述抓取主体上的点到所述多个区域的距离和相应的方向,其中所述第一观测向量获取网络是基于已知的多个空间点和所述多个区域编码预先训练获得的。3.根据权利要求2所述的方法,其中所述第一观测向量获取网络至少通过以下步骤训练获得:提供第一观测向量获取网络的网络模型;基于所述已知的多个空间点和所述多个区域编码,利用所述网络模型输出所述多个空间点到所述抓取对象的表面上彼此独立的多个区域的预测方向和预测距离;根据所述预测方向和所述预测距离更新所述多个空间点的位置,直至针对所述网络模型的损失函数的值小于第一阈值,其中所述损失函数的值指示根据所述预测距离和所述预测方向将所述多个空间点分别投影到所述抓取对象的表面得到的投影点形成的投影区域与所述抓取对象的表面上彼此独立的多个区域中相应的区域的重合度。4.根据权利要求2所述的方法,其中所述获取抓取对象的多个区域编码包括:通过最远点采样从所述抓取对象的表面的点云中确定m个中心点;根据所述m个中心点对所述点云进行维诺图分解,将所述抓取对象的表面分成彼此独立的多个区域;以及对所述多个区域进行编码获得所述多个区域编码,其中m为正整数。5.根据权利要求2所述的方法,其中所述抓取主体上的点到所述抓取对象的距离包括所述抓取主体上的点到所述多个区域中的各个区域的最短距离,所述抓取主体上的点到所述抓取对象的方向包括所述多个区域中的各个区域在所述抓取主体上的点处的符号距离函数的梯度方向。6.根据权利要求1所述的方法,其中所述第二观测向量至少指示所述物体代理上点与
所述抓取主体是否接触,其中基于所述抓取对象与时间步对应的物体代理构建第二观测向量包括:根据每个时间步确定所述抓取主体上与所述抓取对象距离最近的最近点;将所述抓取对象在所述最近点处的符号距离函数等值面确定为所述物体代理;确定所述物理代理上的点与所述抓取主体之间的最小距离;响应于所述最小距离小于第二阈...

【专利技术属性】
技术研发人员:房启航樊庆楠陈学霖董思言陈宝权
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1