基于时空注意力机制的可形变物体形状控制系统及方法技术方案

技术编号:34460007 阅读:28 留言:0更新日期:2022-08-06 17:18
本发明专利技术公开了一种基于时空注意力机制的可形变物体形状控制系统及方法,该系统包括时空特征提取模块以及抓取和放置位置生成模块,时空特征提取模块将输入的可形变物体当前形状的图像和达到可形变物体目标形状的示教操作序列的图像组进行特征嵌入得到嵌入向量块,提取嵌入向量块的时空特征,根据嵌入向量块的时空特征得到时空特征向量,并将时空特征向量输出至抓取和放置生成模块;抓取和放置生成模块包括抓取点生成译码器和放置点生成译码器,两者分别接收时空特征向量,并根据时空特征向量分别得到抓取热力图和放置热力图,以使得机器人能够根据抓取热力图和放置热力图对可形变物体进行抓取和放置操作。本发明专利技术提高了系统框架的操作效率与自主性。框架的操作效率与自主性。框架的操作效率与自主性。

【技术实现步骤摘要】
基于时空注意力机制的可形变物体形状控制系统及方法


[0001]本专利技术涉及机器人
,尤其涉及一种基于时空注意力机制的可形变物体形状控制系统及方法。

技术介绍

[0002]可形变物体在人类的日常生活中随处可见,设计算法使机器人与可形变物体交互有着广阔的应用前景,例如:工业应用中的线缆组装、家庭应用中的衣物整理、养老服务中的穿衣辅助、医疗手术中的器官与组织操作、以及水下/空间机器人对易碎样本的采集等等。
[0003]相比于较为成熟的针对刚性物体的机器人操作,针对可形变物体的机器人操作更加困难,且相关研究和应用更少,其面临的挑战主要有以下三点:(1)可形变物体的状态表征较难:相比于刚性物体的状态可以被有限维度的状态量(如6D位姿等)表示,可形变物体具有无限的自由度,因此对于可形变物体的建模较难;并且如何将对可形变物体的高维观测(例如图像,点云和触觉感知等)映射到低维紧凑的状态表示,以便于后续的规划和操作,仍是一个棘手的问题。(2)可形变物体的动力学复杂且非线性:由于可形变物体内部存在着交互作用,即使是针对简单物体的微小的交互操作也会导致其展现出复杂和不可预测的行为,这使得对可形变物体进行建模以及执行传统任务和运动规划很困难。(3)可形变物体常常只有部分可观测的:可形变物体常常存在自遮挡的情况,例如,布料在褶皱或折叠状态下,其自身的一部分会被另一部分遮盖,使得其只能被部分观测,进而增加了后续状态表示和规划等操作的难度。基于以上原因,针对刚性物体的机器人成熟理论和传统的建模分析方法很难应用到可形变物体上。/>[0004]FabricFlowNet(利用光流的布料操作网络)是现阶段较为优秀的一种可形变物体形状操作框架,它是基于双臂机器人,面向二维可形变物体(例如布料、衣服等)设计的,其主要结构如图1所示,主要思路为:(1)结合当前可形变物体的深度图像与目标形状下的可形变物体的深度图像110,计算出两张图像之间的光流图101;(2)将光流图输入到第一抓取网络102(一个全卷积网络)中,输出得到一张抓取热力图103,抓取热力图103中的最大值对应的像素点即为第一机械臂的最优抓取点;(3)以第一机械臂的最优抓取点为中心,加入高斯噪声,构造出一个附加图像104,用于表征第一机械臂的抓取点信息,并将该附加图像104与光流图101拼接,输入到第二抓取网络105(与第一抓取网络102相同的全卷积网络)中,输出得到一张抓取热力图106,抓取热力图106中的最大值对应的像素点即为第二机械臂的最优抓取点。(4)在光流图101中查找两机械臂最优抓取点对应像素点的位移量,基于二分类交叉熵损失函数计算出最优放置点,如图1中的抓取点真实值107。专利技术人通过对FabricFlowNet框架的研究,发现其中的的不足主要有以下两点:(1)FabricFlowNet本质上是针对单步操作设计的,模型只能学习到有限的单步操作能力,即只有在当前形状与目标形状之间差异较小,或两者之间可以用一步操作实现时,网络才能输出较为理想的结果。因此,对于需要多步操作才能完成的任务,该框架的运行需要人为参与,即人为地将复杂的形
状控制任务分成多个单步的简单形状控制子任务,然后让机器人依次完成这些简单的形状控制子任务。在此过程中,都需要由人来判断每一个子任务是否完成,是否可以进行下一个子任务。总的来说,该算法在应用上不够自主。(2)训练数据获取方式有限:该算法需要训练网络来估计两幅图之间的光流图,其训练数据需要像素点的位移作为标签,而这部分位移数据只有在仿真器中才能得到。因此,该算法的训练数据只能从仿真器中获得,无法利用真实场景下采集到的数据。
[0005]Transporter

Goal

Split是适用范围较广的一个可形变物体形状操作框架,它可以应用到许多种可形变物体上,例如绳子、布料、甚至是口袋等。其主要结构如图2所示,主要思路为:(1)将当前可形变物体的RGB图像和目标形状下的可形变物体的RGB图像输入到四个全卷积网络中,得到四幅特征图(分别记作Q
pick
,ψ
goal
,ψ
query
,ψ
key
);(2)抓取点确定:特征图Q
pick
中的最大值对应的像素点即为最优抓取点。(3)特征融合:将特征图ψ
goal
与ψ
query
进行哈达玛积操作,得到特征图ψ
goal
×
query
;将特征图ψ
goal
与ψ
key
进行哈达玛积操作,得到特征图ψ
goal
×
key
。(4)放置点确定:以最优抓取点对应的像素为中心,在特征图ψ
goal
×
query
中采取一个图像块,并将其作为卷积核对特征图ψ
goal
×
key
进行卷积,得到特征图Q
place
,其中最大值对应的像素点即为最优放置点。专利技术人通过对Transporter

Goal

Split框架的研究,发现其中的不足主要有以下两点:(1)与FabricFlowNet一样,Transporter

Goal

Split本质上也是针对单步操作设计的,模型只能学习到有限的单步操作能力。不过相比于FabricFlowNet,对于需要多步操作才能完成的任务,Transporter

Goal

Split采用的是反馈操作的方法,即在机器人每次操作结束后,再将当前的形状与目标形状输入到网络中,得到新的操作指令并执行。这样不断地反馈执行,可以使物体的形状越来越靠近目标形状。然而在实际应用中发现,由于该模型只学习到了单步操作的能力,因此如果直接将复杂的形状作为目标形状,模型会在操作时会感到“困惑”,可能会输出许多适得其反的操作,进而使任务失败;也可能需要许多步反馈操作才能接近目标形状。总的来说,该算法在复杂操作任务的应用上效率较低。(2)训练数据成本较高:该算法需要专家的示教操作作为训练数据,且由于网络结构较为复杂,每一项形状控制任务都需要大量的专家示教,成本较高。
[0006]以上
技术介绍
内容的公开仅用于辅助理解本专利技术的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述
技术介绍
不应当用于评价本申请的新颖性和创造性。

技术实现思路

[0007]为解决上述技术问题,本专利技术提出一种基于时空注意力机制的可形变物体形状控制系统及方法,不仅提高了系统框架的操作效率与自主性,而且可以有效地解决了数据的成本和利用效率问题。
[0008]为了达到上述目的,本专利技术采用以下技术方案:
[0009]本专利技术公开了一种基于时空注意力机制的可形变物体形状控制系统,包括时空特征提取模块以及抓取和放置位本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于时空注意力机制的可形变物体形状控制系统,其特征在于,包括时空特征提取模块以及抓取和放置位置生成模块,其中:所述时空特征提取模块将输入的可形变物体当前形状的图像和达到可形变物体目标形状的示教操作序列的图像组进行特征嵌入得到嵌入向量块,然后提取所述嵌入向量块的时空特征,并从提取的时空特征中筛选出所述嵌入向量块中当前形状以及目标形状的时空特征,根据输入的图像和图像组中可形变物体当前形状和目标形状的空间结构将当前形状以及目标形状的时空特征分别进行重排列得到两组特征向量,再拼接两组特征向量得到时空特征向量,并将所述时空特征向量输出至所述抓取和放置生成模块;所述抓取和放置生成模块包括抓取点生成译码器和放置点生成译码器,所述抓取点生成译码器和所述放置点生成译码器分别接收所述时空特征向量,并根据所述时空特征向量分别得到抓取热力图和放置热力图,以使得机器人能够根据所述抓取热力图和放置热力图对可形变物体进行抓取和放置操作。2.一种基于时空注意力机制的可形变物体形状控制方法,其特征在于,采用权利要求1所述的系统来对可形变物体的形状进行控制,包括以下步骤:S1:将可形变物体当前形状的图像和达到可形变物体目标形状的示教操作序列的图像组输入到所述时空特征提取模块,并对输入的图像和图像组进行特征嵌入得到嵌入向量块;S2:提取所述嵌入向量块的时空特征;S3:从提取的时空特征中筛选出所述嵌入向量块中当前形状以及目标形状的时空特征;S4:根据输入到所述时空特征提取模块的图像和图像组中可形变物体当前形状和目标形状的空间结构,将步骤S3中的当前形状以及目标形状的时空特征分别进行重排列得到两组特征向量,再拼接两组特征向量得到时空特征向量,将所述时空特征向量输出至所述抓取和放置生成模块;S5:所述抓取点生成译码器和所述放置点生成译码器分别接收所述时空特征向量,并根据所述时空特征向量分别得到抓取热力图和放置热力图,以使得机器人能够根据所述抓取热力图和放置热力图对可形变物体进行抓取和放置操作;S6:获取经机器人抓取和放置操作后的可形变物体的图像,并将经机器人抓取和放置操作后的可形变物体的图像作为可形变物体当前形状的图像重复执行步骤S1至S6,直至达到预设条件后停止。3.根据权利要求2所述的方法,其特征在于,步骤S1中对输入的图像和图像组进行特征嵌入得到嵌入向量块具体包括:将输入的每一幅尺寸为N
×
N的图像分解为a
×
a的小块,并对分解得到的所有小块进行线性的特征嵌入,以嵌入到M维的特征向量,得到嵌入向量块;步骤S4中得到的时空特征向量的维度为其中a能够被N整除。4.根据权利要求2所述的方法,其特征在于,步骤S2具体包括:S21:对所述嵌入向量块进行层标准化操作,并对所述嵌入向量块进行时间维度上的多头...

【专利技术属性】
技术研发人员:梁斌王学谦莫凯夏崇坤
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1