当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法技术

技术编号:37067762 阅读:19 留言:0更新日期:2023-03-29 19:45
本发明专利技术公开了一种基于视觉

【技术实现步骤摘要】
一种基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法


[0001]本专利技术涉及一种杂乱场景目标物体抓取的方法,具体地说,是一种基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法。

技术介绍

[0002]目前,杂乱场景中目标物体的抓取是机器人操作领域一个非常重要的任务,也是操作服务机器人的一个关键技术。常用的指定目标物体的方法是提供目标物体的图像,或者收集一系列目标物体抓取的演示数据。但是通常情况下用户很难提供这样的信息,尤其是在一些开放场景的应用中,如开放物体的桌面整理。
[0003]一种直观的想法是用自然语言代替视觉指令来指定目标物体。最近的一些工作利用预训练的大型语言模型或多模态模型,从原始图像学习机器人操作策略,但是学习这些基于原始图像的策略需要大量的仿真数据进行训练,并且需要额外的数据实现策略的仿真

实物迁移,在杂乱堆叠场景下,仿真

实物迁移会更加困难。相比之下,采用以物体为中心的表征能给机器人带来场景中的物体信息,从而加快机器人的场景理解,提高抓取效率。基于这个想法,另外一类工作将基于语言的目标物体抓取解耦为两个阶段:语言

视觉匹配来寻找目标物体,规划目标物体的抓取动作并执行。这些工作以物体的包围框生成以物体为中心的表征,通过物体类别和视觉属性进行语言

视觉匹配,最终采用一个基于规则的规划器选出目标物体。然而,这些手工设计的属性和规则限制了语言指令的泛化性。此外,语言

视觉匹配的错误和杂乱场景中其他物体的干扰严重影响目标物体的成功抓取。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术的目的在于提供一种基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法。本专利技术提出基于以物体为中心的表征联合建模视觉,语言和动作,来预测抓取位姿。
[0005]具体地,该方法使用预训练的视觉

语言模型来编码物体包围框内的图像和语言指令生成视觉

语言特征,并采用预训练的抓取网络生成一个集合的抓取位姿,并通过抓取编码网络将这些抓取姿态编码为空间特征。该方法使用transformer生成视觉

语言

动作交叉注意力特征,利用该特征,策略网络进行抓取动作的选择。整个系统在仿真环境用采用无模型的强化学习方法训练。相比于之前的工作,该方法的样本利用率更高,无需额外数据进行仿真

实物迁移,且能达到更好的任务表现和语言泛化性。
[0006]本专利技术是通过以下技术方案来实现的:
[0007]一种基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法,包括:
[0008]步骤1:给定场景和语言指令;
[0009]步骤2:获取场景的RGB

D图像,通过开放集物体检测算法获取场景中检测出的物体包围框,并裁剪出包围框内的RGB图像作为该包围框内物体的表征;
[0010]步骤3:通过预训练的视觉

语言算法模型得到步骤1中语言指令的语言特征和步骤2中所有物体包围框的视觉特征;
[0011]步骤4:根据获取的场景RGB

D图像,通过预训练的抓取算法模型预测出场景中的抓取位姿集合,各个抓取姿态通过抓取编码网络编码为抓取动作特征;
[0012]步骤5:根据步骤3中获得的语言特征、所有物体包围框的视觉特征和步骤4中获得的抓取动作特征,利用transformer实施多模态之间的交叉注意力机制,生成视觉

语言

动作交叉注意力特征;
[0013]步骤6:根据步骤5获得的视觉

语言

动作交叉注意力特征,通过策略网络生成所有抓取姿态的概率值,通过价值网络生成所有抓取姿态的评价值;
[0014]步骤7:根据步骤6得到的抓取姿态的概率值选取抓取动作,机器人执行对应的抓取姿态并移动到固定的放置位置;
[0015]步骤8:重复步骤2

7直到成功抓取语言指定的目标物体则为完成任务,尝试次数在指定次数以内。
[0016]进一步地,所述的步骤1中,语言指令指定目标物体的属性,包括物体类别(banana)或视觉属性(red、round)或功能属性(drink)。
[0017]进一步地,所述的步骤2中,通过深度相机Realsense515获取桌面场景的实时RGB

D图像,所述的开放集物体检测算法为ORE,该算法输入场景的RGB图,输出物体的包围框集合,依次裁剪原图RGB图像得到各个包围框的图像表征,记为{o
i
}
i=1,..,n

[0018]进一步地,所述的步骤3中,预训练视觉

语言算法为CLIP,该算法用百万数量级的图像

文本数据进行训练,将视觉和语言映射到同一个特征空间,然后计算余弦相似度表征图像和文本之间的相似度,所述的算法包括一个图像编码器和一个文本编码器,图像编码器为ViT,文本编码器为transformer;图像编码器依次编码{o
i
}
i=1,..,n
得到其对应的视觉特征文本编码器编码语言指令得到语言特征f
l

[0019]进一步地,所述的步骤4中,预训练抓取算法为Graspnet

baseline,该算法输入场景点云,输出该场景下的抓取位姿集合{g
i
}
i=1,..,k
,然后用抓取编码网络(三层MLP)将抓取位姿编码为抓取动作特征
[0020]进一步地,所述的步骤5中生成视觉

语言

动作交叉注意力特征包括以下步骤:
[0021]步骤51:根据相机外参和深度图,依次计算所有物体包围框{o
i
}
i=1,..,n
中心像素点的3D位置坐标,通过三角函数对3D位置坐标进行非线性映射,再通过位置编码网络(三层MLP)编码为物体包围框的位置特征
[0022]步骤52:将各个物体包围框的视觉特征和其位置特征相加得到各个物体包围框的视觉

位置特征,记为将各个物体包围框的视觉特征和语言特征进行元素相乘得到各个物体包围框的视觉

语言特征
[0023]步骤53:利用transformer交叉注意力机制计算视觉

语言

动作特征,具体地,注意力机制可以表示为:
[0024]Attention(Q,K,V)=softmax(QK
T
)V;...

【技术保护点】

【技术特征摘要】
1.一种基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,包括:步骤1:给定场景和语言指令;步骤2:获取场景的RGB

D图像,通过开放集物体检测算法获取场景中的物体包围框;步骤3:通过预训练的视觉

语言算法模型得到步骤1中语言指令的语言特征和步骤2中所有物体包围框的视觉特征;步骤4:根据获取的场景RGB

D图像,通过预训练的抓取算法模型预测出场景中的抓取位姿集合,各个抓取姿态通过抓取编码网络编码为抓取动作特征;步骤5:根据步骤3中获得的语言特征、所有物体包围框的视觉特征和步骤4中获得的抓取动作特征,利用transformer实施多模态之间的交叉注意力机制,生成视觉

语言

动作交叉注意力特征;步骤6:根据步骤5获得的视觉

语言

动作交叉注意力特征,通过策略网络生成所有抓取位姿的概率值,通过价值网络生成所有抓取位姿的评价值;步骤7:根据步骤6得到的抓取位姿的概率值选取抓取动作,机器人执行对应的抓取位姿并移动到固定的放置位置;步骤8:重复步骤2

7直到成功抓取语言指定的目标物体直到完成任务,尝试次数在指定次数以内。2.根据权利要求1所述的基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,所述的步骤1中,语言指令指定目标物体的属性,包括物体类别(banana)或视觉属性(red、round)或功能属性(drink)。3.根据权利要求1所述的基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,所述的步骤2中,通过深度相机Realsense515获取桌面场景的实时RGB

D图像,所述的开放集物体检测算法为ORE,该算法输入场景的RGB图,输出物体的包围框集合,依次裁剪原图RGB图像得到各个包围框的图像表征,记为{o
i
}
i=1,..,n
。4.根据权利要求1或2或3所述的基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,所述的步骤3中,预训练视觉

语言算法为CLIP,该算法用百万数量级的图像

文本数据进行训练,将视觉和语言映射到同一个特征空间,然后计算余弦相似度表征图像和文本之间的相似度,所述的算法包括一个图像编码器和一个文本编码器,图像编码器为ViT,文本编码器为transformer;图像编码器依次编码{o
i
}
i=1,..,n
得到其对应的视觉特征文本编码器编码语言指令得到语言特征f
l
。5.根据权利要求4所述的基于视觉

语言

动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,所述的步骤4中,预训练抓取算法为Gr...

【专利技术属性】
技术研发人员:王越许可淳熊蓉
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1