【技术实现步骤摘要】
一种基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法
[0001]本专利技术涉及一种杂乱场景目标物体抓取的方法,具体地说,是一种基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法。
技术介绍
[0002]目前,杂乱场景中目标物体的抓取是机器人操作领域一个非常重要的任务,也是操作服务机器人的一个关键技术。常用的指定目标物体的方法是提供目标物体的图像,或者收集一系列目标物体抓取的演示数据。但是通常情况下用户很难提供这样的信息,尤其是在一些开放场景的应用中,如开放物体的桌面整理。
[0003]一种直观的想法是用自然语言代替视觉指令来指定目标物体。最近的一些工作利用预训练的大型语言模型或多模态模型,从原始图像学习机器人操作策略,但是学习这些基于原始图像的策略需要大量的仿真数据进行训练,并且需要额外的数据实现策略的仿真
‑
实物迁移,在杂乱堆叠场景下,仿真
‑
实物迁移会更加困难。相比之下,采用以物体为中心的表征能给机器人带来场景中的物体信息,从而加快机器人的场景理解,提高抓取效率。基于这个想法,另外一类工作将基于语言的目标物体抓取解耦为两个阶段:语言
‑
视觉匹配来寻找目标物体,规划目标物体的抓取动作并执行。这些工作以物体的包围框生成以物体为中心的表征,通过物体类别和视觉属性进行语言
‑
视觉匹配,最终采用一个基于规则的规划器选出目标物体。然而,这些手工设计的属
【技术保护点】
【技术特征摘要】
1.一种基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,包括:步骤1:给定场景和语言指令;步骤2:获取场景的RGB
‑
D图像,通过开放集物体检测算法获取场景中的物体包围框;步骤3:通过预训练的视觉
‑
语言算法模型得到步骤1中语言指令的语言特征和步骤2中所有物体包围框的视觉特征;步骤4:根据获取的场景RGB
‑
D图像,通过预训练的抓取算法模型预测出场景中的抓取位姿集合,各个抓取姿态通过抓取编码网络编码为抓取动作特征;步骤5:根据步骤3中获得的语言特征、所有物体包围框的视觉特征和步骤4中获得的抓取动作特征,利用transformer实施多模态之间的交叉注意力机制,生成视觉
‑
语言
‑
动作交叉注意力特征;步骤6:根据步骤5获得的视觉
‑
语言
‑
动作交叉注意力特征,通过策略网络生成所有抓取位姿的概率值,通过价值网络生成所有抓取位姿的评价值;步骤7:根据步骤6得到的抓取位姿的概率值选取抓取动作,机器人执行对应的抓取位姿并移动到固定的放置位置;步骤8:重复步骤2
‑
7直到成功抓取语言指定的目标物体直到完成任务,尝试次数在指定次数以内。2.根据权利要求1所述的基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,所述的步骤1中,语言指令指定目标物体的属性,包括物体类别(banana)或视觉属性(red、round)或功能属性(drink)。3.根据权利要求1所述的基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,所述的步骤2中,通过深度相机Realsense515获取桌面场景的实时RGB
‑
D图像,所述的开放集物体检测算法为ORE,该算法输入场景的RGB图,输出物体的包围框集合,依次裁剪原图RGB图像得到各个包围框的图像表征,记为{o
i
}
i=1,..,n
。4.根据权利要求1或2或3所述的基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,所述的步骤3中,预训练视觉
‑
语言算法为CLIP,该算法用百万数量级的图像
‑
文本数据进行训练,将视觉和语言映射到同一个特征空间,然后计算余弦相似度表征图像和文本之间的相似度,所述的算法包括一个图像编码器和一个文本编码器,图像编码器为ViT,文本编码器为transformer;图像编码器依次编码{o
i
}
i=1,..,n
得到其对应的视觉特征文本编码器编码语言指令得到语言特征f
l
。5.根据权利要求4所述的基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,所述的步骤4中,预训练抓取算法为Gr...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。