一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法技术

技术编号：37067762 阅读：19 留言：0更新日期：2023-03-29 19:45

本发明专利技术公开了一种基于视觉

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法

[0001]本专利技术涉及一种杂乱场景目标物体抓取的方法，具体地说，是一种基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法。

技术介绍

[0002]目前，杂乱场景中目标物体的抓取是机器人操作领域一个非常重要的任务，也是操作服务机器人的一个关键技术。常用的指定目标物体的方法是提供目标物体的图像，或者收集一系列目标物体抓取的演示数据。但是通常情况下用户很难提供这样的信息，尤其是在一些开放场景的应用中，如开放物体的桌面整理。
[0003]一种直观的想法是用自然语言代替视觉指令来指定目标物体。最近的一些工作利用预训练的大型语言模型或多模态模型，从原始图像学习机器人操作策略，但是学习这些基于原始图像的策略需要大量的仿真数据进行训练，并且需要额外的数据实现策略的仿真
‑
实物迁移，在杂乱堆叠场景下，仿真
‑
实物迁移会更加困难。相比之下，采用以物体为中心的表征能给机器人带来场景中的物体信息，从而加快机器人的场景理解，提高抓取效率。基于这个想法，另外一类工作将基于语言的目标物体抓取解耦为两个阶段：语言
‑
视觉匹配来寻找目标物体，规划目标物体的抓取动作并执行。这些工作以物体的包围框生成以物体为中心的表征，通过物体类别和视觉属性进行语言
‑
视觉匹配，最终采用一个基于规则的规划器选出目标物体。然而，这些手工设计的属

【技术保护点】

【技术特征摘要】
1.一种基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法，其特征在于，包括：步骤1：给定场景和语言指令；步骤2：获取场景的RGB
‑
D图像，通过开放集物体检测算法获取场景中的物体包围框；步骤3：通过预训练的视觉
‑
语言算法模型得到步骤1中语言指令的语言特征和步骤2中所有物体包围框的视觉特征；步骤4：根据获取的场景RGB
‑
D图像，通过预训练的抓取算法模型预测出场景中的抓取位姿集合，各个抓取姿态通过抓取编码网络编码为抓取动作特征；步骤5：根据步骤3中获得的语言特征、所有物体包围框的视觉特征和步骤4中获得的抓取动作特征，利用transformer实施多模态之间的交叉注意力机制，生成视觉
‑
语言
‑
动作交叉注意力特征；步骤6：根据步骤5获得的视觉
‑
语言
‑
动作交叉注意力特征，通过策略网络生成所有抓取位姿的概率值，通过价值网络生成所有抓取位姿的评价值；步骤7：根据步骤6得到的抓取位姿的概率值选取抓取动作，机器人执行对应的抓取位姿并移动到固定的放置位置；步骤8：重复步骤2
‑
7直到成功抓取语言指定的目标物体直到完成任务，尝试次数在指定次数以内。2.根据权利要求1所述的基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法，其特征在于，所述的步骤1中，语言指令指定目标物体的属性，包括物体类别(banana)或视觉属性(red、round)或功能属性(drink)。3.根据权利要求1所述的基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法，其特征在于，所述的步骤2中，通过深度相机Realsense515获取桌面场景的实时RGB
‑
D图像，所述的开放集物体检测算法为ORE，该算法输入场景的RGB图，输出物体的包围框集合，依次裁剪原图RGB图像得到各个包围框的图像表征，记为{o
i
}
i＝1,..,n
。4.根据权利要求1或2或3所述的基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法，其特征在于，所述的步骤3中，预训练视觉
‑
语言算法为CLIP，该算法用百万数量级的图像
‑
文本数据进行训练，将视觉和语言映射到同一个特征空间，然后计算余弦相似度表征图像和文本之间的相似度，所述的算法包括一个图像编码器和一个文本编码器，图像编码器为ViT，文本编码器为transformer；图像编码器依次编码{o
i
}
i＝1,..,n
得到其对应的视觉特征文本编码器编码语言指令得到语言特征f
l
。5.根据权利要求4所述的基于视觉
‑
语言
‑
动作联合建模的杂乱场景目标物体抓取的方法，其特征在于，所述的步骤4中，预训练抓取算法为Gr...

【专利技术属性】
技术研发人员：王越，许可淳，熊蓉，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人