System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种融合文本指令和运动信息的机器人运动技能学习方法技术_技高网

一种融合文本指令和运动信息的机器人运动技能学习方法技术

技术编号:40196936 阅读:11 留言:0更新日期:2024-01-27 00:00
本发明专利技术公开了一种融合文本指令和运动信息的机器人运动技能学习方法,涉及机器人运动规划领域,该方法包括以下步骤:S1、获取机器人运动过程中的动作序列,合并为数据集后进行预处理,提取动作序列的关键帧,同时获取该任务对应的文本信息;S2、分别提取任务的视觉特征和文本特征;S3、将文本特征与视觉特征融合,通过对文本信息的学习,不断更新优化文本与任务之间的依赖关系,使其通过文本更好的理解任务,对机器人未来动作进行预测;S4、通过对文本信息的学习,进一步了解文本信息与动作之间的依赖关系。本发明专利技术通过将文本信息与视觉信息结合,通过文本信息与机器人过去的多视角视觉信息和先前的动作信息预测下一步的动作。

【技术实现步骤摘要】

本专利技术涉及机器人运动规划领域,具体来说,涉及一种融合文本指令和运动信息的机器人运动技能学习方法


技术介绍

1、随着现代科技的不断发展,机器人已经在多个领域中发挥着重要的作用,传统的机器人已经不能满足人们的生活需求,机器人运动规划和人机交互相结合成为目前机器人运动规划的研究热点。

2、在人类环境中,为了替代人类完成复杂的任务,机器人被期望根据语言指令完成对应的任务,然而,由于在不同任务之间目标形状的不同,操作时间不同,任务复杂度不同,因此,很难通过学习一种技能兼顾不同的任务需求,并且根据现有学习到的技能很难拓展到未学习的任务中去,导致泛化性能较差。

3、目前的输入格式有两种:文本数据和视觉数据。文本数据是每个任务对应的文本信息,可以是一组,也可以是多组信息。视觉数据是根据多组相机拍摄的rgbd数据格式信息和掩码数据信息。人们对于研究文本信息和视觉信息融合,使得机器人可以更好的理解人类的语言,根据语言指令完成相应的任务仍是一项重要的挑战。

4、针对相关技术中的问题,目前尚未提出有效的解决方案。


技术实现思路

1、针对相关技术中的问题,本专利技术提出一种融合文本指令和运动信息的机器人运动技能学习方法,以克服现有相关技术所存在的上述技术问题。

2、为此,本专利技术采用的具体技术方案如下:

3、一种融合文本指令和运动信息的机器人运动技能学习方法,该方法包括以下步骤:

4、s1、获取机器人运动过程中的动作序列,合并为数据集后进行预处理,提取动作序列的关键帧,同时获取该任务对应的文本信息;

5、s2、分别提取任务的视觉特征和文本特征;

6、s3、将文本特征与视觉特征融合,通过对文本信息的学习,不断更新优化文本与任务之间的依赖关系,使其通过文本更好的理解任务,对机器人未来动作进行预测;

7、s4、通过对文本信息的学习,进一步了解文本信息与动作之间的依赖关系,对动作序列进行优化。

8、进一步的,获取机器人运动过程中的动作序列,合并为数据集后进行预处理,提取动作序列的关键帧,同时获取该任务对应的文本信息包括以下步骤:

9、s11、通过示教学习的方式,操控机器人完成设定任务,获取连续运动状态下的视觉信息与动作信息,并将视觉信息和动作信息合并为该任务的数据集;

10、s12、对机器人操作过程中的连续动作序列进行采样,提取视觉信息数据集中的关键帧,包括起始帧、末端夹持器速度趋于静止的中间帧以及末端夹持器状态发生改变的中间帧。其目的是将任务序列长度限制在10个宏步长以内;

11、s13、获取该任务对应的文本信息集合,其目的在于对不同文本进行学习,保证机器人在接收到不同文本信息后均能执行该任务;

12、进一步的,分别提取任务的视觉特征和文本特征包括以下步骤:

13、s21、首先分别采用全局特征编码器和局部特征编码器对视觉信息进行编码,其次构建视觉信息融合编码器,实现多尺度特征信息融合。

14、s22、基于clip预训练模型中文本编码器,提取文本信息的文本特征。

15、进一步的,首先分别采用全局特征编码器和局部特征编码器对视觉信息进行编码,其次构建视觉信息融合编码器,实现多尺度特征信息融合包括以下步骤:

16、s211、将视觉信息中由全视角组成的整体环境作为多视角图像信息,将视觉信息中由单一视角组成的局部环境作为局部图像信息;

17、s212、构建全局特征模块,利用投影与坐标转换的方式提取多视角图像信息中的全局特征信息;

18、s213、构建局部特征模块,利用特征映射的方式提取局部图像信息中的局部特征信息;

19、s214、通过全局特征模块与局部特征模块组成视觉信息融合编码器,再结合全局特征信息与局部特征信息,利用全局信息与局部信息多尺度融合的方式实现视觉信息的编码。

20、进一步的,构建全局特征模块,利用投影与坐标转换的方式提取多视角图像信息中的全局特征信息包括以下步骤:

21、s2121、利用卷积神经网络主干从多视角图像信息中提取多尺度特征;

22、s2122、初始化鸟瞰视图特征,该特征被均匀划分为网格,每个鸟瞰视图网格对应三维坐标pi=(xi,yi,z)和查询向量qi,z表示所有查询向量共享的鸟瞰视图平面的预定义高度;

23、s2123、利用几何先验知识引导注意力模型专注于鸟瞰视图中存在区别的区域,使用相机参数,将每个鸟瞰视图网格的三维坐标投影至一组浮点二维坐标,再将该二维坐标四舍五入为鸟瞰视图全局特征坐标;

24、s2124、在先验的鸟瞰视图全局特征坐标周围展开kh×kw核区域,kh与kw分别表示可变的高和长的参数,若核区域超过多视角图像信息的图像边界,则超出部分设置为零,再使用注意力模型将每个鸟瞰视图的查询嵌入与对应的多视角图像信息特征展开核特征进行交互,生成鸟瞰视图表示;

25、s2125、为了增强相偏差的鲁棒性,将相机偏差分解为平移偏差与旋转偏差,并将随机噪声添加至所有x、y、z维度与所有相机;

26、其中,平移偏差的表达式为:

27、

28、旋转偏差的表达式为:

29、rdevi=rθx·rθy·rθz;

30、式中,tdevi表示平移偏差;rdevi表示旋转偏差;δx、δy及δz分别表示x轴、y轴及z轴对应的平移噪声;rθx、rθy及rθz分别表示x轴、y轴及z轴的旋转偏差矩阵。

31、进一步的,构建局部特征模块,利用特征映射的方式提取局部图像信息中的局部特征信息包括以下步骤:

32、s2131、分别获取第t时刻时每个相机拍摄得到的局部图像信息对应的rgb图像数据、点云数据和焦点坐标数据;

33、s2132、将通道维度上的rgb图像数据、焦点坐标数据及鸟瞰视图全局特征坐标进行连接,再经过全卷积网络编码器处理得到特征映射;

34、s2133、将特征映射与通道维度中的点云数据进行连接,用于指示特征图中每个补丁的空间位置,同时对点云数据进行应用均值池化,实现点云数据与特征映射的大小匹配,最终进行特征映射编码的计算,特征映射编码的表达式为:

35、

36、式中,ftk表示特征映射编码;表示rgb图像特征;表示焦点坐标图特征;表示鸟瞰视图全局特征坐标;ptk表示表示点云数据;

37、s2134、将属于特征映射编码中的补丁作为单独的视觉标记,再利用相机id特征编码的嵌入、步长id特征编码的嵌入以及补丁位置的嵌入来表示视觉标记的视觉特征,视觉特征的运算表达式为:

38、

39、式中,表示视觉标记的视觉特征;wf表示卷积神经网络可学习的矩阵;表示特征映射编码中的补丁;表示相机id特征编码;表示步长id特征编码;表示补丁位置;表示视觉标记;

40、s2本文档来自技高网...

【技术保护点】

1.一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述获取机器人运动过程中的动作序列,合并为数据集后进行预处理,提取动作序列的关键帧,同时获取该任务对应的文本信息包括以下步骤:

3.根据权利要求1所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述分别提取机器人运动过程中的视觉特征与文本特征包括以下步骤:

4.根据权利要求3所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述首先分别采用全局特征编码器和局部特征编码器对视觉信息进行编码,其次构建视觉信息融合编码器,实现多尺度特征信息融合包括以下步骤:

5.根据权利要求4所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述构建全局特征模块,利用投影与坐标转换的方式提取所述多视角图像信息中的全局特征信息包括以下步骤:

6.根据权利要求5所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述构建局部特征模块,利用特征映射的方式提取所述局部图像信息中的局部特征信息包括以下步骤:

7.根据权利要求6所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述基于CLIP预训练模型构建文本信息编码器,提取所述文本信息的文本特征,并对所述文本信息中的句子指令进行标记与编码包括以下步骤:

8.根据权利要求3所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述将文本特征与视觉特征融合,通过对文本信息的学习,不断更新优化文本与任务之间的依赖关系,使其通过文本更好的理解任务,对机器人未来动作进行预测包括以下步骤:

9.根据权利要求8所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述依据所述预测特征映射及卷积神经网络对夹持器未来的状态进行预测,输出机器人的预测动作序列包括以下步骤:

10.根据权利要求3所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述通过对文本信息的学习,进一步学习文本信息与动作之间的依赖关系,对动作序列进行优化包括以下步骤:

...

【技术特征摘要】

1.一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述获取机器人运动过程中的动作序列,合并为数据集后进行预处理,提取动作序列的关键帧,同时获取该任务对应的文本信息包括以下步骤:

3.根据权利要求1所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述分别提取机器人运动过程中的视觉特征与文本特征包括以下步骤:

4.根据权利要求3所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述首先分别采用全局特征编码器和局部特征编码器对视觉信息进行编码,其次构建视觉信息融合编码器,实现多尺度特征信息融合包括以下步骤:

5.根据权利要求4所述的一种融合文本指令和运动信息的机器人运动技能学习方法,其特征在于,所述构建全局特征模块,利用投影与坐标转换的方式提取所述多视角图像信息中的全局特征信息包括以下步骤:

6.根据权利要求5所述的一种融合文本指令和运动信息的机器人运动技能学习方法,...

【专利技术属性】
技术研发人员:易阳路瑜朱文俊张梦怡穆宜敏
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1