System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种机器人视觉运动技能学习方法及系统技术方案_技高网

一种机器人视觉运动技能学习方法及系统技术方案

技术编号:39982616 阅读:10 留言:0更新日期:2024-01-09 01:38
本发明专利技术涉及机器视觉技术领域,提供了一种机器人视觉运动技能学习方法及系统,其方法包括以下步骤:S1、获取模拟中按程序生成的任务中的任务参数;S2、通过评估所述任务的可行性来选择相应的所述任务;S3、通过评估所述任务的新颖性来选择相应的所述任务;S4、对所述任务参数进行采样;S5、学习所述任务参数的紧凑表示,以设计关系网络的任务编码器。本发明专利技术中的机器人视觉运动技能学习方法可以使其能自适应且有效地评估任务的可行性和新颖性,以选择合适的候选任务来促进学习,进而使其能应用于复杂的领域。

【技术实现步骤摘要】

本专利技术涉及机器视觉,具体涉及一种机器人视觉运动技能学习方法及系统


技术介绍

1、在现实世界中执行顺序操作任务需要机器人基于原始的感官观察以多种方式与环境进行交互,为了解决现实世界中顺序操作任务的多样性和复杂性,机器人需要获得一系列技能,这些技能可以推广到广泛的环境配置和目标。为此开发了各种数据驱动的方法,通过自我监督学习、模仿学习和强化学习来获取技能,虽然这些方法减轻了手动设计技能的需要,但是所学技能归纳到新场景的能力高度依赖于训练数据的规模和质量。

2、因此,通过领域随机化创建的模拟环境已被广泛用于收集训练数据,其能够推广到未知的环境中,为了解决简单的领域随机化效率低下的困难探索问题,越来越多的工作提出从参数化的任务空间中自适应地选择不同的任务,以加速学习进程。

3、虽然上述方法在简单的模拟环境中取得了成功,但将这些方法应用于复杂的领域(如顺序操作)中,还是具有挑战性,其中对象属性、排列和任务目标的选择对如何解决任务具有复杂的影响。而将环境随机化通常会导致无效的任务,或者无法涵盖技能策略需要培训的所有任务变化,从复杂任务空间中的对象属性和关系来估计采样任务的可行性和新颖性也是困难的。


技术实现思路

1、本专利技术提供了一种视觉运动技能学习方法及系统,旨在解决现有技术中视觉运动技能学习方法将环境随机化应用于复杂领域较为困难的问题。

2、第一方面,本专利技术实施例提供了一种机器人视觉运动技能学习方法,其包括以下步骤:

3、s1、获取模拟中按程序生成的任务中的任务参数;

4、s2、通过评估所述任务的可行性来选择相应的所述任务;

5、s3、通过评估所述任务的新颖性来选择相应的所述任务;

6、s4、对所述任务参数进行采样;

7、s5、学习所述任务参数的紧凑表示,以设计关系网络的任务编码器。

8、优选的,所述步骤s1中,定义所述任务为w∈w;机器人在给定状态s和环境c=(k,i,j)的条件下执行策略以产生动作a,并接收奖励r,收集的经验(w,st,at,rt,st+1)存储在重放缓冲区d中,以用于训练策略π,其中,所述k为技能指数,所述i,j分别是对象指数。

9、优选的,所述步骤s2中,评估可行性的所述任务w通过所述训练策略π完成。

10、优选的,所述步骤s2中,定义可行性的所述任务w在指定的所述任务w中展开所述训练策略π的预期回报为评估所述预期回报的计算公式如下:

11、

12、其中,所述为最小化均方误差,所述v(w)为训练值函数。

13、优选的,所述步骤s3中,定义所述重放缓冲区d中存储的所有所述任务参数集合中的k-th最近邻居为wk,两个所述任务参数向量之间的距离通过距离度量d(·,·)计算,基于粒子的所述任务参数密度的近似值的计算公式如下:

14、

15、其中,所述vk是半径为d(w,wk)的超球体的体积。

16、优选的,所述步骤s4中,每个所述任务的任务参数的得分计算公式如下:

17、f(w)=v(w)+βd(w,wk);

18、其中,所述β=0.1是平衡该两项的权重,该分数用于构建具有逻辑f(w)的分类分布,可用于对所述任务w进行采样。

19、优选的,所述步骤s5中,所述任务编码器具有一个关系网格,且能利用所述任务参数的合成性。

20、第二方面,本专利技术提供了一种机器人视觉运动技能学习系统,其包括:

21、获取模块,用于获取模拟中按程序生成的任务中的任务参数;

22、第一选择模块,用于通过评估所述任务的可行性来选择相应的所述任务;

23、第二选择模块,用于通过评估所述任务的新颖性来选择相应的所述任务;

24、采样模块,用于对所述任务参数进行采样;

25、设计模块,用于学习所述任务参数的紧凑表示,以设计关系网络的任务编码器。

26、与现有技术相比,本专利技术中的机器人视觉运动技能学习方法依次通过获取模拟中按程序生成的任务中的任务参数、通过评估任务的可行性来选择相应的任务、通过评估任务的新颖性来选择相应的任务、对任务参数进行采样、学习任务参数的紧凑表示,以设计关系网络的任务编码器,从而可以使其能自适应且有效地评估任务的可行性和新颖性,以选择合适的候选任务来促进学习,进而使其能应用于复杂的领域。

本文档来自技高网...

【技术保护点】

1.一种机器人视觉运动技能学习方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤S1中,定义所述任务为w∈W;机器人在给定状态s和环境c=(k,i,j)的条件下执行策略以产生动作a,并接收奖励r,收集的经验(w,st,at,rt,st+1)存储在重放缓冲区D中,以用于训练策略π,其中,所述k为技能指数,所述i,j分别是对象指数。

3.如权利要求2所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤S2中,评估可行性的所述任务w通过所述训练策略π完成。

4.如权利要求3所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤S2中,定义可行性的所述任务w在指定的所述任务w中展开所述训练策略π的预期回报为评估所述预期回报的计算公式如下:

5.如权利要求4所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤S3中,定义所述重放缓冲区D中存储的所有所述任务参数集合中的K-th最近邻居为wK,两个所述任务参数向量之间的距离通过距离度量d(·,·)计算,基于粒子的所述任务参数密度的近似值的计算公式如下:

6.如权利要求5所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤S4中,每个所述任务的任务参数的得分计算公式如下:

7.如权利要求6所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤S5中,所述任务编码器具有一个关系网格,且能利用所述任务参数的合成性。

8.一种机器人视觉运动技能学习系统,其特征在于,包括:

...

【技术特征摘要】

1.一种机器人视觉运动技能学习方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤s1中,定义所述任务为w∈w;机器人在给定状态s和环境c=(k,i,j)的条件下执行策略以产生动作a,并接收奖励r,收集的经验(w,st,at,rt,st+1)存储在重放缓冲区d中,以用于训练策略π,其中,所述k为技能指数,所述i,j分别是对象指数。

3.如权利要求2所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤s2中,评估可行性的所述任务w通过所述训练策略π完成。

4.如权利要求3所述的一种机器人视觉运动技能学习方法,其特征在于,所述步骤s2中,定义可行性的所述任务w在指定的所述任务w中展开所述训练策...

【专利技术属性】
技术研发人员:李泽辉吴均城杨海东杨标
申请(专利权)人:佛山市南海区广工大数控装备协同创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1