System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 强化学习控制机器人的动作平滑度优化方法、设备及介质技术_技高网

强化学习控制机器人的动作平滑度优化方法、设备及介质技术

技术编号:40971635 阅读:4 留言:0更新日期:2024-04-18 21:21
本发明专利技术实施例涉及机器人控制领域,公开了一种强化学习控制机器人的动作平滑度优化方法、设备及介质。其中,方法包括:构建策略模型,并提供用于训练策略模型的损失函数,所述策略模型用于规划机器人的末端轨迹,所述损失函数至少包含用于对所述末端轨迹进行平滑的平滑损失项;利用所述损失函数对所述策略模型进行强化学习训练。本申请实施例通过包含平滑损失项的损失函数训练得到的策略模型控制机器人运行,得到的机器人的末端轨迹更加平滑,从而提高机器人的运行效率及精度。

【技术实现步骤摘要】

本专利技术实施例涉及机器人控制领域,特别涉及一种强化学习控制机器人的动作平滑度优化方法、设备及介质


技术介绍

1、传统控制机器人的方法中并不存在对机器人末端轨迹进行平滑优化的需求,因为传统控制方法本身就已经是按照平滑的方式进行了机器人运动轨迹的规划。但是最新的智能控制算法,如强化学习,其输出是根据当前时刻的机器人状态所进行的实时控制,是机器人的末端轨迹不确定的。

2、目前,基础的强化学习算法通常是通过设计奖励函数来实现对平滑度进行优化,但奖励函数需要获取机器人所处环境状态的相关信息,而这些信息并不容易获取;并且,强化学习训练中奖励函数到值函数的过程是一个黑盒过程,通常很难确定奖励函数是否会优化到值函数。


技术实现思路

1、本专利技术实施方式的目的在于提供一种强化学习控制机器人的动作平滑度优化方法、设备及介质,通过包含平滑损失项的损失函数训练得到的策略模型控制机器人运行,得到的机器人的末端轨迹更加平滑,从而提高机器人的运行效率及精度。

2、为解决上述技术问题,本专利技术的实施方式提供了一种强化学习控制机器人的动作平滑度优化方法、设备及介质,包括:构建策略模型,并提供用于训练策略模型的损失函数,所述策略模型用于规划机器人的末端轨迹,所述损失函数至少包含用于对所述末端轨迹进行平滑的平滑损失项;

3、利用所述损失函数对所述策略模型进行强化学习训练。

4、本专利技术的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的强化学习控制机器人的动作平滑度优化方法。

5、本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的强化学习控制机器人的动作平滑度优化方法。

6、本专利技术实施方式相对于现有技术而言,通过构建策略模型,并提供用于训练策略模型的损失函数,策略模型用于规划机器人的末端轨迹,损失函数至少包含用于对末端轨迹进行平滑的平滑损失项;利用损失函数对所述策略模型进行强化学习训练。即本方案通过获取平滑损失项,得到至少包含用于对末端轨迹进行平滑的平滑损失项的损失函数训练策略模型,以此损失函数策略模型进行强化学习训练,训练后得到的策略模型在控制机器人运行时,得出的机器人的末端轨迹更加平滑,从而提高机器人的运行效率及精度。

7、在一些实施例中,所述平滑损失项包括:关于时间的平滑损失项和/或关于空间的平滑损失项。

8、在一些实施例中,所述策略模型采用的强化学习算法为采用policy gradient方式的算法,包括:ppo算法、a2c算法、a3c算法、ddpg算法以及trpo算法中的任意一种。

9、在一些实施例中,当所述强化学习算法为ppo算法时,所述损失函数为:其中,为损失值,为ppo算法的基础损失项,λt为第一权重系数,lt为所述关于时间的平滑损失项。

10、在一些实施例中,当所述强化学习算法为ppo算法时,所述损失函数为:其中,为损失值,为ppo算法的基础损失项,λs为第二权重系数,ls为所述关于空间的平滑损失项。

11、在一些实施例中,当所述强化学习算法为ppo算法时,所述损失函数为:其中,为损失值,为ppo算法的基础损失项,λt为第一权重系数,lt为所述关于时间的平滑损失项,λs为第二权重系数,ls为所述关于空间的平滑损失项。

12、在一些实施例中,所述关于时间的平滑损失项lt为:lt=dt(πθ(st),πθ(st+1));其中,dt为第一差异度,π为所述策略模型,θ表示所述策略模型的参数,st表示当前时刻的状态,st+1表示下一时刻的状态。

13、在一些实施例中,所述关于空间的平滑损失项ls为:其中,ds为第二差异度,π为所述策略模型,θ表示所述策略模型的参数,st表示当前时刻的状态,φ(st)表示对st增加预设噪声进行扰动。

本文档来自技高网...

【技术保护点】

1.一种强化学习控制机器人的动作平滑度优化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述平滑损失项包括:关于时间的平滑损失项和/或关于空间的平滑损失项。

3.根据权利要求2所述的方法,其特征在于,所述策略模型采用的强化学习算法为采用Policy Gradient方式的算法,包括:PPO算法、A2C算法、A3C算法、DDPG算法以及TRPO算法中的任意一种。

4.根据权利要求3所述的方法,其特征在于,当所述强化学习算法为PPO算法时,所述损失函数为:

5.根据权利要求3所述的方法,其特征在于,当所述强化学习算法为PPO算法时,所述损失函数为:

6.根据权利要求3所述的方法,其特征在于,当所述强化学习算法为PPO算法时,所述损失函数为:

7.根据权利要求4或6所述的方法,其特征在于,所述关于时间的平滑损失项LT为:LT=DT(πθ(st),πθ(st+1));

8.根据权利要求5或6所述的方法,其特征在于,所述关于空间的平滑损失项LS为:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的强化学习控制机器人的动作平滑度优化方法。

...

【技术特征摘要】

1.一种强化学习控制机器人的动作平滑度优化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述平滑损失项包括:关于时间的平滑损失项和/或关于空间的平滑损失项。

3.根据权利要求2所述的方法,其特征在于,所述策略模型采用的强化学习算法为采用policy gradient方式的算法,包括:ppo算法、a2c算法、a3c算法、ddpg算法以及trpo算法中的任意一种。

4.根据权利要求3所述的方法,其特征在于,当所述强化学习算法为ppo算法时,所述损失函数为:

5.根据权利要求3所述的方法,其特征在于,当所述强化学习算法为...

【专利技术属性】
技术研发人员:罗强肖羽佳付强张伟马世奎
申请(专利权)人:达闼机器人股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1