基于自适应近端优化的机器人动作方法技术

技术编号:34558407 阅读:36 留言:0更新日期:2022-08-17 12:45
一种基于自适应近端优化的机器人动作方法,包括如下步骤,步骤S1.开始执行仿真训练任务,判断机器人数据迭代次数是否达到要求次数,若没有达到,则重置机器人到一个初始状态,使用策略运行机器人进行T步或达到目标状态,若达到,则使用来自当前迭代过程中的k组数据训练critical网络;步骤S2.使用GAE估算优势函数值,忽视优势函数值中为负的数据或将其转换为正值;步骤S3.使用过去H组迭代数据和损失函数获取k组数据训练策略方差;步骤S4.使用当前迭代数据和损失函数获取k组数据训练策略均值。本方法在训练速度上的提升对于实际的动作训练帮助巨大。在执行三维连续动作的任务时稳定性明显优于其他方法。定性明显优于其他方法。定性明显优于其他方法。

【技术实现步骤摘要】
基于自适应近端优化的机器人动作方法


[0001]本专利技术属于仿真机器人
,具体涉及一种基于自适应近端优化的机器人动作方法。

技术介绍

[0002]在近几十年的机器人研究领域,行为学习起到了至关重要的作用。尤其在机器人世界杯中,全球各地的参赛队伍都将遗传学习算法应用于机器人模型的参数学习,试图建立自由行为模型。然而在模型的自由行为方面,特别是自由行走训练仍存在很大的局限性:学习获得的行为很难被当前的观测值和机器人状态所约束;在学习过程中依旧容易重复失败的先例。
[0003]强化学习则没有这方面的诸多缺点,即使被限制在较小的观测空间和行为空间下依旧有良好的表现。深度强化学习算法(DRL)在大样本的连续观测空间或是连续动作空间的训练中展现出其他算法难以匹敌的优秀性能。例如离线策略算法DDPG、DQN或是在线策略算法A2C、PPO。这些算法在实际竞技运动中的实践也初见成效:例如星际争霸中进行人工智能的多线操作;DOTA2中战胜人类职业选手。
[0004]尽管深度学习算法在机器人训练中的应用十分广泛,但其训练效率仍无法满足预期,并本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于自适应近端优化的机器人动作方法,其特征在于,包括如下步骤,步骤S1.开始执行仿真训练任务,判断机器人数据迭代次数是否达到要求次数,若没有达到,则重置机器人到一个初始状态,使用策略运行机器人进行T步或达到目标状态,若达到,则使用来自当前迭代过程中的k组数据训练critical网络;步骤S2.使用GAE估算优势函数值,忽视优势函数值为负的数据或将其转换为正值;步骤S3.使用过去H组迭代数据和损失函数获取k组数据训练策略方差;步骤S4.使用当前迭代数据和损失函数获取k组数据训练策略均值。2.根据权利要求1所述的基于自适应近端优化的机器人动作方法,其特征在于,仿真训练的服务项目为Robocup 3d足球,其主体环境基于Simspark生成,采用ODE引擎在50Hz的频率下运行,Simspark环境中提供了以实体Nao机器人为参照的仿真模型;该机器人拥有22个自由度,其中腿部关节拥有7个自由度,手部关节有4个,脖颈有2个;各关节所能达到的最大角速度为每20毫秒7.02度,由于仿真服务器的更新频率为50Hz,在没有接受到agent发出的信号时默认其以前一个信号周期的状态运行,对于单个机器人,从自身改变参数并给服务器发出信号到接受到服务器返回的信号最快为40ms,即两个信号周期。3.根据权利要求1所述的基于自适应近端优化的机器人动作方法,其特征在于,策略为自适应近端策略,在时间t时,agent观测到状态矩阵s
t
并采取动作a
t
~π
θ
(a
t
|s
t
),其中π
θ<...

【专利技术属性】
技术研发人员:沈一鸥梁志伟高翔付羽佳
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1