基于双智能体协作博弈的双足机器人行走控制方法和系统技术方案

技术编号:28417450 阅读:20 留言:0更新日期:2021-05-11 18:24
本发明专利技术公开了一种基于双智能体协作博弈的双足机器人行走控制方法和系统,包括:构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块;采集第一状态参数,第一深度强化学习模块输出第一最优动作控制策略;采集第二状态参数,第二深度强化学习模块输出第二最优动作控制策略;其中,第一状态参数和第二状态参数分别为机器人左右腿的状态参数;基于第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。本方法通过构建两个深度强化学习模型分别对机器人的两腿的动作控制策略进行分析,通过对机器人两条腿的单独控制,在提高输出动作稳定度的同时,降低控制模型的控制维度、减小模型拟合的难度。

【技术实现步骤摘要】
基于双智能体协作博弈的双足机器人行走控制方法和系统
本专利技术涉及机器人自动控制
,特别涉及一种基于双智能体协作博弈的双足机器人行走控制方法和系统。
技术介绍
由于机器人各个部件的非线性特性较强,机器人系统的运动自由度需求较高,并且机器人系统结构复杂、具有极高的耦合度。因此针对与机器人各个部件及其系统进行建模控制,是一件非常困难和复杂的事情。目前针对于机器人的控制方法主要包括:基于李雅普洛夫理论的非线性控制方法、基于动态规划和最优控制的控制方法和其他基于状态空间法的控制方法,在机器人控制方面,存在需要建立的模型较大、其稳定性和适用性很难保障的问题。此外,机器人的腿部起到整个身体的平衡、负重和移动的作用,因此两条腿的自由度加到一起、自由度的维数较高,而现有的控制方法通常采用一个控制模型同时对机器人的两腿进行控制,仅仅采用一个控制模型来控制两条腿的运动其精度不够高,输出的动作稳定度较低。
技术实现思路
本专利技术的目的之一至少在于,针对如何克服上述现有技术存在的问题,提供一种基于双智能体协作博弈的双足机器人行走控制方法和系统。为了实现上述目的,本专利技术采用的技术方案包括以下各方面。一种基于双智能体协作博弈的双足机器人行走控制方法,包括:构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块;采集第一状态参数,所述第一深度强化学习模块根据所述第一状态参数和当前环境状态及奖励,通过自我学习更新网络参数,输出第一最优动作控制策略;采集第二状态参数,所述第二深度强化学习模块根据所述第二状态参数和当前环境状态及奖励,通过自我学习更新网络参数,输出第二最优动作控制策略;其中,所述第一状态参数和第二状态参数分别为机器人左腿或右腿的状态参数;基于所得第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。优选的,所述第一深度强化学习模块为基于Actor-Critic的深度强化学习网络,包括:第一Actor网络和第一Critic网络;其中,所述第一Critic网络为以动作价值为评估点的Critic网络。优选的,所述第一深度强化学习模块根据所述第一状态参数和当前环境状态及奖励,通过自我学习更新网络参数,输出第一最优动作控制策略,具体为:所述第一Actor网络根据第一状态参数选择动作,并将其选择的动作输出至所述第一Critic网络;所述第一Critic网络对所述第一Actor网络选择的动作进行模拟评估,输出所选动作的价值,并根据估计的价值和环境反馈的奖励,调节第一Actor网络;所述第一Actor网络根据所述动作价值采用第一策略梯度函数更新其网络参数,从而输出第一最优动作控制策略。优选的,所述第一策略梯度函数为:其中,为策略梯度,s为状态,a为动作,t为迭代次数,α为学习率;θ为第一Actor网络参数,w为所述第一Critic网络参数;Q为状态-动作价值。优选的,所述第二深度强化学习模块为基于Actor-Critic的深度强化学习网络,包括:第二Actor网络和第二Critic网络;其中,所述第二Critic网络为以状态价值为评估点的Critic网络;优选的,所述第二深度强化学习模块根据所述第二状态参数和当前环境状态,通过自我学习更新网络参数,输出第二最优动作控制策略,具体为:所述第二Actor网络根据第二状态参数选择动作,将其选择的动作作用于环境,并采集环境状态输出至所述第二Critic网络;所述第二Critic网络对所述采集的环境状态进行直接评估,输出其状态价值;并根据所得状态价值和环境反馈的奖励调节第二Actor网络;所述第二Actor网络根据所述状态价值采用第二策略梯度函数更新其网络参数,从而输出第二最优动作控制策略。优选的,所述第二策略梯度函数为:其中,为策略梯度,s为状态,a为动作,t为迭代次数,α为学习率;θ为第二Actor网络参数,w为所述第二Critic网络参数;V为状态价值。优选的,所述第一Critic网络和第二Critic网络采用MLP型深度学习网络,所述第一Actor网络和第二Actor网络采用MLP与LSTM的混合型深度学习网络。优选的,所述第一状态参数和第二状态参数包括:机器人两腿的运动角速度、机器人两腿对地压力、机器人两腿各关节的姿态信息、机器人盆骨的状态信息;所述第一Critic网络、第二Critic网络能够采集机器人的状态图像,实时获取机器人两条腿的状态信息和机器人盆骨的状态信息。一种基于双智能体协作博弈的双足机器人行走控制系统,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令和采集的状态数据,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。综上所述,由于采用了上述技术方案,本专利技术至少具有以下有益效果:构建两个模型复杂度较低的深度强化学习模型分别对机器人的两腿的动作控制策略进行分析,通过对机器人两条腿的单独控制,在提高输出动作稳定度的同时,较低降低相应控制模型的维度、减小模型拟合的难度。采用基于Actor-Critic的深度强化学习网络来构建两个深度强化学习模型,能够提高模型精度、减小模型复杂度。附图说明图1是根据本专利技术示例性实施例的基于双智能体协作博弈的双足机器人行走控制方法流程图。图2是根据本专利技术示例性实施例的两足机器人双腿结构示意图。图3是根据本专利技术示例性实施例的基于双智能体协作博弈的双足机器人行走控制系统结构示意图。具体实施方式下面结合附图及实施例,对本专利技术进行进一步详细说明,以使本专利技术的目的、技术方案及优点更加清楚明白。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。图1示出了根据本专利技术示例性实施例的基于双智能体协作博弈的双足机器人行走控制方法。该实施例的方法主要包括:构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块;采集第一状态参数,所述第一深度强化学习模块根据所述第一状态参数和当前环境状态及奖励,通过自我学习更新网络参数,输出第一最优动作控制策略;采集第二状态参数,所述第二深度强化学习模块根据所述第二状态参数和当前环境状态及奖励,通过自我学习更新网络参数,输出第二最优动作控制策略;其中,所述第一状态参数和第二状态参数分别为机器人左腿或右腿的状态参数;基于所得第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。具体的,为了避免采用传统的工程物理力学分析,模型参数简化,大量控制参数经验的调节所造成的系统控制模型精度不高,建模难度大,甚至有些问题无法解决而在建模分析时省略掉等问题,本方法采用深度学习网络对机器人高度非线性的模型进行拟合,并利用两智能体(深度强化学习网络)协同控制的方法对机器人进行控制。为了对机器人的非线性、高耦合的系统进行建模,这本文档来自技高网...

【技术保护点】
1.一种基于双智能体协作博弈的双足机器人行走控制方法,其特征在于,所述方法包括:/n构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块;/n采集第一状态参数,所述第一深度强化学习模块根据所述第一状态参数和当前环境状态,通过自我学习更新网络参数,输出第一最优动作控制策略;采集第二状态参数,所述第二深度强化学习模块根据所述第二状态参数和当前环境状态,通过自我学习更新网络参数,输出第二最优动作控制策略;其中,所述第一状态参数和第二状态参数分别为机器人左腿或右腿的状态参数;/n基于所得第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。/n

【技术特征摘要】
1.一种基于双智能体协作博弈的双足机器人行走控制方法,其特征在于,所述方法包括:
构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块;
采集第一状态参数,所述第一深度强化学习模块根据所述第一状态参数和当前环境状态,通过自我学习更新网络参数,输出第一最优动作控制策略;采集第二状态参数,所述第二深度强化学习模块根据所述第二状态参数和当前环境状态,通过自我学习更新网络参数,输出第二最优动作控制策略;其中,所述第一状态参数和第二状态参数分别为机器人左腿或右腿的状态参数;
基于所得第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。


2.根据权利要求1所述的方法,其特征在于,所述第一深度强化学习模块为基于Actor-Critic的深度强化学习网络,包括:第一Actor网络和第一Critic网络;其中,所述第一Critic网络是以动作价值为评估点的Critic网络。


3.根据权利要求2所述的方法,其特征在于,所述第一深度学习模块根据所述第一状态参数和环境反馈的奖励信息,通过自我学习更新网络参数,输出第一最优动作控制策略,具体为:
所述第一Actor网络根据第一状态参数选择动作,并将其选择的动作输出至所述第一Critic网络和第二Critic网络;
所述第一Critic网络对所述第一Actor网络选择的动作进行评估,输出所选动作的价值,并根据环境反馈的奖励信息和估计的价值,调节第一Actor网络;
所述第一Actor网络根据所述动作价值采用第一策略梯度函数更新其网络参数,从而输出第一最优动作控制策略。


4.根据权利要求3所述的方法,其特征在于,所述第一策略梯度函数为:



其中,为策略梯度,s为状态,a为动作,t为迭代次数,α为学习率;θ为第一Actor网络参数,w为所述第一Critic网络参数;Q为状态-动作价值。


5.根据权利要求2所述的方法,其特征在于,所述第二深度强化学习模块为基于Actor-Critic的深度学习网络,...

【专利技术属性】
技术研发人员:王宇郑忠义罗志祥代杨仲杨益见
申请(专利权)人:四川省桑瑞光辉标识系统股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1