基于深度强化学习的机器人行走控制方法、系统及介质技术方案

技术编号:25394671 阅读:39 留言:0更新日期:2020-08-25 23:00
本发明专利技术提供的基于深度强化学习的机器人行走控制方法,设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;利用所述奖励机制和采集的样本数据对顶层网络进行训练;在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人,控制机器人中关节的电机。该方法可以在不同的专家网络之间进行连续切换,增加了组合的多样性,改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。

【技术实现步骤摘要】
基于深度强化学习的机器人行走控制方法、系统及介质
本专利技术属于机器人
,具体涉及基于深度强化学习的机器人行走控制方法、系统及介质。
技术介绍
常见的机器人运动控制方法大多数都需要花费大量的人力与时间建造精确的模型。随着深度强化学习等其他机器学习算法理论的不断完善,以及电脑运算量的不断增加,机器人运动控制方法中深度强化学习已经成为传统控制算法的替代品。这样深度强化学习算法就能将大量负担转移到了计算机计算中,比起传统控制方法,节省了人力与时间成本,解放了大量劳动力。但是现有采用深度强化学习的机器人运动控制方法中,强化学习的结果很难把控,可能会学出一些人们意想不到的非理想行为。以双足与四足机器人行走为例,人类与动物的运动步态是周期性并且对称的。但是在缺乏约束的情况下,采用机器学习方法学出来的运动步态往往是非对称并且非自然的。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种基于深度强化学习的机器人行走控制方法、系统及介质,改善现有机器人运动步态非对称、非自然的缺陷。一种基于深度强化学习的机器人行走控制方法,包括以下步骤:设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;利用所述奖励机制和采集的样本数据对顶层网络进行训练;在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。优选地,所述奖励机制包括模仿奖励和任务奖励;模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:关节角度、关节角速度和足部接触信息;所述任务奖励中的奖励项包括以下一个或多个的组合:胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。优选地,所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。优选地,采集到的样本数据通过以下方法进行过滤:当通过样本数据检测到机器人摔倒时,删除该样本数据。优选地,所述对顶层网络进行训练具体包括:采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。优选地,所述将所述控制指令发送给机器人中关节的电机具体包括:利用PD控制器将所述控制指令转换为目标力矩;将所述目标力矩发送给机器人中关节的电机。第二方面,一种基于深度强化学习的机器人行走控制系统,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;利用所述奖励机制和采集的样本数据对顶层网络进行训练;在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。优选地,所述处理器被配置用于调用所述程序指令,具体执行以下方法:利用PD控制器将所述控制指令转换为目标力矩;将所述目标力矩发送给机器人中关节的电机。第三方面,一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;利用所述奖励机制和采集的样本数据对顶层网络进行训练;在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。由上述技术方案可知,本专利技术提供的基于深度强化学习的机器人行走控制方法、系统及介质,相对于传统多专家神经网络的离散切换方法,可以在不同的专家网络之间进行连续切换,增加了组合的多样性,改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1为本专利技术实施例一提供的机器人行走控制方法的流程图。图2为本专利技术实施例一提供的actor-critic强化学习训练方法的架构。图3为本专利技术实施例一中时序相位信息的表述方法。图4为本专利技术实施例三提供的多专家神经网络的框架图。图5为本专利技术实施例三提供的机器人行走控制方法的框架图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。实施例一:一种基于深度强化学习的机器人行走控制方法,参见图1、2,包括以下步骤:S1:设置奖励机制;具体地,奖励在深度强化学习中起到引导机器人学习的作用,因此奖励机制设计的好坏直接决定了最终训练的结果。S2:构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;具体地,该方法中的多专家神经网络分上下两层。底层网络是专本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的机器人行走控制方法,其特征在于,包括以下步骤:/n设置奖励机制;/n构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;/n利用所述奖励机制和采集的样本数据对顶层网络进行训练;/n在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。/n

【技术特征摘要】
1.一种基于深度强化学习的机器人行走控制方法,其特征在于,包括以下步骤:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。


2.根据权利要求1所述机器人行走控制方法,其特征在于,
所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。


3.根据权利要求2所述机器人行走控制方法,其特征在于,
所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。


4.根据权利要求1所述机器人行走控制方法,其特征在于,
所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。


5.根据权利要求1所述机器人行走控制方法,其特征在于,
采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。


6.根据权利要求1所述机器人行走控制方法,其特征在于,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习...

【专利技术属性】
技术研发人员:杨传宇蒲灿
申请(专利权)人:深圳阿米嘎嘎科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1