基于深度强化学习的机器人行走控制方法、系统及介质技术方案

技术编号：25394671 阅读：39 留言：0更新日期：2020-08-25 23:00

本发明专利技术提供的基于深度强化学习的机器人行走控制方法，设置奖励机制；构建多专家神经网络；所述多专家神经网络包括一个顶层网络和至少一个底层网络；利用所述奖励机制和采集的样本数据对顶层网络进行训练；在机器人运行过程中，顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合，并根据融合结果输出控制指令，将所述控制指令发送给机器人，控制机器人中关节的电机。该方法可以在不同的专家网络之间进行连续切换，增加了组合的多样性，改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象，能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的机器人行走控制方法、系统及介质
本专利技术属于机器人
，具体涉及基于深度强化学习的机器人行走控制方法、系统及介质。
技术介绍
常见的机器人运动控制方法大多数都需要花费大量的人力与时间建造精确的模型。随着深度强化学习等其他机器学习算法理论的不断完善，以及电脑运算量的不断增加，机器人运动控制方法中深度强化学习已经成为传统控制算法的替代品。这样深度强化学习算法就能将大量负担转移到了计算机计算中，比起传统控制方法，节省了人力与时间成本，解放了大量劳动力。但是现有采用深度强化学习的机器人运动控制方法中，强化学习的结果很难把控，可能会学出一些人们意想不到的非理想行为。以双足与四足机器人行走为例，人类与动物的运动步态是周期性并且对称的。但是在缺乏约束的情况下，采用机器学习方法学出来的运动步态往往是非对称并且非自然的。
技术实现思路
针对现有技术中的缺陷，本专利技术提供一种基于深度强化学习的机器人行走控制方法、系统及介质，改善现有机器人运动步态非对称、非自然的缺陷。一种基于深度强化学习的机器人行走控制方法，包括以下步骤：设置奖励机制；构建多专家神经网络；所述多专家神经网络包括一个顶层网络和至少一个底层网络；利用所述奖励机制和采集的样本数据对顶层网络进行训练；在机器人运行过程中，顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合，并根据融合结果输出控制指令，将所述控制指令发送给机器人中关节的电机。优选地，所述奖励机制包...

【技术保护点】
1.一种基于深度强化学习的机器人行走控制方法，其特征在于，包括以下步骤：/n设置奖励机制；/n构建多专家神经网络；所述多专家神经网络包括一个顶层网络和至少一个底层网络；/n利用所述奖励机制和采集的样本数据对顶层网络进行训练；/n在机器人运行过程中，顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合，并根据融合结果输出控制指令，将所述控制指令发送给机器人中关节的电机。/n

【技术特征摘要】
1.一种基于深度强化学习的机器人行走控制方法，其特征在于，包括以下步骤：
设置奖励机制；
构建多专家神经网络；所述多专家神经网络包括一个顶层网络和至少一个底层网络；
利用所述奖励机制和采集的样本数据对顶层网络进行训练；
在机器人运行过程中，顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合，并根据融合结果输出控制指令，将所述控制指令发送给机器人中关节的电机。

2.根据权利要求1所述机器人行走控制方法，其特征在于，
所述奖励机制包括模仿奖励和任务奖励；
模仿奖励用于引导机器人学习并模仿人类行走步态；任务奖励用于引导机器人以指定速度朝着指定方向行走。

3.根据权利要求2所述机器人行走控制方法，其特征在于，
所述模仿奖励中的奖励项包括以下一个或多个的组合：
关节角度、关节角速度和足部接触信息；
所述任务奖励中的奖励项包括以下一个或多个的组合：
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。

4.根据权利要求1所述机器人行走控制方法，其特征在于，
所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建；
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。

5.根据权利要求1所述机器人行走控制方法，其特征在于，
采集到的样本数据通过以下方法进行过滤：
当通过样本数据检测到机器人摔倒时，删除该样本数据。

6.根据权利要求1所述机器人行走控制方法，其特征在于，所述对顶层网络进行训练具体包括：
采用具有actor-critic架构的强化学习...

【专利技术属性】
技术研发人员：杨传宇，蒲灿，
申请(专利权)人：深圳阿米嘎嘎科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人