基于分层深度强化学习模型的机器人行为决策方法及设备技术

技术编号：35783543 阅读：11 留言：0更新日期：2022-12-01 14:29

本申请提供一种基于分层深度强化学习模型的机器人行为决策方法及设备，本申请通过模拟人脑的分层组织机理，提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型，该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中，当其处于稀疏奖励的环境中时，上层模块根据智能体与环境的交互情况，为底层模块设定子目标，同时，上层模块可以感知环境并预测智能体的状态转移。此外，预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度，在底层模块中，设计了一个降维网络来编码和映射状态信息，因此，该深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。的稀疏奖励问题。的稀疏奖励问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于分层深度强化学习模型的机器人行为决策方法及设备

[0001]本申请涉及计算机领域，尤其涉及一种基于分层深度强化学习模型的机器人行为决策方法及设备。

技术介绍

[0002]现有技术中，随着科技的发展，移动机器人在人类的生产和生活中得到了越来越广泛的应用，如工业，农业，军事，医疗，家政服务，金融，太空探索，教育领域等。移动机器人要满足这些不同的任务要求，必须具备良好的行为决策性能。
[0003]在不同的机器人行为决策方法中，强化学习由于自学习和动态随机优化等优点而得到了广泛的应用，如自主车辆的自动驾驶，以及自动驾驶过程的超车决策，军事物流智能体的学习行为建模，机器人导航与避障，机器人的声音
‑
视觉注视控制，多机器人路径规划，多机器人系统的任务分配，机器人装配任务等；有关研究指出，情景记忆中显著事件的提取能比普通事件有效缩短行为决策过程中的思考时间，表明存储在海马区的显著事件可以优先传播奖励信息，允许决策者更快地学习动作策略。
[0004]随着深度学习算法的发展，深度强化学习算法应运而生，并在移动机器人行为决策中获得越来越多的应用，如自主运动车辆的驾驶规划和车辆跟随，攻防对抗任务中多自主水下车辆的协同行为决策，小型无人机的避障，自主车辆的在线轨迹规划，多协作智能体的协调行为，自主水面车辆的路径跟随和避障，多智能体任务分配，自主水面水下车辆的目标跟踪，无人空中车辆群的多目标跟踪，双足机器人的鲁棒运动控制等。
[0005]随着机器人要处理的任务越来越复...

【技术保护点】

【技术特征摘要】
1.基于分层深度强化学习模型的机器人行为决策方法，其特征在于，所述方法包括：获取当前状态信息和目标任务；构建分层深度强化学习模型，所述分层深度强化学习模型包括顶层模块和底层模块，顶层模块包括决策管理网络和目标导向管理机制；底层模块包括降维网络、奖励处理机制和深度Q网络；基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策并执行；获取所述下一时刻状态信息，并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列，所述顶层模块基于所述当前状态转移序列得到奖励预测值；重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值，利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型。2.根据权利要求1所述的方法，其特征在于，所述构建分层深度强化学习模型中包括构建降维网络，所述降维网络包括三个子网，所述每个子网包括一个卷积层、一个激活函数和一个池化层；所述三个子网顺序串联接入全连接神经网络中并引入Tanh激活函数。3.根据权利要求2所述的方法，其特征在于，所述获取所述下一时刻状态信息，并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列，包括：将所述当前状态信息输入所述降维网络中得到当前低维特征信息；将所述下一时刻状态信息输入所述降维网络中得到下一时刻低维特征信息；将所述当前状态信息对应的行为决策与当前低维特征信息和下一时刻低维特征信息拼接输出当前状态转移序列。4.根据权利要求1所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：王子琦，王亮，寇启龙，邵奇，游丹，刘智，周磊月，王伯恩，曹冠男，刘然，
申请(专利权)人：国网河南省电力公司洛阳供电公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人