基于分层深度强化学习模型的机器人行为决策方法及设备技术

技术编号:35783543 阅读:11 留言:0更新日期:2022-12-01 14:29
本申请提供一种基于分层深度强化学习模型的机器人行为决策方法及设备,本申请通过模拟人脑的分层组织机理,提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型,该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中,当其处于稀疏奖励的环境中时,上层模块根据智能体与环境的交互情况,为底层模块设定子目标,同时,上层模块可以感知环境并预测智能体的状态转移。此外,预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度,在底层模块中,设计了一个降维网络来编码和映射状态信息,因此,该深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。的稀疏奖励问题。的稀疏奖励问题。

【技术实现步骤摘要】
基于分层深度强化学习模型的机器人行为决策方法及设备


[0001]本申请涉及计算机领域,尤其涉及一种基于分层深度强化学习模型的 机器人行为决策方法及设备。

技术介绍

[0002]现有技术中,随着科技的发展,移动机器人在人类的生产和生活中得 到了越来越广泛的应用,如工业,农业,军事,医疗,家政服务,金融, 太空探索,教育领域等。移动机器人要满足这些不同的任务要求,必须具 备良好的行为决策性能。
[0003]在不同的机器人行为决策方法中,强化学习由于自学习和动态随机优 化等优点而得到了广泛的应用,如自主车辆的自动驾驶,以及自动驾驶过 程的超车决策,军事物流智能体的学习行为建模,机器人导航与避障,机 器人的声音

视觉注视控制,多机器人路径规划,多机器人系统的任务分配, 机器人装配任务等;有关研究指出,情景记忆中显著事件的提取能比普通 事件有效缩短行为决策过程中的思考时间,表明存储在海马区的显著事件 可以优先传播奖励信息,允许决策者更快地学习动作策略。
[0004]随着深度学习算法的发展,深度强化学习算法应运而生,并在移动机 器人行为决策中获得越来越多的应用,如自主运动车辆的驾驶规划和车辆 跟随,攻防对抗任务中多自主水下车辆的协同行为决策,小型无人机的避 障,自主车辆的在线轨迹规划,多协作智能体的协调行为,自主水面车辆 的路径跟随和避障,多智能体任务分配,自主水面水下车辆的目标跟踪, 无人空中车辆群的多目标跟踪,双足机器人的鲁棒运动控制等。
[0005]随着机器人要处理的任务越来越复杂,分层强化学习思想在移动机器 人自主行为决策领域逐步得到应用,如自主车辆的路线和调度决策,用于 疾病诊断的知识注入式上下文驱动的对话智能体的行为决策,智能体连续 导航过程中子目标的确定,智能体的遗忘经历回放,智能车辆的自主决策 与运动规划,自主车辆的轨迹与行为规划等。
[0006]这些强化学习算法虽然在各自的研究对象上取得了一定的成功,但对 移动机器人行为决策的研究仍然欠缺,已有的行为决策方法相对比较简 单。若机器人在环境交互过程中没有得到奖励,样本对强化学习的贡献会 非常小。直接使用稀疏奖励样本用于机器人学习将导致迭代过程变慢甚至 导致强化学习算法难以收敛。
[0007]因此,研究如何解决稀疏奖励带来的负面影响,如学习率低,环境学 习性能差等,对提高强化学习的学习速度和策略有重要作用。

技术实现思路

[0008]本申请的一个目的是提供一种基于分层深度强化学习模型的机器人行 为决策方法及设备,以解决现有技术中移动机器人环境交互过程中存在的 稀疏奖励带来的学习率低,环境学习性能差等问题。
[0009]根据本申请的一个方面,提供了一种基于分层深度强化学习模型的机 器人行为决策方法,包括:
[0010]获取当前状态信息和目标任务;
[0011]构建分层深度强化学习模型,所述分层深度强化学习模型包括顶层模块 和底层模块,顶层模块包括决策管理网络和目标导向管理机制;底层模块包 括降维网络、奖励处理机制和深度Q网络;
[0012]基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策 并执行;
[0013]获取所述下一时刻状态信息,并将所述当前状态信息以及下一时刻状态 信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到 当前状态转移序列,所述顶层模块基于所述当前状态转移序列得到奖励预测 值;
[0014]重复上述步骤直至机器人发生撞击,获取本回合得分以及完成本回合的 目标任务之前的所有回合得分,将所有回合得分输入管理目标导向机制得到 奖励增益值,利用所有所述奖励预测值和奖励增益值不断训练所述分层深度 强化学习模型,得到优化学习后的所述分层深度强化学习模型。
[0015]进一步地,上述基于分层深度强化学习模型的机器人行为决策方法中, 所述构建分层深度强化学习模型包括构建降维网络,所述降维网络包括三个 子网,所述每个子网包括一个卷积层、一个激活函数和一个池化层;
[0016]所述三个子网顺序串联接入全连接神经网络中并引入Tanh激活函数。
[0017]进一步地,上述基于分层深度强化学习模型的机器人行为决策方法中, 所述获取所述下一时刻状态信息,并将所述当前状态信息以及下一时刻状态 信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到 当前状态转移序列,包括:
[0018]将所述当前状态信息输入所述降维网络中得到当前低维特征信息;
[0019]将所述下一时刻状态信息输入所述降维网络中得到下一时刻低维特征信 息;
[0020]将所述当前状态信息对应的行为决策与当前低维特征信息和下一时刻低 维特征信息拼接输出当前状态转移序列。
[0021]进一步地,上述基于分层深度强化学习模型的机器人行为决策方法中, 所述重复上述步骤直至机器人发生撞击,获取本回合得分以及完成本回合的 目标任务之前的所有回合得分,将所有回合得分输入管理目标导向机制得到 奖励增益值,利用所有所述奖励预测值和奖励增益值不断训练所述分层深度 强化学习模型,得到优化学习后的所述分层深度强化学习模型,包括:
[0022]将所述当前状态转移序列输入所述决策管理网络得到奖励预测值;
[0023]执行所述行为决策后获取环境奖励信号;
[0024]重复上述步骤直至机器人发生撞击,获取本回合得分以及完成本回合的 目标任务之前的所有回合得分,将所有回合得分输入管理目标导向机制得到 奖励增益值;
[0025]将得到的所有状态转移序列、奖励预测值、奖励增益值、环境奖励信号 放入经验池中储存并更新;
[0026]利用经验池中的数据不断训练所述分层深度强化学习模型,得到优化学 习后的所述分层深度强化学习模型。
[0027]进一步地,上述基于分层深度强化学习模型的机器人行为决策方法中, 利用经验池中的数据不断训练所述分层深度强化学习模型,得到优化学习后 的所述分层深度强化
学习模型,包括:
[0028]利用所述经验池中的所有所述状态转移序列、奖励预测值以及环境奖励 信号共同做损失函数,通过反向传播优化所述决策管理网络的参数;
[0029]从所述经验池中利用状态转移序列得到的奖励预测值、奖励增益值训练 优化深度Q网络得到优化学习后的所述分层深度强化学习模型。
[0030]根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有 计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实 现如上述任一项所述的方法。
[0031]根据本申请的另一方面,还提供了一种基于分层深度强化学习模型的 机器人行为决策设备,该设备包括:
[0032]一个或多个处理器;
[0033]计算机可读介质,用于存储一个或多个计算机可读指令,
[0034]当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得 所述一个或多个处理器实现如上述中任一项所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于分层深度强化学习模型的机器人行为决策方法,其特征在于,所述方法包括:获取当前状态信息和目标任务;构建分层深度强化学习模型,所述分层深度强化学习模型包括顶层模块和底层模块,顶层模块包括决策管理网络和目标导向管理机制;底层模块包括降维网络、奖励处理机制和深度Q网络;基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策并执行;获取所述下一时刻状态信息,并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列,所述顶层模块基于所述当前状态转移序列得到奖励预测值;重复上述步骤直至机器人发生撞击,获取本回合得分以及完成本回合的目标任务之前的所有回合得分,将所有回合得分输入管理目标导向机制得到奖励增益值,利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型,得到优化学习后的所述分层深度强化学习模型。2.根据权利要求1所述的方法,其特征在于,所述构建分层深度强化学习模型中包括构建降维网络,所述降维网络包括三个子网,所述每个子网包括一个卷积层、一个激活函数和一个池化层;所述三个子网顺序串联接入全连接神经网络中并引入Tanh激活函数。3.根据权利要求2所述的方法,其特征在于,所述获取所述下一时刻状态信息,并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列,包括:将所述当前状态信息输入所述降维网络中得到当前低维特征信息;将所述下一时刻状态信息输入所述降维网络中得到下一时刻低维特征信息;将所述当前状态信息对应的行为决策与当前低维特征信息和下一时刻低维特征信息拼接输出当前状态转移序列。4.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:王子琦王亮寇启龙邵奇游丹刘智周磊月王伯恩曹冠男刘然
申请(专利权)人:国网河南省电力公司洛阳供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1