当前位置: 首页 > 专利查询>郑州大学专利>正文

基于记忆序列回放机制的机器人行为决策方法及设备技术

技术编号:30649725 阅读:14 留言:0更新日期:2021-11-04 01:06
本申请提供一种基于记忆序列回放机制的机器人行为决策方法及设备,本申请通过获取目标任务和当前环境信息,所述当前环境信息包括所有障碍物信息;构建神经网络模型,在发育网络中设置动态自适应竞争机制,增加高级特征表示层进行在线自主学习,并基于记忆序列回放机制不断更新输出层中动作神经元的突触连接权重直至网络稳定;基于所述当前环境信息,通过所述神经网络模型计算得到全局最优行为决策,即该方法可以在在线和离线状态下自主学习或识别复杂环境下不规则障碍物的信息,使机器人能够适应复杂多变的环境,实现机器人的全局最优决策,提升神经网络的收敛速度。提升神经网络的收敛速度。提升神经网络的收敛速度。

【技术实现步骤摘要】
基于记忆序列回放机制的机器人行为决策方法及设备


[0001]本申请涉及计算机领域,尤其涉及一种基于记忆序列回放机制的机器人行为决策方法及设备。

技术介绍

[0002]现有技术中,在机器人决策优化领域,存在大量的智能算法,如蚁群算法、免疫算法、遗传算法、粒子群算法等,这些方法都存在任务确定、智能扩展性差、无法适应多变的环境以及难以保证全局最优等局限。为了克服这些缺点,受人脑神经系统、记忆机理及其信息加工机制的启发,研究人员提出了多种生物启发的认知计算模型,为实现更高层的认知和突破传统方法的局限提供了重要的研究思路。
[0003]人类大脑在决策方面具有很高的效率,这很大一部分原因在于大脑通过记忆回放的机理来理解事物之间的关系(大脑中哪些记忆对完成任务最有用,哪些记忆对导致的结果有不利的影响)。大脑在清醒状态下,经常会发生记忆重放,记忆重放对大脑中记忆整合和检索具有重要的意义,其中海马体是事件记忆的编码、合并和检索所必需的。在编码阶段,海马神经元显示异步放电,在睡眠或清醒状态下,海马表现出活性并且先前存储的记忆以更快的时间尺度进行回放,这种记忆回放对理解上下文之间的关系具有重要作用。包含海马体和前额叶皮层在内的大脑结构网络控制着目标导向的行为和决策,并在智能体导航任务中体现出来。海马体在进行记忆序列回放时,其内部伴随着大量神经元的重新激活,通常在整个特定事件期间和之后持续长达12秒。研究发现记忆序列对人脑中目标引导的决策系统具有重要作用,相关数据和计算模型表明,这些序列对于在线选择和学习很有帮助,建立的模型使用序列来推断未来事件,并根据先前获得的知识来计划行动。人脑在进行目标导向时,除了海马体发挥重要作用之外,大脑的前额叶也具有重要的作用。在进行导航任务时,大脑前额叶中进行了一系列神经活动,在路径规划、适应环境变化、更新路线计划、跟踪目标和选择路径方面起着至关重要的作用。
[0004]因此,在基于神经网络模型的机器人决策优化问题中应当提高对复杂环境和复杂障碍物的识别能力,增强神经网络的自主学习能力,从而保证机器人行为决策的全局最优。

技术实现思路

[0005]本申请的一个目的是提供一种基于记忆序列回放机制的机器人行为决策方法及设备,以解决现有技术中如何在复杂环境中通过自主学习快速收敛实现机器人全局最优决策的问题。
[0006]根据本申请的一个方面,提供了一种基于记忆序列回放机制的机器人行为决策方法包括:
[0007]获取目标任务和当前环境信息,所述当前环境信息包括所有障碍物信息;
[0008]构建神经网络模型,在发育网络中设置动态自适应竞争机制,增加高级特征表示层进行在线自主学习,并基于记忆序列回放机制不断更新输出层中动作神经元的突触连接
权重直至网络稳定;
[0009]基于所述当前环境信息,通过所述神经网络模型计算得到全局最优行为决策。
[0010]进一步地,上述机器人行为决策方法中,所述基于记忆序列回放机制不断更新输出层中动作神经元的突触连接权重直至网络稳定,包括:
[0011]所述发育网络设置记忆回放单元,所述记忆回放单元基于所述高级特征表示层的神经元的被激活时间依次存储所述高级特征表示层的神经元激活状态信息及其对应的动作决策;
[0012]基于记忆序列回放机制,通过所述记忆回放单元不断更新所述高级特征表示层的神经元状态值和所述输出层中动作神经元的突触连接权重,直至所述输出层中动作神经元的突触连接权重趋于稳定。
[0013]进一步地,上述机器人行为决策方法中,基于记忆序列回放机制,通过所述记忆回放单元不断更新所述高级特征表示层的神经元状态值和所述输出层中动作神经元的突触连接权重,直至所述输出层中动作神经元的突触连接权重趋于稳定,包括:
[0014]将所述高级特征表示层的所述神经元激活状态信息按照存储时间的倒序依次重新激活所述高级特征表示层的神经元,并基于所述高级特征表示层的神经元被重新激活的顺序以固定幅度缩减所述神经元状态值,所述神经元状态值记录了所述高级特征表示层的神经元发放后,输入到所述输出层后对应的获胜神经元的最大响应值;
[0015]基于所述高级特征表示层的所述神经元状态值更新所述输出层中动作神经元的突触连接权重,直至所述输出层中动作神经元的突触连接权重趋于稳定。
[0016]进一步地,上述机器人行为决策方法中,所述在发育网络中设置动态自适应竞争机制,增加高级特征表示层进行在线自主学习,包括:
[0017]所述发育网络中包括低级特征表示层和对应所述低级特征表示层的迁移层,在所述低级特征表示层后增加所述高级特征表示层;
[0018]获取环境信息训练集,将所述环境训练集中的所有特征信息进行编码输入所述发育网络,激活所述低级特征表示层的神经元,并更新所述低级特征表示层的神经元权重;
[0019]将所述低级特征表示层的所述神经元激活状态信息输入所述高级特征表示层中,激活所述高级特征表示层的神经元并计算所述高级特征表示层的神经元的响应值,基于所述高级特征表示层的神经元的响应值建立所述低级特征表示层的被激活神经元和所述高级特征表示层的获胜神经元的连接,并更新所述高级特征表示层的神经元权重;
[0020]将所述高级特征表示层的神经元激活状态信息输入所述输出层并输出动作决策。
[0021]进一步地,上述机器人行为决策方法中,将所述低级特征表示层的所述神经元激活状态信息输入所述高级特征表示层中,激活所述高级特征表示层的神经元并计算所述高级特征表示层的神经元的响应值,基于所述高级特征表示层的神经元的响应值建立所述低级特征表示层的被激活神经元和所述高级特征表示层的获胜神经元的连接,并更新所述高级特征表示层的神经元权重,包括:
[0022]将所述低级特征表示层的所述神经元激活状态信息输入所述高级特征表示层中,激活所述高级特征表示层的神经元并计算所述高级特征表示层的所有神经元的响应值,得到所述高级特征表示层的最大响应值及其对应的神经元;
[0023]当所述最大响应值小于1时,若所述最大响应值对应的神经元的年龄为 1,则建立
所述低级特征表示层的所有所述被激活神经元和所述高级特征表示层的获胜神经元的连接,并不断更新所述高级特征表示层的神经元权重;
[0024]若所述最大响应值对应的神经元的年龄大于1,则在所述高级特征表示层中生成新的神经元,并建立所述低级特征表示层的所有所述被激活神经元和所述高级特征表示层的获胜神经元的连接,并不断更新所述高级特征表示层的神经元权重。
[0025]进一步地,上述机器人行为决策方法中,更新所述低级特征表示层的神经元权重,包括:
[0026]计算得到所述低级特征表示层的神经元的响应值,得到所述低级特征表示层的最大响应值及其对应的神经元;
[0027]预置响应阈值,若所述低级特征表示层的最大响应值大于所述响应阈值,则激活所述低级特征表示层的神经元并更新所述低级特征表示层的神经元权重;
[0028]若所述低级特征表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于记忆序列回放机制的机器人行为决策方法,其特征在于,所述方法包括:获取目标任务和当前环境信息,所述当前环境信息包括所有障碍物信息;构建神经网络模型,在发育网络中设置动态自适应竞争机制,增加高级特征表示层进行在线自主学习,并基于记忆序列回放机制不断更新输出层中动作神经元的突触连接权重直至网络稳定;基于所述当前环境信息,通过所述神经网络模型计算得到全局最优行为决策。2.根据权利要求1所述的方法,其特征在于,所述基于记忆序列回放机制不断更新输出层中动作神经元的突触连接权重直至网络稳定,包括:所述发育网络设置记忆回放单元,所述记忆回放单元基于所述高级特征表示层的神经元的被激活时间依次存储所述高级特征表示层的神经元激活状态信息及其对应的动作决策;基于记忆序列回放机制,通过所述记忆回放单元不断更新所述高级特征表示层的神经元状态值和所述输出层中动作神经元的突触连接权重,直至所述输出层中动作神经元的突触连接权重趋于稳定。3.根据权利要求2所述的方法,其特征在于,所述基于记忆序列回放机制,通过所述记忆回放单元不断更新所述高级特征表示层的神经元状态值和所述输出层中动作神经元的突触连接权重,直至所述输出层中动作神经元的突触连接权重趋于稳定,包括:将所述高级特征表示层的所述神经元激活状态信息按照存储时间的倒序依次重新激活所述高级特征表示层的神经元,并基于所述高级特征表示层的神经元被重新激活的顺序以固定幅度缩减所述神经元状态值,所述神经元状态值,记录了所述高级特征表示层的神经元发放后,输入到所述输出层后对应的获胜神经元的最大响应值;基于所述高级特征表示层的所述神经元状态值更新所述输出层中动作神经元的突触连接权重,直至所述输出层中动作神经元的突触连接权重趋于稳定。4.根据权利要求1所述的方法,其特征在于,所述在发育网络中设置动态自适应竞争机制,增加高级特征表示层进行在线自主学习,包括:所述发育网络中包括低级特征表示层和对应所述低级特征表示层的迁移层,在所述低级特征表示层后增加所述高级特征表示层;获取环境信息训练集,将所述环境训练集中的所有环境特征信息进行编码输入所述发育网络,激活所述低级特征表示层的神经元,并更新所述低级特征表示层的神经元权重;将所述低级特征表示层的所述神经元激活状态信息输入所述高级特征表示层中,激活所述高级特征表示层的神经元并计算所述高级特征表示层的神经元的响应值,基于所述高级特征表示层的神经元的响应值建立所述低级特征表示层的被激活神经元和所述高级特征表示层的获胜神经元的连接,并更新所述高级特征表示层的神经元权重;将所述高级特征表示层的神经元激活状态信息输入所述输出层并输...

【专利技术属性】
技术研发人员:王东署罗勇辛健斌王河山马天磊张方方
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1