基于记忆序列回放机制的机器人行为决策方法及设备技术

技术编号：30649725 阅读：14 留言：0更新日期：2021-11-04 01:06

本申请提供一种基于记忆序列回放机制的机器人行为决策方法及设备，本申请通过获取目标任务和当前环境信息，所述当前环境信息包括所有障碍物信息；构建神经网络模型，在发育网络中设置动态自适应竞争机制，增加高级特征表示层进行在线自主学习，并基于记忆序列回放机制不断更新输出层中动作神经元的突触连接权重直至网络稳定；基于所述当前环境信息，通过所述神经网络模型计算得到全局最优行为决策，即该方法可以在在线和离线状态下自主学习或识别复杂环境下不规则障碍物的信息，使机器人能够适应复杂多变的环境，实现机器人的全局最优决策，提升神经网络的收敛速度。提升神经网络的收敛速度。提升神经网络的收敛速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于记忆序列回放机制的机器人行为决策方法及设备

[0001]本申请涉及计算机领域，尤其涉及一种基于记忆序列回放机制的机器人行为决策方法及设备。

技术介绍

[0002]现有技术中，在机器人决策优化领域，存在大量的智能算法，如蚁群算法、免疫算法、遗传算法、粒子群算法等，这些方法都存在任务确定、智能扩展性差、无法适应多变的环境以及难以保证全局最优等局限。为了克服这些缺点，受人脑神经系统、记忆机理及其信息加工机制的启发，研究人员提出了多种生物启发的认知计算模型，为实现更高层的认知和突破传统方法的局限提供了重要的研究思路。
[0003]人类大脑在决策方面具有很高的效率，这很大一部分原因在于大脑通过记忆回放的机理来理解事物之间的关系(大脑中哪些记忆对完成任务最有用，哪些记忆对导致的结果有不利的影响)。大脑在清醒状态下，经常会发生记忆重放，记忆重放对大脑中记忆整合和检索具有重要的意义，其中海马体是事件记忆的编码、合并和检索所必需的。在编码阶段，海马神经元显示异步放电，在睡眠或清醒状态下，海马表现出活性并且先前存储的记忆以更快的时间尺度进行回放，这种记忆回放对理解上下文之间的关系具有重要作用。包含海马体和前额叶皮层在内的大脑结构网络控制着目标导向的行为和决策，并在智能体导航任务中体现出来。海马体在进行记忆序列回放时，其内部伴随着大量神经元的重新激活，通常在整个特定事件期间和之后持续长达12秒。研究发现记忆序列对人脑中目标引导的决策系统具有重要作用，相关数据和计算模型表明，这些序列对于在线选择和学习很有帮助，建立的模型使用序列...

【技术保护点】

【技术特征摘要】
1.一种基于记忆序列回放机制的机器人行为决策方法，其特征在于，所述方法包括：获取目标任务和当前环境信息，所述当前环境信息包括所有障碍物信息；构建神经网络模型，在发育网络中设置动态自适应竞争机制，增加高级特征表示层进行在线自主学习，并基于记忆序列回放机制不断更新输出层中动作神经元的突触连接权重直至网络稳定；基于所述当前环境信息，通过所述神经网络模型计算得到全局最优行为决策。2.根据权利要求1所述的方法，其特征在于，所述基于记忆序列回放机制不断更新输出层中动作神经元的突触连接权重直至网络稳定，包括：所述发育网络设置记忆回放单元，所述记忆回放单元基于所述高级特征表示层的神经元的被激活时间依次存储所述高级特征表示层的神经元激活状态信息及其对应的动作决策；基于记忆序列回放机制，通过所述记忆回放单元不断更新所述高级特征表示层的神经元状态值和所述输出层中动作神经元的突触连接权重，直至所述输出层中动作神经元的突触连接权重趋于稳定。3.根据权利要求2所述的方法，其特征在于，所述基于记忆序列回放机制，通过所述记忆回放单元不断更新所述高级特征表示层的神经元状态值和所述输出层中动作神经元的突触连接权重，直至所述输出层中动作神经元的突触连接权重趋于稳定，包括：将所述高级特征表示层的所述神经元激活状态信息按照存储时间的倒序依次重新激活所述高级特征表示层的神经元，并基于所述高级特征表示层的神经元被重新激活的顺序以固定幅度缩减所述神经元状态值，所述神经元状态值，记录了所述高级特征表示层的神经元发放后，输入到所述输出层后对应的获胜神经元的最大响应值；基于所述高级特征表示层的所述神经元状态值更新所述输出层中动作神经元的突触连接权重，直至所述输出层中动作神经元的突触连接权重趋于稳定。4.根据权利要求1所述的方法，其特征在于，所述在发育网络中设置动态自适应竞争机制，增加高级特征表示层进行在线自主学习，包括：所述发育网络中包括低级特征表示层和对应所述低级特征表示层的迁移层，在所述低级特征表示层后增加所述高级特征表示层；获取环境信息训练集，将所述环境训练集中的所有环境特征信息进行编码输入所述发育网络，激活所述低级特征表示层的神经元，并更新所述低级特征表示层的神经元权重；将所述低级特征表示层的所述神经元激活状态信息输入所述高级特征表示层中，激活所述高级特征表示层的神经元并计算所述高级特征表示层的神经元的响应值，基于所述高级特征表示层的神经元的响应值建立所述低级特征表示层的被激活神经元和所述高级特征表示层的获胜神经元的连接，并更新所述高级特征表示层的神经元权重；将所述高级特征表示层的神经元激活状态信息输入所述输出层并输...

【专利技术属性】
技术研发人员：王东署，罗勇，辛健斌，王河山，马天磊，张方方，
申请(专利权)人：郑州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人