当前位置: 首页 > 专利查询>郑州大学专利>正文

一种仿人脑记忆机理的机器人行为决策方法及设备技术

技术编号:30432242 阅读:11 留言:0更新日期:2021-10-24 17:26
本申请的目的是提供一种仿人脑记忆机理的机器人行为决策方法及设备,本申请通过获取目标任务和当前环境信息;计算当前环境信息与所有长期记忆环境信息的相似度值,确定最相似长期记忆环境信息;当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时,在短期记忆层存储当前环境信息,并进行离线学习直至转移至长期记忆层;基于目标任务和当前环境信息,通过神经网络模型输出行为决策并执行,即在机器人处于动态变化的环境中,在通常的在线学习外增加离线学习的能力,实现机器人未知环境中的增量式学习,提高了学习效率,可以快速收敛到稳定状态,从而提高机器人在新环境中的行为决策的效率和精确度。在新环境中的行为决策的效率和精确度。在新环境中的行为决策的效率和精确度。

【技术实现步骤摘要】
一种仿人脑记忆机理的机器人行为决策方法及设备


[0001]本申请涉及计算机领域,尤其涉及一种仿人脑记忆机理的机器人行为决策方法及设备。

技术介绍

[0002]现有技术中,在某种特定的环境中,经过训练的机器人可以在该环境中很好地执行任务,因为机器人对该环境中的信息有了较充分的认知。但是当机器人处于动态变化的环境中或在新的环境中执行任务时,由于对新环境认知的不完整性,机器人往往具有较低的决策效果,如扫地机器人、服务机器人、码垛机器人等,在新的环境下需要重新学习地图信息,导致机器人的行为决策效率低,对新环境的适应能力差。
[0003]因此,如何进行增量式学习,减少神经网络进行大量样本数据的训练,对遇到的特定环境中的环境信息进行针对性的学习,提高学习效率,在新环境下可以快速收敛到稳定状态,从而提高机器人在新环境中的行为决策效率和精度,是目前本领域人员研究的方向。

技术实现思路

[0004]本申请的一个目的是提供一种仿人脑记忆机理的机器人行为决策方法及设备,以解决现有技术中如何进行增量式学习,提高机器人在新环境中的行为决策效率和精度的问题。
[0005]根据本申请的一个方面,提供了一种仿人脑记忆机理的机器人行为决策方法,包括:获取目标任务和当前环境信息;计算所述当前环境信息与所有长期记忆环境信息的相似度值,确定最相似长期记忆环境信息;当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时,在短期记忆层存储所述当前环境信息,并进行离线学习直至转移至长期记忆层;基于所述目标任务和所述当前环境信息,通过神经网络模型输出行为决策并执行。
[0006]进一步地,所述机器人行为决策方法还包括:当所述当前环境信息与所述最相似长期记忆环境信息的相似度值大于等于所述相似度阈值时,选取所述最相似长期记忆环境信息对应的动作决策作为所述行为决策并执行。
[0007]进一步地,上述一种机器人行为决策方法中,所述在短期记忆层存储所述当前环境信息,包括:计算所述当前环境信息与所有短期记忆环境信息的相似度,确定最相似短期记忆环境信息;当所述当前环境信息与所述最相似短期记忆环境信息的相似度值大于所述相似
度阈值时,将所述最相似短期记忆环境信息对应的神经元的年龄加一;当所述当前环境信息与所述最相似短期记忆环境信息的相似度值小于等于所述相似度阈值时,通过评价函数确定所述当前环境信息在所述短期记忆层的位置并进行存储,得到新的短期记忆环境信息。
[0008]进一步地,上述一种机器人行为决策方法中,所述在短期记忆层存储所述当前环境信息,并进行离线学习直至转移至长期记忆层,包括:在离线状态时,基于记忆回放机制将动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元,得到在所述长期记忆层中的为从所述短期记忆层转移来的所述短期记忆环境信息提供的存储空间;基于记忆回放机制将所述动作神经元的激活概率,通过反向传播激活所述短期记忆层中的部分神经元,并将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中;在所述长期记忆层中对从所述短期记忆层转移来的所述短期记忆环境信息进行学习,得到所述新的长期记忆环境信息。
[0009]进一步地,上述一种机器人行为决策方法中,所述在离线状态时,基于记忆回放机制将所述动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元,得到在所述长期记忆层中的为从所述短期记忆层转移来的所述短期记忆环境信息提供的存储空间之前,还包括:根据所述动作神经元在之前工作中被激活的情况,得到所述动作神经元在离线状态下被重新激活的概率即所述动作神经元的激活概率;基于所述动作神经元的激活概率,依次将所述动作神经元的激活状态信息和所述激活概率,通过反向传播算法分别激活所述长期记忆层和所述短期记忆层中的部分神经元。
[0010]进一步地,上述一种机器人行为决策方法中,所述基于记忆回放机制将所述动作神经元的激活概率,通过反向传播激活所述短期记忆层中的部分神经元,并将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中,包括:基于记忆回放机制将所述动作神经元的激活概率,通过反向传播激活所述短期记忆层中与所述动作神经元对应的所述短期记忆环境信息的神经元;计算存储所述短期记忆环境信息的神经元的激活概率;基于存储所述短期记忆环境信息的神经元的激活概率,依次将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中。
[0011]进一步地,上述一种机器人行为决策方法中,所述在所述长期记忆层中对从所述短期记忆层转移来的所述短期记忆环境信息进行学习,得到所述新的长期记忆环境信息,包括:基于记忆回放机制将所述动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元后,与所述动作神经元有突触连接的所述长期记忆层中的所述存储长期记忆环境信息的神经元被激活,基于侧向激励作用,所述长期记忆层中的所述存储长期记忆环境信息的神经元激活其周围的神经元;获取被激活的所述存储长期记忆环境信息的神经元的能量值和被所述存储长期
记忆环境信息的神经元激活的其周围的神经元的能量值,并排序得到长期记忆环境信息神经元能量值序列;根据所述长期记忆环境信息神经元能量值序列,对被转移至所述长期记忆层的所述短期记忆环境信息进行学习,得到所述新的长期记忆环境信息;更新所述新的长期记忆环境信息的神经元的权重并与所述动作神经元建立新的连接。
[0012]根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述任一项所述的方法。
[0013]根据本申请的另一方面,还提供了一种机器人行为决策设备,该设备包括:一个或多个处理器;计算机可读介质,用于存储一个或多个计算机可读指令,当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述中任一项所述的方法。
[0014]与现有技术相比,本申请通过获取目标任务和当前环境信息;计算所述当前环境信息与所有长期记忆环境信息的相似度值,确定最相似长期记忆环境信息;当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时,在短期记忆层存储所述当前环境信息,并进行离线学习直至转移至长期记忆层;基于所述目标任务和所述当前环境信息,通过神经网络模型输出行为决策并执行,即在机器人处于动态变化的环境中,在通常的在线学习外增加离线学习的能力,这种连续学习的方法可以实现机器人未知环境中的增量式学习,减少了对神经网络进行大量样本数据的训练,提高了学习效率,可以快速收敛到稳定状态,从而提高机器人在新环境中的行为决策的效率和精确度。
附图说明
[0015]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个方面的一种仿人脑记忆机理的机器人行为决策方法的流程示意图;图2示出根据本申请一个方面的机器人行为决策方法的神经网络模型结构示意图;图3示出根据本申请一个方面的机器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种仿人脑记忆机理的机器人行为决策方法,其特征在于,所述方法包括:获取目标任务和当前环境信息;计算所述当前环境信息与所有长期记忆环境信息的相似度值,确定最相似长期记忆环境信息;当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时,在短期记忆层存储所述当前环境信息,并进行离线学习直至转移至长期记忆层;基于所述目标任务和所述当前环境信息,通过神经网络模型输出行为决策并执行。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述当前环境信息与所述最相似长期记忆环境信息的相似度值大于等于所述相似度阈值时,选取所述最相似长期记忆环境信息对应的动作决策作为所述行为决策并执行。3.根据权利要求1所述的方法,其特征在于,所述在短期记忆层存储所述当前环境信息,包括:计算所述当前环境信息与所有短期记忆环境信息的相似度,确定最相似短期记忆环境信息;当所述当前环境信息与所述最相似短期记忆环境信息的相似度值大于所述相似度阈值时,将所述最相似短期记忆环境信息对应的神经元的年龄加一;当所述当前环境信息与所述最相似短期记忆环境信息的相似度值小于等于所述相似度阈值时,通过评价函数确定所述当前环境信息在所述短期记忆层的位置并进行存储,得到新的短期记忆环境信息。4.根据权利要求3所述的方法,其特征在于,所述在短期记忆层存储所述当前环境信息,并进行离线学习直至转移至长期记忆层,包括:在离线状态时,基于记忆回放机制将动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元,得到在所述长期记忆层中的为从所述短期记忆层转移来的所述短期记忆环境信息提供的存储空间;基于记忆回放机制将所述动作神经元的激活概率,通过反向传播激活所述短期记忆层中的部分神经元,并将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中;在所述长期记忆层中对从所述短期记忆层转移来的所述短期记忆环境信息进行学习,得到所述新的长期记忆环境信息。5.根据权利要求4所述的方法,其特征在于,所述在离线状态时,基于记忆回放机制将所述动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元,得到在所述长期记忆层中为从所述短期记忆层转移来的所述短期记忆环境信息提供存储空间之前,还包括:根据所述动作神经元在之前工作中被激...

【专利技术属性】
技术研发人员:王东署罗勇辛健斌王河山马天磊张方方
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1