当前位置: 首页 > 专利查询>郑州大学专利>正文

一种机器人柔性行为决策方法及设备技术

技术编号:30906644 阅读:18 留言:0更新日期:2021-11-22 23:52
本申请提供一种机器人柔性行为决策方法及设备,本申请通过获取当前环境信息、目标任务以及机器人当前状态信息;基于监督学习模型和强化学习模型构建神经网络混合模型,根据当前环境信息动态调整神经网络混合模型的结合系数,并增加好奇度指标对强化学习模型进行改进,得到改进后的神经网络混合模型;将当前环境信息、目标任务以及机器人状态信息输入改进后的神经网络混合模型中,得到柔性行为决策,即将强化学习和监督学习进行动态结合,在强化学习中实现环境探索

【技术实现步骤摘要】
一种机器人柔性行为决策方法及设备


[0001]本申请涉及计算机领域,尤其涉及一种机器人柔性行为决策方法及设备。

技术介绍

[0002]现有技术中,随着科技的发展,移动机器人作为机器人与人工智能技术相结合的完美载体,承载着机器人与人工智能的最新技术,已经被用来处理各种各样的任务,在人类的生产生活中得到了广泛的应用。
[0003]移动机器人完成各种非特定任务的一个重要前提,是对其所处的环境进行充分有效地认知。在环境认知过程中,机器人一般不具有环境的先验知识,运动过程中可能会遇到各种动态或静态障碍物,或者各种突发情况,甚至各种“陷阱”,如何实现动态环境下移动机器人的柔性行为决策,一直是机器人研究人员关注的重要问题。
[0004]针对此问题,研究人员提出了多种行为决策方法,如鲁棒非奇异终端滑膜控制、向前/向后运动控制、滑模控制+吸引椭球法、抗扰PID控制、中枢模式发生器、Hopf振荡器+Kuramoto振荡器等,但这些行为决策方法,多是针对某个特定的应用场景,一旦应用场景改变,对应的行为决策需要相应修改,适应动态环境的能力较差。
[0005]除以上方法外,近年来有学者通过模拟大脑中位置细胞的功能为机器人的行为决策提供依据。此外,随着智能科学的发展,越来越多的智能控制算法被应用到机器人行为决策中来,如模糊推理系统,模糊逻辑+行为树,神经网络,神经逆强化学习,前馈神经网络+Q学习。
[0006]近年来,随着神经生物学的发展,以及对人脑认知机理的研究逐步深入,研究人员开始考虑将人脑的认知原理引入到移动机器人的行为决策中来,通过模拟人脑的思维方式来解决机器人的行为决策问题。Fang,Naveros,Hausknecht以及钱夔等针对不同的机器人,分别提出了模拟小脑功能的机器人行为决策解决方案。研究表明,除小脑外,基底神经节对行为决策也有重要作用,且二者对目标引导的行为决策等,都有联系。既然二者对目标引导的行为决策都有关联,人们自然产生了能否将二者引入到机器人的行为决策中来的想法。目前,已有研究将小脑和基底神经节共同应用于机器人行为决策方面,如Dasgupta等利用Actor

Critic模型和输入关联学习分别模拟基底神经节和小脑的学习原理,提出一种奖励调节的异源突触塑性模型,将小脑和基底神经节两个系统进行自适应结合,用于四轮机器人的行为控制。但该模型中,小脑和基底神经节之间缺乏直接的反馈(交互)。阮晓刚等提出一种基于趋性的动作相关启发式动态规划学习机制来探索小脑和基底神经节之间的合作机理,采用Actor和Critic模型分别模拟小脑和基底神经节的功能,用于两轮自平衡机器人的运动控制,该模型将小脑的动作输出作为基底神经节的输入之一,基底神经节对小脑没有输出,即二者之间是单向(小脑到基底神经节)而非双向交互。
[0007]因此,如何在神经网络模型中实现小脑和基底神经节之间直接的交互连接,将小脑监督学习和基底神经节强化学习集成起来,实现移动机器人未知环境中柔性的行为决策,同时使机器人获得持续稳定的学习能力是目前本领域人员研究的方向。

技术实现思路

[0008]本申请的一个目的是提供一种机器人柔性行为决策方法及设备,以解决现有技术中如何实现小脑监督学习和基底神经节强化学习在移动机器人行为决策中的动态结合,使机器人获得持续稳定的学习能力,提高移动机器人动态环境的适应性的问题。
[0009]根据本申请的一个方面,提供了一种机器人柔性行为决策方法,包括:
[0010]获取当前环境信息、目标任务以及机器人当前状态信息,所述当前环境信息包括障碍物位置信息;
[0011]基于监督学习模型和强化学习模型构建神经网络混合模型,根据所述当前环境信息动态调整所述神经网络混合模型的结合系数,并增加好奇度指标对所述强化学习模型进行改进,得到改进后的神经网络混合模型;
[0012]将所述当前环境信息、所述目标任务以及所述机器人状态信息输入所述改进后的神经网络混合模型中,得到柔性的行为决策。
[0013]进一步地,上述机器人柔性行为决策方法中,所述根据所述当前环境信息动态调整所述神经网络混合模型的结合系数,包括:
[0014]从所述当前环境信息中得到所有障碍物信息中最近障碍物距离;
[0015]根据所述最近障碍物距离调整所述神经网络混合模型的所述结合系数,所述结合系数表示如下:
[0016][0017]其中,ω1=1

ω2[0018]a=ω1a1+ω2a2[0019]m1和m2均是正常数,ω2为所述结合系数,enedis为所述最近障碍物距离信息,a表示当前时刻的所述最优的动作行为决策,a1表示基于所述强化学习模型决定的行为决策,a2表示所述监督学习模型决定的行为决策。
[0020]进一步地,上述机器人柔性行为决策方法中,所述增加好奇度指标对所述强化学习模型进行改进,得到改进后的神经网络混合模型,包括:
[0021]获取在强化学习模型中所述机器人获得的最大奖励和最小奖励以及环境警觉度;
[0022]基于所述最大奖励、所述最小奖励以及所述环境警觉度计算得到所述好奇度指标;
[0023]在所述强化学习模型中利用所述好奇度指标动态调整环境探索和利用,得到改进后的神经网络混合模型。
[0024]进一步地,上述机器人柔性行为决策方法中,所述获取在强化学习模型中所述机器人获得的最大奖励和最小奖励以及环境警觉度中获取所述当前环境警觉度,包括:
[0025]基于所述当前环境信息动态调整学习率和折扣率得到实时学习率和实时折扣率;
[0026]结合所述实时学习率和所述实时折扣率获取所述机器人当前时刻的状态动作值函数,并根据奖励预测误差计算得到所述当前时刻对应的强化信号;
[0027]基于所述强化信号的响应值,得到所述环境警觉度。
[0028]进一步地,上述机器人柔性行为决策方法中,所述基于所述当前环境信息动态调整学习率和折扣率得到实时学习率和实时折扣率,包括:
[0029]计算所述当前环境信息与历史环境信息的相似度值;
[0030]若所述最大相似度值大于等于相似度阈值,则累计获得所述当前环境信息对应的相同环境信息次数;
[0031]若所述最大相似度值小于相似度阈值,则将所述当前环境信息进行首次记忆,得到所述当前环境信息对应的相同环境信息次数为1;
[0032]基于所述当前环境信息对应的所述相同环境信息次数,调整所述学习率和所述折扣率,得到所述实时学习率和所述实时折扣率。
[0033]进一步地,上述机器人柔性行为决策方法中,所述基于所述当前环境信息对应的所述相同环境信息次数,调整所述学习率和所述折扣率,得到所述实时学习率和所述实时折扣率,还包括:
[0034]当在动态环境下,根据所述最近障碍物距离对所述实时学习率和所述实时折扣率进行修正。
[0035]进一步地,上述机器人柔性行为决策方法中,所述基于所述最大奖励、所述最小奖励以及所述环境警觉本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器人柔性行为决策方法,其特征在于,所述方法包括:获取当前环境信息、目标任务以及机器人当前状态信息,所述当前环境信息包括障碍物位置信息;基于监督学习模型和强化学习模型构建神经网络混合模型,根据所述当前环境信息动态调整所述神经网络混合模型的结合系数,并增加好奇度指标对所述强化学习模型进行改进,得到改进后的神经网络混合模型;将所述当前环境信息、所述目标任务以及所述机器人状态信息输入所述改进后的神经网络混合模型中,得到柔性行为决策。2.根据权利要求1所述的方法,其特征在于,所述根据所述当前环境信息动态调整所述神经网络混合模型的结合系数,包括:从所述当前环境信息中得到所有障碍物信息中最近障碍物距离;根据所述最近障碍物距离调整所述神经网络混合模型的所述结合系数,所述结合系数表示如下:其中,ω1=1

ω2a=ω1a1+ω2a2m1和m2均是正常数,ω2为所述结合系数,enedis为所述最近障碍物距离信息,a表示当前时刻的所述最优的动作行为决策,a1表示基于所述强化学习模型决定的行为决策,a2表示所述监督学习模型决定的行为决策。3.根据权利要求2所述的方法,其特征在于,所述增加好奇度指标对所述强化学习模型进行改进,得到改进后的神经网络混合模型,包括:获取在强化学习模型中所述机器人获得的最大奖励和最小奖励以及环境警觉度;基于所述最大奖励、所述最小奖励以及所述环境警觉度计算得到所述好奇度指标;在所述强化学习模型中利用所述好奇度指标动态调整环境探索和利用,得到改进后的神经网络混合模型。4.根据权利要求3所述的方法,其特征在于,所述获取在强化学习模型中所述机器人获得的最大奖励和最小奖励以及环境警觉度中获取所述当前环境警觉度包括:基于所述当前环境信息动态调整学习率和折扣率得到实时学习率和实时折扣率;结合所述实时学习率和所述实时折扣率获取所述机器人当前时刻的状态动作值函数,并根据奖励预测误差计算得到所述当前时刻对应的强化信号;基于所述强化信号的响应值,得到所述环境警觉度。5.根据权利要求4所述的方法,其特征在于,所述基于所述当前环境信息动态调整学习率和折扣率得到实时学习率和实时折扣率,包括:计算所述当前环境信息与历史环境信息的相似度值;若所述相似度值大于等于相似度阈值,则累计获得所述当前环境信息对应的相同环境信息次数;若所述最大相似度值小于相似度阈值,则将所述当前环境信息进行首次记忆,得到所述当前环境信息对应的相同环境信息次数为1;
基于所述当前环境信息对应的所述相同环境信息次数,调整所...

【专利技术属性】
技术研发人员:王东署朱觐镳王河山辛健斌马天磊贾建华罗勇
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1