一种机器人柔性行为决策方法及设备技术

技术编号：30906644 阅读：18 留言：0更新日期：2021-11-22 23:52

本申请提供一种机器人柔性行为决策方法及设备，本申请通过获取当前环境信息、目标任务以及机器人当前状态信息；基于监督学习模型和强化学习模型构建神经网络混合模型，根据当前环境信息动态调整神经网络混合模型的结合系数，并增加好奇度指标对强化学习模型进行改进，得到改进后的神经网络混合模型；将当前环境信息、目标任务以及机器人状态信息输入改进后的神经网络混合模型中，得到柔性行为决策，即将强化学习和监督学习进行动态结合，在强化学习中实现环境探索

全部详细技术资料下载

【技术实现步骤摘要】
一种机器人柔性行为决策方法及设备

[0001]本申请涉及计算机领域，尤其涉及一种机器人柔性行为决策方法及设备。

技术介绍

[0002]现有技术中，随着科技的发展，移动机器人作为机器人与人工智能技术相结合的完美载体，承载着机器人与人工智能的最新技术，已经被用来处理各种各样的任务，在人类的生产生活中得到了广泛的应用。
[0003]移动机器人完成各种非特定任务的一个重要前提，是对其所处的环境进行充分有效地认知。在环境认知过程中，机器人一般不具有环境的先验知识，运动过程中可能会遇到各种动态或静态障碍物，或者各种突发情况，甚至各种“陷阱”，如何实现动态环境下移动机器人的柔性行为决策，一直是机器人研究人员关注的重要问题。
[0004]针对此问题，研究人员提出了多种行为决策方法，如鲁棒非奇异终端滑膜控制、向前/向后运动控制、滑模控制+吸引椭球法、抗扰PID控制、中枢模式发生器、Hopf振荡器+Kuramoto振荡器等，但这些行为决策方法，多是针对某个特定的应用场景，一旦应用场景改变，对应的行为决策需要相应修改，适应动态环境的能力较差。
[0005]除以上方法外，近年来有学者通过模拟大脑中位置细胞的功能为机器人的行为决策提供依据。此外，随着智能科学的发展，越来越多的智能控制算法被应用到机器人行为决策中来，如模糊推理系统，模糊逻辑+行为树，神经网络，神经逆强化学习，前馈神经网络+Q学习。
[0006]近年来，随着神经生物学的发展，以及对人脑认知机理的研究逐步深入，研究人员开始考虑将人脑的认知原理引入到移...

【技术保护点】

【技术特征摘要】
1.一种机器人柔性行为决策方法，其特征在于，所述方法包括：获取当前环境信息、目标任务以及机器人当前状态信息，所述当前环境信息包括障碍物位置信息；基于监督学习模型和强化学习模型构建神经网络混合模型，根据所述当前环境信息动态调整所述神经网络混合模型的结合系数，并增加好奇度指标对所述强化学习模型进行改进，得到改进后的神经网络混合模型；将所述当前环境信息、所述目标任务以及所述机器人状态信息输入所述改进后的神经网络混合模型中，得到柔性行为决策。2.根据权利要求1所述的方法，其特征在于，所述根据所述当前环境信息动态调整所述神经网络混合模型的结合系数，包括：从所述当前环境信息中得到所有障碍物信息中最近障碍物距离；根据所述最近障碍物距离调整所述神经网络混合模型的所述结合系数，所述结合系数表示如下：其中，ω1＝1
‑
ω2a＝ω1a1+ω2a2m1和m2均是正常数，ω2为所述结合系数，enedis为所述最近障碍物距离信息，a表示当前时刻的所述最优的动作行为决策，a1表示基于所述强化学习模型决定的行为决策，a2表示所述监督学习模型决定的行为决策。3.根据权利要求2所述的方法，其特征在于，所述增加好奇度指标对所述强化学习模型进行改进，得到改进后的神经网络混合模型，包括：获取在强化学习模型中所述机器人获得的最大奖励和最小奖励以及环境警觉度；基于所述最大奖励、所述最小奖励以及所述环境警觉度计算得到所述好奇度指标；在所述强化学习模型中利用所述好奇度指标动态调整环境探索和利用，得到改进后的神经网络混合模型。4.根据权利要求3所述的方法，其特征在于，所述获取在强化学习模型中所述机器人获得的最大奖励和最小奖励以及环境警觉度中获取所述当前环境警觉度包括：基于所述当前环境信息动态调整学习率和折扣率得到实时学习率和实时折扣率；结合所述实时学习率和所述实时折扣率获取所述机器人当前时刻的状态动作值函数，并根据奖励预测误差计算得到所述当前时刻对应的强化信号；基于所述强化信号的响应值，得到所述环境警觉度。5.根据权利要求4所述的方法，其特征在于，所述基于所述当前环境信息动态调整学习率和折扣率得到实时学习率和实时折扣率，包括：计算所述当前环境信息与历史环境信息的相似度值；若所述相似度值大于等于相似度阈值，则累计获得所述当前环境信息对应的相同环境信息次数；若所述最大相似度值小于相似度阈值，则将所述当前环境信息进行首次记忆，得到所述当前环境信息对应的相同环境信息次数为1；
基于所述当前环境信息对应的所述相同环境信息次数，调整所...

【专利技术属性】
技术研发人员：王东署，朱觐镳，王河山，辛健斌，马天磊，贾建华，罗勇，
申请(专利权)人：郑州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人