一种多机器人运动规划的方法、系统及存储介质技术方案

技术编号:29252632 阅读:56 留言:0更新日期:2021-07-13 17:22
本发明专利技术提供的一种多机器人运动规划的方法、系统及存储介质,方法包括以下步骤:获取机器人运动中的运动状态和环境信息;根据离散化后的运动状态和环境信息,通过强化学习确定机器人的运动策略;其中,运动策略中的连续动作,是利用模糊神经网络确定强化学习状态空间,并输出得到的连续动作;根据运动策略中确定机器人的基础行为,进行群集运动;基础行为包括以下至少之一:向目标行进、避障运动、避碰运动以及沿墙运动;方法解决了在庞大状态空间和动态变化环境中对智能体进行最优行为策略学习,收敛速度过慢、预见能力差等问题,可广泛应用于机器人控制技术领域。

【技术实现步骤摘要】
一种多机器人运动规划的方法、系统及存储介质
本专利技术涉及机器人控制
,尤其是一种多机器人运动规划的方法、系统及存储介质。
技术介绍
运动规划是多移动机器人研究的热点问题。目前多移动机器人的运动规划主要包括路径规划,编队控制,避障避碰三种控制行为。在众多的运动协调算法中,一种新的协调方式——群集(Flocking)控制模式是一种模拟自然界中生物聚集运动的新型分散式控制方法,多机器人运动中机器人之间位置的协调、躲避障碍物和向目标点移动这三个方面正好与群集运动的三个模型:分离,调整和聚合相一致。群集控制的优势在于编队聚集、稳定队形,能躲避一定的障碍物向目标运动。但在多机器人群集运动中,如果机器人数量增多和障碍物密集度程度增加,需要获取其所在环境的全部信息,才能完成运动规划避开障碍,但是,这时的机器人运动规划就必须完全依赖于已经给定的全局环境信息。如果环境发生了变化,就必须把新的全局环境信息提供给所有的机器人,这样所需要的通讯量就会非常大了。此外,强化学习是多智能体(Agent)体系研究的核心问题,是复杂Agent系统研究的热点,基于行为的机器人能直接完成从感知到行为的映射,具有快速执行性和灵活性,但因为通常基于具体的环境模型,所以存在环境知识获取困难、环境模型难以建立、自适应能力差等问题。强化学习具有不依赖于环境模型、不需要先验知识以及鲁棒性强等优点。因此,目前成为基于行为的机器人研究的一个新的方向。强化学习是一种智能体从环境状态到行为映射的学习,以使动作从环境中获得的累积强化信号(回报)最大。但传统强化学习用在未知动态多障碍环境下的自主机器人运动规划系统会面临三个问题:1)当状态空间和动作空间连续或数量过多时,强化学习收敛速度过慢;2)Agent在学习初期是盲目搜索,预见能力差;3)环境对每个动作的回报函数值不能明确定义。
技术实现思路
有鉴于此,为至少部分解决上述技术问题之一,本专利技术实施例目的在于提供一种快速、可靠性高多机器人运动规划的方法;此外,本专利技术实施例还提供了能够对应实现其方法的系统及计算机可读存储介质。第一方面,本申请的技术方案提供了一种多机器人运动规划的方法,其步骤包括:获取机器人运动中的运动状态和环境信息;根据离散化后的所述运动状态和所述环境信息,通过强化学习确定所述机器人的运动策略;所述运动策略中的连续动作,是利用模糊神经网络确定强化学习状态空间,并输出得到的所述连续动作;根据所述运动策略中确定所述机器人的基础行为,进行群集运动;所述基础行为包括以下至少之一:向目标行进、避障运动、避碰运动以及沿墙运动。在本申请方案的一种可行的实施例中,所述根据所述运动策略中确定所述机器人的基础行为,进行群集运动这一步骤,其包括:通过领航-跟随的编队控制方法,根据跟随机器人与领航机器人的距离间隔、位置以及方向形成机器人编队;在所述机器人编队中,根据所述运动策略,通过群集内聚性运动分析和群集内成员行为分析确定群集控制律;根据所述群集控制律进行集群运动。在本申请方案的一种可行的实施例中,所述群集控制律包括编队子控制率,所述根据所述群集控制律进行集群运动这一步骤,其包括:根据所述机器人的离散化后的所述环境信息以及所述机器人的通讯能力确定滚动窗口更新离散化后的所述环境信息,刷新所述滚动窗口中的窗口信息;根据所述窗口信息在所述机器人的邻近个体中,产生所述领航机器人,形成群集编队。在本申请方案的一种可行的实施例中,所述根据所述群集控制律进行集群运动这一步骤,其还包括:根据所述机器人的位置,通过势场函数确定所述机器人的邻近个体中势能最小的所述机器人作为所述领航机器人。在本申请方案的一种可行的实施例中,所述群集控制律包括避碰避障控制子控制率,所述根据所述群集控制律进行集群运动这一步骤,其还包括:确定所述机器人进入死锁状态,生成虚拟伴随机器人,所述虚拟伴随机器人的坐标是由所述机器人用激光探测障碍物,返回的距障碍物最近的激光点所确定;确定所述机器人进入沿墙运动模态,进行墙面建模确定墙面方向,控制所述机器人沿所述墙面方向运动;检测与所述虚拟伴随机器人之间的距离,确定所述距离小于第一预设值,控制所述机器人沿与所述虚拟伴随机器人的连线的反方向旋转一定的角度,并保持沿所述墙面方向运动。在本申请方案的一种可行的实施例中,所述根据离散化后的所述运动状态和所述环境信息,通过强化学习确定所述机器人的运动策略这一步骤,其包括以下步骤至少之一:通过Q-learning学习算法从环境中获得的强化信号构成模糊神经网络输出的误差代价函数,通过误差的反向传播学习算法来确定模糊规则和调整模糊隶属度函数参数;将所述强化学习的状态矢量作为模糊神经网络的输入变量,所述模糊神经网络的输出部分作为所述强化学习的动作空间,利用模糊神经网络的函数逼近特性实现状态到动作的映射。在本申请方案的一种可行的实施例中,所述根据离散化后的所述运动状态和所述环境信息,通过强化学习确定所述机器人的运动策略这一步骤,其还包括:对离散化后的所述环境信息进行融合和特征提取,得到特征期望;更新群集运动中的所述特征期望,通过逆向强化学习更新特征值函数;根据更新后的所述特征值函数进行特征提取得到回报值,根据所述回报值优化所述强化学习的过程。第二方面,本专利技术的技术方案还提供一种多机器人运动规划的系统,其包括:感知模块,用于获取机器人运动中的运动状态和环境信息;强化模块,用于所述运动状态和所述环境信息,通过强化学习确定所述机器人的运动策略;所述运动策略中的连续动作,是利用模糊神经网络确定强化学习状态空间,并输出所述得到的连续动作;执行模块,用于根据所述运动策略中确定所述机器人的基础行为,进行群集运动;所述基础行为包括以下至少之一:向目标行进、避障运动、避碰运动以及沿墙运动。第三方面,本专利技术的技术方案还提供一种多机器人运动规划的硬件系统,其包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个程序被至少一个处理器执行,使得至少一个处理器运行第一方面中的一种多机器人运动规划的方法。第四方面,本专利技术的技术方案还提供了一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于运行第一方面中的方法。本专利技术的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本专利技术的具体实施方式了解得到:本申请的技术方案针对多机器人在未知环境的运动规划问题,采用群集控制使所有的机器人移动在一起,避免碰撞并向目标移动。将强化学习引入多机器人系统中,增强机器人的分析、推测能力来选择合适的行为动作进行群集运动;将基于行为的机器人技术加入群集控制,使机器人产生编队、避障、趋向目标等行为;强化学习则增强机器人的分析、推测能力来选择合适的行为动作进行群集运动。模糊神经网络解决了强化学习在庞大状态空间和动态变化环境中对智能体进行最本文档来自技高网
...

【技术保护点】
1.一种多机器人运动规划的方法,其特征在于,包括以下步骤:/n获取机器人运动中的运动状态和环境信息;/n根据离散化后的所述运动状态和所述环境信息,通过强化学习确定所述机器人的运动策略;所述运动策略中的连续动作,是利用模糊神经网络确定强化学习状态空间,并输出得到的所述连续动作;/n根据所述运动策略中确定所述机器人的基础行为,进行群集运动;所述基础行为包括以下至少之一:向目标行进、避障运动、避碰运动以及沿墙运动。/n

【技术特征摘要】
1.一种多机器人运动规划的方法,其特征在于,包括以下步骤:
获取机器人运动中的运动状态和环境信息;
根据离散化后的所述运动状态和所述环境信息,通过强化学习确定所述机器人的运动策略;所述运动策略中的连续动作,是利用模糊神经网络确定强化学习状态空间,并输出得到的所述连续动作;
根据所述运动策略中确定所述机器人的基础行为,进行群集运动;所述基础行为包括以下至少之一:向目标行进、避障运动、避碰运动以及沿墙运动。


2.根据权利要求1所述的一种多机器人运动规划的方法,其特征在于,所述根据所述运动策略中确定所述机器人的基础行为,进行群集运动这一步骤,其包括:
通过领航-跟随的编队控制方法,根据跟随机器人与领航机器人的距离间隔、位置以及方向形成机器人编队;
在所述机器人编队中,根据所述运动策略,通过群集内聚性运动分析和群集内成员行为分析确定群集控制律;
根据所述群集控制律进行集群运动。


3.根据权利要求2所述的一种多机器人运动规划的方法,其特征在于,所述群集控制律包括编队子控制率,所述根据所述群集控制律进行集群运动这一步骤,其包括:
根据所述机器人的离散化后的所述环境信息以及所述机器人的通讯能力确定滚动窗口;
更新离散化后的所述环境信息,刷新所述滚动窗口中的窗口信息;
根据所述窗口信息在所述机器人的邻近个体中,产生所述领航机器人,形成群集编队。


4.根据权利要求3所述的一种多机器人运动规划的方法,其特征在于,所述根据所述群集控制律进行集群运动这一步骤,其还包括:
根据所述机器人的位置,通过势场函数确定所述机器人的邻近个体中势能最小的所述机器人作为所述领航机器人。


5.根据权利要求2所述的一种多机器人运动规划的方法,其特征在于,所述群集控制律包括避碰避障控制子控制率,所述根据所述群集控制律进行集群运动这一步骤,其还包括:
确定所述机器人进入死锁状态,生成虚拟伴随机器人,所述虚拟伴随机器人的坐标是由所述机器人用激光探测障碍物,返回的距障碍物最近的激光点所确定;
确定所述机器人进入沿墙运动模态,进行墙面建模确定墙面方向,控制所述机器人沿所述墙面方向运动;
检测与所述虚拟伴随机器人之间的距离,确定所述距离小于第一预...

【专利技术属性】
技术研发人员:汪明慧曾碧王秋杰王志宇
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1