一种集群机器人一致性运动模型构建方法及系统技术方案

技术编号:35167175 阅读:45 留言:0更新日期:2022-10-12 17:30
本申请公开了一种集群机器人一致性运动模型构建方法及系统。首先对集群中的个体进行初始化;通过贪婪策略确定集群中各个个体的当前时刻动作数据;建立一致性运动模型进行学习;具体先学习简单的保持周围个体数量的任务,通过扩充观察的维度,以进一步学会聚集、防碰撞等复杂任务。每个学习个体不断获取环境信息并执行动作,利用预先设置的奖赏函数来更新自己的策略网络,最终完成特定任务的学习。本发明专利技术借鉴了生物集群的运动模式以及学习方式,具有高度的仿生性。同时,该框架的学习不依赖于任何先验的行为规则以约束机器人的行为,而是让所有个体从最初始的随机状态开始学习,降低了人工依赖性,具有良好的鲁棒性与可扩展性。性。性。

【技术实现步骤摘要】
一种集群机器人一致性运动模型构建方法及系统


[0001]本专利技术涉及机器人集群运动
,特别涉及一种集群机器人一致性运动模型构建方法及系统。

技术介绍

[0002]在昆虫、鸟类等动物中时常能观察到壮观的集群现象,即某一数量庞大的动物集群能够实现显著的同步运动,表现出惊人的一致性。
[0003]生物集群所具有的这种能力提升了每个个体的生存能力,且提高了觅食等行动的效率。然而,这一能力的起源尚不清楚,其生物学功能也尚未彻底揭示,即如此庞大数量的生物是如何从环境中感知信息,并在集群内使用和共享这些信息以协调它们的动作。在过去的几十年中涌现了许多模型及假设来解释这种生物集群现象,随着深度学习的不断发展,多智能体强化学习(Multi

agent Reinforcement Learning)框架受到越来越多的青睐,在该框架中,每个生物即一个独立的代理,代理从环境中获取信息并采取动作,并通过进一步的反馈来更新自己执行动作的策略。然而,现有研究对于策略网络的学习仍依赖先验的行为规则,具有一定局限性。

技术实现思路

[0004]基于此,本申请实施例提供了一种集群机器人一致性运动模型构建方法及系统,本专利技术的学习框架充分借鉴了生物集群的运动模式以及学习方式,具有高度的仿生性。让所有个体从最初始的随机状态开始学习,降低了人工依赖性,具有良好的鲁棒性与可扩展性。
[0005]第一方面,提供了一种集群机器人一致性运动模型构建方法,该方法包括:
[0006]步骤1,对获取的集群中的每个个体进行初始化;
[0007]步骤2,通过贪婪策略确定集群中各个个体的当前时刻动作数据;其中,所述动作包括个体的线加速度与转向角度;
[0008]步骤3,建立集群机器人一致性运动模型,并根据一致性运动模型更新环境并获取状态与奖赏值;所述一致性运动模型包括二个子网络结构,其中第一子网络结构用于获取当前个体周围个体数量结果,第二子网络结构用于获取聚集及防碰撞结构;
[0009]步骤4,遍历所述集群中的所有个体作为当前个体进行训练,具体使用q

learning对每个个体的策略网络进行更新;
[0010]步骤5,确定所述当前个体的周围个体的网络数据,并将所述周围个体的网络数据与当前个体进行匹配进行合作学习;
[0011]步骤6,更新所述贪婪策略中的概率参数,并开始执行进行下一周期的训练,直至达到预设的训练周期;
[0012]步骤7,当达到预设的训练周期第一子网络收敛后,重新执行步骤2到步骤5对第二子网络结构进行训练,得到训练完成的一致性运动模型。
[0013]可选地,所述第一子网络结构和所述第二子网络结构具体包括4层神经网络,中间层均为32个神经元,激活函数为ReLU。
[0014]可选地,对第一子网络结构进行训练具体包括:
[0015]输入当前个体自身速度方向与周围个体差异,通过公式
[0016][0017]得到当前个体的周围个体数量,其中,表示当前个体周围个体数量结果,中R为当前个体感知半径,为当前个体感知范围内周围个体数量,为当前个体速度,为当前个体位置,t为当前时刻,并通过得到奖赏值。
[0018]可选地,对第二子网络结构进行训练具体包括:
[0019]在基础上增加八维输入将感知范围切割为八个方向,若该方向上有个体达到警戒距离,则与之对应的值为1,否则为0;
[0020]并通过奖赏函数
[0021][0022]得到训练的奖赏值,其中,c
g
,c
c
为常数,d
collision
为警戒距离,R为当前个体感知半径,为当前个体感知范围内周围个体数量,为当前个体位置,t为当前时刻。
[0023]可选地,更新所述贪婪策略中的概率参数,具体根据公式:
[0024]ε
t+1

max(0.01,ε
t

ε
d
)
[0025]确定进行更新概率参数,其中,ε
d
为1e

6。
[0026]可选地,使用q

learning对每个个体的策略网络进行更新,具体根据公式:
[0027][0028]得到更新后的策略网络,其中,α为学习率,γ为折扣系数,序列(s,a,r,s

,a

)分别为强化学习中的状态值、动作值、奖赏值、下一个时刻的状态值、下一个时刻的动作值。
[0029]可选地,将所述周围个体的网络数据与当前个体进行匹配进行合作学习,包括:
[0030]通过函数
[0031][0032]进行训练迭代,其中,其中,c
g
,c
c
为常数,d
collision
为警戒距离,R为当前个体感知半径,为当前个体感知范围内周围个体数量,为当前个体位置,t为当前时刻,λ为对周围
个体的信赖系数。
[0033]第二方面,提供了一种集群机器人一致性运动模型构建方法系统,该系统包括:
[0034]初始化模块,用于对获取的集群中的每个个体进行初始化;
[0035]确定模块,用于通过贪婪策略确定集群中各个个体的当前时刻动作数据;其中,所述动作包括个体的线加速度与转向角度;
[0036]建立模块,用于建立集群机器人一致性运动模型,并根据一致性运动模型更新环境并获取状态与奖赏值;所述一致性运动模型包括二个子网络结构,其中第一子网络结构用于获取当前个体周围个体数量结果,第二子网络结构用于获取聚集及防碰撞结构;
[0037]训练模块,用于遍历集群中的所有个体作为当前个体对所述第一子网络结构进行训练,具体使用q

learning对每个个体的策略网络进行更新;确定所述当前个体的周围个体的网络数据,并将所述周围个体的网络数据与当前个体进行匹配进行合作学习;更新所述贪婪策略中的概率参数,并开始执行进行下一周期的训练,直至达到预设的训练周期;当达到预设的训练周期第一子网络收敛后,对第二子网络结构进行训练,得到训练完成的一致性运动模型。
[0038]本申请实施例提供的技术方案带来的有益效果至少包括:
[0039](1)结合了多智能体强化学习与集群算法,给出了一种新型学习框架,能够同时学习多个复杂任务,与传统集群算法相比具有更好的可扩展性。
[0040](2)相较于传统集群算法,本专利技术不再依赖先验的行为规则,而是完全从零进行学习,提高了使用的便利性。
[0041](3)相较于传统学习框架,本专利技术为一个完全分布式的系统,允许进行大量的并行计算,缩短了计算时间,提高了程序执行效能。
附图说明
[0042]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群机器人一致性运动模型构建方法,其特征在于,所述方法包括:步骤1,对获取的集群中的每个个体进行初始化;步骤2,通过贪婪策略确定集群中各个个体的当前时刻动作数据;其中,所述动作包括个体的线加速度与转向角度;步骤3,建立集群机器人一致性运动模型,并根据一致性运动模型更新环境并获取状态与奖赏值;所述一致性运动模型包括二个子网络结构,其中第一子网络结构用于获取当前个体周围个体数量结果,第二子网络结构用于获取聚集及防碰撞结构;步骤4,遍历所述集群中的所有个体作为当前个体进行训练,具体使用q

learning对每个个体的策略网络进行更新;步骤5,确定所述当前个体的周围个体的网络数据,并将所述周围个体的网络数据与当前个体进行匹配进行合作学习;步骤6,更新所述贪婪策略中的概率参数,并开始执行进行下一周期的训练,直至达到预设的训练周期;步骤7,当达到预设的训练周期第一子网络收敛后,重新执行步骤2到步骤5对第二子网络结构进行训练,得到训练完成的一致性运动模型。2.根据权利要求1所述的方法,其特征在于,所述第一子网络结构和所述第二子网络结构具体包括4层神经网络,中间层均为32个神经元,激活函数为ReLU。3.根据权利要求1所述的方法,其特征在于,对第一子网络结构进行训练具体包括:输入当前个体自身速度方向与周围个体差异,通过公式得到当前个体的周围个体数量,其中,表示当前个体周围个体数量结果,中R为当前个体感知半径,为当前个体感知范围内周围个体数量,为当前个体速度,为当前个体位置,t为当前时刻,并通过得到奖赏值。4.根据权利要求1所述的方法,其特征在于,对第二子网络结构进行训练具体包括:在基础上增加八维输入将感知范围切割为八个方向,若该方向上有个体达到警戒距离,则与之对应的值为1,否则为0;并通过奖赏函数得到训练的奖赏值,其中,c
g
,c
c
为常数,d
collision
为警戒距离,R为当前个体感知半径,为当前个体感知范围内周围个体数量,为当前个体位置,t为当前时刻。
5.根据权利要求1所述的方法,其特征在于,更新所述贪婪策略中的概率参数,具体根据公式:ε

【专利技术属性】
技术研发人员:斯白露
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1