一种面向协同避障和自主规划的多机器人运动规划方法技术

技术编号:39726964 阅读:8 留言:0更新日期:2023-12-17 23:31
本发明专利技术公开了一种面向协同避障和自主规划的多机器人运动规划方法,在所发明专利技术的方法中,首先将多机协同运动过程在空间和时间上进行离散化,进而创建一个实时反映机器人位置和空间信息的时空地图

【技术实现步骤摘要】
一种面向协同避障和自主规划的多机器人运动规划方法


[0001]本专利技术属于多机器人运动自主规划
,具体涉及面向协同避障和自主规划的多机器人运动规划方法


技术介绍

[0002]在制造业和工业应用中,多机器人系统可以协同完成复杂的生产任务,提高生产效率和质量,还可以用于自动化仓库操作和货物分拣,提高物流效率等等

除此之外,在其它很多领域如搜索救援

现代交通中,多机器人系统都有着越来越重要的应用

而多机器人运动规划则是多机器人系统研究中一个重要方向,它涉及多台机器人在复杂环境中协同工作,以实现特定任务或目标

可以说,多机器人系统能否完成既定任务与运动规划有重要关系

[0003]多机器人协同避障是多机器人运动规划的一个关键挑战

当多台机器人共享同一环境时,它们需要实时协调和避免碰撞,这涉及到传感器数据的共享和分析,以及决策算法的协同设计

[0004]应对动态地图的运动自主规划是另一个关键挑战

在一个实际环境中,地图信息可能会不断变化,例如,人员或障碍物的移动

多机器人需要能够实时感知并适应这些变化,重新规划它们的运动路径,这要求具备对环境变化的快速响应能力,以及高度自主的规划和决策能力

[0005]总之,多机器人系统在众多领域有着良好的应用前景,但多机器人的运动规划也存在着协同避障

自主规划等技术难点

因此,亟需一种多机器人协同运动自主规划方法来解决这些问题


技术实现思路

[0006]针对现有技术方法存在的不足,本专利技术的目的在于提供一种面向协同避障和自主规划的多机器人运动规划方法,该方法旨在克服多机器人协同避障以及应对动态变化地图的运动自主规划这两个关键问题

[0007]为实现上述目的,本专利技术一种面向协同避障和自主规划的多机器人运动规划方法,具体包括以下步骤:
[0008]S1、
将多机协同运动过程在空间和时间上进行离散化,创建一个实时反映机器人位置和空间信息的时空地图;
[0009]S2、
针对每个机器人创建运动规划智能体,所有智能体具有独立的运动决策模块,采用并行图卷积结构,以切片处理后的时空地图作为输入,输出即时的运动决策;
[0010]S3、
所有智能体共享一个中心化的评价模块,设置了四种奖励分量,终点奖励

避障奖励

激励点奖励

协同奖励,以引导决策模块生成多机协同避障路径;
[0011]S4、
在策略迁移增量学习框架下利用动态变化的时空地图微调中心化的决策评价模块,随即引导决策模块的微调,以进行高实时性的自主规划;
[0012]S5、
利用优化后的运动决策模块为每个机器人生成一条在长度和平滑度上表现良好的运动路径,同时应对地图的动态变化,运动决策模块可对局部路径进行及时修正;
[0013]所述离散化是指在空间上网格化多机协同运动空间,在时间上设定最小时间单元即时间步,用时间步集合描述整个运动过程;
[0014]所述时空地图是一个与时间相关的三维矩阵,矩阵中的每一个值表征地图空间中对应该位置的状态,0表示该位置是通行的,
‑1表示该位置存在障碍,机器人在地图中所处的位置也表征为
‑1,1则表示该位置是正向激励点,鼓励运动路径经过;随着时间变化,机器人在地图中运动,同时地图本身的通堵情况也会发生改变,因此这个三维矩阵中的值会随着时间变化;
[0015]所述运动规划智能体由运动决策模块和决策评价模块构成,运动决策模块是串并联的神经网络,由并行图卷积结构加上串行全连接网络层构成;决策评价模块则是一个多层感知网络

[0016]进一步,所述步骤
S1
中的时空地图表示如下:
[0017][0018]式中
t
表示时间步,并且
1≤t≤T|t∈Z

T
表示整个多机协同运动过程的终止时刻;
x,y,z
则分别表示网格化后的空间位置坐标,并且
0≤x≤X|x∈Z

0≤y≤Y|y∈Z

0≤z≤Z|z∈Z

X,Y,Z
分别为运动空间三个方向上的边界

[0019]进一步,所述的面向协同避障和自主规划的多机器人运动规划方法,其特征在于,所述步骤
S2
中且切片处理后的单层时空地图可以表示为其中
i
表示特定层的序号;
[0020]所述步骤
S2
中的图卷积操作用于处理单层时空地图信息,单层地图也可表示为
G

(V,E)
,其中
V
表示节点集合,
E
表示节点之间的边集合,图卷积操作由聚合邻接节点信息和节点线性变换两步构成,首先对于每个节点,图卷积操作会将它邻接节点的特征向量进行平均或加权求和,以得到一个聚合的邻接信息向量;然后再进行线性变换;那么图卷积操作可以表示为:
[0021][0022]其中
σ
为激活函数,节点
v
i
的邻接节点集合为
V(i)
,邻接节点特征向量为
x
j
(j inN(i))
,边权重为
ω
i,j

W
为图卷积神经网络的权重矩阵;
[0023]所述运动决策模块输出的即时运动决策是三维离散运动空间中的上







前与后六个方向,由运动决策模块输出层的六个神经元值决定,取最高值对应的方向

[0024]进一步,所述的面向协同避障和自主规划的多机器人运动规划方法,其特征在于,所述步骤
S3
中的奖励表示如下:
[0025][0026]式中
R
t
表示
t
时刻的奖励,第一个判断为终点奖励,即当机器人的实际位置等同于终点位置
L
term
时给予值为
10
的奖励;第二个判断为避障奖励,即若当机器人实际位置等于障碍物位置时
L
obst
,给予值为
‑1的奖励,也就是惩罚;第三个判断为激励点奖励,当机器人实际位置等于正向激励点位置
L
ince
时,给予值为1的奖励;后两个判断则为协同奖励,当机器人之间的最小距离
d
t
大于设定的间隔值
D
时,奖励为0,表示这是最低要求,而当
d
t本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向协同避障和自主规划的多机器人运动规划方法,其特征在于,包括以下步骤:
S1、
将多机协同运动过程在空间和时间上进行离散化,创建一个实时反映机器人位置和空间信息的时空地图;
S2、
针对每个机器人创建运动规划智能体,所有智能体具有独立的运动决策模块,采用并行图卷积结构,以切片处理后的时空地图作为输入,输出即时的运动决策;
S3、
所有智能体共享一个中心化的评价模块,设置了四种奖励分量,终点奖励

避障奖励

激励点奖励

协同奖励,以引导决策模块生成多机协同避障路径;
S4、
在策略迁移增量学习框架下利用动态变化的时空地图微调中心化的决策评价模块,随即引导决策模块的微调,以进行高实时性的自主规划;
S5、
利用优化后的运动决策模块为每个机器人生成一条在长度和平滑度上表现良好的运动路径,同时应对地图的动态变化,运动决策模块可对局部路径进行及时修正;所述离散化是指在空间上网格化多机协同运动空间,在时间上设定最小时间单元即时间步,用时间步集合描述整个运动过程;所述时空地图是一个与时间相关的三维矩阵,矩阵中的每一个值表征地图空间中对应该位置的状态,0表示该位置是通行的,
‑1表示该位置存在障碍,机器人在地图中所处的位置也表征为
‑1,1则表示该位置是正向激励点,鼓励运动路径经过;随着时间变化,机器人在地图中运动,同时地图本身的通堵情况也会发生改变,因此这个三维矩阵中的值会随着时间变化;所述运动规划智能体由运动决策模块和决策评价模块构成,运动决策模块是串并联的神经网络,由并行图卷积结构加上串行全连接网络层构成;决策评价模块则是一个多层感知网络
。2.
如权利要求1所述的面向协同避障和自主规划的多机器人运动规划方法,其特征在于,所述步骤
S1
中的时空地图表示如下:式中
t
表示时间步,并且
1≤t≤T|t∈Z

Y
表示整个多机协同运动过程的终止时刻;
x,y,z
则分别表示网格化后的空间位置坐标,并且
0≤x≤X|x∈Z

0≤y≤Y|y∈Z

0≤z≤Z|z∈Z

X,Y,Z
分别为运动空间三个方向上的边界
。3.
如权利要求1所述的面向协同避障和自主规划的多机器人运动规划方法,其特征在于,所述步骤
S2
中且切片处理后的单层时空地图可以表示为其中
i
表示特定层的序号;所述步骤
S2
中的图卷积操作用于处理单层时空地图信息,单层地图也可表示为
G

(V,E)
,其中
V
表示节点集合,
E
表示节点之间的边集合,图卷积操作由聚合邻接节点信息和节点线性变换两步构成,首先对于每个节点,图卷积操作会将它邻接节点的特征向量进行平均或加权求和,以得到一个聚合的邻接信息向量;然后再进行线性变换;那么图卷积操作可以表示为:
其中
σ
为激活函数,节点
v
i
的邻接节点集合为
V(i)
,邻接节点特征向量为
x
j
(j in N(i))
,边权重为
ω
i,j

W
为图卷积神经网络的权重矩阵;所述运动决策模块输出的即时运动决策是三维离散运动空间中的上




...

【专利技术属性】
技术研发人员:郑联语周健樊伟
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1