【技术实现步骤摘要】
一种基于图神经网络的强化学习集群蜂拥控制方法
[0001]本专利技术专利属于多智能体集群和强化学习领域,是一种基于图神经网络的深度强化学习集群蜂拥控制方法,涉及到集群拓扑结构特征提取和强化学习中状态与动作空间构造、回报函数与训练流程设计等一系列方法。
技术介绍
[0002]集群蜂拥控制具有很重要的应用和科研价值,例如对无人机、无人车集群的自适应控制等。目前的蜂拥控制方法缺乏对系统拓扑结构信息的有效利用,且在方法设计中未考虑到智能体间的等价性,系统拓扑结构的动态变化和控制系统中的随机噪声干扰极大地削弱了控制算法的性能,因此提高蜂拥控制算法的效率,在最短的时间内实现拓扑结构收敛与速度一致,是多智能体集群蜂拥控制的一个重要研究方向。
[0003]图神经网络是一类基于图结构的深度学习方法,可以根据图数据之间的邻接关系提取结构特征并对图数据间的依赖关系进行建模。图卷积神经网络首次将卷积操作应用于图数据,有效弥补了传统卷积神经网络无法处理非欧数据的不足。目前,图神经网络已经在社交网络、知识图谱、自然语言处理等领域中对于非欧数据的 ...
【技术保护点】
【技术特征摘要】
1.一种基于图神经网络的强化学习集群蜂拥控制方法,其特征在于,包括以下步骤:步骤S1、建立集群蜂拥控制模型,集群在经过有限次的蜂拥控制后应逐渐形成稳定的拓扑结构并保持速度一致,稳定后系统误差应趋于0;步骤S2、整个集群系统视作一个无向图G,无向图G的邻接矩阵为A,为无向图G的邻接矩阵A引入蜂拥控制误差,得到加权邻接矩阵基于加权邻接矩阵利用顺序连接的两层图卷积神经网络(GCN)提取集群系统的拓扑结构特征,得到最终的集群拓扑结构特征表示H
A
′
;步骤S3、确定智能体的观测信息特征表示方法,构建全局与局部观测信息矩阵X
sg
及X
oi
,利用顺序连接的两层图卷积神经网络分别对全局与局部观测信息矩阵X
sg
及X
oi
进行特征提取,得到全局观测信息矩阵X
sg
的特征表示H
sg
′
和局部观测信息矩阵的特征表示H
oi
′
;步骤S4、设计状态空间:基于所述步骤S2中的加权邻接矩阵计算方法以及所述步骤S3中的全局与局部观测信息矩阵X
sg
及X
oi
,分别定义全局观测状态s与agent i的局部观测状态o
i
;设计动作空间:选择连续空间作为智能体的动作空间,确定agent i的速度更新方法;设计回报函数:以智能体间的速度一致与运动过程中避免碰撞为准则;步骤S5、以所述步骤S3中的图卷积神经网络结构为基础,将所述步骤S4中的全局观测状态s和局部观测状态o
i
作为网络输入,分别设计深度强化学习算法中的策略网络与评价网络模型;步骤S6、基于所述步骤S5中的策略网络与评价网络模型,设计强化学习集群蜂拥控制算法框架,并给出策略网络与评价网络的参数更新方法;步骤S7、设计集群蜂拥控制算法的训练流程,基于智能体不断与环境交互产生的经验信息,利用所述步骤S6中的参数更新方法学习网络参数,训练完成后得到可用于集群蜂拥控制的智能体策略网络。2.根据权利要求1所述的一种基于图神经网络的强化学习集群蜂拥控制方法,其特征在于:所述步骤S1包括:建立集群蜂拥控制模型,集群系统由N个智能体构成,其中第i个智能体定义为agent i,智能体在二维平面内运动且满足如下粒子运动模型:其中,p
i
,v
i
及u
i
∈R2分别为agent i的位置、速度,加速度控制量,分别表示p
i
,v
i
相对时间的导数;在距离小于通信距离r
c
的智能体间存在通信连接,根据连接关系定义agent i的邻居集合:N
i
={j∈V:||p
j
‑
p
i
||≤r
c
,j≠i}其中,V为所有智能体的集合,||
·
||为欧几里得范数,邻居智能体间可以通过通信交换位置、速度等信息;指定集群中某个agent为领导者,记为leader,其余的N
‑
1个agent为跟随者,记为follower,蜂拥控制模型可表述为:follower跟随leader运动且在运动过程中避免碰撞,最
终整个集群达成速度一致并形成稳定的拓扑结构;蜂拥控制系统在时刻k的误差定义如下:e(k)=e
lf
(k)+e
ff
(k)其中,e
lf
(k)为follower与leader之间相对距离和速度的误差,定义如下:其中,为leader与follower之间的期望距离,和分别为follower i的位置与速度,p0和v0分别为leader的位置与速度,φl(
·
)为具有全局最小值0的凸函数且φ
l
(0)=0;e
ff
(k)为follower之间相对距离和速度的误差,定义如下:其中,为follower之间的期望距离,N
i
为agent i的邻居智能体集合,φ
f
(
·
)为具有全局最小值0的凸函数且φ
f
(0)=0;集群在经过有限次的蜂拥控制后应逐渐形成稳定的拓扑结构并保持速度一致,稳定后系统误差应趋于0:lim
k
→
∞
e(k)=0。3.根据权利要求2所述的一种基于图神经网络的强化学习集群蜂拥控制方法,其特征在于:所述步骤S2包括:确定集群的拓扑结构特征表示方法:整个集群系统可视作一个无向图G=(V,E),所有智能体的集合V构成无向图G的顶点集合,智能体间的连接关系构成图的边集合E,记无向图G的邻接矩阵为A,A为N
×
N的二值对称方阵,其元素值1代表智能体间存在通信连接,值0代表无通信连接;为了更好地反映集群中智能体间的关联程度,为无向图G的邻接矩阵A引入蜂拥控制误差,得到加权邻接矩阵:其中,c
norm
为正则化系数,
⊙
表示Hadamard积,误差权重矩阵W
loss
中的元素定义为W
loss
(i,j)=L
ij
,i,j=0,1,
…
N,误差L
ij
定义如下:其中,为常量系数,凸函数φ
l
(
·
)与φ
f
(
·
)定义如下:φ
l
(z)=min{(c
n
z)4u(
‑
z)+(c
p
z)3u(z),c
rmax
}φ
f
(z)=(c
n
z)4u(
‑
z)其中,c
n
,c
p
为调整系数,c
rmax
为最大误差阈值,单位阶跃函数u(z)定义如下:加权邻接矩阵中的元素值越大,表示agent i与agent j之间的相对速度或位置
误差越大,意味着蜂拥控制策略在调整agent i的位置或速度时对于agent j的关注程度也应该越大,因此有效地表示了集群的拓扑结构信息;基于加权邻接矩阵利用顺序连接的两层图卷积神经网络(GCN)提取集群系统的拓扑结构特征:扑结构特征:其中,W,W
′
为图卷积神经网络层的参数矩阵,b,b
′
为偏置向量,σ(
·
)为激活函数,H
A
为第一层GCN输出的集群拓扑结构特征;基于H
A
,再使用一层GCN进一步提取集群拓扑结构的高维特征信息,得到最终的集群拓扑结构特征表示H
A
′
。4.根据权利要求3所述的一种基于图神经网络的强化学习集群蜂拥控制方法,其特征在于:所述步骤S3包括:确定智能体的观测信息特征表示方法,将邻居智能体j相对于当前智能体i的速度和位置信息,以及智能体j的类别信息(集群中的leader或follower)用于构建agent i的观测信息定义如下:其中,c
j
表示agent j的类别,0代表follower,1代表leader;为提高神经网络训练过程的稳定性,进一步将智能体间的相对距离及相对速度归一化至区间(
‑
1,1)内,可以得到agent i的局部观测信息矩阵:其中,c
v
为相对速度的最大幅值;考虑到集群系统中每个follower智能体间均是同构的且具有等价关系,而X
oi
会因智能体编号顺序的改变而变化,因此为了满足X
oi
相对于智能体编号的不变性,需要对观测信息矩阵的行顺序进行如下调整:X
oi
:=X
oi
[P
order
]其中,P
order
为集群中智能体新的编号顺序,由智能体间相对距离升序排列得到:P
order
=argsort([||p
i
‑
p0||,||p
i
‑
p1||,
…
,||p
i
‑
p
N
||])为了保持智能体排列顺序的前后一致性,需要根据新的智能体编号重新计算步骤S2中的加权邻接矩阵基于顺序调整后的agent i局部观测信息矩阵X
oi
,利用顺序连接的两层图卷积神经网络提取观测信息、特征:H
oi
=σ(X
oi
W+b)H
oi
′
=σ(H
oi
W
′
+b
′
)其中,H
oi
为第一层GCN输出的观测信息特征;在H
o...
【专利技术属性】
技术研发人员:袁国慧,王卓然,何劲辉,肖剑,赵浩浩,
申请(专利权)人:电子科技大学长三角研究院衢州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。