一种非合作博弈中多智能体系统容错控制方法技术方案

技术编号:37390317 阅读:16 留言:0更新日期:2023-04-27 07:28
一种非合作博弈中多智能体系统容错控制方法,本发明专利技术涉及非合作博弈中多智能体系统容错控制方法。本发明专利技术目的是为了解决现有非合作博弈纳什均衡博弈控制不具有普遍性的缺陷,以及当任何一个智能体发生故障时,其余智能体的策略将受到故障的影响,导致策略收敛到错误的纳什均衡的问题。过程为:步骤一:建立多智能体系统整体状态空间模型;步骤二:建立多智能体通信拓扑模型,得到邻接矩阵和拉普拉斯矩阵;步骤三:设定每一个智能体的收益函数;步骤四:设计每个智能体的分布式控制器;步骤五:设计每个智能体的观测器;步骤六:设计每个智能体的容错补偿控制器。本发明专利技术用于故障诊断与容错控制领域。控制领域。控制领域。

【技术实现步骤摘要】
一种非合作博弈中多智能体系统容错控制方法


[0001]本专利技术涉及非合作博弈中多智能体系统容错控制方法,属于故障诊断与容错控制领域。

技术介绍

[0002]近年来,多智能体系统博弈领域得到快速发展,其中包括编队控制与汇合、覆盖控制、连接控制和网络堵塞控制等在实际系统中有广泛应用。多智能体系统通过智能体之间的相互通信、相互作用来完成任务,其中包括许多传感器、执行器和通信网络。而当在一个复杂的工作环境中执行任务时,多智能体系统将不可避免地出现故障,如传感器故障、执行器故障、系统故障等。因此,故障诊断和容错控制技术有利于确保多智能体系统安全有效地完成任务,设计先进的容错控制方法来保证多智能体系统正确运行是十分重要的。
[0003]现有的非合作博弈纳什均衡博弈控制只针对一阶、二阶或高阶积分型的智能体,在实际应用中不具有普遍性,并且当任何一个智能体执行器发生故障时,其余智能体的策略将受到故障的影响。在这种情况下,控制策略会导致状态收敛到错误的纳什均衡。因此,当智能体发生故障时,需要设计一种新的分布式控制方案,来解决多智能体系统在非合作博弈中的分布式纳什均衡搜索问题。

技术实现思路

[0004]本专利技术目的是为了解决现有非合作博弈纳什均衡博弈控制不具有普遍性的缺陷,以及当任何一个智能体发生故障时,其余智能体的策略将受到故障的影响,导致策略收敛到错误的纳什均衡的问题,而提出一种非合作博弈中多智能体系统容错控制方法。
[0005]一种非合作博弈中多智能体系统容错控制方法具体过程为:
[0006]步骤一:建立多智能体系统整体状态空间模型;
[0007]步骤二:建立多智能体通信拓扑模型,得到邻接矩阵和拉普拉斯矩阵;
[0008]步骤三:设定每一个智能体的收益函数;
[0009]步骤四:设计每个智能体的分布式控制器;
[0010]步骤五:设计每个智能体的观测器;
[0011]步骤六:设计每个智能体的容错补偿控制器。
[0012]本专利技术的有益效果为:
[0013]本专利技术提出一种在非合作博弈框架下的基于平均一致性的分布式纳什均衡搜索策略以及一种基于残差反馈的容错控制方法。本专利技术将多智能体系统的分布式纳什均衡搜索问题扩展到更普遍的多智能体形式,并且解决了非合作博弈框架下的多智能体容错控制问题。
[0014]现有的非合作博弈中分布式纳什均衡博搜索策略只针对一阶、二阶、高阶积分型的多智能体系统没有状态项,在实际应用中不具有普遍性。本专利技术考虑更加一般形式智能体的分布式纳什均衡博搜索策。另外,当任何一个智能体发生故障时,其余智能体的控制策
略将受到故障的影响,在这种情况下,搜索策略会导致策略收敛到错误的纳什均衡。本专利技术设计基于残差反馈的容错控制器,使得当出现执行器故障时各个智能体的策略都能收敛到正确的纳什均衡点,实现容错控制。
[0015]本专利技术与一阶、二阶或高阶积分型智能体模型相比,考虑的状态空间模型更具有普遍性。本专利技术通过基于残差的容错控制器可以实现执行器出现故障时依旧收敛至无故障时的纳什均衡点的效果。
附图说明
[0016]图1为本专利技术方法流程图;
[0017]图2为智能体之间的通讯拓扑图;
[0018]图3为无容错控制情况下的各个智能体的输出轨迹示例图,y
i1
为输出的1维矩阵,y
i2
为输出的2维矩阵;
[0019]图4为有容错控制情况下的各个智能体的输出轨迹示例图。
具体实施方式
[0020]具体实施方式一:本实施方式一种非合作博弈中多智能体系统容错控制方法具体过程为:
[0021]本专利技术是为了解决多智能体系统在发生执行器故障时的分布式纳什均衡搜索问题。本专利技术通过分布式平均一致性算法估计非邻居智能体的策略,进而更新本地智能体的策略。当有智能体发生执行器故障时,设计基于残差反馈的容错控制方法,使得当出现执行器故障时全体多智能体的策略依然能收敛到纳什均衡点。具体实施方式的流程图如图1所示。
[0022]步骤一:建立多智能体系统整体状态空间模型;
[0023]步骤二:建立多智能体通信拓扑模型,得到邻接矩阵和拉普拉斯矩阵;
[0024]步骤三:基于实际情况设定每一个智能体的收益函数;
[0025]步骤四:设计每个智能体的分布式控制器;
[0026]步骤五:设计每个智能体的观测器;
[0027]步骤六:设计每个智能体的容错补偿控制器。
[0028]具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中建立多智能体系统整体状态空间模型;具体过程为:
[0029]假设N个智能体组成一个多智能体系统智能体i的状态空间模型表示如下:
[0030][0031]其中,A
i
,B
i
,C
i
是第i个智能体的系统参数矩阵,i=1,2,

,N,x
i
∈R
n
、u
i
∈R
l
和y
i
∈R
m
分别表示第i个智能体的系统状态、控制输入和输出(即智能体的策略);为x
i
的一阶导数,是全体智能体的集合,R代表实数,m,n,l为正整数,R
n
为n维的实数,R
l
为l维的实数,
R
m
为m维的实数。
[0032]所述智能体为移动机器人、无人机等。
[0033]其它步骤及参数与具体实施方式一相同。
[0034]具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤二中建立多智能体通信拓扑模型,得到邻接矩阵和拉普拉斯矩阵;具体过程为:
[0035]根据智能体之间的通讯关系建立通讯拓扑模型,定义多智能体系统通信拓扑连接图为
[0036]其中,为边集合,ε为点集合;
[0037]若(i,j)∈ε,则说明智能体i与智能体j是相邻的,则可以进行通讯、信息交互;
[0038]若则说明智能体i与智能体j不是相邻的,则不可以进行通讯、不可以信息交互;
[0039]由多智能体系统通信拓扑连接图得到邻接矩阵
[0040][0041]其中,若有(i,j)∈ε,则定义a
ij
=1,否则为0;a
ij
为邻接矩阵中的元素,i=1,2,

,N,j=1,2,

,N;
[0042]由邻接矩阵得到拉普拉斯矩阵
[0043]其中,为度矩阵,是度矩阵中的对角线元素,diag()为将元素放到矩阵的对角线上的运算,R
N
×
N
为N
×
N维的实数。
[0044]其它步骤及参数与具体实施方式一或二相同。
[0045]具体实施方式四:本实施方式与具体实施方式一至三之一不同的是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非合作博弈中多智能体系统容错控制方法,其特征在于:所述方法具体过程为:步骤一:建立多智能体系统整体状态空间模型;步骤二:建立多智能体通信拓扑模型,得到邻接矩阵和拉普拉斯矩阵;步骤三:设定每一个智能体的收益函数;步骤四:设计每个智能体的分布式控制器;步骤五:设计每个智能体的观测器;步骤六:设计每个智能体的容错补偿控制器。2.根据权利要求1所述的一种非合作博弈中多智能体系统容错控制方法,其特征在于:所述步骤一中建立多智能体系统整体状态空间模型;具体过程为:假设N个智能体组成一个多智能体系统智能体i的状态空间模型表示如下:其中,A
i
,B
i
,C
i
是第i个智能体的系统参数矩阵,i=1,2,

,N,x
i
∈R
n
、u
i
∈R
l
和y
i
∈R
m
分别表示第i个智能体的系统状态、控制输入和输出;为x
i
的一阶导数,是全体智能体的集合,R代表实数,m,n,l为正整数,R
n
为n维的实数,R
l
为l维的实数,R
m
为m维的实数。3.根据权利要求2所述的一种非合作博弈中多智能体系统容错控制方法,其特征在于:所述步骤二中建立多智能体通信拓扑模型,得到邻接矩阵和拉普拉斯矩阵;具体过程为:根据智能体之间的通讯关系建立通讯拓扑模型,定义多智能体系统通信拓扑连接图为其中,为边集合,ε为点集合;若(i,j)∈ε,则说明智能体i与智能体j是相邻的,则可以进行通讯、信息交互;若则说明智能体i与智能体j不是相邻的,则不可以进行通讯、不可以信息交互;由多智能体系统通信拓扑连接图得到邻接矩阵其中,若有(i,j)∈ε,则定义a
ij
=1,否则为0;a
ij
为邻接矩阵中的元素,i=1,2,

,N,j=1,2,

,N;由邻接矩阵得到拉普拉斯矩阵其中,为度矩阵,是度矩阵中的对角线元素,diag( )为将元素放到矩阵的对角线上的运算,R
N
×
N
为N
×
N维的实数。4.根据权利要求3所述的一种非合作博弈中多智能体系统容错控制方法,其特征在于:所述步骤三中设定每一个智能体的收益函数;具体过程为:多智能体系统中的每个智能体为非合作博弈中的一个玩家,根据智能体的输出y=[y1,
y2,...,y
N
]
T
∈R
N
×
m
,会有相应的收益函数:J(y)=(J1(y),...,J
N
(y));为了达到纳什均衡,每个智能体希望通过改变自己的输出,最大化自己的收益函数J
i
(y
i
,y

i
)即:其中,y

i
=[y1,y2,...,y
i
‑1,y
i+1
,...,y
N
]
T
∈R
(N

1)
×
m
为除去本地智能体输出的向量。5.根据权利要求4所述的一种非合作博弈中多智能体系统容错控制方法,其特征在于:所述步骤四中设计每个智能体的分布式控制器输出为;具体过程为:为了达到纳什均衡,针对智能体i设计如下的基于梯度的控制策略:u
c,i
=K
c,i
x
i
+K
d,i

i

y
i
)
ꢀꢀꢀꢀ
(4)其中,K
c,i
和K
d,i
是控制器参数;ω
i
是一个辅助变量,u
c,i
是控制器输出;其中:其中,β
i
是正参数,为ω
i
的一阶导数,为对i个收益函数求梯度,J
i
(z
i
)为智能体i的收益,z
i
是智能体i对非邻居智能体的输出的估计量。6.根据权利要求5所述的一种非合作博弈中多智能体系统容错控制方法,其特征在于:所述的求解过程为:其中,y
i
为智能体i的输出,J
i
为智能体i的收益,J
i
(y)为智能体i的收益,y为智能体系统的输出;所述智能体i对非邻居智能体输出的估计量z
i
的求解过程为:使用基于分布式领导者

追随者的平均一致性估计算法来估计非相邻智能体的输出,表达式为:式中,θ
ij
...

【专利技术属性】
技术研发人员:王豪罗浩蒋宇辰宁哲远霍明夷乔新宇徐晓艺
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1