一种非合作博弈中多智能体系统容错控制方法技术方案

技术编号：37390317 阅读：16 留言：0更新日期：2023-04-27 07:28

一种非合作博弈中多智能体系统容错控制方法，本发明专利技术涉及非合作博弈中多智能体系统容错控制方法。本发明专利技术目的是为了解决现有非合作博弈纳什均衡博弈控制不具有普遍性的缺陷，以及当任何一个智能体发生故障时，其余智能体的策略将受到故障的影响，导致策略收敛到错误的纳什均衡的问题。过程为：步骤一：建立多智能体系统整体状态空间模型；步骤二：建立多智能体通信拓扑模型，得到邻接矩阵和拉普拉斯矩阵；步骤三：设定每一个智能体的收益函数；步骤四：设计每个智能体的分布式控制器；步骤五：设计每个智能体的观测器；步骤六：设计每个智能体的容错补偿控制器。本发明专利技术用于故障诊断与容错控制领域。控制领域。控制领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种非合作博弈中多智能体系统容错控制方法

[0001]本专利技术涉及非合作博弈中多智能体系统容错控制方法，属于故障诊断与容错控制领域。

技术介绍

[0002]近年来，多智能体系统博弈领域得到快速发展，其中包括编队控制与汇合、覆盖控制、连接控制和网络堵塞控制等在实际系统中有广泛应用。多智能体系统通过智能体之间的相互通信、相互作用来完成任务，其中包括许多传感器、执行器和通信网络。而当在一个复杂的工作环境中执行任务时，多智能体系统将不可避免地出现故障，如传感器故障、执行器故障、系统故障等。因此，故障诊断和容错控制技术有利于确保多智能体系统安全有效地完成任务，设计先进的容错控制方法来保证多智能体系统正确运行是十分重要的。
[0003]现有的非合作博弈纳什均衡博弈控制只针对一阶、二阶或高阶积分型的智能体，在实际应用中不具有普遍性，并且当任何一个智能体执行器发生故障时，其余智能体的策略将受到故障的影响。在这种情况下，控制策略会导致状态收敛到错误的纳什均衡。因此，当智能体发生故障时，需要设计一种新的分布式控制方案，来解决多智能体系统在非合作博弈中的分布式纳什均衡搜索问题。

技术实现思路

[0004]本专利技术目的是为了解决现有非合作博弈纳什均衡博弈控制不具有普遍性的缺陷，以及当任何一个智能体发生故障时，其余智能体的策略将受到故障的影响，导致策略收敛到错误的纳什均衡的问题，而提出一种非合作博弈中多智能体系统容错控制方法。
[0005]一种非合作博弈中多智能体系统容错控制方法具体过程为：
[00...

【技术保护点】

【技术特征摘要】
1.一种非合作博弈中多智能体系统容错控制方法，其特征在于：所述方法具体过程为：步骤一：建立多智能体系统整体状态空间模型；步骤二：建立多智能体通信拓扑模型，得到邻接矩阵和拉普拉斯矩阵；步骤三：设定每一个智能体的收益函数；步骤四：设计每个智能体的分布式控制器；步骤五：设计每个智能体的观测器；步骤六：设计每个智能体的容错补偿控制器。2.根据权利要求1所述的一种非合作博弈中多智能体系统容错控制方法，其特征在于：所述步骤一中建立多智能体系统整体状态空间模型；具体过程为：假设N个智能体组成一个多智能体系统智能体i的状态空间模型表示如下：其中，A
i
,B
i
,C
i
是第i个智能体的系统参数矩阵，i＝1,2,
…
,N，x
i
∈R
n
、u
i
∈R
l
和y
i
∈R
m
分别表示第i个智能体的系统状态、控制输入和输出；为x
i
的一阶导数，是全体智能体的集合，R代表实数，m,n,l为正整数，R
n
为n维的实数，R
l
为l维的实数，R
m
为m维的实数。3.根据权利要求2所述的一种非合作博弈中多智能体系统容错控制方法，其特征在于：所述步骤二中建立多智能体通信拓扑模型，得到邻接矩阵和拉普拉斯矩阵；具体过程为：根据智能体之间的通讯关系建立通讯拓扑模型，定义多智能体系统通信拓扑连接图为其中，为边集合，ε为点集合；若(i,j)∈ε，则说明智能体i与智能体j是相邻的，则可以进行通讯、信息交互；若则说明智能体i与智能体j不是相邻的，则不可以进行通讯、不可以信息交互；由多智能体系统通信拓扑连接图得到邻接矩阵其中，若有(i,j)∈ε，则定义a
ij
＝1，否则为0；a
ij
为邻接矩阵中的元素，i＝1,2,
…
,N，j＝1,2,
…
,N；由邻接矩阵得到拉普拉斯矩阵其中，为度矩阵，是度矩阵中的对角线元素，diag( )为将元素放到矩阵的对角线上的运算，R
N
×
N
为N
×
N维的实数。4.根据权利要求3所述的一种非合作博弈中多智能体系统容错控制方法，其特征在于：所述步骤三中设定每一个智能体的收益函数；具体过程为：多智能体系统中的每个智能体为非合作博弈中的一个玩家，根据智能体的输出y＝[y1,
y2,...,y
N
]
T
∈R
N
×
m
，会有相应的收益函数：J(y)＝(J1(y),...,J
N
(y))；为了达到纳什均衡，每个智能体希望通过改变自己的输出，最大化自己的收益函数J
i
(y
i
,y
‑
i
)即：其中，y
‑
i
＝[y1,y2,...,y
i
‑1,y
i+1
,...,y
N
]
T
∈R
(N
‑
1)
×
m
为除去本地智能体输出的向量。5.根据权利要求4所述的一种非合作博弈中多智能体系统容错控制方法，其特征在于：所述步骤四中设计每个智能体的分布式控制器输出为；具体过程为：为了达到纳什均衡，针对智能体i设计如下的基于梯度的控制策略：u
c,i
＝K
c,i
x
i
+K
d,i
(ω
i
‑
y
i
)
ꢀꢀꢀꢀ
(4)其中，K
c,i
和K
d,i
是控制器参数；ω
i
是一个辅助变量，u
c,i
是控制器输出；其中：其中，β
i
是正参数，为ω
i
的一阶导数，为对i个收益函数求梯度，J
i
(z
i
)为智能体i的收益，z
i
是智能体i对非邻居智能体的输出的估计量。6.根据权利要求5所述的一种非合作博弈中多智能体系统容错控制方法，其特征在于：所述的求解过程为：其中，y
i
为智能体i的输出，J
i
为智能体i的收益，J
i
(y)为智能体i的收益，y为智能体系统的输出；所述智能体i对非邻居智能体输出的估计量z
i
的求解过程为：使用基于分布式领导者
‑
追随者的平均一致性估计算法来估计非相邻智能体的输出，表达式为：式中，θ
ij
...

【专利技术属性】
技术研发人员：王豪，罗浩，蒋宇辰，宁哲远，霍明夷，乔新宇，徐晓艺，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人