当前位置: 首页 > 专利查询>重庆大学专利>正文

具有时变状态约束的多智能体有限时间事件触发控制方法技术

技术编号:33638050 阅读:9 留言:0更新日期:2022-06-02 01:53
本发明专利技术涉及一种具有时变状态约束的多智能体有限时间事件触发控制方法,属于计算机领域。本发明专利技术针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统,为实现系统的状态一致性控制,采用非线性映射函数将受时变约束的状态转化为不受约束的状态,并针对该不受限制的系统设计了有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费,整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法,并结合Critic神经网络实现对未知值函数的逼近,再通过在线策略迭代求解出最优的控制策略。制策略。制策略。

【技术实现步骤摘要】
具有时变状态约束的多智能体有限时间事件触发控制方法


[0001]本专利技术属于计算机领域,涉及具有时变状态约束的多智能体有限时间事件触发控制方法。

技术介绍

[0002]在实际应用,出于安全性和性能因素的考虑,系统不可避免地会受到外部环境或其内部自身存在的某些限制,因此时常要对自身的状态进行约束,这种状态约束可以分为时不变或者时变的。对时不变状态约束,如在机器人操作系统中,为了保证机器人的稳定性,通常要将各个关节的运动速度设定在一个可靠的常值范围之内;对于时变状态约束,比如在无人驾驶系统中,要求汽车在行驶过程中的位置和速度需要时刻依据实时路况以及车流量等信息对汽车行驶的速度进行限制,因此对位置或速度的约束是要时刻跟随外界环境的变化而变化的。因此研究具有时变状态约束的控制问题具有重要的理论和应用意义。按照目前的研究,解决状态约束的方法主要分为两种,一种是障碍李雅普诺夫函数法(BLF),该方法的主要思想是不对受约束的状态进行非线性映射,而是在选取李雅普诺夫函数时选取为障碍李雅普诺夫函数,该函数的特点是当受约束的状态趋于状态的上下限时,函数的取值会趋于无穷大,通过进一步对李雅普诺夫函数的分析就可以解决状态约束问题。另一种方式被称为非线性映射方法,该方法的思想是将受约束的状态通过某个非线性函数映射后,将受约束的状态转化为不受约束的状态,在整个变化过程中,只要保证变化后的状态施加某种限定条件(如始终保持有界)就能保证变化前后的系统等价,即可以利用映射后不受约束的状态来对系统进行分析以此来解决系统的状态约束问题。同样的,这两种方法也同样适用于求解具有非对称时变状态约束的系统,只是对于时变约束的系统采用BLF时应选取时变障碍李雅普诺夫函数。
[0003]其次在实际控制中,随着系统规模和多智能体维数的增加,计算资源的消耗也越来越大,而且各个智能体之间总是存在通信网络带宽和计算资源的限制,因此很多时候求得出的一致性控制策略往往不可行。为了延长智能体的使用寿命,减少智能体之间不必要的通信和控制器的更新,使得智能体之间可以更为有效的节省有限的传输与计算资源。因此近些年来,事件触发控制得到了广泛关注,该触发方式不同于时间触发,控制策略不是时刻跟着时间的变化而变化,而是在满足预先设定的事件触发条件时才会对控制策略进行更新,在不满足触发条件时,控制策略始终与上一个触发时刻更新的策略保持一致。这样一来,控制器就不需要无时无刻的变化,在满足性能的同时,又能极大程度上的减少通讯资源的浪费。在最近的研究当中,将分布式事件触发控制算法引入了多智能体的一致性控制当中也成为了现实,让控制策略按照根据预先设定的分布式事件触发协议更新,即能减少通信资源,也比传统的时间触发系统有更好的实时性能,分布式的方式也使得每个智能体的策略更新仅在自己的时间触发,也显著的降低了触发频率。但引入事件触发控制之后,必须要对该控制策略在触发条件满足是否会在有限时间内被无限次数的触发,这种现象我们称为Zeno行为,这是执行器所接受不了的。因此在引入事件触发控制之后,必须要对事件触发
控制策略以及触发条件进行验证,证明其在任意时间内都不会使系统产Zeno行为。
[0004]为了求得基于事件触发机制下的有限时间最优控制策略,近些年来有许多学者将事件触发与最优控制方法结合起来。求解最优控制问题的最关键问题就在于对Hamilton

Jacobi

Bellman方程(HJBEs)的求解,而HJB方程由于系统维数或模型可能存在未知部分的原因,通常很难求得解析解。因此为了解决这一问题,通常会将自适应动态规划(ADP)或强化学习(Reinforcement Learning RL)结合起来,通过迭代的方式来求解HJB方程,以获得最优策略。
[0005]由于目前研究具有状态约束的问题大多数是针对单个的智能体系统而言,对多智能体系统的一致性研究较少,而且基本上考虑的都是时不变的状态约束,对具有时变非对称状态约束的考虑较少。另外在解决状态约束问题是用到的BLF方法需要根据状态受限的条件重新设计李雅普诺夫函数,导致控制器的设计过程复杂,而且绝大多数情况下只应用于状态受限的单个系统,因此本专利技术为了降低控制器设计的复杂程度,并且能够处理具有非对称时变状态约束的低阶且部分模型未知的非线性多智能体系统,采用了非线性映射的方式对具有时变非对称约束的状态进行处理。
[0006]另外虽然事件触发控制可以在极大程度上减少对通信资源的浪费,但大多数情况下一致性控制问题都是在无限时间收敛下来考虑的,即往往不考虑系统达到一致性的收敛速度,而往往我们想要得到更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性。因此本专利技术引入了有限时间事件触发控制,使系统既能减少通信资源的同时,也可以加快系统达到一致性的收敛速度,该收敛时间还可以根据具体需求进行人为的设定,使得事件触发控制的鲁棒性和时效性得到了有效的提高。同时为了消除事件触发控制策略所可能引起的Zeno行为,该现象是指控制策略在有限时间内被无限次数的触发,这是系统所不允许的,因此额外增加了一个自适应动态参数,通过合理设计该参数的自适应率,便可避免求得的控制策略使系统产生Zeno行为。
[0007]同时由于该算法求得的事件触发控制策略虽然可以使得多智能体系统在有限时间内到达平均状态一致性,但往往不能保证该控制策略为最优的。因此为了求解出最优策略,本专利技术引入了强化学习算法对最优策略进行求解,通过设置与状态误差、控制输入和当前状态有关的带折扣因子的成本函数,对该成本函数求导并结合Hamilton方程写出HJB(Hamilton

Jacobi

Bellman)方程,在根据事件触发条件以及采样误差与Hamilton方程逼近误差将HJB(event

triggered HJB)方程改写成ETHJB方程,再利用Critic神经网络对未知的值函数进行逼近,再带回到原来的ETHJB方程中,通过反复迭代,直至当前控制策略与下一步的控制方法收敛到足够小的误差项,则该策略即为想要求得的最优控制方法。

技术实现思路

[0008]有鉴于此,本专利技术的目的在于提供一种具有时变状态约束的多智能体有限时间事件触发控制方法。本专利技术针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统,为实现系统的状态一致性控制,采用非线性映射函数将受时变约束的状态转化为不受约束的状态,并针对该不受限制的系统设计了一种有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费,还使得系统具有更快的收敛速度、更好的抗干扰能力以及更强的鲁棒性,整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另
外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法,并结合Critic神经网络实现对未知值函数的逼近,再通过在线策略迭代求解出最优的控制策略。
[0009]为达到上述目的,本专利技术提供如下技术方案:
[0010]具有时变状态约束的多智能体有限时间事件触发控制方法,该方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.具有时变状态约束的多智能体有限时间事件触发控制方法,其特征在于:该方法包括以下步骤:S1:建立问题;考虑如下由n个智能体组成的无领导者的非线性多智能体系统,其中每个智能体的模型表示为:其中为状态向量,为控制输入,设跟随者模型中的为未知光滑的非线性函数;局部邻居误差定义为:定义平均状态为跟踪误差定义为:y
i
(t)=x
i
(t)

x0(t)(1

3)为便于描述,将y
i
(t),x
i
(t),x0(t),e
i
(t)分别写为y
i
,x
i
,x0,e
i
,同时令x(t)=[x1,x2,...,x
n
]
T
,e(t)=[e1,e2,...,e
n
]
T
,得:得:其中为克罗内克积,I
n
为n阶单位矩阵;状态x1,x2,...,x
n
且始终满足非对称时变约束,即有:其中n为跟随者的个数,x
i
(t),分别为受限状态的上下限,其值与时间有关,该约束对于任意时间都满足;在t=0时刻要人为的设置一个足够大上界和一个足够小的下界x
i
(0)使得满足;设上下限的导数和均存在;假设系统中的F
i
(x
i
(t))为未知光滑的非线性函数,采用神经网络对未知的函数进行拟合,如下所示:其中Z和O(X)分别为神经网络的输入和输出,φ(
·
)为基函数,W为权重系数;在本发明中,基函数φ(
·
)选取为双曲正切函数,具体形式如下:将未知函数F
i
(x
i
(t))用神经网络替换得F
i
(x
i
(t))=W
iT
φ(V
T
Z)+ε
i
(1

9)
其中W为神经网络理想的权重系数,ε为逼近误差,且满足||ε||≤ε
m
,||W||≤W
m
,ε
m
,W
m
均为未知的正常数,||
·
||为标准欧几里得范数;S2:状态映射;非线性多智能体系统的状态要始终保持在某个非对称时变约束中,采用非线性映射的方式将受事变约束的状态转换为不受约束的状态,具体过程如下:假设x
i
(t)满足以下等式,即选取如下的非线性映射函数:对(3

2)移项再取反函数得:其中i=1,2,...,n,s
i
为经过映射后得到的状态,不难看出,当x
i
(t)趋近于上界时有趋于正无穷,当x
i
(t)趋近于下界x
i
(t)时有趋于负无穷,即有:经过(2

2)的映射之后,先前受时变非对称约束的状态x
i
(t)转化为了不受约束的状态s
i
,另外显然tan(
·
)在区间上为单调递增的函数,只需要保证变化后的状态s
i
在任意时刻下始终是有界的,那么就存在唯一的一个映射前的状态x
i
(t)以及一组上下界与之相对应;即将该状态经过非线性映射函数映射后得到不受约束的状态s
i
,对于这个不受约束的状态只需要保证该状态始终有界,就能时映射前后的系统等价,通过该状态来实现原先状态受约束系统的一致性控制;显然s
i
为与x
i
(t),x
i
(t)有关的函数,因此将(3

5)写成矩阵形式得其中Γ=[Γ1,Γ2,...,Γ
n
]
T
,u=[0,...,0,u]
T
,F(x)=[F1(x
i
),F2(x
i
),...,F
n
(x
i
)]
T

S3:设计分布式有限时间事件触发控制器设控制策略在满足以下条件时会进行触发,控制策略为:神经网络的自适应率为:其中p,q均为后续设计的控制增益常数,为理想的神经网络权重系数,表示第i个智能体的第k个采样时刻,且满足上述策略更新的触发条件为:其中d为正常数;对该控制策略以及触发条件的可行性进行证明,实现选取如下的李雅普诺夫函数:其中为自定义的正定矩阵,tr(
·
)为矩阵的迹;对V0(t)沿时间t求导,具有时变非对称约束的状态x(t)可状态非线性映射函数的映射下转换为不受约束的状态s(t);y(t)和x(t)的关系转换为:则为:由于无向图的拉普拉斯矩阵的任意一行或任意一列的元素之和等于0,即有由于无向图的拉普拉斯矩阵的任意一行或任意一列的元素之和等于0,即有为n维的列向量,在(3

5)式两边同乘得再将将代入,并将未知非线性函数F(x)用神经网络替换得:
代入神经网络的自适应率,并结合引理二知:其中将控制增益系数p,q分别设置为将引理三代入上式得:其中由事件触发条件知,在时间时,总有||z
i
(t)||2+||r
i
(t)||2≤d||e
i
(t)||2满足,即有其中将其带入到上式中得:
其中在分布式控制策略(3

1)和神经网络自适应率(3

2),以及事件触发条件(3
...

【专利技术属性】
技术研发人员:陈刚刘智
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1