一种数据驱动的多智能体系统PID控制协议自学习方法技术方案

技术编号:32359582 阅读:76 留言:0更新日期:2022-02-20 03:24
本发明专利技术公布了一种数据驱动的多智能体系统PID控制协议自学习方法,本发明专利技术针对PID控制的多智能体系统,提出最优一致性问题;将求解基于PID控制的控制协议参数转化为求解一个非零和博弈问题,提出了一种非策略Q学习算法,实现PID控制协议参数在线自学习以及多智能体系统的最优一致性;将强化学习(RL)技术和神经网络函数估计方法相结合,不要求智能体系统动态已知,完全利用可测量数据自学习PID控制协议参数。本发明专利技术方法不需要知道多智能体系统的动力学模型,就能使所有智能体达到一致状态,即达到一致性,同时能保证多智能体规定性能的最优性。优性。优性。

【技术实现步骤摘要】
一种数据驱动的多智能体系统PID控制协议自学习方法


[0001]本专利技术涉及控制器,具体涉及一种数据驱动的多智能体系统PID控制协议自学习方法。

技术介绍

[0002]多智能体的一致性一直是复杂动力系统的关键问题之一,指的是分布在网络中的所有智能体能渐进地达到相同的状态。虽然已有关于多智能体系统的一致性或最优一致性的研究成果,但是这些方法主要是利用系统的“当前”信息来设计一致性或同步协议。从而呈现出有前景的新研究课题,即不仅是“现在”信息,还可以是“过去”信息甚至“未来”趋势。
[0003]PID控制器可以很好地利用跟踪误差的过去值、现在值和未来趋势,以期获得良好的瞬态,并且性能稳定。现有的基于PID的多智能体系统一致性问题的结果一般是利用基于模型的控制理论得出的,但是复杂动力系统的不确定性、大规模尺度和变量间的耦合使得精确系统模型的构建越来越困难,这促使我们开展基于数据驱动(DD)PID的多智能体系统一致性研究。而众所周知的Ziegler

Nichols方法和Chien

Hrones

Reswick方法可以利用测试数据对简单的线性未知系统很好地工作,但由于缺乏对不确定动态系统的自适应能力,它们很难保持良好的控制性能和稳定性。因此,基于一次性实验数据的DD PID控制、迭代学习控制与极值寻优、粒子群优化与线性二次调节器、自适应更新规则得到了相当多的关注。这些方法为DD PID的研究奠定了坚实的基础。但现有数据驱动的多智能体系统PID一致性控制协议设计方法仍缺乏自学习的能力,强化学习具有与未知环境交换自主学习优化系统性能的控制策略的能力。
[0004]据我们所知,针对多智能体系统最优一致性问题,如何采用强化学习技术,设计数据驱动的PID控制协议参数仍然是一个悬而未决的问题。如果要设计使所有智能体达到一致性的DD PID自学习控制协议,就必须解决PID控制中未知的智能体模型、智能体之间的耦合关系以及PID控制所具有的多控制参数所带来的棘手挑战。

技术实现思路

[0005]针对无模型PID多智能体系统一致性的问题,本专利技术提供了一种数据驱动的多智能体系统PID控制协议自学习方法,该方法不需要知道多智能体系统的动力学模型,就能使所有智能体达到一致状态,即达到一致性,同时能保证多智能体规定性能的最优性。
[0006]为了解决现有技术存在的问题,本专利技术采用以下技术方案:
[0007]本专利技术一种数据驱动的多智能体系统PID控制协议自学习方法,所述多智能体系统为:
[0008]x
i
(k+1)=Ax
i
(k)+Bu
i
(k)
ꢀꢀꢀ
(1)
[0009]其中x
i
(k)∈R
n
,u
i
(k)∈R
r
(i=1,

,N)是智能体i的状态向量和控制输入,对所有的智能体i,k∈V,A∈R
n
×
n
,B∈R
n
×
p

[0010]由所述多智能体动力学模型,定义智能体i的局部邻居误差:
[0011][0012]其中e
ij
是多智能体的边权;
[0013]智能体i在k+1时刻的局部邻居误差δ
i
(k+1)的动力学方程表示如下:
[0014][0015]包括以下步骤:
[0016]S1:构建PID控制协议:
[0017]u
i
(z)=C
i
(z)δ
i
(z)
ꢀꢀꢀ
(4)
[0018]其中:
[0019][0020]K
i,p
、K
i,i
、K
i,d
分别为比例控制增益、积分控制增益和微分控制增益;z为被控输出,C
i
(z)为离散时间的PID控制器;C
i
(z)的状态空间实现写为:
[0021][0022]其中x
i,c
(k)∈R
2r
是对应于智能体i的PID控制器的动力学状态:
[0023][0024]C
c
=[I
r I
r
],D
c
=K
i,p
+K
i,i
+K
i,d
[0025]I
r
为r
×
r的单位矩阵;
[0026]S2:将PID控制协议(6)应用于系统(3)产生以下闭环系统:
[0027][0028]其中x
j,c
(k)是对应于智能体j的PID控制器的动力学状态,δ
j
(k)为智能体j的邻居误差,D
j,c
是对应智能体j时的PID三个参数之和;
[0029]S3:令结合(6)和(7)得到增广形式:
[0030][0031]得到:
[0032]其中:
[0033][0034][0035]分别是对应智能体j时的量;
[0036]S4:设计最优控制协议使如下性能指标最小:
[0037][0038]其中Q
i
≥0,R
i
≥0(i=1,2,

N)是对称加权矩阵,T表示转置;
[0039]S5:对应(12)式的值函数写为:
[0040][0041]S6:提出如下Hamilton

Jacobi

Bellman(HJB)方程:
[0042][0043]S7:得到Q函数的HJB方程:
[0044][0045]S8:得到最优控制协议:
[0046]S9:寻找最优权矩阵W
i*

[0047]进一步地,所述Q函数的HJB方程采用基于策略迭代的强化学习算法,求解非零和博弈的Nash均衡解,求解过程包括以下步骤:
[0048]①
初始化:选择任意允许的控制协议
[0049]②
策略评估:对所有智能体的矩阵W
ij+1
进行如下步骤:
[0050][0051][0052]③
智能体进行策略更新:
[0053][0054]④
||W
ij+1

W
ij
||≤ε时停止循环,否则回到第

步;
[0055]其中,是局部邻居误差和控制器状态的增广形式,Q
i
≥0,R
i
≥0(i=1,2,

N)是对称加权矩阵,是矩阵W
ij+1
里的分量。
[0056]进一步地,所述步骤S9寻找最优权矩阵W
...

【技术保护点】

【技术特征摘要】
1.本发明一种数据驱动的多智能体系统PID控制协议自学习方法,所述多智能体系统为:x
i
(k+1)=Ax
i
(k)+Bu
i
(k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中x
i
(k)∈R
n
,u
i
(k)∈R
r
(i=1,

,N)是智能体i的状态向量和控制输入,对所有的智能体i,k∈V,A∈R
n
×
n
,B∈R
n
×
p
;由所述多智能体动力学模型,定义智能体i的局部邻居误差:其中e
ij
是多智能体的边权;智能体i在k+1时刻的局部邻居误差δ
i
(k+1)的动力学方程表示如下:其特征在于:包括以下步骤:S1:构建PID控制协议:u
i
(z)=C
i
(z)δ
i
(z)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中:K
i,p
、K
i,i
、K
i,d
分别为比例控制增益、积分控制增益和微分控制增益;z为被控输出,C
i
(z)为离散时间的PID控制器;C
i
(z)的状态空间实现写为:其中x
i,c
(k)∈R
2r
是对应于智能体i的PID控制器的动力学状态,此外C
c
=[I
r I
r
],D
c
=K
i,p
+K
i,i
+K
i,d
I
r
为r
×
r的单位矩阵;S2:将PID控制协议(6)应用于系统(3)产生以下闭环系统:其中x
j,c
(k)是对应于智能体j的PID控制器的动力学状态,δ
j
(k)为智能体j的邻居误差,D
j,c
是对应智能体j时的PID三个参数之和;
S3:令结合(6)和(7)得到增广形式:得到:其中:其中:其中:分别是对应智能体j时的量;S4:设计最优控制协议使如下性能指标最小:其中Q
i
≥0,R
i
≥0(i=1,2,

N)是对称加权矩阵,T表示转置;S5:对应(12)式的值函数写为:S6:提出如下HJB方程:S7:得到Q函数的HJB方程:S8:得到最优控制协议:S9:寻找最优权矩阵W
i*
。2.根据权利要求1所述的本发明一种数据驱动的多智能体系统PID控制协议自学习方法,其特征在于,所述Q函数的HJB方程采用基于策略迭代的强化学习算法,求解非零和博弈的Nash均衡解,求解过程...

【专利技术属性】
技术研发人员:李金娜王佳琦
申请(专利权)人:辽宁石油化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1