一种数据驱动的多智能体系统PID控制协议自学习方法技术方案

技术编号：32359582 阅读：76 留言：0更新日期：2022-02-20 03:24

本发明专利技术公布了一种数据驱动的多智能体系统PID控制协议自学习方法，本发明专利技术针对PID控制的多智能体系统，提出最优一致性问题；将求解基于PID控制的控制协议参数转化为求解一个非零和博弈问题，提出了一种非策略Q学习算法，实现PID控制协议参数在线自学习以及多智能体系统的最优一致性；将强化学习(RL)技术和神经网络函数估计方法相结合，不要求智能体系统动态已知，完全利用可测量数据自学习PID控制协议参数。本发明专利技术方法不需要知道多智能体系统的动力学模型，就能使所有智能体达到一致状态，即达到一致性，同时能保证多智能体规定性能的最优性。优性。优性。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据驱动的多智能体系统PID控制协议自学习方法

[0001]本专利技术涉及控制器，具体涉及一种数据驱动的多智能体系统PID控制协议自学习方法。

技术介绍

[0002]多智能体的一致性一直是复杂动力系统的关键问题之一，指的是分布在网络中的所有智能体能渐进地达到相同的状态。虽然已有关于多智能体系统的一致性或最优一致性的研究成果，但是这些方法主要是利用系统的“当前”信息来设计一致性或同步协议。从而呈现出有前景的新研究课题，即不仅是“现在”信息，还可以是“过去”信息甚至“未来”趋势。
[0003]PID控制器可以很好地利用跟踪误差的过去值、现在值和未来趋势，以期获得良好的瞬态，并且性能稳定。现有的基于PID的多智能体系统一致性问题的结果一般是利用基于模型的控制理论得出的，但是复杂动力系统的不确定性、大规模尺度和变量间的耦合使得精确系统模型的构建越来越困难，这促使我们开展基于数据驱动(DD)PID的多智能体系统一致性研究。而众所周知的Ziegler
‑
Nichols方法和Chien
‑
Hrones
‑
Reswick方法可以利用测试数据对简单的线性未知系统很好地工作，但由于缺乏对不确定动态系统的自适应能力，它们很难保持良好的控制性能和稳定性。因此，基于一次性实验数据的DD PID控制、迭代学习控制与极值寻优、粒子群优化与线性二次调节器、自适应更新规则得到了相当多的关注。这些方法为DD PID的研究奠定了坚实的基础。但现有数据驱动的多智能体系统PID一致性控制协议设

【技术保护点】

【技术特征摘要】
1.本发明一种数据驱动的多智能体系统PID控制协议自学习方法，所述多智能体系统为：x
i
(k+1)＝Ax
i
(k)+Bu
i
(k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中x
i
(k)∈R
n
,u
i
(k)∈R
r
(i＝1,
…
,N)是智能体i的状态向量和控制输入，对所有的智能体i，k∈V，A∈R
n
×
n
,B∈R
n
×
p
；由所述多智能体动力学模型，定义智能体i的局部邻居误差：其中e
ij
是多智能体的边权；智能体i在k+1时刻的局部邻居误差δ
i
(k+1)的动力学方程表示如下：其特征在于：包括以下步骤：S1：构建PID控制协议：u
i
(z)＝C
i
(z)δ
i
(z)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中：K
i,p
、K
i,i
、K
i,d
分别为比例控制增益、积分控制增益和微分控制增益；z为被控输出，C
i
(z)为离散时间的PID控制器；C
i
(z)的状态空间实现写为：其中x
i,c
(k)∈R
2r
是对应于智能体i的PID控制器的动力学状态，此外C
c
＝[I
r I
r
],D
c
＝K
i,p
+K
i,i
+K
i,d
I
r
为r
×
r的单位矩阵；S2：将PID控制协议(6)应用于系统(3)产生以下闭环系统：其中x
j,c
(k)是对应于智能体j的PID控制器的动力学状态，δ
j
(k)为智能体j的邻居误差，D
j,c
是对应智能体j时的PID三个参数之和；
S3：令结合(6)和(7)得到增广形式：得到：其中：其中：其中：分别是对应智能体j时的量；S4：设计最优控制协议使如下性能指标最小：其中Q
i
≥0,R
i
≥0(i＝1,2,
…
N)是对称加权矩阵，T表示转置；S5：对应(12)式的值函数写为：S6：提出如下HJB方程：S7：得到Q函数的HJB方程：S8：得到最优控制协议：S9：寻找最优权矩阵W
i*
。2.根据权利要求1所述的本发明一种数据驱动的多智能体系统PID控制协议自学习方法，其特征在于，所述Q函数的HJB方程采用基于策略迭代的强化学习算法，求解非零和博弈的Nash均衡解，求解过程...

【专利技术属性】
技术研发人员：李金娜，王佳琦，
申请(专利权)人：辽宁石油化工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人