当前位置: 首页 > 专利查询>滨州学院专利>正文

基于滑模机制的多智能体优化控制器构建方法及系统技术方案

技术编号:39002315 阅读:10 留言:0更新日期:2023-10-07 10:34
本发明专利技术属于自适应非线性控制技术领域,提出了基于滑模机制的多智能体优化控制器构建方法及系统,基于高阶非线性多智能体系统的实际系统状态和参考状态得到多智能体系统的跟踪误差;基于多智能体系统的跟踪误差设计滑模超平面,通过滑模变量来控制跟踪误差使其位于滑模超平面上;构造执行identifier

【技术实现步骤摘要】
基于滑模机制的多智能体优化控制器构建方法及系统


[0001]本专利技术属于非线性控制
,尤其涉及基于滑模机制的多智能体优化控制器构建方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]近年来,最优控制由于满足节能环保的社会发展要求,无论是理论研究还是工程实践,都得到了越来越多的重视,但是大多数用强化学习策略的优化控制研究成果主要集中在一、二阶低阶非线性系统上。由于高阶非线性系统需要控制多个状态变量,这些优化控制方法,很难扩展到高阶系统。
[0004]为了解决这个问题,一些方法是将高阶非线性系统动力方程写成向量方程形式,然后应用一阶系统优化控制方法,结合自适应强化学习策略设计优化控制。然而,这些控制器的算法,一方面,算法复杂,另一方面,要求持续激励条件,因此难以扩展和应用。此外,对于未知动力问题,常采用自适应辨识器或观测器的策略合并到强化学习中,这使控制器算法变得更为复杂。所以在工程上很难实现,在理论上也很难发展。

技术实现思路

[0005]为了解决上述
技术介绍
中存在的至少一项技术问题,本专利技术提出基于滑模机制的多智能体优化控制器构建方法及系统,针对高阶未知非线性动力多智能体系统需要设计一种基于强化学习的优化滑模一致控制方法,将强化学习和滑模机制结合,解决高阶非线性系统优化问题,同时简化优化控制器算法,这使得它可以更有效地应用于许多控制技术。
[0006]为了实现上述目的,本专利技术采用如下技术方案
[0007]本专利技术的第一个方面提供了基于滑模机制的多智能体优化控制器构建方法,包括如下步骤:
[0008]获取高阶非线性多智能体系统的实际系统状态和参考状态;
[0009]基于高阶非线性多智能体系统的实际系统状态和参考状态,采用滑模机制和强化学习相结合的策略来设计控制器,具体包括:
[0010]基于高阶非线性多智能体系统的实际系统状态和参考状态得到多智能体系统的跟踪误差;
[0011]基于多智能体系统的跟踪误差设计滑模变量和滑模超平面,通过滑模变量来控制跟踪误差,控制他们到滑模超平面上;
[0012]基于神经网络,构造identifier

critic

actor结构的执行强化学习。在强化学习设计中,根据神经网络逼近未知动力函数和分布式HJB方程的解,分别推导出identifier神经网络和critic

actor神经网络训练算法,从而训练出最优控制信号,将最优控制信号作为实际控制输入信号,在该输入信号下引导多智能体系统实现控制目标。
[0013]本专利技术的第二个方面提供基于滑模机制的多智能体优化控制器构建系统,包括:
[0014]状态获取模块,其被配置为:获取高阶非线性多智能体系统的实际系统状态和参考状态;
[0015]系统状态获取模块,其被配置为:基于高阶非线性多智能体系统的实际系统状态和参考状态,采用滑模机制和强化学习相结合的策略来设计控制器,具体包括:
[0016]基于高阶非线性多智能体系统的实际系统状态和参考状态得到多智能体系统的跟踪误差;
[0017]基于多智能体系统的跟踪误差设计滑模变量和滑模超平面,通过滑模变量来控制跟踪误差,控制其到滑模超平面上;
[0018]构造执行identifier

critic

actor神经网络结构的强化学习,在强化学习中,根据神经网络逼近未知动力函数和分布式HJB方程的解,分别推导出identifier神经网络和critic

actor神经网络训练算法,从而训练出最优控制信号,将最优控制信号作为实际控制输入信号,在该输入信号下引导多智能体系统实现控制目标。
[0019]本专利技术的第三个方面提供:一种计算机可读存储介质。
[0020]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的基于滑模机制的多智能体优化控制器构建方法中的步骤。
[0021]本专利技术的第四个方面提供:一种计算机设备。
[0022]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面所述的基于滑模机制的多智能体优化控制器构建方法中的步骤。
[0023]与现有技术相比,本专利技术的有益效果是:
[0024]本专利技术通过定义滑模变量和滑模超平面,在强化学习在identifier

critic

actor架构下,来实现多个跟踪误差变量的收敛,并优化系统性能。在强化学习设计中,根据神经网络逼近未知动力函数和Hamilton

Jacobi

Bellman(HJB)方程的解,分别推导出identifier神经网络和critic

actor神经网络训练算法。与传统优化控制相比,该优化一致方案,一方面可以有效处理未知动力系统,因为identifier可以补偿未知动力函数,另一方面critic

actor强化学习算法非常简单,从而释放了持久激励条件,保证多智能体系统的稳定性。考虑了高阶多智能体的多重状态变量,并针对目前的优化控制算法进行简化,从而构建出适合高阶非线性多智能体的优化控制器。
[0025]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0026]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0027]图1是本专利技术实施例提供的滑模自适应一致控制流程图;
[0028]图2是本专利技术实施例提供的仿真算例的参考轨迹;
[0029]图3是本专利技术实施例提供的仿真算例的关于三类状态变量的一致表现;
[0030]图4是本专利技术实施例提供的仿真算例的滑模变量的收敛性;
[0031]图5是本专利技术实施例提供的仿真算例的滑模变量它们可以收敛到一个小的零邻域;
[0032]图6是本专利技术实施例提供的仿真算例的identifier神经网络权重规范;
[0033]图7是本专利技术实施例提供的仿真算例的critic神经网络权重规范;
[0034]图8是本专利技术实施例提供的仿真算例的actor神经网络权重规范。
具体实施方式
[0035]下面结合附图与实施例对本专利技术作进一步说明。
[0036]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0037]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于滑模机制的多智能体优化控制器构建方法,其特征在于,包括如下步骤:获取高阶非线性多智能体系统的实际系统状态和参考状态;基于高阶非线性多智能体系统的实际系统状态和参考状态,采用滑模机制和强化学习相结合的策略来设计控制器,具体包括:基于高阶非线性多智能体系统的实际系统状态和参考状态得到多智能体系统的跟踪误差;基于多智能体系统的跟踪误差设计滑模超平面,通过滑模变量来控制跟踪误差使其位于滑模超平面上;构造执行identifier

critic

actor神经网络结构的强化学习,在强化学习中,根据神经网络逼近未知动力函数和分布式HJB方程的解,分别推导出identifier神经网络和critic

actor神经网络,得到最优控制信号,将最优控制信号作为实际控制输入信号,在该输入信号下引导多智能体系统实现控制目标。2.根据权利要求1所述的基于滑模机制的多智能体优化控制器构建方法,其特征在于,所述基于多智能体系统的跟踪误差设计滑模超平面,包括:根据参考信号和高阶非线性多智能体系统模型构成误差动力学模型;利用跟踪误差状态,定义滑模变量;结合滑模变量的定义和误差动力学模型得到滑模动力方程。3.根据权利要求1所述的基于滑模机制的多智能体优化控制器构建方法,其特征在于,所述分布式HJB方程的构建过程为:构建代价函数,基于代价函数变形得到分布式性能指标;根据分布式性能指标得到分布式性能函数;将分布式性能函数的控制因子作为最优分布式一致控制因子,得到最优分布性能指标函数;计算最优分布性能指标函数的时间导数,得到分布式HJB方程。4.根据权利要求1所述的基于滑模机制的多智能体优化控制器构建方法,其特征在于,所述神经网络逼近未知动力函数的过程为:步骤1:获取多智能体系统系统的输入和输出;步骤2:设计神经网络的结构,包括输入层、隐藏层和输出层,其中,输入层的节点数应该等于系统输入的维度,输出层的节点数等于系统输出的维度;步骤3:利用滑模控制器来结合高阶多智能体系统,同时获取每个智能体历史的状态和控制输入作为训练集;步骤4:基于该训练集,利用误差反向传播算法来更新神经网络的权重和偏置;步骤5:重复步骤3到步骤4,直到神经网络的输出误差达到收敛条件或者达到最大迭代次数;步骤6:对于新的系统输入,利用训练好的神经网络来预测系统的输出,并根据滑模控制器来计算控制输入。5.根据权利要求1所述的基于滑模机制的多智能体优化控制器构建方法,其特征在于,所述构造执行identifier

critic

actor强化学习的如下:
分解为:为:其中,表示自适应i...

【专利技术属性】
技术研发人员:文国兴李子俊李彬刘丽霞
申请(专利权)人:滨州学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1