一种高阶多智能体的强化学习优化控制器构建方法及系统技术方案

技术编号:38343775 阅读:11 留言:0更新日期:2023-08-02 09:23
本发明专利技术属于自适应非线性控制技术领域,提出了一种高阶多智能体的强化学习优化控制器构建方法及系统,针对非线性高阶多智能体系统,根据反步技术和强化学习开发一种优化的领航者

【技术实现步骤摘要】
一种高阶多智能体的强化学习优化控制器构建方法及系统


[0001]本专利技术属于自适应非线性控制
,尤其涉及一种高阶多智能体的强化学习优化控制器构建方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]多智能体系统由一系列相互作用的单个智能体组成,通过相互通信、合作等方式完成一些复杂的任务,其能力超过多个单智能体的能力累加。近十几年来,多智能体系统已广泛应用在实际工程中,如:自动公路系统、无人机群、卫星集群、移动机器人编队和多刚体系统。因此,针对多智能体控制器构建方法有重要的应用价值和意义。
[0004]对于多智能体系统,分布式一致控制一直是最基本的问题,被广泛应用和研究。一致控制是指所有智能体通过相互协调达到某个共同状态。关于高阶多智能体系统,因为其一致控制器设计需要管理多重状态变量,一直是多智能体控制的难点和重点问题。相比低阶多智能体系统,高阶多智能体有更广泛的应用范围,可能应用于机器人编队、无人机群、动力臂生产流水线等等。
[0005]在实际应用中,高阶多智能体系统,在执行一些任务时,往往需要一个大的能量消耗,如:无人机群在执行搜索任务时,往往需要大量能量消耗。而优化控制是用最少控制资源实现控制目标,因此寻求对高阶多智能体系统的优化控制器的构建方法,具有重要的实际意义。然而,由于高阶多智能体包含多重状态变量,而目前的优化控制方法,算法非常复杂,难以扩展和应用于高阶多智能体系统。因此,高阶多智能体系统的优化一致控制器的构建,是一个具有挑战和实际应用意义的问题。

技术实现思路

[0006]为了解决上述
技术介绍
中存在的至少一项技术问题,本专利技术提出一种高阶多智能体的强化学习优化控制器构建方法及系统,确保用最少控制资源实现控制目标即实现高阶非线性多智能体系统的一致性,不同于传统的强化学习优化控制,该控制器的构建,采用了一种简化的强化学习方法,有效降低了计算复杂度,这使得它可以更有效地应用于许多控制技术。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]本专利技术的第一个方面提供了高阶非线性多智能体的强化学习优化控制器的构建方法,包括如下步骤:
[0009]构造包含n个智能体的高阶非线性多智能体系统模型;
[0010]基于高阶非线性多智能体系统模型,采用反步法和强化学习相结合来设计控制器,具体包括:
[0011]在第一个反推步骤中,设计了由相邻智能体的输出状态组成的一致误差,得到具
有一致误差项的第一步的虚拟控制,中间m

2步直接利用系统状态得到中间步虚拟控制;在第m个步骤中,结合第一步的虚拟控制和中间步的虚拟控制,执行强化学习的critic

actor神经网络,并设计了神经网络权重更新率,得到实际控制输入信号。
[0012]进一步地,所述实际控制输入信号满足的条件为:都是半全局一致最终有界的且使所有智能体的输出都遵循参考轨迹。
[0013]进一步地,所述在第一个反推步骤中,设计了由相邻智能体的输出状态组成的一致误差,得到具有一致误差项的第一步的虚拟控制包括:
[0014]基于跟踪误差变量的定义和参考信号得到误差动力学方程;
[0015]基于智能体邻居的状态,得到一致性误差表达式;
[0016]通过引入误差变量,结合误差动力学方程和一致性误差表达式由相邻智能体的输出状态组成的一致误差;
[0017]基于相邻智能体的输出状态组成的一致误差和设计参数得到第一阶的虚拟控制。
[0018]进一步地,所述强化学习的critic

actor神经网络的设计是通过利用神经网络逼近连续未知函数的方式得到的。
[0019]进一步地,在中间m

2步直接利用系统状态得到虚拟控制,通过为所有智能体的第j个反推子系统设计李雅普诺夫函数进行稳定性分析。
[0020]进一步地,在反步步骤中的最后一步中,产生所述执行强化学习优化一致控制,其critic

actor神经网络的设计如下:
[0021][0022][0023]其中,和分别表示critic和actor神经网络的权重,ξ
im
为最后一个反推步骤的跟踪误差表示最优性能函数,γ
im
是一个设计参数,Φ
i

im
)为基函数向量,为最优控制u
*
的逼近;
[0024]其权重更新律分别为:
[0025][0026][0027]其中,κ
ci
>0和κ
ai
>0分别代表critic和actor的设计参数,σ
i
为正的设计参数,I
m
为设计的正定矩阵。
[0028]进一步地,所述神经网络权重更新率是根据与哈密顿

雅可比

贝尔曼方程相关的简单正函数的负梯度产生的。
[0029]本专利技术的第二个方面提供多智能体系统的强化学习优化一致控制系统,包括:
[0030]系统模型构建模块,其被配置为:构造包含n个智能体的高阶非线性多智能体系统模型;
[0031]控制器构造模块,其被配置为:基于高阶非线性多智能体系统模型,采用反步法和
强化学习相结合来设计控制器,具体包括:
[0032]在第一个反推步骤中,设计了由相邻智能体的输出状态组成的一致误差,得到具有一致误差项的虚拟控制,中间m

2步直接利用系统状态得到其虚拟控制;在第m个步骤中,结合第一步的虚拟控制和中间步的虚拟控制,执行强化学习的critic

actor神经网络,并设计了神经网络权重更新率,得到实际控制输入信号。
[0033]本专利技术的第三个方面提供:一种计算机可读存储介质。
[0034]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的高阶非线性多智能体一致控制的强化学习优化控制器的构建方法中的步骤。
[0035]本专利技术的第四个方面提供:一种计算机设备。
[0036]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的基于强化学习多智能体系统的优化一致控制方法中的步骤。
[0037]与现有技术相比,本专利技术的有益效果是:
[0038]1、本专利技术针对非线性高阶多智能体系统,根据反步技术和强化学习开发一种优化的领航者

跟随者一致控制,由于每个智能体系统都包含具有导数关系的各种状态,所以考虑利用反步策略和计分布式控制相结合。在前m

1个反推步骤中,虚拟控制被设计为具有由相邻智能体的输出状态组成的一致性误差项,以保证多智能体系统一致性。对于具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高阶多智能体的强化学习优化控制器构建方法,其特征在于,包括如下步骤:构造包含n个智能体的高阶非线性多智能体系统模型;基于高阶非线性多智能体系统模型,采用反步法和强化学习相结合来设计控制器,具体包括:在第一个反推步骤中,设计了由相邻智能体的输出状态组成的一致误差,得到具有一致误差项的拟控制,中间m

2步直接利用系统状态得到中间步虚拟控制;在第m个步骤中,结合第一步的虚拟控制和中间步虚拟控制,执行强化学习的critic

actor神经网络,并设计了神经网络权重更新率,得到实际控制输入信号。2.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法,其特征在于,所述实际控制输入信号满足的条件为:都是半全局一致最终有界的且使所有智能体的输出都遵循参考轨迹。3.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法,其特征在于,所述在第一个反推步骤中,设计了由相邻智能体的输出状态组成的一致误差,得到具有一致误差项的虚拟控制包括:基于跟踪误差变量的定义和参考信号得到误差动力学方程;基于智能体邻居的状态,得到一致性误差表达式;通过引入误差变量,结合误差动力学方程和一致性误差表达式由相邻智能体的输出状态组成的一致误差;基于相邻智能体的输出状态组成的一致误差和设计参数得到第一步的虚拟控制。4.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法,其特征在于,所述强化学习的critic

actor神经网络的设计是通过利用神经网络逼近连续未知函数的方式得到的。5.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法,其特征在于,在中间m

2步直接利用系统状态得到中间步虚拟控制中,通过为所有智能体的第j个反推子系统设计李雅普诺夫函数进行稳定性分析。6.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法,其特征在于,所述执行强化学习的critic

actor神经网络的设计如下:actor神经网络的设计如下:其中,和分别表示critic和a...

【专利技术属性】
技术研发人员:文国兴宋燕芬李彬刘丽霞
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1