一种高阶多智能体的强化学习优化控制器构建方法及系统技术方案

技术编号：38343775 阅读：11 留言：0更新日期：2023-08-02 09:23

本发明专利技术属于自适应非线性控制技术领域，提出了一种高阶多智能体的强化学习优化控制器构建方法及系统，针对非线性高阶多智能体系统，根据反步技术和强化学习开发一种优化的领航者

全部详细技术资料下载

【技术实现步骤摘要】
一种高阶多智能体的强化学习优化控制器构建方法及系统

[0001]本专利技术属于自适应非线性控制
，尤其涉及一种高阶多智能体的强化学习优化控制器构建方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]多智能体系统由一系列相互作用的单个智能体组成，通过相互通信、合作等方式完成一些复杂的任务，其能力超过多个单智能体的能力累加。近十几年来，多智能体系统已广泛应用在实际工程中，如：自动公路系统、无人机群、卫星集群、移动机器人编队和多刚体系统。因此，针对多智能体控制器构建方法有重要的应用价值和意义。
[0004]对于多智能体系统，分布式一致控制一直是最基本的问题，被广泛应用和研究。一致控制是指所有智能体通过相互协调达到某个共同状态。关于高阶多智能体系统，因为其一致控制器设计需要管理多重状态变量，一直是多智能体控制的难点和重点问题。相比低阶多智能体系统，高阶多智能体有更广泛的应用范围，可能应用于机器人编队、无人机群、动力臂生产流水线等等。
[0005]在实际应用中，高阶多智能体系统，在执行一些任务时，往往需要一个大的能量消耗，如：无人机群在执行搜索任务时，往往需要大量能量消耗。而优化控制是用最少控制资源实现控制目标，因此寻求对高阶多智能体系统的优化控制器的构建方法，具有重要的实际意义。然而，由于高阶多智能体包含多重状态变量，而目前的优化控制方法，算法非常复杂，难以扩展和应用于高阶多智能体系统。因此，高阶多智能体系统的优化一致控制...

【技术保护点】

【技术特征摘要】
1.一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，包括如下步骤：构造包含n个智能体的高阶非线性多智能体系统模型；基于高阶非线性多智能体系统模型，采用反步法和强化学习相结合来设计控制器，具体包括：在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的拟控制，中间m
‑
2步直接利用系统状态得到中间步虚拟控制；在第m个步骤中，结合第一步的虚拟控制和中间步虚拟控制，执行强化学习的critic
‑
actor神经网络，并设计了神经网络权重更新率，得到实际控制输入信号。2.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，所述实际控制输入信号满足的条件为：都是半全局一致最终有界的且使所有智能体的输出都遵循参考轨迹。3.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，所述在第一个反推步骤中，设计了由相邻智能体的输出状态组成的一致误差，得到具有一致误差项的虚拟控制包括：基于跟踪误差变量的定义和参考信号得到误差动力学方程；基于智能体邻居的状态，得到一致性误差表达式；通过引入误差变量，结合误差动力学方程和一致性误差表达式由相邻智能体的输出状态组成的一致误差；基于相邻智能体的输出状态组成的一致误差和设计参数得到第一步的虚拟控制。4.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，所述强化学习的critic
‑
actor神经网络的设计是通过利用神经网络逼近连续未知函数的方式得到的。5.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，在中间m
‑
2步直接利用系统状态得到中间步虚拟控制中，通过为所有智能体的第j个反推子系统设计李雅普诺夫函数进行稳定性分析。6.根据权利要求1所述的一种高阶多智能体的强化学习优化控制器构建方法，其特征在于，所述执行强化学习的critic
‑
actor神经网络的设计如下：actor神经网络的设计如下：其中，和分别表示critic和a...

【专利技术属性】
技术研发人员：文国兴，宋燕芬，李彬，刘丽霞，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人