一种异构无人集群系统的强化学习最优输出跟踪控制方法技术方案

技术编号：39285909 阅读：30 留言：0更新日期：2023-11-07 10:57

本发明专利技术涉及一种异构无人集群系统的强化学习最优输出跟踪控制方法，属于多无人系统技术领域。为实现异构无人集群系统的最优输出跟踪控制目标，提出一种新颖的分层控制方案，在分布式层，设计一个预设时间的完全分布式观测器，在给定的时间内精确地估计领导者的状态。在分散式层，设计一个基于强化学习的数据驱动跟踪控制器追踪估计的领导者状态。与现有方法相比，所设计的预设时间的完全分布式观测器的收敛时间完全由设计者决定，并且在设计过程中不使用全局的拓扑信息。此外，提出一种基于数据的初始稳定控制策略学习算法来获得一个初始稳定控制策略，摆脱了现有强化学习方法中需要初始稳定控制策略预先已知的限制条件。要初始稳定控制策略预先已知的限制条件。要初始稳定控制策略预先已知的限制条件。

全部详细技术资料下载

【技术实现步骤摘要】
一种异构无人集群系统的强化学习最优输出跟踪控制方法

[0001]本专利技术涉及一种异构无人集群系统的强化学习最优输出跟踪控制方法，属于多无人系统

技术介绍

[0002]无人集群系统是由无人飞行器、无人车辆、无人舰船等多个智能化无人系统组成的大型复杂系统，其中多个系统之间协同工作来完成特别任务，能够完成单系统难以或不可能完成的复杂任务，在日常生活、生产和军事等各个方面具有广泛的应用前景。由于被控对象多样化导致多无人系统异构性，传统的分布式控制方法将不在适用，为此，提出分层控制方法对异构多无人系统进行分层控制。进一步为更快地实现控制目标，将有限时间准则和分层控制相结合设计有限时间、固定时间或者预设时间的分层控制方案使系统能在有限时间内完成协同控制任务，从而可以显著地提高工作效率。应当指出的是现有大多数方法在设计控制方案时需要已知多无人系统全局的拓扑连接信息，而这种信息往往是难以获得的，特别是对于大型的复杂系统。因此，如何结合有限时间准则和分层控制设计思想，在不使用全局拓扑连接信息的情况下，给出一种新的控制方案是值得进一

【技术保护点】

【技术特征摘要】
1.一种异构无人集群系统的强化学习最优输出跟踪控制方法，其特征在于该方法的步骤包括：步骤1，建立异构无人集群系统模型；步骤2，根据步骤1建立的异构无人集群系统模型，设计预设时间完全分布式观测器；步骤3，根据步骤1中建立的异构无人集群系统模型和步骤2中设计的预设时间完全分布式观测器，设计基于数据的初始稳定控制策略学习方法，获得初始稳定控制策略；步骤4：根据步骤3得到的初始稳定控制策略，进一步设计基于强化学习的数据驱动最优输出跟踪控制方法，得到最优控制器；步骤5：根据步骤4得到的最优的控制器，实现异构无人集群系统跟踪控制任务。2.根据权利要求1所述的一种异构无人集群系统的强化学习最优输出跟踪控制方法，其特征在于：所述步骤1中，建立的异构无人集群系统模型包括M个跟随者系统模型和1个领导者系统模型。3.根据权利要求2所述的一种异构无人集群系统的强化学习最优输出跟踪控制方法，其特征在于：M个跟随者的系统模型为：其中，x
i
(t)为第i个跟随者的系统状态，y
i
(t)为第i个跟随者的系统输出，u
i
(t)为第i个跟随者的系统输入，A
i
,B
i
和C
i
分别是第i个跟随者的未知系统矩阵、控制矩阵、输出矩阵。4.根据权利要求3所述的一种异构无人集群系统的强化学习最优输出跟踪控制方法，其特征在于：领导者的系统模型为：其中，x0(t)为领导者的系统状态，y0(t)为领导者的系统输出，S为给定的领导者系统矩阵，Y是给定的领导者输出矩阵。5.根据权利要求4所述的一种异构无人集群系统的强化学习最优输出跟踪控制方法，其特征在于：所述步骤2，当t∈[0,T
p
)时，设计的预设时间完全分布式观测器为：其中，η
i
(t)是第i个观测器的状态，表示局部跟踪误差，η
j
(t)是第j个观测器的状态，a
ij
是邻接矩阵的第(i,j)元素，j＝1,...M，a
i0
＝0表示第i个跟随者不能接收到领导者的状态，a
i0
＝1表示第i个跟随者能接收到领导者的
状态，c
i
(t)和β
i
(t)是第i个观测器中设计的自适应参数，是设计的预设时间函数，T
p
是预设时间，σ>0,和是给定的系数，G是观测器增益，满足矩阵不等式GS+S
T
G
‑
G2+I
n
<0，I
n
表示n维的单位矩阵。6.根据权利要求5所述的一种异构无人集群系统的强化学习最优输出跟踪控制方法，其特征在于：当t≥T
p
时，设计的预设时间完全分布式观测器为：7.根据权利要求6所述...

【专利技术属性】
技术研发人员：孙健，马永胜，徐勇，窦丽华，陈杰，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人