System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于强化学习的异构集群无人系统的分布式编队控制方法技术方案_技高网

基于强化学习的异构集群无人系统的分布式编队控制方法技术方案

技术编号:40990955 阅读:2 留言:0更新日期:2024-04-18 21:33
本发明专利技术公开了一种基于强化学习的异构集群无人系统的分布式编队控制方法。本发明专利技术在传统最优控制的基础上引入强化学习方法,利用在线状态和输入信息迭代求解代数黎卡提方程,并且所有迭代都能够通过在固定的时间间隔内重复使用相同的状态和输入信息来进行,而不使用显式的、先验的系统内部动力学知识,能够摆脱现有关于多智能体系统编队控制的研究中对精确系统模型的较强依赖性;通过强化学习方法学习最优控制策略,平衡编队性能与能耗,在完成编队任务的同时满足代价最小。

【技术实现步骤摘要】

本专利技术涉及集群无人系统,具体涉及一种基于强化学习的异构集群无人系统的分布式编队控制方法


技术介绍

1、随着人工智能的不断发展,多智能体系统协同控制在民用和军事等领域得到广泛应用。与单一的智能体相比,多智能体系统能够通过协同合作的方式更高效地完成单个智能体无法完成的复杂任务,具有适应性更强、容错性更佳、并行性更好等优点。编队控制作为多智能体系统协同控制的一个主要研究方向,在搜救、无人飞行器协同、智能车辆控制、舰队编队等方面应用广泛。

2、在集群无人系统编队控制的实际应用中,由于被控对象多样化导致集群无人系统异构性,传统的分布式控制方法将不再适用,为此,提出分层控制方法对异构集群无人系统进行分层控制。

3、现有关于多智能体系统编队控制的研究对精确的系统模型具有较强的依赖性,而在实际应用中,集群无人系统编队受外部不确定性因素影响,系统模型可能难以精确建模和准确获取,这给协同编队控制的实现带来了严峻的挑战。而强化学习具有从未知环境中寻找最优控制策略的能力,在实际系统的控制设计中体现出了广阔的发展前景。此外,保证智能体之间不断进行数据交换的能耗需求是编队控制的关键问题,强化学习能够从不断的试错中获得新的经验,通过采用不同的策略,并在与环境的交互过程中对得到的反馈信号进行学习并更新策略,最终学习到一个最优策略,进而平衡系统的性能与能耗。

4、基于以上两点的考虑,结合强化学习算法解决异构集群无人系统编队问题能够在优化编队效果的同时,降低对系统动力学的了解需求,增强系统对外部因素的应对能力,对解决编队问题是一种全新且有效的思路,具有重大的研究意义。


技术实现思路

1、有鉴于此,本专利技术提供了一种基于强化学习的异构集群无人系统的分布式编队控制方法,能够不依赖于系统模型,且增强了系统对外部因素的应对能力,在受外部不确定性因素影响下课有效实现最优编队控制。

2、本专利技术的基于强化学习的异构集群无人系统的分布式编队控制方法,所述异构集群无人系统包括1个领导者和n个跟随者;

3、步骤1,建立异构集群无人系统模型;其中,n个跟随者的系统模型为:

4、

5、其中,i=1,2,...,n,xi是第i个跟随者的状态;ui是第i个跟随者的控制输入;yi是第i个跟随者的输出;ai,bi,ci分别表示跟随者系统的状态矩阵、输入矩阵和输出矩阵;

6、领导者的系统模型为:

7、

8、其中,x0是领导者的状态;y0是领导者的输出;a0表示领导者系统的状态矩阵,c0表示领导者系统的输出矩阵;

9、定义跟随者i的期望编队位置为领导者的位置x0与该跟随者与领导者之间的位置偏差σi的和;跟随者i与跟随者j之间的位置偏差σij=σi-σj;σj为跟随者j与领导者之间的位置偏差;

10、步骤2,设计分布式观测器对跟随者的期望编队位置进行估计,得到期望位置的估计值其中,所述分布式观测器为:

11、

12、其中,为跟随者i对期望位置的估计值;为跟随者i与领导者之间的位置偏差的估计值;η0为一常数;δδi为关于σi的局部观测误差,满足

13、

14、若跟随者i可以直接访问领导者,则gi=1,否则gi=0;j表示跟随者i的邻居,ni表示跟随者i的邻居集合;aij为第i个跟随者和第j个跟随者之间的交互强度;a0为领导者系统矩阵;η1为一常数;为跟随者i与跟随者j之间的位置偏差的估计值;

15、步骤3、以跟随者的系统状态和期望编队位置组成的向量为增广系统状态,构造跟随者增广系统;

16、基于所述跟随者增广系统,设计控制器为:

17、

18、其中,是跟随者i的增广系统状态;是控制增益矩阵,k1i表示跟随者i的反馈增益,k2i表示跟随者i的前馈增益;

19、根据最优控制理论,最优编队控制策略形式为:

20、

21、其中最优编队控制增益矩阵为ui*(t)表示学习到的最优编队控制策略;

22、步骤4,采用强化学习的值迭代方法,对编队控制的增益矩阵进行求解,学习最优编队控制策略;具体为:

23、步骤41a,初始化迭代次数k=0;令跟随者i的初始李雅普诺夫矩阵有界集bq初始迭代次数q=0,给定任意初始有界编队控制输入

24、步骤42a,将作用于增广系统,测量[t0,tl]期间系统的系统状态,获得编队状态块和输入数据块其中,

25、

26、

27、

28、其中,分别表示编队系统状态中的元素;为跟随者i在子区间[tm-1,tm]的系统编队状态数据;为跟随者i在子区间[tm-1,tm]与编队控制输入关联的系统数据;m=1,2,...,l;

29、步骤43a,求解如下等式:

30、

31、获得跟随者i在第k次迭代中的数据矩阵和编队控制增益矩阵

32、其中,in为n×n单位矩阵;为增广系统的状态矩阵;为第k次迭代中跟随者i的李雅普诺夫矩阵;

33、步骤44a,计算第k+1次迭代中的预更新的李雅普诺夫矩阵∈k为第k次迭代的步长;

34、判断是否成立,是具有非空内部有界集的集合,满足q∈z+表示bq的迭代次数,limq→∞bq=ln,ln表示由矩阵的诱导范数组成的所有n×n实对称的赋范空间;若成立,则令q←q+1,跳转至步骤46a;若不成立,则执行步骤45a;

35、步骤45a,判断是否成立;若成立,则得到李雅普诺夫矩阵和编队控制增益矩阵跳转至步骤47a;若不成立,则令返回步骤6;其中,为设定的阈值;

36、步骤46a,令迭代次数k←k+1,返回步骤43a;

37、步骤47a,令得到最优编队控制

38、本专利技术步骤4中,也可以采用强化学习的策略迭代方法,对编队控制的增益矩阵进行求解,学习最优编队控制策略;具体为:

39、步骤41b,初始化迭代次数k=0;设置编队控制输入为其中,为系统初始稳定编队控制增益矩阵;ei为噪声;

40、步骤42b,将作用于增广系统,测量[t0,tl]期间系统的系统状态,获得编队状态块和输入数据块其中,

41、

42、

43、

44、其中,分别表示编队系统状态的元素;为跟随者i在子区间[tm-1,tm]的系统编队状态数据;为跟随者i在子区间[tm-1,tm]与编队控制输入关联的系统数据;m=1,2,...,l;

45、步骤43b,求解如下等式:

46、

47、获得跟随者i在第k次迭代中产生的李雅普诺夫矩阵和编队控制增益矩阵

48、其中,in为n×n单位矩阵,为克罗内克积,其中ai∈rn是矩阵a的第i列;

49、步骤44b,对于k≥1,判断是否成立,若成立,则停止迭代,得到编队控制增益本文档来自技高网...

【技术保护点】

1.一种基于强化学习的异构集群无人系统的分布式编队控制方法,所述异构集群无人系统包括1个领导者和N个跟随者;其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述步骤4中,采用强化学习的策略迭代方法,对编队控制的增益矩阵进行求解,学习最优编队控制策略;具体为:

3.如权利要求1或2所述的方法,其特征在于,所述跟随者增广系统为:

4.如权利要求3所述的方法,其特征在于,设计代价函数Ji为:

【技术特征摘要】

1.一种基于强化学习的异构集群无人系统的分布式编队控制方法,所述异构集群无人系统包括1个领导者和n个跟随者;其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述步骤4中,采用强化学习的策略迭代方...

【专利技术属性】
技术研发人员:徐勇万梦颖孙健窦丽华陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1