【技术实现步骤摘要】
一种基于强化学习的多无人机控制方法
[0001]本专利技术涉及无人机协同控制
,具体涉及一种基于强化学习的多无人机控制方法。
技术介绍
[0002]在无人机协同作业场景中,分布式控制方法被广泛应用于解决多个无人机之间的协同控制问题。分布式控制方法可以分为基于集成智能和基于多智能体两类。基于集成智能的方法将所有无人机看作一个整体进行控制,这种方法需要各无人机的状态信息在一个中心节点进行集成和处理,然后再进行决策和控制。相比之下,基于多智能体的分布式控制方法将各个无人机看作一个个智能体,它们之间通过通信协议进行信息交换,并根据所接收到的信息进行决策和控制。基于多智能体的分布式控制方法具有良好的鲁棒性和可扩展性,不需要中心节点,可以适应大规模无人机系统的需求。
[0003]然而,基于多智能体的分布式控制方法在实际应用中面临的主要问题是如何实现无人机之间的一致性。一致性指的是多个无人机在执行任务时,能够达成一致的决策,使各无人机能够协同工作并完成任务。在实际应用中,由于无人机之间存在通信延迟和不确定性等问题,很难实现完 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的多无人机控制方法,其特征在于,包括以下步骤:S1:获得连续时间的多无人机系统运动控制模型;S2:将多智能体系统的最优一致性问题转化为求解与其相邻智能体相关的博弈代数黎卡提方程;S3:利用离线混合迭代算法对控制策略进行迭代优化,获取最优控制策略;S4:将最优控制策略应用于多无人机系统,实现一致性调度控制。2.根据权利要求1所述的一种基于强化学习的多无人机控制方法,其特征在于:在所述步骤S1中,多无人机系统中将每架无人机作为一个智能体,多个智能体形成多智能体系统。3.根据权利要求2所述的一种基于强化学习的多无人机控制方法,其特征在于:在所述步骤S1中,多无人机系统运动控制模型表示如下:其中,表示系统状态,其中x
i1
(t)为第i架无人机的位置变量,x
i2
(t)为第i架无人机的速度变量,分别代表慢状态和快状态;∈为奇异摄动参数;为输入的速度指令;A
11
,A
12
,A
21
,A
22
,B
i1
,B
i2
均是合适尺寸的常数矩阵,定义如下:下:其中,I
n
表示n阶单位阵,表示克罗内克积,l
i
>0为控制增益。4.根据权利要求3所述的一种基于强化学习的多无人机控制方法,其特征在于:在所述步骤S2中,对于任意的第i架无人机和第j架无人机之间状态向量差的范数最终收敛到0,即:其中,i,此时即可保证各架无人机之间的一致性。5.根据权利要求4所述的一种基于强化学习的多无人机控制方法,其特征在于:在所述步骤S2中,具体处理过程如下:S21:定义每个智能体的局部邻域误差为:第i个局部邻域误差的动态按下述表达式构建:
其中,为智能体i的局部邻域控制输入,表示节点的集合,表示节点的集合,表示边缘的集合d
i
,是入度矩阵中的元素,a
ij
是衔接矩阵是衔接矩阵中的元素,如果(j,i)∈ε,那么a
ij
&...
【专利技术属性】
技术研发人员:沈浩,曹旭,彭传俊,汪婧,方田,苏磊,
申请(专利权)人:安徽工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。