【技术实现步骤摘要】
面向多智能体输入时滞系统的强化学习编队方法
[0001]本专利技术属于多智能体编队控制
,具体涉及一种面向多智能体输入时滞系统的强化学习编队方法。
技术介绍
[0002]多智能体系统的编队控制因其广泛的应用而受到众多学者的关注。多智能体系统编队控制的主要目标是通过设计的控制协议,使所有的智能体按照设定的几何形状运动,并基于该形状完成一定的任务。编队作为一种典型的群体行为,是在实际场景中普遍而突出的现象之一,并且在水下航行器、无人水面航行器、无人空中航行器等方面发挥着重要作用。领航跟随法作为一种群体控制方法,因其结构简单、易于实现而得到广泛应用。简单地说,领航跟随方法只需要设置一个智能体作为领导者并指定其轨迹,然后设计控制器使所有智能体为跟随者并在一定距离上跟踪领导者的轨迹,从而实现多智能体系统的编队移动。
[0003]智能体的最优问题是多智能体控制研究中常见的问题之一。在多智能体编队问题中,期望设计一个最优编队控制器来优化系统的性能,即使所有智能体保持一定的编队,并达到最小性能指标。求解哈密顿雅可比贝尔曼(HJ ...
【技术保护点】
【技术特征摘要】
1.一种面向多智能体输入时滞系统的强化学习编队方法,其特征在于,包括如下步骤:步骤一:针对具有控制输入时滞的一阶多智能体系统,采用图论理论,建立关于一阶多智能体系统之间的通讯拓扑图;所述通讯拓扑图为无向图,即智能体能够取得相邻智能体信息并且能够将自身信息发送给相邻智能体;此外,指定多智能体系统中一智能体作为领导者智能体,并为其设置规定的移动轨迹,其余智能体按照一定的编队距离跟随领导者智能体进行移动以达成编队移动目标;步骤二:根据步骤一建立的通讯拓扑图,建立系统中其余智能体与领航者智能体之间的跟踪误差,即跟踪误差等于领航者智能体位置减去智能体i的位置;同时,由每个智能体间的跟踪误差,结合设置的领航者与其余智能体间的距离差值,设计系统中每个智能体的编队误差;步骤三:根据模型转换方法,引入一个新的系统变量,并建立其与具有控制输入时滞的多智能体系统位置变量的联系,对新的系统变量进行求导,得到一个新的无时滞多智能体系统的动力学模型方程;步骤四:针对步骤三得到的无时滞多智能体系统,根据步骤一建立的通讯拓扑图,建立系统中的跟踪误差,并采用步骤二设置的距离差值,建立无时滞系统的编队误差;步骤五:针对具有控制输入时滞的多智能体系统以及步骤三建立的无时滞多智能体系统,考虑一个控制器,证明控制器能够使得步骤三建立的无时滞多智能体系统达到编队一致,并且当控制器使得无时滞系统达到编队一致时,原具有控制输入时滞的多智能体系统也可达到编队一致;步骤六:针对具有控制输入时滞的系统,以及步骤三建立的无时滞多智能体系统,考虑最优控制理论,建立两个系统对应的性能指标函数,通过证明得到使得两个系统能够共同达到最优的条件;步骤七:根据步骤三的无时滞多智能体系统的性能指标函数,以及性能指标函数中的效用函数,建立其相应的哈密顿
‑
雅可比
‑
贝尔曼方程,并对该方程进行求关于控制输入的偏导,得到控制输入关于性能指标函数梯度相的表达形式;步骤八:对步骤七得到的性能指标函数的梯度相进行参数分离,并得到控制输入的分离形式,并采用基于演员
‑
评论家网络结构方法建立基于强化学习的最优控制器;步骤九:针对传统方法中对贝尔曼残差求导得到网络更新律的方法进行改进,考虑一个简单正函数与贝尔曼残差求更新律方法进行等效,并根据简单正函数的导数进行演员与评论家网络更新律的设计。2.根据权利要求1所述的面向多智能体输入时滞系统的强化学习编队方法,其特征在于,具有输入时滞的多智能体系统模型如下:其中,p
i
(t)表示系统中第i个智能体的位置量;u
i
(t)表示系统中第i个智能体的控制量;ρ
i
(
·
)表示未知的非线性函数,且假设其为李普希思连续的;和均表示已知且具有合适维度的常量矩阵;领航者轨迹设定如下:其中,p0表示编队移动中所期望的领导者智能体的移动轨迹;v0表示编队移动中所期望
的领导者的速度;由系统模型以及领导者轨迹,定义每个跟随智能体的编队误差z
pi
如下所示:其中,ζ
i
是第i个跟随者与领航者的位置差值,其主要用于维持系统移动时的编队队形;Λ
i
表示第i个跟随着的邻接矩阵;a
ij
是第i行j列的邻接矩阵的值,其用于描述第i个跟随智能体与其邻居智能体的通信联系权重;b
i
表示领航者智能体和第i个跟随着之间的通讯连接权重。3.根据权利要求2所述的面向多智能体输入时滞系...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。