当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于单评论家强化学习结构的多智能体编队控制方法技术

技术编号:37719469 阅读:19 留言:0更新日期:2023-06-02 00:17
本发明专利技术涉及一种基于单评论家强化学习结构的多智能体编队控制方法,包括:构建多智能体系统的各个智能体的通讯结构;构建智能体相对于领航者智能体的跟踪误差,并构建描述智能体与领航者以及智能体与邻居智能体的误差,即编队误差;基于最优控制构建与编队误差和最优控制输入相关的代价函数以及值函数;对值函数进行展开求解,构建相应的HJB方程;对HJB方程求解关于最优控制的偏导得到最优控制输入关于最优值函数的表现形式;对最优值函数进行分割得到分割的最优控制输入形式;引入单评论家强化学习结构,并结合神经网络,对得到的分割的最优值函数以及最优控制输入进行求解。该方法有利于降低估计误差并减少计算时间。法有利于降低估计误差并减少计算时间。法有利于降低估计误差并减少计算时间。

【技术实现步骤摘要】
一种基于单评论家强化学习结构的多智能体编队控制方法


[0001]本专利技术属于多智能体编队控制
,尤其涉及一种基于单评论家强化学习结构的多智能体编队控制方法。

技术介绍

[0002]多智能体系统是包含一种自治的、交互式的实体,它们共享一个共同的环境,智能体可以根据环境来感知和执行操作,其中编队控制是多智能体的一种应用领域,包括卫星、水下机器人、无人机飞行等编队应用场景。经过科学家的研究,提出了许多的编队控制方法,例如领导追随者、虚拟结构法等。其中领导追随者编队控制方法作为一种简单且具有可扩展性特点的编队控制算法,目前被广泛应用于多智能体编队中,其策略是通过设定一个智能体作为领导者并设置其移动轨迹,之后设计控制器控制其他追随者智能体跟踪领导者轨迹。
[0003]最优控制是一种平衡控制性能以及控制资源消耗的有效方法,其能够通过将成本函数实现最小化来达到控制目标。动态规划作为最优控制中的一种方法,具有广泛的应用价值,其基本思路是将求一个大问题的最优解分解为求解数个小问题。但是,这种方法的逆向求解过程以及维数灾的难题阻碍了其进一步的应用与发展。自适应动态规划的出现将最优控制方法与强化学习的结构相结合,克服了上述动态规划的缺陷,能够通过函数近似来对未知的方程进行估计。其中,一种通过演员

评论家强化学习结构结合最优控制的方法能够有效地解决求解最优控制器中的哈密尔顿

贾克比

贝尔曼方程难解的问题。然而,这种方法中包含由演员以及评论家双网络的迭代,会产生更多的计算误差以及更长的计算时间。
[0004]因此,设计一种减少计算时间与计算误差的基于强化学习结构的多智能体系统的编队控制方法仍属于开放性的问题。针对这一问题,本专利技术将演员网络去除,重新设计评论家网络更新策略,令其在执行控制行为的同时能够评估性能并及时修正。这种方法能够有效减少计算时间和估计误差,并且保证非线性多智能体系统的编队行为顺利完成。

技术实现思路

[0005]本专利技术的目的在于提供一种基于单评论家强化学习结构的多智能体编队控制方法,该方法有利于降低估计误差并减少计算时间。
[0006]为实现上述目的,本专利技术采用的技术方案是:一种基于单评论家强化学习结构的多智能体编队控制方法,包含如下步骤:
[0007]步骤一:基于应用数学中的图论,构建多智能体系统的各个智能体的通讯结构,考虑系统为一阶多智能体系统,每个智能体仅得到邻居智能体的位置信息;同时,系统中存在一个领航者智能体,其他智能体作为跟随者在运行过程中跟随领航者智能体的轨迹进行运动;
[0008]步骤二:针对系统中的每个智能体,根据其得到的邻居智能体信息,构建其相对于
领航者智能体的跟踪误差,并且根据跟踪误差,构建描述智能体与领航者以及智能体与邻居智能体的误差,即编队误差;
[0009]步骤三:基于最优控制构建与编队误差和最优控制输入相关的代价函数以及值函数;
[0010]步骤四:基于泰勒公式以及步骤三中得到的值函数,对值函数进行展开求解,得到相应的哈密尔顿

贾克比

贝尔曼方程;
[0011]步骤五:针对步骤四得到的哈密尔顿

贾克比

贝尔曼方程,对其求解关于最优控制的偏导得到最优控制输入关于最优值函数的表现形式;
[0012]步骤六:对最优值函数进行分割得到其关于编队误差以及未知函数的表达形式,并且根据步骤五的最优控制输入表现形式,得到分割的最优控制输入形式;
[0013]步骤七:引入单评论家强化学习结构,并结合神经网络,对步骤六中得到的分割的最优值函数以及最优控制输入进行求解,其中神经网络对于多智能体系统中的未知非线性项进行近似,评论家网络进行智能体系统的编队控制,并且对于编队控制的效果进行评价与改善。
[0014]进一步地,所述单评论家强化学习结构用于移除传统演员

评论家强化学习方法中对于演员网络的需求,从而有效降低系统的近似误差并减少计算时间。
[0015]进一步地,步骤一中,所述多智能体系统的模型表达为:
[0016][0017]其中,x
i
(t)表示系统中第i个智能体的位置量;u
i
(t)表示系统中第i个智能体的控制量;f
i
(
·
)表示未知的非线性函数,且假设其为李普希思连续的;
[0018]领航者智能体的模型如下所示:
[0019][0020]其中,p
l
和v
l
分别表示领航者的轨迹和速度量,即编队移动中所期望的轨迹和速度;设定每个智能体相对于领航者的跟踪误差为:
[0021]z
i
=x
i

p
l

ζ
i
[0022]其中,ζ
i
表示领航者智能体和第i位跟随者智能体之间的位置,用于描述系统的编队形状;
[0023]根据跟踪误差的结构,定义编队误差形式如下:
[0024][0025]其中,a
ij
为图论中的邻接矩阵的第i行j列;b
i
为第i位跟随者智能体与领航者智能体之间的连接权重参数;Λ
i
表示第i位智能体的邻居集。
[0026]进一步地,步骤三中,结合定义的编队误差,得到代价函数的表达形式为:
[0027][0028]其中,C=dia.
g
{c1,c2,

,c
i


,c
n
};w1和w2为两个设定常数;I
m
为一个合适维度的单位矩阵;为张量积符号;
[0029]根据得到的代价函数,建立相对应的值函数,且引入最优控制输入最终得到相应的最优值函数表达如下:
[0030][0031]其中,τ表示积分常数。
[0032]进一步地,步骤四中,建立哈密尔顿

贾克比

贝尔曼方程如下所示:
[0033][0034]对上述方程求关于的偏导数,得到最优控制输入的表达形式为:
[0035][0036]进一步地,针对多智能体系统内存在的未知非线性项f
i
(x
i
),通过引入神经网络进行近似估计:
[0037][0038]其中,表示理想的神经网络权重矩阵;S
fi
(x
i
)表示基函数向量;∈
fi
(x
i
)表示近似误差;
[0039]由于仅用于理论分析但实际中为未知矩阵,因此引入估计矩阵进行估计,得到由神经网络辨识器近似的如下:
[0040][0041]根据得到的近似函数得到其他变量的估计值。
[0042]进一步地,所述最优值函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单评论家强化学习结构的多智能体编队控制方法,其特征在于,包含如下步骤:步骤一:基于应用数学中的图论,构建多智能体系统的各个智能体的通讯结构,考虑系统为一阶多智能体系统,每个智能体仅得到邻居智能体的位置信息;同时,系统中存在一个领航者智能体,其他智能体作为跟随者在运行过程中跟随领航者智能体的轨迹进行运动;步骤二:针对系统中的每个智能体,根据其得到的邻居智能体信息,构建其相对于领航者智能体的跟踪误差,并且根据跟踪误差,构建描述智能体与领航者以及智能体与邻居智能体的误差,即编队误差;步骤三:基于最优控制构建与编队误差和最优控制输入相关的代价函数以及值函数;步骤四:基于泰勒公式以及步骤三中得到的值函数,对值函数进行展开求解,得到相应的哈密尔顿

贾克比

贝尔曼方程;步骤五:针对步骤四得到的哈密尔顿

贾克比

贝尔曼方程,对其求解关于最优控制的偏导得到最优控制输入关于最优值函数的表现形式;步骤六:对最优值函数进行分割得到其关于编队误差以及未知函数的表达形式,并且根据步骤五的最优控制输入表现形式,得到分割的最优控制输入形式;步骤七:引入单评论家强化学习结构,并结合神经网络,对步骤六中得到的分割的最优值函数以及最优控制输入进行求解,其中神经网络对于多智能体系统中的未知非线性项进行近似,评论家网络进行智能体系统的编队控制,并且对于编队控制的效果进行评价与改善。2.根据权利要求1所述的一种基于单评论家强化学习结构的多智能体编队控制方法,其特征在于,所述单评论家强化学习结构用于移除传统演员

评论家强化学习方法中对于演员网络的需求,从而有效降低系统的近似误差并减少计算时间。3.根据权利要求1所述的一种基于单评论家强化学习结构的多智能体编队控制方法,其特征在于,步骤一中,所述多智能体系统的模型表达为:其中,x
i
(t)表示系统中第i个智能体的位置量;u
i
(t)表示系统中第i个智能体的控制量;f
i
(
·
)表示未知的非线性函数,且假设其为李普希思连续的;领航者智能体的模型如下所示:其中,p
l
和v
l
分别表示领航者的轨迹和速度量,即编队移动中所期望的轨迹和速度;设定每个智能体相对于领航者的跟踪误差为:z
i
=x
i

p
l

ζ
i
其中,ζ
i
表示领航者智能体和第i...

【专利技术属性】
技术研发人员:黄捷
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1