一种基于自适应动态规划的多智能体跟随控制方法和系统技术方案

技术编号:36784917 阅读:14 留言:0更新日期:2023-03-08 22:25
本发明专利技术实施例提供一种基于自适应动态规划的多智能体跟随控制方法和系统,根据跟随者和领航者的状态和控制量的差异,得到跟随状态误差和控制量误差。以最小化跟随状态误差和消耗的能量为目标定义效用函数,并根据效用函数得到代价函数,以动态规划的思想求解最优控制策略,由于代价函数与控制策略均是非显式表达的,故采用动作神经网络和评价神经网络分别拟合控制策略和代价函数,采用迭代计算的方式求解得出最优控制策略,以采集的领航者与跟随者的状态值和控制量的值对动作神经网络和评价神经网络进行训练,可使跟随者以最小的轨迹误差和控制能量实现对领航者的跟随运动,不仅适用于线性系统的跟随者,也适用于非线性系统的跟随者。跟随者。跟随者。

【技术实现步骤摘要】
一种基于自适应动态规划的多智能体跟随控制方法和系统


[0001]本专利技术实施例涉及多智能体跟随
,尤其涉及一种基于自适应动态规划的多智能体跟随控制方法和系统。

技术介绍

[0002]随着技术的发展,智能体在近几十年来引起了研究人员的极大关注,他们在通信、计算机技术、生物学、社会行为学等各个方面,都有潜在的研究价值。而随着智能时代的逐渐到来,智能体也广泛的应用在生活的各个方面,但随着应用功能的日趋复杂,通过多个简单的智能体组成的多智能体系统比单一智能体具有更大的优势。多智能体系统在军事、航天、工业等各个领域都有广泛的应用,例如无人机的编队飞行,多个卫星进行协同运行、智能体车的编队运输等等。所以,多智能体系统的协调控制在获得广泛的研究。
[0003]现有几乎是中多智能体的常规控制方法不考虑代价函数,无法实现最优控制。当前使用的最优控制方法主要采用代数计算的方法求解最优控制策略,而非数据驱动的方法。当前使用的最优控制方法主要针对线性系统,无法求解非线性系统的最优控制策略。

技术实现思路

[0004]本专利技术实施例提供一种基于自适应动态规划的多智能体跟随控制方法和系统,采用基于数据的自适应动态规划方法而非解析公式的方法求解最优控制策略,可使跟随者以最小的轨迹误差和控制能量实现对领航者的跟随运动。
[0005]第一方面,本专利技术实施例提供一种基于自适应动态规划的多智能体跟随控制方法,所述多智能体包括一个领航者和至少一个跟随者,所述跟随控制方法包括:
[0006]步骤S1、基于领航者的状态量确定跟随者的状态方程、控制量,基于跟随者的状态方程确定跟随者与领航者间的跟随状态误差,以及跟随者的控制量误差;
[0007]步骤S2、以跟随者的跟随状态误差和消耗能量最小为目标确定效用函数,基于所述效用函数确定使得跟随者能量最小化的代价函数,基于所述代价函数确定控制误差函数;
[0008]步骤S3、基于迭代方法求解所述控制误差函数,基于预设的神经网络拟合所述控制误差函数和所述代价函数,以在迭代过程中逐步拟合出最优的控制误差函数,基于最优的控制误差函数确定最优控制策略。
[0009]作为优选的,所述步骤S1具体包括:
[0010]确定领航者的当前时刻状态量ξ、下一时刻状态量ξ

;跟随者的当前时刻状态量λ,下一时刻状态量λ

;确定跟随者的状态方程:
[0011]λ

=f(λ)+g(λ)v(λ)
[0012]上式中,f(
·
)为状态耦合函数,g(
·
)为输入耦合函数,v(
·
)为跟随者的控制策略函数,v(λ)为跟随者当前时刻状态量下的控制量;
[0013]确定跟随者的期望控制量v
e
为:
[0014]v
e
=g
‑1(ξ)(ξ
′‑
f(ξ))
[0015]上式中,v
e
为跟随者的期望控制量,g
‑1(ξ)为输入耦合函数值的转置;
[0016]跟随者与领航者之间的当前时刻的跟随状态误差x为:
[0017]x=λ

ξ
[0018]跟随者在当前时刻状态量下的控制量v(λ)与期望控制量v
e
之间的控制量误差u(x)为:
[0019]u(x)=v(λ)

v
e
[0020]=v(x+ξ)

v
e
[0021]跟随者在下一时刻的跟随状态误差x

为:
[0022]x

=λ
′‑
ξ

[0023]=f(λ)+g(λ)v

ξ

[0024]=f(x+ξ)+g(x+ξ)(u(x)+v
e
)

ξ

[0025]跟随者下一时刻的跟随状态误差x

为当前时刻的跟随状态误差x和控制量误差u(x)的函数,记为:
[0026]x

=F(x,u(x))
[0027]上式中,F(
·
)表示x和u(x)到x

的映射。
[0028]作为优选的,所述步骤S2具体包括:
[0029]确定跟随状态误差的效用函数为:
[0030]U(x,u(x))=x
T
Qx+u(x)
T
Ru(x)
[0031]上式中,U(x,u(x))表示跟随状态误差为x,控制量误差量为u(x)时的效用函数,Q、R均为正定矩阵;
[0032]基于所述效用函数确定跟随者的代价函数:
[0033]V(x,u(x))=∑U(x,u(x))=(x
T
Qx+u(x)
T
Ru(x))+(x

T
Qx

+u

T
(x

)Ru

(x

))+

[0034]上式中,V(
·
)为代价函数,U(
·
)为效用函数;x

为跟随者下一时刻跟随状态误差,u

(x

)为跟随者下一时刻的控制量误差;
[0035]基于贝尔曼最优原理:
[0036][0037]上式中,V
*
(x)为在当前时刻的跟随状态误差x下的最优代价函数,V
*
(x)为在下一时刻的跟随状态误差x

下的最优代价函数,min{
·
}表示求花括号中的函数的最小值;
[0038]最优的控制误差函数u
*
(x)为:
[0039][0040]式中,u
*
(x)表示在当前时刻的跟随状态误差x时的控制量,表示使花括号中的函数最小时的u(x)的值;R
‑1表示正定矩阵R的逆矩阵,g
T
(x)表示g(x)的转置。
[0041]作为优选的,所述步骤S3中,基于迭代方法求解所述控制误差函数时,设初始化值函数V0(
·
)的值为0,求解初始控制误差函数为:
[0042][0043]第i(i=1,2,3,

)次迭代时的代价函数V
i
(x)为:
[0044][0045]第i(i=1,2,3,

)次迭代时的控制误差函数u
i
(x)为:
[0046][0047]作为优选的,所述步骤S3中,基于预设的神经网络拟合所述控制误差函数和所述代价函数,以在迭代过程中逐步拟合出最优的控制误差函数,具体包括:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应动态规划的多智能体跟随控制方法,所述多智能体包括一个领航者和至少一个跟随者,其特征在于,所述跟随控制方法包括:步骤S1、基于领航者的状态量确定跟随者的状态方程、控制量,基于跟随者的状态方程确定跟随者与领航者间的跟随状态误差,以及跟随者的控制量误差;步骤S2、以跟随者的跟随状态误差和消耗能量最小为目标确定效用函数,基于所述效用函数确定使得跟随者能量最小化的代价函数,基于所述代价函数确定控制误差函数;步骤S3、基于迭代方法求解所述控制误差函数,基于预设的神经网络拟合所述控制误差函数和所述代价函数,以在迭代过程中逐步拟合出最优的控制误差函数,基于最优的控制误差函数确定最优控制策略。2.根据权利要求1所述的基于自适应动态规划的多智能体跟随控制方法,其特征在于,所述步骤S1具体包括:确定领航者的当前时刻状态量ξ、下一时刻状态量ξ

;跟随者的当前时刻状态量λ,下一时刻状态量λ

;确定跟随者的状态方程:λ

=f(λ)+g(λ)v(λ)上式中,f(
·
)为状态耦合函数,g(
·
)为输入耦合函数,v(
·
)为跟随者的控制策略函数,v(λ)为跟随者当前时刻状态量下的控制量;确定跟随者的期望控制量v
e
为:v
e
=g
‑1(ξ)(ξ
′‑
f(ξ))上式中,v
e
为跟随者的期望控制量,g
‑1(ξ)为输入耦合函数值的转置;跟随者与领航者之间的当前时刻的跟随状态误差x为:x=λ

ξ跟随者在当前时刻状态量下的控制量v(λ)与期望控制量v
e
之间的控制量误差u(x)为:u(x)=v(λ)

v
e
=v(x+ξ)

v
e
跟随者在下一时刻的跟随状态误差x

为:x

=λ
′‑
ξ

=f(λ)+g(λ)v

ξ

=f(x+ξ)+g(x+ξ)(u(x)+v
e
)

ξ

跟随者下一时刻的跟随状态误差x

为当前时刻的跟随状态误差x和控制量误差u(x)的函数,记为:x

=F(x,u(x))上式中,F(
·
)表示x和u(x)到x

的映射。3.根据权利要求2所述的基于自适应动态规划的多智能体跟随控制方法,其特征在于,所述步骤S2具体包括:确定跟随状态误差的效用函数为:U(x,u(x))=x
T
Qx+u(x)
T
Ru(x)上式中,U(x,u(x))表示跟随状态误差为x,控制量误差量为u(x)时的效用函数,Q、R均为正定矩阵;基于所述效用函数确定跟随者的代价函数:
V(x,u(x))=∑U(x,u(x))=(x
T
Qx+u(x)
T
Ru(x))+(x

T
Qx

+u

T
(x

)Ru

(x

))+

上式中,V(
·
)为代价函数,U(
·
)为效用函数;x

为跟随者下一时刻跟随状态误差,u

(x

)为跟随者下一时刻的控制量误差;基于贝尔曼最优原理:上式中,V
*
(x)为在当前时刻的跟随状态误差x下的最优代价函数,V
*
(x)为在下一时刻的跟随状态误差x

下的最优代价函数,min{
·
}表示求花括号中的函数的最小值;最优的控制误差函数u
*
(x)为:式中,u
*
(x)表示在当前时刻的跟随状态误差x时的控制量,表示使花括号中的函数最小时的u(x)的值;R
‑1表示正定矩阵R的逆矩阵,g
T
(x)表示g(x)的转置。4.根据权利要求3所述的基于自适应动态规划的多智能体跟随控制方法,其特征在于,所述步骤S3中,基于迭代方法求解所述控制误差函数时,设初始化值函数V0(
·
)的值为0,求解初始控制误差函数为:第i(i=1,2,3,

)次迭代时的代价函数V
i
(x)为:第i(i=1,2,3,

)次迭代时的控制误差函数u
i
(x)为:5.根据权利...

【专利技术属性】
技术研发人员:杨根张弓袁海张金越王昕彤吴月玉
申请(专利权)人:广州先进技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1