一种基于鲁棒微分博弈的多智能体系统避碰策略方法技术方案

技术编号:37301365 阅读:6 留言:0更新日期:2023-04-21 22:47
本发明专利技术涉及一种基于鲁棒微分博弈的多智能体系统避碰策略方法。首先将具有通信能力有限且受外部干扰的多智能体系统避碰问题转化为分布式微分博弈问题;其次,基于人工势场法,明确的引入轨迹优化目标惩罚智能体的偏离程度;然后,将外部干扰看作最大化成本函数的虚拟玩家,求取最坏干扰下的最优避碰策略;分析局部鲁棒纳什均衡的存在性以及全局收敛性;最后,利用基于最佳成本函数的逆优化方法构建最优控制策略,采用基于非支配占优的蚁群优化算法求解最优反馈增益矩阵;该方法可以减少智能体到达目标点的时间,并且可以使避碰策略具有鲁棒性;此外,该方法采用分布式体系结构,相较于集中式体系结构,不依赖于全局状态信息,具有良好的可扩展性。有良好的可扩展性。有良好的可扩展性。

【技术实现步骤摘要】
一种基于鲁棒微分博弈的多智能体系统避碰策略方法


[0001]本专利技术涉及多智能体协调控制
,特别涉及一种基于鲁棒微分博弈的多智能体系统避碰策略方法。

技术介绍

[0002]在过去的十年中,多智能体系统由于其松散耦合的网络结构而备受关注,智能体可以通过相互作用来解决单个智能体无法解决的问题。在多智能体系统中,智能体避碰是智能体能够安全协同执行任务的前提条件。
[0003]博弈论是解决多智能体决策的有效工具,其中微分博弈被广泛的应用到多智能体协调控制领域。微分博弈是博弈论与最优控制的结合,将微分博弈方法引入到多智能体协调控制中,可以充分体现智能体之间的动态交互性。对比分布式优化算法,微分博弈方法不需要中央协调机制,只需要智能体自私的优化自己的成本函数,最终仍能收敛到纳什均衡,具有严格的数学保证。当前基于微分博弈的方法已经在解决考虑有线通信能力的追逃问题和考虑外部干扰的情况下的编队问题等应用领域取得成功,包括文献(Lin W,Qu Z,Simaan M A.Nash strategies for pursuit

evasion differential games involving limited observations[J].IEEE Transactions on Aerospace and Electronic Systems,2015,51(2):1347

1356.)提出了一种构建反馈追逃策略的方法,该方法不依赖于智能体的全局状态信息,文献(de la Cruz N,Jimenez

Lizarraga M.Finite time robust feedback Nash equilibrium for linear quadratic games[J].IFAC

PapersOnLine,2017,50(1):11794

11799.)建立了一种带有外部干扰的集中式微分博弈模型,将外部干扰看作最大化成本函数的虚拟玩家,但没有考虑智能体的有限通信能力,文献(Fu Y,Chai T.Online solution of two

player zero

sum games for continuous

time nonlinear systems with completely unknown dynamics[J].IEEE transactions on neural networks and learning systems,2015,27(12):2577

2587.)构建了一种分布式的不确定零和微分博弈,得出了局部鲁棒纳什均衡,但没有严格的理论保证。为了实现多智能体全局任务的协调性,需要局部鲁棒纳什均衡的全局收敛性保证。考虑到传统微分博弈方法在解决多智能体避碰问题中,没有考虑智能体的通信能力限制以及外部干扰问题,所以避碰策略缺乏鲁棒性,且无法保证任务高效顺利完成。因此,为了更好实现多智能体安全高效的顺利完成任务,需要针对智能体的有限通信能力以及存在的外部干扰问题,建立相应的微分博弈模型,以提升避碰策略的鲁棒性,尽可能减少智能体完成任务的时间。
[0004]因此,为了解决这一将微分博弈方法引入到避碰问题中产生的完成任务效率低以及控制性能差的难题,可以考虑引入人工势场法设计避碰规则,以及考虑将干扰看作一种最大化成本函数的虚拟玩家方法。设计一种基于鲁棒微分博弈的多智能体系统避碰策略方法。当前现有的技术提出的基于鲁棒的微分博弈的解决方案主要聚焦于智能体全局信息已知的情况下,对于分布式鲁棒微分博弈方法仍很少应用在多智能体避碰问题中,无法提供合适的解决方案。

技术实现思路

[0005]本专利技术的目的在于克服现有技术存在的缺陷和不足,提供一种基于鲁棒微分博弈的多智能体系统避碰策略方法,该方法考虑现有的仅考虑避障目标的微分博弈方法,基于人工势场法,引入距离目标惩罚智能体的偏离目标点程度,权衡智能体到达目标点与距离障碍物之间的距离,减少智能体到达目标点的时间;针对存在外部干扰问题,将干扰与控制策略构成一种零和博弈关系,求解最坏干扰情况下的最优的控制器;基于最优控制原理,在固定强连通拓扑图的假设下,保证了局部纳什均衡解的全局收敛性;针对智能体的有限通信能力,考虑传统的求解黎卡提方程的方法不再适用,引入基于最佳性能指标的逆优化方法构建最优反馈策略,利用基于非支配的蚁群优化算法求解最优反馈增益。该方法可以减少智能体到达目标点的时间,并且可以实现避碰策略的鲁棒性。
[0006]为实现上述目的,本专利技术的技术方案是:一种基于鲁棒微分博弈的多智能体系统避碰策略方法,包括如下步骤:
[0007]步骤S1、利用图论,建立多智能体系统中智能体之间的通信关系;将智能体与其邻居作为博弈参与者,建立一阶线性积分器作为智能体的模型;对智能体的工作环境定义碰撞区域、感应区域、自由区域,并将障碍物视作椭圆形,以囊括所有形状的障碍物;
[0008]步骤S2、利用人工势场法设计避碰规则,作为智能体在博弈模型中的运行成本函数;
[0009]步骤S3、将通信能力有限、受外部干扰的多智能体系统的避碰问题看作分布式零和微分博弈问题;建立分布式鲁棒微分博弈模型,该分布式鲁棒微分博弈模型包括运行成本函数、控制成本、干扰成本以及末端成本;
[0010]步骤S4、利用最优控制理论,建立局部鲁棒值函数,根据所得局部鲁棒值函数求得哈密顿

雅可比

艾萨克斯HJI方程,并求解HJI方程,得到最优控制器的表达形式;分析最优控制与局部鲁棒纳什均衡的关系,以及局部鲁棒纳什均衡的全局收敛性;
[0011]步骤S5、采用基于近似最佳性能指标的逆优化方法求解智能体的局部鲁棒纳什均衡。
[0012]在本专利技术一实施例中,所述步骤S1具体包括以下步骤:
[0013]步骤S11、博弈参与者模型建立:
[0014]所述多智能体系统动态方程具体形式为:
[0015][0016]式中,t为时间刻度;为第i个智能体t时刻的位置信息的变化率;x
i
(t)为第i个多智能体t时刻的位置信息;u
i
(t)和u
j
(t)分别为第i个智能体和第j个智能体t时刻的控制策略;ω
i
(t)和ω
j
(t)分别为第i个智能体和第j个智能体t时刻的干扰策略;B
ii
、B
ij
、E
ii
、E
ij
分别为相应策略对应的常数矩阵;
[0017]建立N个智能体的有向交互拓扑图G(v,ε),其中,v={v1,...,v
N
}表示智能体集合;表示边的集合;e
ij
表示智能体i与智能体j的通信关系;e
ij
∈ε表示智能体i可以接收本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于鲁棒微分博弈的多智能体系统避碰策略方法,其特征在于,包括如下步骤:步骤S1、利用图论,建立多智能体系统中智能体之间的通信关系;将智能体与其邻居作为博弈参与者,建立一阶线性积分器作为智能体的模型;对智能体的工作环境定义碰撞区域、感应区域、自由区域,并将障碍物视作椭圆形,以囊括所有形状的障碍物;步骤S2、利用人工势场法设计避碰规则,作为智能体在博弈模型中的运行成本函数;步骤S3、将通信能力有限、受外部干扰的多智能体系统的避碰问题看作分布式零和微分博弈问题;建立分布式鲁棒微分博弈模型,该分布式鲁棒微分博弈模型包括运行成本函数、控制成本、干扰成本以及末端成本;步骤S4、利用最优控制理论,建立局部鲁棒值函数,根据所得局部鲁棒值函数求得哈密顿

雅可比

艾萨克斯HJI方程,并求解HJI方程,得到最优控制器的表达形式;分析最优控制与局部鲁棒纳什均衡的关系,以及局部鲁棒纳什均衡的全局收敛性;步骤S5、采用基于近似最佳性能指标的逆优化方法求解智能体的局部鲁棒纳什均衡。2.根据权利要求1所述的一种基于鲁棒微分博弈的多智能体系统避碰策略方法,其特征在于,所述步骤S1具体包括以下步骤:步骤S11、博弈参与者模型建立:所述多智能体系统动态方程具体形式为:式中,t为时间刻度;为第i个智能体t时刻的位置信息的变化率;x
i
(t)为第i个多智能体t时刻的位置信息;u
i
(t)和u
j
(t)分别为第i个智能体和第j个智能体t时刻的控制策略;ω
i
(t)和ω
j
(t)分别为第i个智能体和第j个智能体t时刻的干扰策略;B
ii
、B
ij
、E
ii
、E
ij
分别为相应策略对应的常数矩阵;建立N个智能体的有向交互拓扑图G(v,ε),其中,v={v1,...,v
N
}表示智能体集合;表示边的集合;e
ij
表示智能体i与智能体j的通信关系;e
ij
∈ε表示智能体i可以接收智能体j的信息;智能体i的邻居集合为定义智能体i的局部动态方程为:式中,为第i个智能体t时刻的局部状态信息的变化率;为第i个多智能体t时刻的局部状态信息;u
ij
(t)为智能体i对邻居智能体j在t时刻的推断策略;ω
ij
为第i个智能体对邻居智能体j在t时刻推断的干扰策略;分别为相应策略对应的常数矩阵;步骤S12:、建立障碍物环境模型:考虑障碍物为椭圆形,定义避碰区域S
ik
为:式中,R2为智能体所处的二位平面;r
i
为智能体i的安全距离;c
k
(t)为t时刻障碍物k的
位置,是障碍物k的半径;I2为单位权重矩阵;定义感应区域D
ik
为:式中,R
i
是智能体i的感应范围;定义自由区域M
ik
为:3.根据权利要求2所述的一种基于鲁棒微分博弈的多智能体系统避碰策略方法,其特征在于,在步骤S2中,给出如下的假设条件:假设一:ω
i
(t)是平方可积的,对于存在常数满足如下条件:式中,t
f
是智能体i末端运行时刻;为某一个正常数;为正实数;假设二:有向交互拓扑图G(v,ε)是固定且强连通的;设计基于人工势场法的避碰规则:式中,为t时刻智能体i的惩罚函数;为t时刻多智能体系统的当前位置与目标点位置的偏差;χ
i
(0<χ
i
<1)和分别为常数;为t时刻智能体i的障碍物惩罚函数;为t时刻智能体i的距离惩罚函数;距离惩罚函数的表示如下所示:式中,为智能体i的目标点位置;为智能体i在t时刻的当前位置与目标点位置的偏差;为优化智能体的轨迹,引入距离惩罚函数,以惩罚智能体对目标点的偏离程度,表示如下:式中,γ
i
(t)为t时刻智能体i运行的偏差角度,该偏差角度是智能体当前位置与预定义的参考轨迹之间的角度。4.根据权利要求3所述的一种基于鲁棒微分博弈的多智能体系统避碰策略方法,其特征在于,在步骤S3中,
建立分布式鲁棒微分博弈成本函数,表达形式如下所示:式中,可简写为j
i
;t
f
为智能体i的末端运行时刻;为多智能体系统的初始状态信息;u

i
(t)和ω

i
(t)分别为t时刻除智能体i外的邻居智能体的控制策略和干扰策略;分别为...

【专利技术属性】
技术研发人员:黄捷薛文艳林定慈占思远陈宇韬吴智鸿
申请(专利权)人:福州哲研智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1