一种多智能体空战奖励函数设计方法技术

技术编号:39122352 阅读:7 留言:0更新日期:2023-10-23 14:46
本发明专利技术提供了一种多智能体空战奖励函数设计方法,该方法具体为:多智能体强化学习算法在训练时,每一步根据模拟器返回的当前状态计算奖励函数值;本发明专利技术奖励函数能够强化学习算法利用人类的先验知识,更好地实现空战的站位和机动。奖励函数能够指导多智能体之间合理的协作,提高战损比。提高战损比。

【技术实现步骤摘要】
一种多智能体空战奖励函数设计方法


[0001]本专利技术涉及人工智能
,尤其是涉及一种多智能体空战奖励函数设计方法。

技术介绍

[0002]奖励函数是强化学习中的重要组成部分,对算法的收敛性以及收敛效果有很大的影响。对于多对多空战,除了最终的战损比之外,在每一步需要综合考虑敌我双方的空间位置以及速度关系,剩余弹药数量,弹药性能等诸多因素。现有的方法考虑了战损比等部分因素,容易造成稀疏奖励的问题,无法指导战机在每一步做出科学的决策。从而影响训练时算法的收敛以及收敛后模型的预测精度。
[0003]现有的奖励函数通常只简单的考虑了最终的战损比,无法加入人类先验知识,导致训练时收敛效果差。虽然有部分方法考虑了态势因素,但没有综合考虑位置与速度关系,以及弹药性能、数量等因素。本专利技术提出的奖励函数,综合考虑了上述因素,而且能够适用于多智能体强化学习场景。能够指导战机在每一步都尽可能利用当前状态信息做出科学的决策。
[0004]公开于该
技术介绍
部分的信息仅仅旨在加深对本专利技术的总体
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0005]本专利技术提出一种多智能体空战奖励函数设计方法,用以指导战机在每一步都尽可能利用当前状态信息做出科学的决策。
[0006]为了实现上述目的,本专利技术采用以下技术方案:
[0007]本专利技术提供一种多智能体空战奖励函数设计方法,所述方法具体为:多智能体强化学习算法在训练时,每一步根据模拟器返回的当前状态计算奖励函数值;敌我双方每架战机的状态由状态向量x描述,包括空间位置、速度、弹药剩余值;
[0008]定义为:
[0009][0010]其中,(x,y,z)为战机在空间坐标系中的坐标,v为速度矢量的大小,为航向角,即速度矢量的方向,n为己方的该架飞机剩余的弹药数量;假设敌我方的距离矢量为d,我方的速度矢量为v1,敌方的速度矢量为v2;首先计算下面的值:
[0011][0012]其中,α1、α2分别为敌我双方的速度矢量与敌我双方直线之间的夹角;
[0013]角度优势函数定义为:
[0014][0015]距离优势函数定义为:
[0016][0017]其中R0是弹药的最佳射程范围,k是人工设定的系数;能量优势函数定义为:
[0018][0019]其中,R
A
为角度优势;R
D
为距离优势,R
E
为能量优势;η=E1/E2为敌我双方的能量比,E1、E2分别为敌方飞机的能量,我方飞机的能量;每架飞机的能量由高度所代表的重力势能以及速度所代表的动能组成:
[0020][0021]其中,H是飞机的飞行高度,g为重力加速度;对于己方的每一架飞机,假设其剩余的弹药数量为n,在弹药的最佳射程范围内,有m架敌方的飞机,令l=min(m,n);l为剩余弹药数与敌方飞机数的较小值,计算本架飞机对这l架飞机的优势函数:
[0022]R
i
=k1R
A
+k2R
D
+k3R
E
[0023]其中k1,k2,k3为人工设定的常数;最后计算这些优势函数的和:
[0024]R=R1+....+R
l
[0025]对己方的所有战机均计算此函数值,它们的和作为每个非终止时刻的奖励函数值;如果到达终止时刻,则计算战损比作为奖励函数,定义为:
[0026]R=D

L
[0027]其中,D为摧毁的对方的战机数量,L为己方损失的战机数量。
[0028]采用上述技术方案,本专利技术具有如下有益效果:
[0029]1、奖励函数能够强化学习算法利用人类的先验知识,更好地实现空战的站位和机动。
[0030]2、奖励函数能够指导多智能体之间合理的协作,提高战损比。
具体实施方式
[0031]本实施例提供一种多智能体空战奖励函数设计方法,所述方法具体为:多智能体强化学习算法在训练时,每一步根据模拟器返回的当前状态计算奖励函数值;敌我双方每架战机的状态由状态向量x描述,包括空间位置、速度、弹药剩余值;
[0032]定义为:
[0033][0034]其中,(x,y,z)为战机在空间坐标系中的坐标,v为速度矢量的大小,为航向角,即速度矢量的方向,n为己方的该架飞机剩余的弹药数量;假设敌我方的距离矢量为d,我方的速度矢量为v1,敌方的速度矢量为v2;首先计算下面的值:
[0035][0036]其中,α1、α2分别为敌我双方的速度矢量与敌我双方直线之间的夹角;
[0037]角度优势函数定义为:
[0038][0039]距离优势函数定义为:
[0040][0041]其中R0是弹药的最佳射程范围,k是人工设定的系数;能量优势函数定义为:
[0042][0043]其中,R
A
为角度优势;R
D
为距离优势,R
E
为能量优势;η=E1/E2为敌我双方的能量比,E1、E2分别为敌方飞机的能量,我方飞机的能量;每架飞机的能量由高度所代表的重力势能以及速度所代表的动能组成:
[0044][0045]其中,H是飞机的飞行高度,g为重力加速度;对于己方的每一架飞机,假设其剩余的弹药数量为n,在弹药的最佳射程范围内,有m架敌方的飞机,令l=min(m,n);l为剩余弹药数与敌方飞机数的较小值,计算本架飞机对这l架飞机的优势函数:
[0046]R
i
=k1R
A
+k2R
D
+k3R
E
[0047]其中k1,k2,k3为人工设定的常数;最后计算这些优势函数的和:
[0048]R=R1+....+R
l
[0049]对己方的所有战机均计算此函数值,它们的和作为每个非终止时刻的奖励函数值;如果到达终止时刻,则计算战损比作为奖励函数,定义为:
[0050]R=D

L
[0051]其中,D为摧毁的对方的战机数量,L为己方损失的战机数量。
[0052]最后应说明的是:以上各实施例仅用以说明本专利技术的技术方案,而非对其限制;尽管参照前述各实施例对本专利技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本专利技术各实施例技术方案的范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体空战奖励函数设计方法,其特征在于,所述方法具体为:多智能体强化学习算法在训练时,每一步根据模拟器返回的当前状态计算奖励函数值;敌我双方每架战机的状态由状态向量x描述,包括空间位置、速度、弹药剩余值;定义为:其中,(x,y,z)为战机在空间坐标系中的坐标,v为速度矢量的大小,为航向角,即速度矢量的方向,n为己方的该架飞机剩余的弹药数量;假设敌我方的距离矢量为d,我方的速度矢量为v1,敌方的速度矢量为v2;首先计算下面的值:其中,α1、α2分别为敌我双方的速度矢量与敌我双方直线之间的夹角;角度优势函数定义为:距离优势函数定义为:其中R0是弹药的最佳射程范围,k是人工设定的系数;能量优势函数定义为:其中,R
A
为角度优势;R
D
为距离优势,R
E
为能量优势;η=E1/E2为敌我双方的能量比,E1、E2分别为敌方飞...

【专利技术属性】
技术研发人员:邓红艳陈治湘雷祥邓桂龙何玲玥李伟强
申请(专利权)人:陈治湘雷祥邓桂龙何玲玥李伟强
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1