一种多智能体空战奖励函数设计方法技术

技术编号：39122352 阅读：7 留言：0更新日期：2023-10-23 14:46

本发明专利技术提供了一种多智能体空战奖励函数设计方法，该方法具体为：多智能体强化学习算法在训练时，每一步根据模拟器返回的当前状态计算奖励函数值；本发明专利技术奖励函数能够强化学习算法利用人类的先验知识，更好地实现空战的站位和机动。奖励函数能够指导多智能体之间合理的协作，提高战损比。提高战损比。

全部详细技术资料下载

【技术实现步骤摘要】
一种多智能体空战奖励函数设计方法

[0001]本专利技术涉及人工智能
，尤其是涉及一种多智能体空战奖励函数设计方法。

技术介绍

[0002]奖励函数是强化学习中的重要组成部分，对算法的收敛性以及收敛效果有很大的影响。对于多对多空战，除了最终的战损比之外，在每一步需要综合考虑敌我双方的空间位置以及速度关系，剩余弹药数量，弹药性能等诸多因素。现有的方法考虑了战损比等部分因素，容易造成稀疏奖励的问题，无法指导战机在每一步做出科学的决策。从而影响训练时算法的收敛以及收敛后模型的预测精度。
[0003]现有的奖励函数通常只简单的考虑了最终的战损比，无法加入人类先验知识，导致训练时收敛效果差。虽然有部分方法考虑了态势因素，但没有综合考虑位置与速度关系，以及弹药性能、数量等因素。本专利技术提出的奖励函数，综合考虑了上述因素，而且能够适用于多智能体强化学习场景。能够指导战机在每一步都尽可能利用当前状态信息做出科学的决策。
[0004]公开于该
技术介绍
部分的信息仅仅旨在加深对本专利技术的总体
技术介绍
的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0005]本专利技术提出一种多智能体空战奖励函数设计方法，用以指导战机在每一步都尽可能利用当前状态信息做出科学的决策。
[0006]为了实现上述目的，本专利技术采用以下技术方案：
[0007]本专利技术提供一种多智能体空战奖励函数设计方法，所述方法具体为：多智能体强化学习算法在训练时...

【技术保护点】

【技术特征摘要】
1.一种多智能体空战奖励函数设计方法，其特征在于，所述方法具体为：多智能体强化学习算法在训练时，每一步根据模拟器返回的当前状态计算奖励函数值；敌我双方每架战机的状态由状态向量x描述，包括空间位置、速度、弹药剩余值；定义为：其中，(x,y,z)为战机在空间坐标系中的坐标，v为速度矢量的大小，为航向角，即速度矢量的方向，n为己方的该架飞机剩余的弹药数量；假设敌我方的距离矢量为d，我方的速度矢量为v1，敌方的速度矢量为v2；首先计算下面的值：其中，α1、α2分别为敌我双方的速度矢量与敌我双方直线之间的夹角；角度优势函数定义为：距离优势函数定义为：其中R0是弹药的最佳射程范围，k是人工设定的系数；能量优势函数定义为：其中，R
A
为角度优势；R
D
为距离优势，R
E
为能量优势；η＝E1/E2为敌我双方的能量比，E1、E2分别为敌方飞...

【专利技术属性】
技术研发人员：邓红艳，陈治湘，雷祥，邓桂龙，何玲玥，李伟强，
申请(专利权)人：陈治湘雷祥邓桂龙何玲玥李伟强，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人