System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于PPO算法和Transformer-XL框架的空战格斗策略训练方法技术_技高网

基于PPO算法和Transformer-XL框架的空战格斗策略训练方法技术

技术编号:43961805 阅读:34 留言:0更新日期:2025-01-07 21:46
本发明专利技术公开了一种基于PPO算法和Transformer‑XL框架的空战格斗策略训练方法,通过Gated Transformer‑XL框架中分段记忆和长程依赖关系的建模,使智能体在长时间序列数据的处理上更具优势,增强智能体对长时依赖关系的捕捉能力;智能体能够更好地适应动态变化的战场环境,提高策略的适用性和鲁棒性。

【技术实现步骤摘要】

本专利技术属于战场仿真,具体涉及一种基于ppo算法和transformer-xl框架的空战格斗策略训练方法。


技术介绍

1、传统空战策略主要指的是在没有现代智能技术支持的情况下,基于经验和战术规则形成的空中作战方法。一般而言,这个方法会首先提取原始的空中战斗数据中的相关特征,然后利用这些特征来定量评估本方对敌方的侦测和攻击威胁能力,或者评估敌方对本方的威胁水平,以此来评估整体的空中战斗态势。接下来,据空战经验和理论制定出一系列操作步骤。传统算法包括微分对策法、专家系统和影响图法等。但是,传统算法面临着计算效率低下的问题,限制了其应对复杂空战环境的能力。

2、强化学习在各个领域中的应用越来越广泛,特别是在复杂动态环境下的决策和控制问题中显示出了巨大的潜力。到目前为止,强化学习已广泛应用于游戏、机器人、自动驾驶、推荐系统和资源管理等领域。

3、自2016年以来,深度强化学习(drl)方法在智能决策领域取得了显著成功。alphago系列算法在围棋领域击败了人类冠军,引起全球关注。alphafold v2在蛋白质结构领域取得了突出成果,而alphatensor在矩阵快速算法领域实现了突破。著名学者silver曾表示,基于drl方法的通用人工智能(agi)的基础已经具备。drl在高维度决策任务中的卓越表现,为解决传统空战决策方法的维度受限问题带来了新的机遇,促使一系列研究的开展。2019年,kurniawan采用行动者-批评者(actor-critic,ac)架构进行空战决策,结合了基于价值和基于策略的方法的优势。同年,yang等人使用深度确定性策略梯度(ddpg)方法,解决了传统空战决策中的“维度爆炸”问题,实现了在连续空间下的动作输出。piao等人通过强化学习方法自我进化空战动作,实现了战术创新。

4、现有的解决方案中,提出了基于价值近似网络的格斗策略研究方法。在复杂的空战格斗过程中,需要无人机进行连续多步的决策。如果采用深度强化学习,需要得到动作价值函数q(s,a)。由于无人机飞行状态中每一个维度都是连续值,无法使用表格记录,一个常见的解决方法是使用函数拟合(function approximation)的思想。该算法在较困难任务下格斗策略单一且胜率较低,策略适用性不强。因此,需要选择更适合复杂空战环境的格斗策略训练方法,使智能体在更复杂和多变的空战环境中表现更为出色。


技术实现思路

1、有鉴于此,本专利技术的目的是提供一种基于ppo算法和transformer-xl框架的空战格斗策略训练方法。

2、一种空战格斗策略训练方法,包括:

3、将飞机的状态向量首先作为输入传入多层感知机,将其调整到transformer编码器块所需的嵌入维度,然后再输入到多个堆叠而成的transformer编码器块中,得到输入状态向量编码后的上下文信息,作为状态的表征结果;

4、将状态的表征结果分别输入到ppo框架下的价值网络和策略网络,价值网络计算优势函数adv(s,a);策略网络输出动作的概率分布,智能体根据概率分布随机选取动作;接着,策略网络计算动作比率,即新策略和旧策略之间的比值,用以衡量某个状态s下选择某动作a的概率的变化;

5、基于优势函数adv(s,a)和动作比率计算一个损失函数,所述价值网络和策略网络采用该同一个损失函数用于训练更新各自的网络参数;该损失函数为策略损失、价值损失和熵正则项加权求和构成;所述策略损失表示为比较当前策略和旧策略的概率比率;所述价值损失表示为当前价值估计与目标价值之间的差异;所述熵正则项用于鼓励策略的探索性。

6、较佳的,所述策略损失表示为:

7、

8、其中,πθ(a∣s)是当前策略下动作a的概率,是旧策略下的概率,adv(s,a)是优势函数,clip()表示裁剪处理,∈是设定的裁剪范围。

9、较佳的,所述价值损失表示为:

10、

11、其中,vt是状态价值函数v(st),表示累计回报的真实值,∈是裁剪范围;第一项表示当前价值函数v(st)和实际回报之间的标准平方误差;第二项是一个经过剪辑后的误差,限制vt在vt-∈和vt+∈之间。

12、较佳的,所述熵正则项表示为:

13、

14、其中,entropy(p(a∣s))是策略的熵,对于一个给定状态st下的策略π(a∣st),entropy(p(a∣s))=-∑aπ(a∣st)logπ(a∣st);其中,π(a∣st)表示策略π在状态st下选择动作a的概率;表示对状态s根据状态分布p(s)求期望,即对所有可能状态的熵进行加权平均。

15、较佳的,所述损失函数表示为:

16、loss=(l_p-α·l_v+β·entropy_bonus)

17、其中,α是价值损失的权重系数,β是熵正则项的系数。

18、本专利技术具有如下有益效果:

19、1、通过gated transformer-xl框架中分段记忆和长程依赖关系的建模,使智能体在长时间序列数据的处理上更具优势,增强智能体对长时依赖关系的捕捉能力。

20、2、智能体能够更好地适应动态变化的战场环境,提高策略的适用性和鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种空战格斗策略训练方法,其特征在于,包括:

2.如权利要求1所述的空战格斗策略训练方法,其特征在于,所述策略损失表示为:

3.如权利要求2所述的空战格斗策略训练方法,其特征在于,所述价值损失表示为:

4.如权利要求3所述的空战格斗策略训练方法,其特征在于,所述熵正则项表示为:

5.如权利要求4所述的空战格斗策略训练方法,其特征在于,所述损失函数表示为:

【技术特征摘要】

1.一种空战格斗策略训练方法,其特征在于,包括:

2.如权利要求1所述的空战格斗策略训练方法,其特征在于,所述策略损失表示为:

3.如权利要求2所述的空战格斗策略训练方法,其特征在...

【专利技术属性】
技术研发人员:王博顾彦航
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1