一种基于强化学习的空战博弈机动策略交替冻结训练方法技术

技术编号：24171330 阅读：33 留言：0更新日期：2020-05-16 03:03

本发明专利技术公开了一种基于强化学习的空战博弈机动策略交替冻结训练方法，包括下述步骤：首先设置空战区域，以及双方飞行器的动态模型；然后，设置交替冻结训练的迭代次数，训练一方时，训练方采用随机参数的神经网络作为初始策略，另一方策略采用上一轮迭代保存的策略；之后，按敌我双方交替冻结的方法，采用深度强化学习算法训练，直至满足单次迭代终止条件，并保存训练完成的策略；最后，采用联赛制的方法，选择表现最佳的我方策略，在应用模式下，使用最优策略对我方飞行器进行机动引导，与敌方进行博弈。本发明专利技术的方法可以应用在现有飞行器空战机动引导系统中，根据空战博弈的态势，采用实时控制的方式，引导飞行器在空战中占据有利态势位置。

An alternative freezing training method of air combat game maneuver strategy based on Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的空战博弈机动策略交替冻结训练方法
本专利技术涉及飞行器空战博弈机动引导领域，特别涉及一种基于强化学习的空战博弈机动策略交替冻结训练方法。
技术介绍
飞行器空战过程主要是飞行器机动的过程，通过飞行员操控飞机、地面站遥控无人机或无人机自主驾驶的方式控制飞行器进行机动动作，在与敌方飞行器的博弈中占据有利位置，形成有利态势并锁定目标，利用航炮、导弹等武器完成对敌方飞行器的打击。现有算法对空战机动策略的研究存在两个问题，一个是假设敌方机动策略是理性或最优的，然后生成我方机动策略，无法适应多变的敌方机动策略；另一个是采用传统的算法，计算量大，无法满足空战实时性的要求，仍需要进一步研究。强化学习执行效率高，使用灵活，与博弈方法结合后，可训练空战中飞行器的机动策略。通过交替冻结的方法迭代训练多个我方策略，并采用联赛制的方法在多个策略中选择最优策略，避免了迭代后期的策略无法应对迭代前期敌方机动策略的问题。最优策略用在空战飞行器机动引导系统中，实时、准确给出引导指令，对飞行器空中占位具有实践意义。
技术实现思路
<...

【技术保护点】
1.一种基于强化学习的空战博弈机动策略交替冻结训练方法，其特征在于，包括以下步骤：/n（1）根据作战场景确定空战博弈范围，设置敌我双方飞行器的动态模型；/n（2）设置交替冻结训练最大迭代次数，即敌我双方策略分别需要博弈训练的次数，设置单次博弈对抗结束条件，构建敌我双方策略的深度强化学习结构；/n（3）在最大迭代次数范围内，通过博弈的方式交替冻结训练敌我双方策略，每次博弈训练由大量训练片段组成；/n博弈交替冻结训练的过程为：先训练我方机动策略，敌方采用已有的固定策略，我方采用随机初始策略，采用深度强化学习算法训练我方策略，按照训练片段逐次训练，直至达到单次博弈对抗结束条件，完成我方策略训练，并保...

【技术特征摘要】
1.一种基于强化学习的空战博弈机动策略交替冻结训练方法，其特征在于，包括以下步骤：
（1）根据作战场景确定空战博弈范围，设置敌我双方飞行器的动态模型；
（2）设置交替冻结训练最大迭代次数，即敌我双方策略分别需要博弈训练的次数，设置单次博弈对抗结束条件，构建敌我双方策略的深度强化学习结构；
（3）在最大迭代次数范围内，通过博弈的方式交替冻结训练敌我双方策略，每次博弈训练由大量训练片段组成；
博弈交替冻结训练的过程为：先训练我方机动策略，敌方采用已有的固定策略，我方采用随机初始策略，采用深度强化学习算法训练我方策略，按照训练片段逐次训练，直至达到单次博弈对抗结束条件，完成我方策略训练，并保存；然后，敌我双方策略交替训练，训练的一方采用随机初始策略，另一方采用上次迭代完成后保存的策略，每次满足单次博弈对抗结束条件，终止当前训练，保存训练的策略；最后，达到最大迭代次数，完成交替冻结训练；
（4）将交替冻结训练保存的所有敌我策略作为选手，采用联赛制的方法进行多次两两博弈，根据实际空战需求，按照胜、平、负不同积分的方法给每种策略进行打分，选择我方积分最高的策略作为最优策略；
（5）在空战博弈中，使用最优策略作为我方机动策...

【专利技术属性】
技术研发人员：李辉，王壮，陈希亮，吴昊霖，马文，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人