【技术实现步骤摘要】
一种基于强化学习的空战博弈机动策略交替冻结训练方法
本专利技术涉及飞行器空战博弈机动引导领域,特别涉及一种基于强化学习的空战博弈机动策略交替冻结训练方法。
技术介绍
飞行器空战过程主要是飞行器机动的过程,通过飞行员操控飞机、地面站遥控无人机或无人机自主驾驶的方式控制飞行器进行机动动作,在与敌方飞行器的博弈中占据有利位置,形成有利态势并锁定目标,利用航炮、导弹等武器完成对敌方飞行器的打击。现有算法对空战机动策略的研究存在两个问题,一个是假设敌方机动策略是理性或最优的,然后生成我方机动策略,无法适应多变的敌方机动策略;另一个是采用传统的算法,计算量大,无法满足空战实时性的要求,仍需要进一步研究。强化学习执行效率高,使用灵活,与博弈方法结合后,可训练空战中飞行器的机动策略。通过交替冻结的方法迭代训练多个我方策略,并采用联赛制的方法在多个策略中选择最优策略,避免了迭代后期的策略无法应对迭代前期敌方机动策略的问题。最优策略用在空战飞行器机动引导系统中,实时、准确给出引导指令,对飞行器空中占位具有实践意义。
技术实现思路
< ...
【技术保护点】
1.一种基于强化学习的空战博弈机动策略交替冻结训练方法,其特征在于,包括以下步骤:/n(1)根据作战场景确定空战博弈范围,设置敌我双方飞行器的动态模型;/n(2)设置交替冻结训练最大迭代次数,即敌我双方策略分别需要博弈训练的次数,设置单次博弈对抗结束条件,构建敌我双方策略的深度强化学习结构;/n(3)在最大迭代次数范围内,通过博弈的方式交替冻结训练敌我双方策略,每次博弈训练由大量训练片段组成;/n博弈交替冻结训练的过程为:先训练我方机动策略,敌方采用已有的固定策略,我方采用随机初始策略,采用深度强化学习算法训练我方策略,按照训练片段逐次训练,直至达到单次博弈对抗结束条件,完 ...
【技术特征摘要】
1.一种基于强化学习的空战博弈机动策略交替冻结训练方法,其特征在于,包括以下步骤:
(1)根据作战场景确定空战博弈范围,设置敌我双方飞行器的动态模型;
(2)设置交替冻结训练最大迭代次数,即敌我双方策略分别需要博弈训练的次数,设置单次博弈对抗结束条件,构建敌我双方策略的深度强化学习结构;
(3)在最大迭代次数范围内,通过博弈的方式交替冻结训练敌我双方策略,每次博弈训练由大量训练片段组成;
博弈交替冻结训练的过程为:先训练我方机动策略,敌方采用已有的固定策略,我方采用随机初始策略,采用深度强化学习算法训练我方策略,按照训练片段逐次训练,直至达到单次博弈对抗结束条件,完成我方策略训练,并保存;然后,敌我双方策略交替训练,训练的一方采用随机初始策略,另一方采用上次迭代完成后保存的策略,每次满足单次博弈对抗结束条件,终止当前训练,保存训练的策略;最后,达到最大迭代次数,完成交替冻结训练;
(4)将交替冻结训练保存的所有敌我策略作为选手,采用联赛制的方法进行多次两两博弈,根据实际空战需求,按照胜、平、负不同积分的方法给每种策略进行打分,选择我方积分最高的策略作为最优策略;
(5)在空战博弈中,使用最优策略作为我方机动策...
【专利技术属性】
技术研发人员:李辉,王壮,陈希亮,吴昊霖,马文,
申请(专利权)人:四川大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。