【技术实现步骤摘要】
本专利技术涉及航空,特别涉及一种基于生成对抗模仿学习的空战决策方法及系统。
技术介绍
1、在飞行控制领域,专家飞行策略的学习和模仿一直是一个重要的研究方向。传统的飞行策略学习方法主要依赖于专家的经验和手工调试,这不仅耗时费力,而且也难以保证策略的泛化能力和鲁棒性。
2、近年来,随着人工智能技术的迅猛发展,模仿学习(imitation learning)作为一种从专家演示数据中学习策略的方法,受到了广泛关注。
3、模仿学习可以分为行为克隆(behavioral cloning)和基于逆向强化学习(inverse reinforcement learning,irl)的模仿学习两类方法。行为克隆方法通过直接克隆专家在各状态下的动作来学习策略,但这种方法容易受到级联误差的影响,导致策略的鲁棒性和泛化能力较差。基于逆向强化学习的方法通过推导专家策略背后的奖赏函数来学习策略,尽管这种方法在一定程度上解决了级联误差问题,但其计算成本高,难以应用于大规模问题。
4、生成对抗模仿学习(generative adver
...【技术保护点】
1.一种基于生成对抗模仿学习的空战决策方法,其特征在于,所述方法包括:获取战场态势信息,通过预训练的空战决策模型对所述战场态势信息进行处理,获得用于指导本机的决策结果,所述决策结果包括本机的机动动作、ACM模式、打弹动作中的一种或几种;
2.根据权利要求1所述的方法,其特征在于:所述典型作战对手数据包括粗颗粒度的稀疏专家策略数据和细颗粒度的密集专家策略数据,所述粗颗粒度的稀疏专家策略数据包括空战规则和状态-动作对;
3.根据权利要求1所述的方法,其特征在于:战场态势信息包括本机坐标、敌我双方飞行状态、几何态势和本机载荷状态。
4.根
...【技术特征摘要】
1.一种基于生成对抗模仿学习的空战决策方法,其特征在于,所述方法包括:获取战场态势信息,通过预训练的空战决策模型对所述战场态势信息进行处理,获得用于指导本机的决策结果,所述决策结果包括本机的机动动作、acm模式、打弹动作中的一种或几种;
2.根据权利要求1所述的方法,其特征在于:所述典型作战对手数据包括粗颗粒度的稀疏专家策略数据和细颗粒度的密集专家策略数据,所述粗颗粒度的稀疏专家策略数据包括空战规则和状态-动作对;
3.根据权利要求1所述的方法,其特征在于:战场态势信息包括本机坐标、敌我双方飞行状态、几何态势和本机载荷状态。
4.根据权利要求3所述的方法,其特征在于:所述本机坐标包括东西坐标、南北坐标和飞行高度,所述敌我双方飞行状态包括飞行空速、飞行表速、马赫数、姿态四元数和对抗时间,所述几何态势包括敌我距离向量、敌我距离标量、敌我速度向量、敌我高度差、进入角和方位角,所述载荷状态包括干扰弹状态、干扰弹剩余数量、导弹状态和导弹剩余数量。
5.根据权利要求1所述的方法,其特征在于:所述机动动作包括平飞、平飞加减速...
【专利技术属性】
技术研发人员:姜超然,任惠民,王衡,刘骐嘉,李婧惠,郝帅,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。