当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于生成对抗模仿学习的空战决策方法及系统技术方案

技术编号:44973306 阅读:35 留言:0更新日期:2025-04-12 01:48
本发明专利技术公开了一种基于生成对抗模仿学习的空战决策方法及系统,属于航空技术领域,方法包括:获取战场态势信息,通过预训练的空战决策模型对战场态势信息进行处理,获得用于指导本机的决策结果。空战决策模型通过以下步骤获得:获取典型作战对手数据,对典型作战对手数据进行增强处理,获得红蓝对抗数据集;利用生成对抗模仿学习算法,基于红蓝对抗数据集训练获得空战决策模型。本发明专利技术通过算法设计,解决了生成对抗模仿学习训练过程的模态崩塌问题,可保证生成的策略具有多样性、泛化性;通过数据增强方法解决了样本利用效率低下的问题,可基于较少的样本训练得到较好的训练结果;并且在复杂动态环境中仍具有决策的鲁棒性。

【技术实现步骤摘要】

本专利技术涉及航空,特别涉及一种基于生成对抗模仿学习的空战决策方法及系统


技术介绍

1、在飞行控制领域,专家飞行策略的学习和模仿一直是一个重要的研究方向。传统的飞行策略学习方法主要依赖于专家的经验和手工调试,这不仅耗时费力,而且也难以保证策略的泛化能力和鲁棒性。

2、近年来,随着人工智能技术的迅猛发展,模仿学习(imitation learning)作为一种从专家演示数据中学习策略的方法,受到了广泛关注。

3、模仿学习可以分为行为克隆(behavioral cloning)和基于逆向强化学习(inverse reinforcement learning,irl)的模仿学习两类方法。行为克隆方法通过直接克隆专家在各状态下的动作来学习策略,但这种方法容易受到级联误差的影响,导致策略的鲁棒性和泛化能力较差。基于逆向强化学习的方法通过推导专家策略背后的奖赏函数来学习策略,尽管这种方法在一定程度上解决了级联误差问题,但其计算成本高,难以应用于大规模问题。

4、生成对抗模仿学习(generative adversarial imi本文档来自技高网...

【技术保护点】

1.一种基于生成对抗模仿学习的空战决策方法,其特征在于,所述方法包括:获取战场态势信息,通过预训练的空战决策模型对所述战场态势信息进行处理,获得用于指导本机的决策结果,所述决策结果包括本机的机动动作、ACM模式、打弹动作中的一种或几种;

2.根据权利要求1所述的方法,其特征在于:所述典型作战对手数据包括粗颗粒度的稀疏专家策略数据和细颗粒度的密集专家策略数据,所述粗颗粒度的稀疏专家策略数据包括空战规则和状态-动作对;

3.根据权利要求1所述的方法,其特征在于:战场态势信息包括本机坐标、敌我双方飞行状态、几何态势和本机载荷状态。

4.根据权利要求3所述的方...

【技术特征摘要】

1.一种基于生成对抗模仿学习的空战决策方法,其特征在于,所述方法包括:获取战场态势信息,通过预训练的空战决策模型对所述战场态势信息进行处理,获得用于指导本机的决策结果,所述决策结果包括本机的机动动作、acm模式、打弹动作中的一种或几种;

2.根据权利要求1所述的方法,其特征在于:所述典型作战对手数据包括粗颗粒度的稀疏专家策略数据和细颗粒度的密集专家策略数据,所述粗颗粒度的稀疏专家策略数据包括空战规则和状态-动作对;

3.根据权利要求1所述的方法,其特征在于:战场态势信息包括本机坐标、敌我双方飞行状态、几何态势和本机载荷状态。

4.根据权利要求3所述的方法,其特征在于:所述本机坐标包括东西坐标、南北坐标和飞行高度,所述敌我双方飞行状态包括飞行空速、飞行表速、马赫数、姿态四元数和对抗时间,所述几何态势包括敌我距离向量、敌我距离标量、敌我速度向量、敌我高度差、进入角和方位角,所述载荷状态包括干扰弹状态、干扰弹剩余数量、导弹状态和导弹剩余数量。

5.根据权利要求1所述的方法,其特征在于:所述机动动作包括平飞、平飞加减速...

【专利技术属性】
技术研发人员:姜超然任惠民王衡刘骐嘉李婧惠郝帅
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1