一种基于深度强化学习的人类经验引导无人机空战方法技术

技术编号：41742402 阅读：46 留言：0更新日期：2024-06-19 13:02

本发明专利技术公开一种基于深度强化学习的人类经验引导无人机空战方法。首先设计了状态空间、动作空间和神经网络结构，并建立了包括六自由度的战斗机模型和导弹模型。接下来专注于攻击任务，收集了人类引导的经验。然后采用对抗生成模仿学习机制来引导策略网络，使其模仿人类的行为。最后运用深度强化学习算法对策略网络进行进一步优化。这一创新方法有效地解决了深度强化学习算法在面对高度动态的三维环境和连续性动作空间时训练效率低、难以收敛的问题，同时针对模仿学习算法难以突破专家策略的问题进行了优化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是一种基于深度强化学习的人类经验引导无机空战方法，尤其是一种基于生成对抗模仿学习与无模型深度强化学习方法结合的方法，属于空战自主决策领域。

技术介绍

1、无人机空战是未来战场的重要一环，高效的自主决策能力对于夺取制空权至关重要。然而，基于规则的传统方法在高机动强对抗性空战环境中难以有效利用复杂多变的战场数据，预先设计出完备的策略，导致态势评估不合理、应变不及时。深度强化学习作为一种面向决策任务的人工智能技术，融合了深度学习和强化学习，通过大规模仿真训练，逐渐优化空战策略，从而生成更加复杂的空战决策策略以应对各种复杂极端的情况。深度神经网络可以自动提取态势数据中的特征和模式，从而使得无人机能够更好地预测对手动作、优化自身飞行路径、评估战场态势等，展现出更强的决策能力。

2、尽管深度强化学习在无人机空战中表现出潜在的优势，但在高机动性环境下仍然存在挑战。在此类环境中，无人机需要做出连续性动作输出，以实现对飞行轨迹的调整和对目标的追踪，与离散性动作输出不同，连续性动作输出需要面对更广泛的动作空间，在高速飞行的过程中一些错...

【技术保护点】

1.一种基于深度强化学习的人类经验引导无机空战方法，其特征在于：该方法包含以下步骤：

2.根据权利要求1所述的方法，其特征在于：所述的状态向量包含以下内容：

3.根据权利要求1所述的方法，其特征在于：根据控制手柄上按键的输出结果，所述的输出向量包含如下几个元素：

4.根据权利要求1所述的方法，其特征在于：所述环境的奖励函数设计如下：

5.根据权利要求1所述的方法，其特征在于：所述步骤六中的执行器网络采用两层隐藏层结构，各64个节点，网络输入层大小为26，对应状态空间大小，输出大小为5，对应动作空间大小；评价器网络采用两层隐藏层结构，各64个...

【技术特征摘要】

1.一种基于深度强化学习的人类经验引导无机空战方法，其特征在于：该方法包含以下步骤：

2.根据权利要求1所述的方法，其特征在于：所述的状态向量包含以下内容：

3.根据权利要求1所述的方法，其特征在于：根据控制手柄上按键的输出结果，所述的输出向量包含如下几个元素：

4.根据权利要求1所述的方法，其特征在于：所述环境的奖励函数设计如下：

5.根据权利要求1所述的方法，其特征在于：所述步骤六中的执行器网络采用两层隐藏层结构，各64个节点，网络输入层大小为26，对应状态空间大小，输...

【专利技术属性】
技术研发人员：段海滨，郝帅，邓亦敏，夏洁，刘昊，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人