【技术实现步骤摘要】
本专利技术是一种基于深度强化学习的人类经验引导无机空战方法,尤其是一种基于生成对抗模仿学习与无模型深度强化学习方法结合的方法,属于空战自主决策领域。
技术介绍
1、无人机空战是未来战场的重要一环,高效的自主决策能力对于夺取制空权至关重要。然而,基于规则的传统方法在高机动强对抗性空战环境中难以有效利用复杂多变的战场数据,预先设计出完备的策略,导致态势评估不合理、应变不及时。深度强化学习作为一种面向决策任务的人工智能技术,融合了深度学习和强化学习,通过大规模仿真训练,逐渐优化空战策略,从而生成更加复杂的空战决策策略以应对各种复杂极端的情况。深度神经网络可以自动提取态势数据中的特征和模式,从而使得无人机能够更好地预测对手动作、优化自身飞行路径、评估战场态势等,展现出更强的决策能力。
2、尽管深度强化学习在无人机空战中表现出潜在的优势,但在高机动性环境下仍然存在挑战。在此类环境中,无人机需要做出连续性动作输出,以实现对飞行轨迹的调整和对目标的追踪,与离散性动作输出不同,连续性动作输出需要面对更广泛的动作空间,在高速飞行的过程中一些错
...【技术保护点】
1.一种基于深度强化学习的人类经验引导无机空战方法,其特征在于:该方法包含以下步骤:
2.根据权利要求1所述的方法,其特征在于:所述的状态向量包含以下内容:
3.根据权利要求1所述的方法,其特征在于:根据控制手柄上按键的输出结果,所述的输出向量包含如下几个元素:
4.根据权利要求1所述的方法,其特征在于:所述环境的奖励函数设计如下:
5.根据权利要求1所述的方法,其特征在于:所述步骤六中的执行器网络采用两层隐藏层结构,各64个节点,网络输入层大小为26,对应状态空间大小,输出大小为5,对应动作空间大小;评价器网络采用两层
...【技术特征摘要】
1.一种基于深度强化学习的人类经验引导无机空战方法,其特征在于:该方法包含以下步骤:
2.根据权利要求1所述的方法,其特征在于:所述的状态向量包含以下内容:
3.根据权利要求1所述的方法,其特征在于:根据控制手柄上按键的输出结果,所述的输出向量包含如下几个元素:
4.根据权利要求1所述的方法,其特征在于:所述环境的奖励函数设计如下:
5.根据权利要求1所述的方法,其特征在于:所述步骤六中的执行器网络采用两层隐藏层结构,各64个节点,网络输入层大小为26,对应状态空间大小,输...
【专利技术属性】
技术研发人员:段海滨,郝帅,邓亦敏,夏洁,刘昊,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。