System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的近视距空战智能博弈决策系统及装置制造方法及图纸_技高网

一种基于强化学习的近视距空战智能博弈决策系统及装置制造方法及图纸

技术编号:41133635 阅读:14 留言:0更新日期:2024-04-30 18:04
本发明专利技术提供了一种基于强化学习的近视距空战智能博弈系统及装置,属于飞行机动控制技术领域,系统主要包括四个模块:态势信息模块、智能决策AI模块、奖励函数模块和动作空间模块,系统通过态势信息模块筛选采集空间信息,依据所述空间信息,智能决策AI模块通过强化学习智能算法输出策略信息,动作空间模块依据所述策略信息输出动作指令的具体数值,所述智能决策AI模块通过所述奖励函数模块给予反馈奖励信号不断学习并优化策略信息,本系统面向复杂的近距空战场景中机动决策需求,实现了实时态势信息下的快速机动决策,对无人机近视距空战中具有重要的指导意义。

【技术实现步骤摘要】

本专利技术属于飞行机动控制,尤其涉及一种基于强化学习的近视距空战智能博弈决策系统及装置


技术介绍

1、现在战争中,空中作战力量的作用也日益凸显,制空权的取得成为制胜空天战场的关键。快速发展的人工智能技术在空战中得到了广泛的应用,标志着全新的空中作战模式的出现,复杂的信息和激烈的对抗成为现在瞬息万变的空战主要特征,依靠飞行员和传统技术很难根据急剧变化的战场态势,快速做出对敌构成实质威胁的空中行动决策。因此,亟需研究能根据实时双方作战态势进行精准智能决策的空战行为决策方法。目前,专家系统法、矩阵对策法和影像图法等空战决策生成方法为空战决策提供了初始解决方案,但在求解连续动作空间问题时,这些方法在实时性、鲁棒性和计算效率等方面存在局限性。深度强化学习作为最接近人类思维的人工智能方法,在空战博弈中的离散和连续决策问题的强大学习和解算能力,成为空战策略信息生成的最有效方法,因而开发出具有强化学习能力,并能在复杂战场环境下作出快速决策的系统具有重要的现实意义。


技术实现思路

1、本专利技术提供了一种基于强化学习的近视距空战智能博弈决策系统及装置,本系统面向复杂的近距空战场景中机动决策需求,实现了实时态势信息下的快速机动决策,能够解决无人机在复杂战场环境下作出快速决策的问题。

2、本专利技术通过以下技术方案实现:

3、一种基于强化学习的近视距空战智能博弈系统,所述系统用于飞机近距离空战博弈,所述系统主要包括四个模块:态势信息模块、智能决策ai模块、奖励函数模块和动作空间模块,所述系统通过态势信息模块筛选采集空间信息,依据所述空间信息,智能决策ai模块通过强化学习智能算法输出策略信息,所述动作空间模块依据所述策略信息输出动作指令的具体数值,通过所述动作指令的具体数值实现对飞机飞行状态的精细控制,所述智能决策ai模块通过所述奖励函数模块给予反馈奖励信号不断学习并优化策略信息。

4、进一步地,所述空间信息包括本机状态信息、相对运动信息、目标状态信息、威胁信息。

5、进一步地,所述空间信息的构建过程包括:对多维度态势特征空间进行预处理,使得特征数值均保持在[0,1]之间,对速度、角度及高度等连续数值特征进行归一化处理,对目标数量等离散数值特征进行独热编码处理,对相对速度、相对加速度等相对运行状态信息进行求差值处理。

6、进一步地,所述智能决策ai模块采用ddpg算法,采用策略-目标双网络结构以缓解自举和过估计的影响,同时采用多层感知机和循环神经网络,深层次挖掘历史状态信息,所述策略信息为机动动作指令的具体数值。

7、进一步地,所述ddpg算法通过设置经验池、采用随机均匀采样的方法消除样本的数据关联性。

8、进一步地,所述经验池定义经验样本价值高低衡量标准,依据经验样本的tderror绝对值大小进行排序,采用优先采样机制,采样概率公式为:

9、

10、其中,m表示样本总个数,rankn表示第n个样本在所有样本中排序的位数,经验样本被采样到的概率pn为其倒数除以所有样本位数倒数之和,td error绝对值越大,其在所有经验样本中排序就越靠前,被采样的概率越大。

11、进一步地,所述奖励函数模块通过人工设置额外奖励的方式让传统稀疏奖励变得稠密,加快算法收敛速度。

12、进一步地,所述策略信息包括横向杆位移、纵向杆位移、油门杆位移、脚蹬位移。

13、进一步地,所述额外奖励包括角度优势奖励、高度优势奖励、速度优势奖励、奖励函数优化。

14、一种空战飞行装置,所述飞行装置采用上述述系统进行空中行动决策。

15、本专利技术具有以下有益效果:

16、设计额外奖励,引导战机主动追击目标,加快强化学习算法收敛速度;采用循环神经网络挖掘深层次历史状态信息,提升网络表达能力;设计优先采样机制,确保算法训练过程价值高的经验样本被优先采样。

17、当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有技术效果。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的近视距空战智能博弈系统,所述系统用于飞机近距离空战博弈,其特征在于,所述系统主要包括四个模块:态势信息模块、智能决策AI模块、奖励函数模块和动作空间模块,所述系统通过态势信息模块筛选采集空间信息,依据所述空间信息,智能决策AI模块通过强化学习智能算法输出策略信息,所述动作空间模块依据所述策略信息输出动作指令的具体数值,通过所述动作指令的具体数值实现对飞机飞行状态的精细控制,所述智能决策AI模块通过所述奖励函数模块给予反馈奖励信号不断学习并优化所述策略信息。

2.根据权利要求1所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述空间信息包括本机状态信息、相对运动信息、目标状态信息、威胁信息。

3.根据权利要求2所述的一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述空间信息的构建过程包括:对多维度态势特征空间进行预处理,使得特征数值均保持在[0,1]之间,对速度、角度及高度等连续数值特征进行归一化处理,对目标数量等离散数值特征进行独热编码处理,对相对速度、相对加速度等相对运行状态信息进行求差值处理。

4.根据权利要求1所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述智能决策AI模块采用DDPG算法,采用策略-目标双网络结构以缓解自举和过估计的影响,同时采用多层感知机和循环神经网络,深层次挖掘历史状态信息。

5.根据权利要求4所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述DDPG算法通过设置经验池、采用随机均匀采样的方法消除样本的数据关联性。

6.根据权利要求5所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述经验池定义经验样本价值高低衡量标准,依据经验样本的TD Error绝对值大小进行排序,采用优先采样机制,采样概率公式为:

7.根据权利要求1所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述奖励函数模块通过人工设置额外奖励的方式让传统稀疏奖励变得稠密,加快算法收敛速度。

8.根据权利要求1所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述策略信息包括横向杆位移、纵向杆位移、油门杆位移、脚蹬位移。

9.根据权利要求7所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述额外奖励包括角度优势奖励、高度优势奖励、速度优势奖励、奖励函数优化。

10.一种空战飞行装置,其特征在于,所述飞行装置采用权利要求1-9任一项所述系统进行空中行动决策。

...

【技术特征摘要】

1.一种基于强化学习的近视距空战智能博弈系统,所述系统用于飞机近距离空战博弈,其特征在于,所述系统主要包括四个模块:态势信息模块、智能决策ai模块、奖励函数模块和动作空间模块,所述系统通过态势信息模块筛选采集空间信息,依据所述空间信息,智能决策ai模块通过强化学习智能算法输出策略信息,所述动作空间模块依据所述策略信息输出动作指令的具体数值,通过所述动作指令的具体数值实现对飞机飞行状态的精细控制,所述智能决策ai模块通过所述奖励函数模块给予反馈奖励信号不断学习并优化所述策略信息。

2.根据权利要求1所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述空间信息包括本机状态信息、相对运动信息、目标状态信息、威胁信息。

3.根据权利要求2所述的一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述空间信息的构建过程包括:对多维度态势特征空间进行预处理,使得特征数值均保持在[0,1]之间,对速度、角度及高度等连续数值特征进行归一化处理,对目标数量等离散数值特征进行独热编码处理,对相对速度、相对加速度等相对运行状态信息进行求差值处理。

4.根据权利要求1所述一种基于强化学习的近视距空战智能博弈系统,其特征在于,所述智能决策ai模块采用ddpg...

【专利技术属性】
技术研发人员:吴国强谢波黄坤白超超包文龙
申请(专利权)人:航天时代飞鸿技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1