基于深度强化学习的多机协同空战规划方法及系统技术方案

技术编号:28624233 阅读:50 留言:0更新日期:2021-05-28 16:20
本发明专利技术提出了基于深度强化学习的多机协同空战规划方法及系统,通过将战机视为智能体,构建强化学习智能体模型,通过集中式训练‑分布式执行架构对网络模型进行训练,克服了多机协同时因不同实体间的动作区分度不大,网络模型探索性不强的缺点。通过在奖励值中嵌入专家经验,解决了现有技术中需要大量专家经验支撑的问题。通过经验共享机制,所有智能体共享一套网络参数和经验回放库,解决了单个智能体的策略不只取决于自身的策略和环境的反馈,同时还受其他智能体行为和合作关系的影响问题。通过增加优势值绝对值较大样本的采样概率,使奖励值极大或极小的样本都能影响神经网络的训练,加快算法收敛速度。通过添加策略熵提高智能体的探索能力。

【技术实现步骤摘要】
基于深度强化学习的多机协同空战规划方法及系统
本专利技术属于空间协同作战
,尤其是涉及一种基于深度强化学习的多机协同空战规划方法及系统。
技术介绍
20世纪90年代以来,信息技术的发展推动了军事变革。传统的各平台运用自身传感器和武器系统对目标进行探测、跟踪、打击的作战样式已不能满足数字化战争的需求。面对现代战争中日趋复杂的战场环境,单一战机因为探测、跟踪和攻击目标的能力十分有限,没有办法独立完成指定的对空作战任务,所以需要多架战机协同作战发挥最大作战效能。多机协同空战是指由两架或者两架以上的作战飞机互相配合、相互协作,完成对空作战任务的一种战争方式,包括协同机动、协同打击及火力掩护等环节,是现代海、陆、空、天、电一体化作战模式在多机空战中的具体体现。因此,提高多机协同效率,对于掌握战场制空权、提高对空作战任务成功率和减少作战伤亡都具有重大意义。世界各国也越来越关注和重视有助于提高机群整体作战效能的协同空战的研究。然而,相较于单架战机的空战决策,多机协同问题涉及的实体类型更多、决策空间更大、复杂程度更高,国内外对多机协同战术的研究也本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的多机协同空战规划方法,其特征在于,包括以下步骤:/n步骤1:基于Actor-Critic强化学习框架下的近端策略优化PPO算法,构建Actor动作决策神经网络和Critic动作评价神经网络;/n步骤2:将战机视为一个个智能体,使用仿真推演平台产生战场环境态势信息,主要包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数,对所输入的战场环境态势信息进行预处理;/n步骤:3:根据预处理后的战场环境态势信息,将待决策的第i个智能体在t时刻的局部环境态势信息s

【技术特征摘要】
1.一种基于深度强化学习的多机协同空战规划方法,其特征在于,包括以下步骤:
步骤1:基于Actor-Critic强化学习框架下的近端策略优化PPO算法,构建Actor动作决策神经网络和Critic动作评价神经网络;
步骤2:将战机视为一个个智能体,使用仿真推演平台产生战场环境态势信息,主要包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数,对所输入的战场环境态势信息进行预处理;
步骤:3:根据预处理后的战场环境态势信息,将待决策的第i个智能体在t时刻的局部环境态势信息st,i输入Actor动作决策神经网络,得到每个待决策智能体的动作决策信息at,i,并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作,i=1...n,n为智能体的数量;
步骤4:将待决策智能体的局部环境态势信息st,i、智能体的动作决策信息at,i、待决策智能体执行新动作后的环境态势信息st+1,i和环境针对该动作反馈的奖励值rt+1,i按照四元组(st,i,at,i,st+1,i,rt+1,i)的形式存储进经验回放库,每一个智能体的信息均按照该格式进行存储;
步骤5:重复步骤2至4,直至经验回放库中的样本数量达到可训练所规定的数量;
步骤6:从经验回放库中选择一批样本,将同一时刻的所有智能体的联合状态信息以及所有智能体的动作信息作为一条样本输入到Critic动作评价神经网络进行网络参数的训练更新,将各智能体的局部环境态势信息作为一条样本输入到Actor动作决策神经网络进行网络参数训练更新;
步骤7:随机删除经验回放库中的一部分样本,重复步骤2至5,直至达到训练结束条件,得到训练好的强化学习智能体;
步骤8:将当前待决策智能体的局部环境态势信息输入训练好的强化学习智能体的Actor网络,得到各待决策智能体的动作决策信息,将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作。


2.根据权利要求1所述的规划方法,其特征在于,步骤4中所述奖励值指的是使用嵌入专家经验奖励机制,奖励函数为:
r=(1-τ)·scoretotal+τ·scoreencourage
其中:
scoreencourage=discur-disnext
scoretotal为传统奖励项,根据推演事件的得分来决定的,scoreencourage为基于专家经验的额外奖励项,discur表示当前时刻智能体距离目标点的距离,disnext表示下一时刻智能体距离目标点的距离,τ是衰减系数,随着训练的进行,该值按照公式τ=(τ-τstep)/τtemp逐渐减小,τstep是递减步长,τtemp是衰减基数。


3.根据权利要求1所述的规划方法,其特征在于,步骤6中从经验回放库中选择一批样本数据的选择方法是:
1)对不同智能体分别计算每个智能体所产生的样本的采样权重,具体为:将参与采样的每个智能体产生的样本分别按照优势值的绝对值,由大至小从1到N进行排序,样本采样权重计算公式:



其中,j表示样本排序序号,Pj就是第j号样本的采样权重,N表示一个智能体包含的样本数量,所述优势值的计算公式为:




表示第i个智能体在t时刻产生的样本的优势值,φ表示Critic网络的参数,Vφ(st,i)表示Critic网络对第i个智能体在t时刻的状态st,i的评价值,rt,i表示第i个智能体在t时刻获得的环境奖励,γ表示折扣因子,T表示本局仿真推演结束时刻;
2)根据各智能体所产生的样本的采样权重,从经验回放库中对各智能体分别采集预先设定数量的样本。


4.根据权利要求3所述的规划方法,其特征在于,步骤6中对Actor动作决策神经网络进行网络参数更新的方法是:
步骤6.1:计算不同智能体产生的样本在对Actor网络训练时所产生的损失函数值,所述损失函数值为添加策略熵的损失函数值,

【专利技术属性】
技术研发人员:冯旸赫程光权施伟黄魁华黄金才刘忠
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1