一种基于深度强化学习的智能作战方案生成方法技术

技术编号:35298944 阅读:43 留言:0更新日期:2022-10-22 12:47
本发明专利技术提供一种基于深度强化学习的智能作战方案生成方法,包括:通过构建多种智能体的模型,并描述其行为规则,采用深度确定性策略梯度强化学习算法,对多种智能体的行为规则进行更新,并通过增强智能体间的学习方法,进行多智能体的协同任务规划,确定单个智能体的作战行为,并结合所有智能体的作战行为,动态生成智能作战方案。本发明专利技术实现了多智能体的协同作战,能够适应未来战场态势的快速变化,且具有自我恢复、调配和规划的能力,能够有效提升作战筹划能力,确保在未来信息化的作战中取得决策优势。得决策优势。得决策优势。

【技术实现步骤摘要】
一种基于深度强化学习的智能作战方案生成方法


[0001]本专利技术涉及作战方案生成
,尤其涉及一种基于深度强化学习的智能作战方案生成方法。

技术介绍

[0002]随着人工智能的不断发展,未来战争的胜负不再由单一兵种或单个武器装备所决定,而是强调体系化作战。未来战争的比拼就是体系的较量,体系成为未来战争比拼的焦点,也必定成为未来战争研究关注的核心和重点;其中,作战方案是取得战争胜利的关键,是战争的重中之重;研究和构建智能化作战体系是未来战争赢得胜利的必经之路。智能化作战体系是指在一定的作战环境、战略策略和保障条件下为完成一定作战任务,功能上相互联系、相互作用的各个智能体组成的更高层次的多智能体系统。多智能体系统协同完成作战任务是智能化作战具体实现目标,而如何实现多智能体系协同作战是智能作战生成方案的重要挑战。
[0003]智能体行为演进技术是人工智能方面一个新兴且具有潜力的领域,随着阿尔法围棋的获胜,基于深度强化学习的智能体行为演进技术被大量应用。现有技术中主要是采用单个智能体进行智能作战方案的生成,但是,单个智能体的计算速度有限,不能够适应战场态势的快速变化,导致资源的调配和规划不合理。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种基于深度强化学习的智能作战方案生成方法。
[0005]一种基于深度强化学习的智能作战方案生成方法,包括以下步骤:构建多种智能体的模型,并描述所述多种智能体的行为规则;采用深度确定性策略梯度强化学习算法,对所述多种智能体的行为规则进行更新;通过增强智能体间学习方法,进行多种智能体的协同任务规划;确定单个智能体的作战行为,并结合所有智能体的作战行为,动态生成智能作战方案。
[0006]在其中一个实施例中,所述多种智能体包括有慎思智能体、反应智能体和混合智能体;其中,所述慎思智能体用于条件充分时,进行详细且周密的分析、推理、规划和决策的慎思行为;所述反应智能体用于紧急情况下的周密且细致的态势分析和行动规划,并对多个行动计划进行比较;所述混合智能体是所述慎思智能体和反应智能体的结合。
[0007]在其中一个实施例中,所述描述所述多种智能体的行为规则,具体包括:在环境状态s下寻求合理行为a,利用环境反馈r进行修正;其中,所述状态s指随着行动发生,个体与相关区域所处的状态;所述行为a指在环境状态s下,智能体所做出的对应行为;所述反馈r是指智能体在环境状态s下做出行为a的评价奖励;单个智能体处于环境状态s、行为a时,将反馈奖励值r作为Q值,定义为:
[0008]Q
k
(s
k
,a
k
)=E(r
k
|s
k
,a
k
)
[0009]采用贝尔曼算法表示当前状态下的未来长期衰减奖励策略,公式为:
[0010]Q(s,a)=r(s,a)+γargmaxQ(s

,a

)
[0011]式中,Q(s,a)表示当前状态下行动的未来长期衰减奖励。
[0012]在其中一个实施例中,所述采用深度确定性策略梯度强化学习算法,对所述多种智能体的行为规则进行更新,具体包括:采用Actor

Critic的架构,利用在线策略网络优化行动和深度价值网络优化评价辅助行动;通过调整在线策略网络的参数,学习行动策略,并通过所述行动策略指导不同状态下智能体的行动;通过调整深度价值网络的参数,学习实时评价方法,通过所述实时评价方法评价智能体的实时行动预期奖励;引入损失函数,通过损失函数表示DDPG架构体系对Bellman公式的贴合程度。
[0013]在其中一个实施例中,所述通过增强智能体间学习方法,进行多种智能体的协同任务规划,具体包括:将第i个智能体中的迭代结果,输出到i+1个智能体的原始数据中,作为和下一状态相同作用的一部分;将第i个智能体的反馈奖励值作为信息进行传递。
[0014]相比于现有技术,本专利技术的优点及有益效果在于:本专利技术提供了一种能够进行多智能体协同作战的智能作战方案生成方法,通过构建多种智能体的模型,并描述其行为规则,采用深度确定性策略梯度强化学习算法,对多种智能体的行为规则进行更新,实现智能体的自我恢复功能,适应战场局势的快速变化,并通过增强智能体间的学习方法,进行多智能体的协同任务规划,能够对多个智能体进行合理调配和规划,确保智能体的动态调整和有效运行,提升整体的作战筹划能力,确定单个智能体的作战行为,并结合所有智能体的作战行为,动态生成智能作战方案,实现了多智能体的协同作战,能够适应未来战场态势的快速变化,且具有自我恢复、调配和规划的能力,能够有效提升作战筹划能力,确保在未来信息化的作战中取得决策优势。
附图说明
[0015]图1为一个实施例中一种基于深度强化学习的智能作战方案生成方法的流程示意图;
[0016]图2为一个实施例中DDPG采用Actor

Critic架构体系的结构示意图;
[0017]图3为一个实施例中增强智能体间学习方法的原理图。
具体实施方式
[0018]为了使本专利技术的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本专利技术做进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0019]在一个实施例中,如图1至图3所示,提供了一种基于深度强化学习的智能作战方案生成方法,包括以下步骤:
[0020]步骤S101,构建多种智能体的模型,并描述多种智能体的行为规则。
[0021]具体地,单个智能体能够通过其感知器和通信进行战场信息和情报的收集,通过执行器输出物理行为,决定各物理行为对综合自然环境和战场其他的作用效果。根据不同类型的智能体,其角色在作战过程中面临不同的战场情况和条件,例如,慎思智能体、反应智能体和混合智能体。
policy gradient,DDPG)更新其行为规则,如图2所示,DDPG采用了Actor

Critic的架构,利用在线策略μ网络优化行动和深度价值Q网络优化评价辅助行动。
[0035]通过调整μ网络的{μ,θ}参数,学习提升行动策略μ,用于指导不同状态下智能体的行动;同时,通过调整Q网络的{θ,Q}参数,学习提升实时评价方法Q,用于评价智能体的实时行动预期奖励,其中,θ表示网络权重参数。通过对在线策略网络和深度价值网络参数的调整,并通过实时评价方法得到智能体的实时行为预期奖励,根据实时行为预期奖励对行为规则进行再次优化,从而实现单个智能体行为规则的优化,确保单个智能体生成的作战行为具有最佳的行为奖励。
[0036]最后,引入损失函数L,用于表示DDPG架构体系对贝尔曼公式的贴合程度,学习的目标是使得L最小,使得模型结构最优,完成对智能体行为规则的更新,实现智能体自我恢复功能。
[0037]步骤S103,通过增强智能体间学习方法,进行多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的智能作战方案生成方法,其特征在于,包括以下步骤:构建多种智能体的模型,并描述所述多种智能体的行为规则;采用深度确定性策略梯度强化学习算法,对所述多种智能体的行为规则进行更新;通过增强智能体间学习方法,进行多种智能体的协同任务规划;确定单个智能体的作战行为,并结合所有智能体的作战行为,动态生成智能作战方案。2.根据权利要求1所述的一种基于深度强化学习的智能作战方案生成方法,其特征在于,所述多种智能体包括有慎思智能体、反应智能体和混合智能体;其中,所述慎思智能体用于条件充分时,进行详细且周密的分析、推理、规划和决策的慎思行为;所述反应智能体用于紧急情况下的周密且细致的态势分析和行动规划,并对多个行动计划进行比较;所述混合智能体是所述慎思智能体和反应智能体的结合。3.根据权利要求1所述的一种基于深度强化学习的智能作战方案生成方法,其特征在于,所述描述所述多种智能体的行为规则,具体包括:在环境状态s下寻求合理行为a,利用环境反馈r进行修正;其中,所述状态s指随着行动发生,个体与相关区域所处的状态;所述行为a指在环境状态s下,智能体所做出的对应行为;所述反馈r是指智能体在环境状态s下做出行为a的评价奖励;单个智能体处于环境状态s、行为a时,将反馈奖励值r作为Q值,定义为:Q
k
(s
k
,a
k...

【专利技术属性】
技术研发人员:王爱娟蔺彦军刘云陈茜左波王玥
申请(专利权)人:重庆高新区飞马创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1