一种基于深度强化学习的智能作战方案生成方法技术

技术编号：35298944 阅读：43 留言：0更新日期：2022-10-22 12:47

本发明专利技术提供一种基于深度强化学习的智能作战方案生成方法，包括：通过构建多种智能体的模型，并描述其行为规则，采用深度确定性策略梯度强化学习算法，对多种智能体的行为规则进行更新，并通过增强智能体间的学习方法，进行多智能体的协同任务规划，确定单个智能体的作战行为，并结合所有智能体的作战行为，动态生成智能作战方案。本发明专利技术实现了多智能体的协同作战，能够适应未来战场态势的快速变化，且具有自我恢复、调配和规划的能力，能够有效提升作战筹划能力，确保在未来信息化的作战中取得决策优势。得决策优势。得决策优势。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的智能作战方案生成方法

[0001]本专利技术涉及作战方案生成
，尤其涉及一种基于深度强化学习的智能作战方案生成方法。

技术介绍

[0002]随着人工智能的不断发展，未来战争的胜负不再由单一兵种或单个武器装备所决定，而是强调体系化作战。未来战争的比拼就是体系的较量，体系成为未来战争比拼的焦点，也必定成为未来战争研究关注的核心和重点；其中，作战方案是取得战争胜利的关键，是战争的重中之重；研究和构建智能化作战体系是未来战争赢得胜利的必经之路。智能化作战体系是指在一定的作战环境、战略策略和保障条件下为完成一定作战任务，功能上相互联系、相互作用的各个智能体组成的更高层次的多智能体系统。多智能体系统协同完成作战任务是智能化作战具体实现目标，而如何实现多智能体系协同作战是智能作战生成方案的重要挑战。
[0003]智能体行为演进技术是人工智能方面一个新兴且具有潜力的领域，随着阿尔法围棋的获胜，基于深度强化学习的智能体行为演进技术被大量应用。现有技术中主要是采用单个智能体进行智能作战方案的生成，但是，单个智能体的计算速度有限，不能够适应战场态势的快速变化，导致资源的调配和规划不合理。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种基于深度强化学习的智能作战方案生成方法。
[0005]一种基于深度强化学习的智能作战方案生成方法，包括以下步骤：构建多种智能体的模型，并描述所述多种智能体的行为规则；采用深度确定性策略梯度强化学习算法，对所述多种智能体的行为规则进...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的智能作战方案生成方法，其特征在于，包括以下步骤：构建多种智能体的模型，并描述所述多种智能体的行为规则；采用深度确定性策略梯度强化学习算法，对所述多种智能体的行为规则进行更新；通过增强智能体间学习方法，进行多种智能体的协同任务规划；确定单个智能体的作战行为，并结合所有智能体的作战行为，动态生成智能作战方案。2.根据权利要求1所述的一种基于深度强化学习的智能作战方案生成方法，其特征在于，所述多种智能体包括有慎思智能体、反应智能体和混合智能体；其中，所述慎思智能体用于条件充分时，进行详细且周密的分析、推理、规划和决策的慎思行为；所述反应智能体用于紧急情况下的周密且细致的态势分析和行动规划，并对多个行动计划进行比较；所述混合智能体是所述慎思智能体和反应智能体的结合。3.根据权利要求1所述的一种基于深度强化学习的智能作战方案生成方法，其特征在于，所述描述所述多种智能体的行为规则，具体包括：在环境状态s下寻求合理行为a，利用环境反馈r进行修正；其中，所述状态s指随着行动发生，个体与相关区域所处的状态；所述行为a指在环境状态s下，智能体所做出的对应行为；所述反馈r是指智能体在环境状态s下做出行为a的评价奖励；单个智能体处于环境状态s、行为a时，将反馈奖励值r作为Q值，定义为：Q
k
(s
k
,a
k...

【专利技术属性】
技术研发人员：王爱娟，蔺彦军，刘云，陈茜，左波，王玥，
申请(专利权)人：重庆高新区飞马创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人