基于多智能体强化学习的目标探测与分配方法及装置制造方法及图纸

技术编号:26846046 阅读:45 留言:0更新日期:2020-12-25 13:08
本发明专利技术涉及一种基于多智能体强化学习的目标探测与分配方法及装置,包括构建作战行为模型和强化学习训练环境;采用强化学习训练环境对所述作战行为模型进行训练至模型收敛,获取人工智能行为模型;采用作战仿真引擎对所述人工智能行为模型进行训练,输出优化模型。本发明专利技术将强化学习算法MADDPG集成到兵棋推演系统中,构建从简单到复杂的仿真环境,优化强化学习收敛速度,有效的解决了兵棋推演系统中智能体优化收敛速度的问题。

【技术实现步骤摘要】
基于多智能体强化学习的目标探测与分配方法及装置
本专利技术属于模拟仿真
,具体涉及一种基于多智能体强化学习的目标探测与分配方法及装置。
技术介绍
随着人工智能的发展,依靠人力研究战术和制定军事计划的时代正在逐步离我们远去。过去在计算机应用于兵棋推演仿真过程中,人们依靠微分方程、战争理论,有效地模拟了战争的进程,极大提高了军队的作战水平。如今,人工智能在兵棋推演的应用将会扮演更加重要的角色。而基于多智能体建模在描述复杂系统的能力,以及对动态环境中的行为建模能力,相对于传统的建模方法更具有优越性。多智能体系统的出现为兵棋推演系统的进一步扩展提供了一个新的平台。在兵棋仿真推演过程中,有经验的指挥员可以根据敌方的状态、作战能力、交战规则等信息对其执行的作战任务进行判断和预测。随着兵棋系统的不断发展与改进,其模拟的作战任务正面临许多新的变化:首先,作战单元数量剧增,指挥员逐一分析并确定各目标作战任务工作量十分繁重,以致难以全面准确地把握战场态势;其次,信息技术的不断发展使战场态势演变速度不断加快,单纯依靠人工识别敌方空中任务将严重影响我方响本文档来自技高网...

【技术保护点】
1.一种基于多智能体强化学习的目标探测与分配方法,其特征在于,包括:/n构建作战行为模型和强化学习训练环境;/n采用强化学习训练环境对所述作战行为模型进行训练至模型收敛,获取人工智能行为模型;/n采用作战仿真引擎对所述人工智能行为模型进行训练,输出优化模型。/n

【技术特征摘要】
1.一种基于多智能体强化学习的目标探测与分配方法,其特征在于,包括:
构建作战行为模型和强化学习训练环境;
采用强化学习训练环境对所述作战行为模型进行训练至模型收敛,获取人工智能行为模型;
采用作战仿真引擎对所述人工智能行为模型进行训练,输出优化模型。


2.根据权利要求1所述的方法,其特征在于,构建强化学习训练环境,包括:
采用MADDPG算法将作战仿真引擎与强化学习训练环境进行映射。


3.根据权利要求2所述的方法,其特征在于,所述采用MADDPG算法将作战仿真引擎与强化学习训练环境进行映射,包括:
将所述作战仿真引擎中的作战行为模型映射为所述强化学习训练环境中的多个智能体,所述智能体作为训练的对象;
将所述作战仿真引擎中的感知模型映射为所述强化学习训练环境中的感知代理模块,用于获取当前战场态势;
将所述作战仿真引擎中的决策模型映射为所述强化学习训练环境中的决策代理模块,用于根据当前战场态势选择要执行的行动;
将所述作战仿真引擎中的行动模型映射为所述强化学习训练环境中的行动代理模块,用于执行选择的行动;
将所述作战仿真引擎中的记忆模型映射为所述强化学习训练环境中的记忆代理模块,用于存储战场态势。


4.根据权利要求3所述的方法,其特征在于,所述采用强化学习训练环境对所述作战行为模型进行训练至模型收敛,获取人工智能行为模型,包括:
初始化智能体;
所述感知代理模块获取环境信息,确定当前战场态势并存储至记忆代理模块;
所述决策代理模块根据所述当前战场态势选择要执行的行动;
所述行动代理模块执行选择的行动;
所述强化学习训练环境根据行动...

【专利技术属性】
技术研发人员:伊山魏晓龙鹿涛黄谦齐智敏蔡春晓赵昊张帅亢原平
申请(专利权)人:中国人民解放军军事科学院评估论证研究中心航天科工系统仿真科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1