一种面向多智能体对抗的强化学习训练优化方法及装置制造方法及图纸

技术编号:23766639 阅读:85 留言:0更新日期:2020-04-11 20:11
本发明专利技术实施例提供一种面向多智能体对抗的强化学习训练优化方法及装置,该方法包括:规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集,若红方多智能体初始的第一状态结果集满足预设动作规则,则根据预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取决策行为结果集;利用决策行为结果集和其余预设参数构成的训练样本对红方多智能体进行强化学习训练。本发明专利技术实施例提供的面向多智能体对抗的强化学习训练优化方法及装置,在整个训练过程中,预设动作规则都能够引导多智能体行动,避开无效的动作,解决了现有技术中存在的训练过程中无效探索多、训练速度慢的问题,显著提高了训练效率。

An optimization method and device of reinforcement learning training for multi-agent confrontation

【技术实现步骤摘要】
一种面向多智能体对抗的强化学习训练优化方法及装置
本专利技术涉及机器学习
,具体涉及一种面向多智能体对抗的强化学习训练优化方法及装置。
技术介绍
人工智能是研究开发用于模拟、扩展人的智能的理论、方法、技术及应用的技术科学。人工智能研究的一个主要目标是由智能体(Agent)进行学习模拟人类决策,从而胜任一些需要人类智能才能完成的复杂工作。单个智能体的功能有限,无法应对复杂的任务,这推动了多智能体系统概念的产生。多智能体系统由多个能够自主决策、互相交互的智能体相结合组成,它们共享同一个环境,具有感知与执行机制。目前,多智能体系统已经成为人工智能领域的研究热点。基于多智能体的自主作战技术对于未来智能作战具有重要的支撑作用,如何依靠多智能体技术在战略、战术、编队组织、多层次协作方面取得突破,是当前多智能体自主作战研究的重中之重。多智能体对抗是一类典型的团体任务。完成对抗任务需要智能体感知对抗环境、分析环境态势、形成对抗策略。多个智能体协作行动对抗敌人,实现单个智能体能力的扩展以及多智能体系统整体性能的提升。近年来无人机发展迅速,凭借体积小本文档来自技高网...

【技术保护点】
1.一种面向多智能体对抗的强化学习训练优化方法,其特征在于,包括:/n规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;/n模型获取流程,包括:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。/n

【技术特征摘要】
1.一种面向多智能体对抗的强化学习训练优化方法,其特征在于,包括:
规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;
模型获取流程,包括:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。


2.根据权利要求1所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,所述其余预设参数包括所述第一状态结果集、奖励结果集及第二状态结果集,在所述利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练之前,所述方法还包括:
对于每个训练步,获取所述红方多智能体初始的所述第一状态结果集;执行所述决策行为结果集,根据预设的回报函数获取所述红方多智能体的奖励结果集,并获取所述红方多智能体当前的所述第二状态结果集。


3.根据权利要求1或2所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,与所述红方多智能体对抗的蓝方多智能体的行为受到预设对抗场景的约束,所述预设对抗场景包括初始对抗场景。


4.根据权利要求3所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,所述预设对抗场景还包括多个不同的附加对抗场景;在所述生成所述红方多智能体模型之后,所述方法还包括:
根据所述预设对抗场景的迁移顺序,依次在各个所述附加对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程;并且,在下一所述预设对抗场景执行所述规则耦合算法训练流程和所述模型获取流程时,基于在上一所述预设对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程得到的所述红方多智能体模型进行;
其中,所述预设对抗场景的迁移顺序为对抗难度逐步递增。


5.根据权利要求4所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,在...

【专利技术属性】
技术研发人员:徐新海李渊戴华东王之元张冠宇宋菲菲
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1