融合专家系统与强化学习的多智能体博弈对抗方法和系统技术方案

技术编号:32965301 阅读:23 留言:0更新日期:2022-04-09 11:20
本发明专利技术公开了一种融合专家系统与强化学习的多智能体博弈对抗方法和系统。所述融合专家系统与强化学习的多智能体博弈对抗方法,将多智能体博弈对抗的任务进行分层,包含宏观策略和微观动作两个层次。宏观层次的主要任务是根据专家系统内部大量的某个领域专家水平的知识与经验,制定多智能体博弈对抗中基于规则的总体策略;微观层次的主要任务是在宏观策略的指导下对智能体一定范围内的微观操作进行强化学习,能够较好地融合规则式经验与强化学习方法各自的优点,有效地降低多智能体博弈对抗强化学习的难度。抗强化学习的难度。抗强化学习的难度。

【技术实现步骤摘要】
融合专家系统与强化学习的多智能体博弈对抗方法和系统


[0001]本专利技术涉及无人协同对抗
,特别是涉及一种融合专家系统与强化学习的多智能体博弈对抗方法和系统。

技术介绍

[0002]随着人工智能技术的发展,复杂环境下不完全信息动态博弈问题已成为亟待解决的前沿热点问题,而多智能体即时策略对抗技术是其核心关键之一。当前以深度学习和强化学习为代表的人工智能技术取得了较大的突破,以围棋为代表的完全信息动态博弈问题已基本解决;人工智能技术发展从计算智能、感知智能到更多地研究关注群体智能、认知智能;多智能体即时策略对抗问题的解决方法从传统的基于预编程规则的方法转向智能体自主强化学习为主的方法。多智能体博弈对抗是当前研究多智能体间的合作、竞争和对抗领域的前沿,能为解决未来无人协同对抗问题提供新的有效途径。
[0003]现有的强化学习方法,将其他智能体视为环境的一部分,这样的设定将缺乏理论上的收敛性保证,使得学习不稳定,并且这些策略会与其他智能体的策略产生过拟合,从而无法实现很好的泛化效果。而基于联合动作的强化学习方法难以解决多智能体即时策略对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合专家系统与强化学习的多智能体博弈对抗方法,其特征在于,包括:获取知识库和数据库的输入数据,根据所述输入数据基于专家经验形成宏观对抗策略;所述知识库和数据库的输入数据包括预设背景中的对抗场景、对抗目标和敌我意图;所述知识库和数据库还存储有基于规则式的专家经验提供多智能体对抗宏观策略;根据状态观测数据生成微观对抗行为;所述状态观测数由智能体获取;根据所述宏观对抗策略和所述微观对抗行为完成多智能体的博弈对抗。2.根据权利要求1所述的融合专家系统与强化学习的多智能体博弈对抗方法,其特征在于,所述根据状态观测数据生成微观对抗行为,包括:通过长短记忆网络将所述状态观测数据加以记忆;采用人工神经网络根据记忆的所述状态观测数据得到智能体的选择概率;基于记忆的所述状态观测数据和所述选择概率生成微观对抗行为。3.根据权利要求2所述的融合专家系统与强化学习的多智能体博弈对抗方法,其特征在于,所述人工神经网络的参数更新过程为:完成智能体和环境的交互得到环境回报;采用所述环境回报对所述人工神经网络的参数进行更新。4.根据权利要求1所述的融合专家系统与强化学习的多智能体博弈对抗方法,其特征在于,所述根据所述状态观测数据生成微观对抗行为,包括:通过长短记忆网络将所述状态观测数据加以记忆;采用神经网络确定记忆的所述状态观测数据中包含的环境状态和行为价值;基于所述环境状态和所述行为价值生成微观对抗行为。5.根据权利要求4所述的融合专家系统与强化学习的多智能体博弈对抗方法,其特征在于,所述神经网络的更新过程为:获取所述状态观测数据的实际网络价值,并通过所述实际网络价值和所述行为价值间的误差对所述神经网络进行更新。6.根据权利要求5所述的融合专家系统与强化学习的多智能体博弈对抗方法,所述宏观对抗策略包括:智能体编队方式、编队批次、编队类型、集火围攻、分散打击、批次打击、规避机动、感知侦查和掩护攻击。7.一种融合专家系统与强化学习的多智能体博弈对抗系统,其特征在于,包括:基于专家系统的宏观对抗策略生成子系统,用于获取知识库和数据库的输入数据,并...

【专利技术属性】
技术研发人员:丁季时雨孙科武董博马喆毛磊
申请(专利权)人:中国航天科工集团第二研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1