一种实现多智能体对抗训练的方法、装置及存储介质制造方法及图纸

技术编号：37852637 阅读：11 留言：0更新日期：2023-06-14 22:44

本发明专利技术提供了一种实现多智能体对抗训练的方法、装置及存储介质，该方法包括：步骤S1，生成初始网络；步骤S2，采用遗传算法对初始网络进行多次遗传变异；步骤S3，将初始网络与多个变异网络中的每一个分别进行自博弈；步骤S4，将每个自博弈胜利的网络再次通过遗传算法进行变异；步骤S5，将每个自博弈胜利的网络与自身的变异网络再进行自博弈；步骤S6，重复执行步骤S4至步骤S5直至达到预定的限定条件，然后将自博弈中胜利的网络的决策样本空间加入自博弈胜利样本池；步骤S7，使用自博弈胜利样本池中的智能体进行对抗训练。利用上述技术方案，通过使用较优的智能体来进行多智能体对抗训练，可提高训练的速度和改善训练的结果。可提高训练的速度和改善训练的结果。可提高训练的速度和改善训练的结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种实现多智能体对抗训练的方法、装置及存储介质

[0001]本专利技术涉及多智能体强化学习技术，特别是涉及一种实现多智能体对抗训练的方法、装置及存储介质。

技术介绍

[0002]博弈技术目前可分为完全信息条件下的博弈
‑
完全信息博弈和非完全信息条件下的博弈
‑
非完全信息博弈。完全信息博弈以AlphaGo为代表，现在已经取得了很好的成绩，现在的研究重心逐渐转向了非完全信息博弈。在非完全信息博弈中，博弈相关的信息只能被部分获取，所有相关环境和策略都只能部分知晓，这就让整个博弈过程不确定性加大。非完全信息博弈在军事演练、商业发展、投资融资方面都有着不可忽视的价值，这就使得非完全信息博弈的研究价值上升到了一个更高层次。
[0003]目前的非完全信息博弈经历了从虚拟对局(Fictious Play，FP)到虚拟自我对局(Fictious Self Play，FSP)再到神经网络虚拟自我对局(Neural Fictitious Self Play，NFSP)的发展，虽然虚拟对局算法不断优化发展，但是其仍存在以下问题：
[0004]1.NFSP达到最终结果时才会进行奖池的分配，也就是奖励稀疏的情况，这导致大量在记忆库中的经验片段具有很低的学习价值；如果不加区分的加以使用的话，就会导致智能体训练效率低下；
[0005]2.NFSP算法利用基于深度学习的Q
‑
learning算法即DQN来提供最优反应，DQN强化学习算法中最大代价取决于智能体与环境的交互，所...

【技术保护点】

【技术特征摘要】
1.一种实现多智能体对抗训练的方法，其特征在于，包括：步骤S1，生成初始网络；步骤S2，采用遗传算法对所述初始网络进行多次遗传变异，获得多个变异网络，每一个变异网络对应一个智能体；步骤S3，将所述初始网络与所述多个变异网络中的每一个分别进行自博弈；步骤S4，将每个自博弈胜利的网络再次通过遗传算法进行变异，获得每个自博弈胜利的网络的变异网络；步骤S5，将每个自博弈胜利的网络与自身的变异网络再进行自博弈；步骤S6，重复执行步骤S4至步骤S5直至达到预定的限定条件，然后将所述自博弈中胜利的网络的决策样本空间放入自博弈胜利样本池；步骤S7，使用所述自博弈胜利样本池中的智能体进行对抗训练。2.根据权利要求1所述的方法，其特征在于，所述步骤S6中预定的限定条件包括如下中的一项或多项：遗传算法达到预定的迭代次数；遗传算法达到预设的适应度函数阈值；智能体的性能达到预定的要求；智能体不再产生性能更优的版本。3.根据权利要求1所述的方法，其特征在于，所述步骤S1中采用随机初始化的方式来生成所述初始网络。4.根据权利要求1所述的方法，其特征在于，所述步骤S2和步骤S4中，采用遗传算法对网络进行变异包括：将待...

【专利技术属性】
技术研发人员：洪万福，鲍首熙，李金磊，
申请(专利权)人：厦门渊亭信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人