一种实现多智能体对抗训练的方法、装置及存储介质制造方法及图纸

技术编号:37852637 阅读:11 留言:0更新日期:2023-06-14 22:44
本发明专利技术提供了一种实现多智能体对抗训练的方法、装置及存储介质,该方法包括:步骤S1,生成初始网络;步骤S2,采用遗传算法对初始网络进行多次遗传变异;步骤S3,将初始网络与多个变异网络中的每一个分别进行自博弈;步骤S4,将每个自博弈胜利的网络再次通过遗传算法进行变异;步骤S5,将每个自博弈胜利的网络与自身的变异网络再进行自博弈;步骤S6,重复执行步骤S4至步骤S5直至达到预定的限定条件,然后将自博弈中胜利的网络的决策样本空间加入自博弈胜利样本池;步骤S7,使用自博弈胜利样本池中的智能体进行对抗训练。利用上述技术方案,通过使用较优的智能体来进行多智能体对抗训练,可提高训练的速度和改善训练的结果。可提高训练的速度和改善训练的结果。可提高训练的速度和改善训练的结果。

【技术实现步骤摘要】
一种实现多智能体对抗训练的方法、装置及存储介质


[0001]本专利技术涉及多智能体强化学习技术,特别是涉及一种实现多智能体对抗训练的方法、装置及存储介质。

技术介绍

[0002]博弈技术目前可分为完全信息条件下的博弈

完全信息博弈和非完全信息条件下的博弈

非完全信息博弈。完全信息博弈以AlphaGo为代表,现在已经取得了很好的成绩,现在的研究重心逐渐转向了非完全信息博弈。在非完全信息博弈中,博弈相关的信息只能被部分获取,所有相关环境和策略都只能部分知晓,这就让整个博弈过程不确定性加大。非完全信息博弈在军事演练、商业发展、投资融资方面都有着不可忽视的价值,这就使得非完全信息博弈的研究价值上升到了一个更高层次。
[0003]目前的非完全信息博弈经历了从虚拟对局(Fictious Play,FP)到虚拟自我对局(Fictious Self Play,FSP)再到神经网络虚拟自我对局(Neural Fictitious Self Play,NFSP)的发展,虽然虚拟对局算法不断优化发展,但是其仍存在以下问题:
[0004]1.NFSP达到最终结果时才会进行奖池的分配,也就是奖励稀疏的情况,这导致大量在记忆库中的经验片段具有很低的学习价值;如果不加区分的加以使用的话,就会导致智能体训练效率低下;
[0005]2.NFSP算法利用基于深度学习的Q

learning算法即DQN来提供最优反应,DQN强化学习算法中最大代价取决于智能体与环境的交互,所以能否高效利用经验,尽可能降低环境交互代价,对智能体的训练提升有很大影响;以此推之,智能体与环境的交互代价同样会对NFSP算法的博弈水平产生不可忽视的影响。
[0006]此外,多智能体强化学习系统中,每个智能体通过与环境进行交互获取奖励值来改善自己的策略,从而获得该环境下的最优策略。但是在多智能体应用过程中存在以下不足:单智能体强化学习过程需要存储动作

状态函数,但是多智能与环境交互过程中,这个状态空间变大,引起维度爆炸;并且在多智能系统中,多个智能体是在同时学习的,当同伴智能体的自身最优策略发生改变时,每个智能体自身最优策略也会发生变化这将导致多智能体训练过程中收敛时产生波动,从而影响收敛速度。

技术实现思路

[0007]本专利技术的实施例提供了一种实现多智能体对抗训练的方法、装置及存储介质,通过在生成智能体时使用遗传算法来优化智能体及在初始训练阶段使智能体通过自博弈与自己进行训练,提升了参与多智能体对抗训练中智能体的水平,有效提高了多智能体对抗训练的速度。
[0008]为了实现上述目的,一方面提供了一种实现多智能体对抗训练的方法,包括:
[0009]步骤S1,生成初始网络;
[0010]步骤S2,采用遗传算法对所述初始网络进行多次遗传变异,获得多个变异网络,每
一个变异网络对应一个智能体;
[0011]步骤S3,将初始网络与所述多个变异网络中的每一个分别进行自博弈;
[0012]步骤S4,将每个自博弈胜利的网络再次通过遗传算法进行变异,获得每个自博弈胜利的网络的变异网络;
[0013]步骤S5,将每个自博弈胜利的网络与自身的变异网络再进行自博弈;
[0014]步骤S6,重复执行步骤S4至步骤S5直至达到预定的限定条件,然后将自博弈中胜利的网络的决策样本空间加入自博弈胜利样本池;
[0015]步骤S7,使用自博弈胜利样本池中的智能体进行对抗训练。
[0016]优选地,所述的方法,其中,步骤S6中预定的限定条件包括如下中的一项或多项:
[0017]遗传算法达到预定的迭代次数;
[0018]遗传算法达到预设的适应度函数阈值;
[0019]智能体的性能达到预定的要求;
[0020]智能体不再产生性能更优的版本。
[0021]优选地,所述的方法,其中,步骤S1中采用随机初始化的方式来生成初始网络。
[0022]优选地,所述的方法,其中,步骤S2和步骤S4中,采用遗传算法对网络进行变异包括:将待变异网络中的数值以预定的概率进行替换,生成新的网络,并在新的网络中进行交叉、变异和/或选择操作,保留适应度最好的网络。
[0023]优选地,所述的方法,其中,步骤S2采用的遗传算法和步骤S4中采用的遗传算法相同或不同。
[0024]优选地,所述的方法,其中,步骤S3中,在将初始网络与上述多个变异网络中的每一个分别进行自博弈后,保存每个胜利的网络的决策样本空间。
[0025]优选地,所述的方法,其中,所述步骤S7之前还包括:
[0026]重复所述步骤S1至步骤S6达预定次数,直到所述自博弈胜利样本池中的决策样本空间的数目达到所需的智能体的数量。
[0027]优选地,所述的方法,其中,步骤S2中,对初始网络进行的多次遗传变异中,每次遗传变异采用的遗传算法不同。
[0028]另一方面,提供了一种实现多智能体对抗训练的装置,包括存储器和处理器,该存储器存储有至少一段程序,所述至少一段程序由处理器执行以实现如上文任一所述的方法。
[0029]又一方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一段程序,所述至少一段程序由处理器执行以实现如上文任一所述的方法。
[0030]上述技术方案具有如下技术效果:
[0031]本专利技术实施例的实现多智能体对抗训练的方法通过在生成智能体时使用遗传算法来优化智能体,在一定程度上提高了对智能体的奖励程度,实现了在迭代中进行奖励分配,从而有效地解决当前FSP和DQN速度上的问题,提升了整个多智能体对抗训练过程中的训练速度;此外,本专利技术实施例的方法在训练的初始阶段,使智能体通过自博弈与自己进行训练,以获得更好的个体样本,从而避免了由于与环境交互而产生的巨大空间,进一步提高了训练的速度,且最终进行对抗训练的智能体都是经过遗传算法优选而来,提升了最终对抗的训练效果。
附图说明
[0032]图1为本专利技术一实施例的实现多智能体对抗训练的方法的流程示意图;
[0033]图2为本专利技术另一实施例的实现多智能体对抗训练的方法的示意图;
[0034]图3为本专利技术一实施例的实现多智能体对抗训练的装置的结构示意图。
具体实施方式
[0035]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0036]现结合附图和具体实施方式对本专利技术进一步说明。
[0037]实施例一:
[0038]图1为本专利技术一实施例的实现多智能体对抗训练的方法的流程示意图。该实施例的实现多智能体对抗训练的方法包括:
[0039]步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现多智能体对抗训练的方法,其特征在于,包括:步骤S1,生成初始网络;步骤S2,采用遗传算法对所述初始网络进行多次遗传变异,获得多个变异网络,每一个变异网络对应一个智能体;步骤S3,将所述初始网络与所述多个变异网络中的每一个分别进行自博弈;步骤S4,将每个自博弈胜利的网络再次通过遗传算法进行变异,获得每个自博弈胜利的网络的变异网络;步骤S5,将每个自博弈胜利的网络与自身的变异网络再进行自博弈;步骤S6,重复执行步骤S4至步骤S5直至达到预定的限定条件,然后将所述自博弈中胜利的网络的决策样本空间放入自博弈胜利样本池;步骤S7,使用所述自博弈胜利样本池中的智能体进行对抗训练。2.根据权利要求1所述的方法,其特征在于,所述步骤S6中预定的限定条件包括如下中的一项或多项:遗传算法达到预定的迭代次数;遗传算法达到预设的适应度函数阈值;智能体的性能达到预定的要求;智能体不再产生性能更优的版本。3.根据权利要求1所述的方法,其特征在于,所述步骤S1中采用随机初始化的方式来生成所述初始网络。4.根据权利要求1所述的方法,其特征在于,所述步骤S2和步骤S4中,采用遗传算法对网络进行变异包括:将待...

【专利技术属性】
技术研发人员:洪万福鲍首熙李金磊
申请(专利权)人:厦门渊亭信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1