【技术实现步骤摘要】
一种实现多智能体对抗训练的方法、装置及存储介质
[0001]本专利技术涉及多智能体强化学习技术,特别是涉及一种实现多智能体对抗训练的方法、装置及存储介质。
技术介绍
[0002]博弈技术目前可分为完全信息条件下的博弈
‑
完全信息博弈和非完全信息条件下的博弈
‑
非完全信息博弈。完全信息博弈以AlphaGo为代表,现在已经取得了很好的成绩,现在的研究重心逐渐转向了非完全信息博弈。在非完全信息博弈中,博弈相关的信息只能被部分获取,所有相关环境和策略都只能部分知晓,这就让整个博弈过程不确定性加大。非完全信息博弈在军事演练、商业发展、投资融资方面都有着不可忽视的价值,这就使得非完全信息博弈的研究价值上升到了一个更高层次。
[0003]目前的非完全信息博弈经历了从虚拟对局(Fictious Play,FP)到虚拟自我对局(Fictious Self Play,FSP)再到神经网络虚拟自我对局(Neural Fictitious Self Play,NFSP)的发展,虽然虚拟对局算法不断优化发展 ...
【技术保护点】
【技术特征摘要】
1.一种实现多智能体对抗训练的方法,其特征在于,包括:步骤S1,生成初始网络;步骤S2,采用遗传算法对所述初始网络进行多次遗传变异,获得多个变异网络,每一个变异网络对应一个智能体;步骤S3,将所述初始网络与所述多个变异网络中的每一个分别进行自博弈;步骤S4,将每个自博弈胜利的网络再次通过遗传算法进行变异,获得每个自博弈胜利的网络的变异网络;步骤S5,将每个自博弈胜利的网络与自身的变异网络再进行自博弈;步骤S6,重复执行步骤S4至步骤S5直至达到预定的限定条件,然后将所述自博弈中胜利的网络的决策样本空间放入自博弈胜利样本池;步骤S7,使用所述自博弈胜利样本池中的智能体进行对抗训练。2.根据权利要求1所述的方法,其特征在于,所述步骤S6中预定的限定条件包括如下中的一项或多项:遗传算法达到预定的迭代次数;遗传算法达到预设的适应度函数阈值;智能体的性能达到预定的要求;智能体不再产生性能更优的版本。3.根据权利要求1所述的方法,其特征在于,所述步骤S1中采用随机初始化的方式来生成所述初始网络。4.根据权利要求1所述的方法,其特征在于,所述步骤S2和步骤S4中,采用遗传算法对网络进行变异包括:将待...
【专利技术属性】
技术研发人员:洪万福,鲍首熙,李金磊,
申请(专利权)人:厦门渊亭信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。