一种基于种群训练的多智能体强化学习方法及系统技术方案

技术编号:27831648 阅读:26 留言:0更新日期:2021-03-30 11:38
本发明专利技术涉及一种基于种群训练的多智能体强化学习方法及系统,该方法包括:根据游戏录像得到第一训练集;利用第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;利用第一智能体进行自博弈,在设定时间周期后得到第一种群;从第一种群中选择第二智能体、第一智能体集和第二智能体集;利用第一智能体分别和选择出来的三组智能体同时进行对战,并保存更新第一种群直至选择出来的三组智能体中任意一个战败,得到第二种群;从第二种群中选择替换智能体替代战败智能体继续与第一智能体对战,并保存更新第二种群,得到第三种群;直至第三种群中智能体数量达到预设数值,则输出第一智能体。本发明专利技术能够训练出可以模拟无人系统作战指控的智能体。战指控的智能体。战指控的智能体。

【技术实现步骤摘要】
一种基于种群训练的多智能体强化学习方法及系统


[0001]本专利技术涉及智能体训练领域,特别是涉及一基于种群训练的多智能体强化学习方法及系统。

技术介绍

[0002]近年来智能体领域具有里程碑的事件是基于强化学习的智能体Alphago击败了人类围棋顶尖棋手,从而使深度强化学习成为通向人工智能最有可能的道路,Alphago所使用到的主要技术就是自博弈。通过自博弈可以减少对数据集数量的依赖,甚至可以超出人类专家,对于普通的深度学习来说,这几乎是不可能的。
[0003]在未来智能化时代,军事战争中将大量采用能够代替人类飞行员执行侦察、打击、对抗任务机器人,这对于指挥控制机器人训练系统的精确性、时效性、有效性提出了很高的要求,指挥控制智能化为大势所趋。一个智能的大脑对于打赢战争的重要性是不言而喻的,智能指挥官的贡献度将超越任何一型智能武器。
[0004]目前面向机器人对抗场景中智能指挥控制训练系统的研究还比较少,并且存在着较大的局限性,主要的问题包括:严重依赖训练数据,训练数据量少,经过这些少量数据训练后的智能体胜率较低。
[0005]在众多的机器人博弈训练研究平台中,星际争霸以其丰富的环境信息、逼真的环境场景等特点成为常用的理论研究和方法验证平台。基于此,我们用《星级争霸2》游戏训练智能指挥官,成功后会尝试迁移到现实中执行类似作战指控任务,对现代军事行动提出新型战术,同时可将单个智能体繁殖成多个智能体。

技术实现思路

[0006]本专利技术的目的是提供一种基于种群训练的多智能体强化学习方法及系统,能够训练出可以模拟无人系统作战指控的智能体。
[0007]为实现上述目的,本专利技术提供了如下方案:
[0008]一种基于种群训练的多智能体强化学习方法,包括:
[0009]对暴雪公司发布的游戏录像进行解析,得到第一训练集;
[0010]利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
[0011]利用所述第一智能体进行自博弈,每隔时间T保存一个智能体,并记录所述智能体的胜率;在设定时间周期后得到第一种群;
[0012]根据胜率和第一加权函数从所述第一种群中选择任一智能体,记为第二智能体;
[0013]根据胜率和第一加权函数从所述第一种群中再选择若干个智能体,记为第一智能体集;
[0014]根据胜率和第二加权函数从所述第一种群中再选择若干个智能体,记为第二智能体集;
[0015]利用所述第一智能体分别和第二智能体、第一智能体集和第二智能体集同时进行
对战,每个对战过程每隔时间T保存一个智能体并添加到所述第一种群中,直至所述第二智能体、第一智能体集或第二智能体集中任意一个战败,得到第二种群;
[0016]从所述第二种群中选择替换智能体替代战败智能体继续与所述第一智能体进行对战,所述替换智能体包括能够替换第二智能体的任意一个智能体或者能够替换所述第一智能体集和第二智能体集的任意一个智能体集,所述战败智能体为第二智能体、第一智能体集或第二智能体集;每隔时间T保存一个智能体并添加到所述第二种群中,得到第三种群;
[0017]直至所述第三种群中智能体数量达到预设数值,则输出所述第一智能体。
[0018]可选的,所述时间T为1000秒。
[0019]可选的,所述第一种群包括100个智能体。
[0020]可选的,所述预设数值为10000。
[0021]可选的,所述第一加权函数为f1(p)=P
b
,其中,f1(p)为第一加权函数,P为胜率,b为常数。
[0022]可选的,所述第二加权函数为f2(p)=P(1

P),其中,f2(p)为第二加权函数,P为胜率。
[0023]可选的,所述b等于2。
[0024]可选的,所述根据胜率和第一加权函数从所述第二种群中选择若干个智能体包括:选择胜率大于70%的智能体。
[0025]一种基于种群训练的多智能体强化学习系统,包括:
[0026]解析模块,用于对暴雪公司发布的游戏录像进行解析,得到第一训练集;
[0027]训练模块,用于利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
[0028]自博弈模块,用于利用所述第一智能体进行自博弈,每隔时间T保存一个智能体,并记录所述智能体的胜率;在设定时间周期后得到第一种群;
[0029]第二智能体选择模块,用于根据胜率和第一加权函数从所述第一种群中选择任一智能体,记为第二智能体;
[0030]第一智能体集选择模块,用于根据胜率和第一加权函数从所述第一种群中再选择若干个智能体,记为第一智能体集;
[0031]第二智能体集选择模块,用于根据胜率和第二加权函数从所述第一种群中再选择若干个智能体,记为第二智能体集;
[0032]第一对战模块,用于利用所述第一智能体分别和第二智能体、第一智能体集和第二智能体集同时进行对战,每个对战过程每隔时间T保存一个智能体并添加到所述第一种群中,直至所述第二智能体、第一智能体集或第二智能体集中任意一个战败,得到第二种群;
[0033]第二对战模块,用于从所述第二种群中选择替换智能体替代战败智能体继续与所述第一智能体进行对战,所述替换智能体包括能够替换第二智能体的任意一个智能体或者能够替换所述第一智能体集和第二智能体集的任意一个智能体集,所述战败智能体为第二智能体、第一智能体集或第二智能体集;每隔时间T保存一个智能体并添加到所述第二种群中,得到第三种群;
[0034]输出模块,用于当所述第三种群中智能体数量达到预设数值时,则输出所述第一智能体。
[0035]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0036]本专利技术提出一种基于种群训练的多智能体强化学习方法及系统,可以很好的解决训练数据量少的问题,实验结果表明,智能体经过本系统训练之后,相对于仅初始时的胜率提高了30%,同时可将一个智能体繁殖成多个智能体。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本专利技术基于种群训练的多智能体强化学习方法流程图;
[0039]图2为本专利技术对战过程的模块图;
[0040]图3为本专利技术自博弈繁殖种群过程示意图;
[0041]图4为本专利技术三个种族训练过程示意图;
[0042]图5为本专利技术基于种群训练的多智能体强化学习系统模块图。
具体实施方式
[0043]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于种群训练的多智能体强化学习方法,其特征在于,包括:对暴雪公司发布的游戏录像进行解析,得到第一训练集;利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;利用所述第一智能体进行自博弈,每隔时间T保存一个智能体,并记录所述智能体的胜率;在设定时间周期后得到第一种群;根据胜率和第一加权函数从所述第一种群中选择任一智能体,记为第二智能体;根据胜率和第一加权函数从所述第一种群中再选择若干个智能体,记为第一智能体集;根据胜率和第二加权函数从所述第一种群中再选择若干个智能体,记为第二智能体集;利用所述第一智能体分别和第二智能体、第一智能体集和第二智能体集同时进行对战,每个对战过程每隔时间T保存一个智能体并添加到所述第一种群中,直至所述第二智能体、第一智能体集或第二智能体集中任意一个战败,得到第二种群;从所述第二种群中选择替换智能体替代战败智能体继续与所述第一智能体进行对战,所述替换智能体包括能够替换第二智能体的任意一个智能体或者能够替换所述第一智能体集和第二智能体集的任意一个智能体集,所述战败智能体为第二智能体、第一智能体集或第二智能体集;每隔时间T保存一个智能体并添加到所述第二种群中,得到第三种群;直至所述第三种群中智能体数量达到预设数值,则输出所述第一智能体。2.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所述时间T为1000秒。3.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所述第一种群包括100个智能体。4.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所述预设数值为10000。5.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所述第一加权函数为f1(p)=P
b
,其中,f1(p)为第一加权函数,P为胜率,b为常数。6.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所...

【专利技术属性】
技术研发人员:王滨杨军原鑫钟晨
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1