【技术实现步骤摘要】
一种基于种群训练的多智能体强化学习方法及系统
[0001]本专利技术涉及智能体训练领域,特别是涉及一基于种群训练的多智能体强化学习方法及系统。
技术介绍
[0002]近年来智能体领域具有里程碑的事件是基于强化学习的智能体Alphago击败了人类围棋顶尖棋手,从而使深度强化学习成为通向人工智能最有可能的道路,Alphago所使用到的主要技术就是自博弈。通过自博弈可以减少对数据集数量的依赖,甚至可以超出人类专家,对于普通的深度学习来说,这几乎是不可能的。
[0003]在未来智能化时代,军事战争中将大量采用能够代替人类飞行员执行侦察、打击、对抗任务机器人,这对于指挥控制机器人训练系统的精确性、时效性、有效性提出了很高的要求,指挥控制智能化为大势所趋。一个智能的大脑对于打赢战争的重要性是不言而喻的,智能指挥官的贡献度将超越任何一型智能武器。
[0004]目前面向机器人对抗场景中智能指挥控制训练系统的研究还比较少,并且存在着较大的局限性,主要的问题包括:严重依赖训练数据,训练数据量少,经过这些少量数据训练后的智能体胜率 ...
【技术保护点】
【技术特征摘要】
1.一种基于种群训练的多智能体强化学习方法,其特征在于,包括:对暴雪公司发布的游戏录像进行解析,得到第一训练集;利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;利用所述第一智能体进行自博弈,每隔时间T保存一个智能体,并记录所述智能体的胜率;在设定时间周期后得到第一种群;根据胜率和第一加权函数从所述第一种群中选择任一智能体,记为第二智能体;根据胜率和第一加权函数从所述第一种群中再选择若干个智能体,记为第一智能体集;根据胜率和第二加权函数从所述第一种群中再选择若干个智能体,记为第二智能体集;利用所述第一智能体分别和第二智能体、第一智能体集和第二智能体集同时进行对战,每个对战过程每隔时间T保存一个智能体并添加到所述第一种群中,直至所述第二智能体、第一智能体集或第二智能体集中任意一个战败,得到第二种群;从所述第二种群中选择替换智能体替代战败智能体继续与所述第一智能体进行对战,所述替换智能体包括能够替换第二智能体的任意一个智能体或者能够替换所述第一智能体集和第二智能体集的任意一个智能体集,所述战败智能体为第二智能体、第一智能体集或第二智能体集;每隔时间T保存一个智能体并添加到所述第二种群中,得到第三种群;直至所述第三种群中智能体数量达到预设数值,则输出所述第一智能体。2.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所述时间T为1000秒。3.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所述第一种群包括100个智能体。4.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所述预设数值为10000。5.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所述第一加权函数为f1(p)=P
b
,其中,f1(p)为第一加权函数,P为胜率,b为常数。6.根据权利要求1所述的基于种群训练的多智能体强化学习方法,其特征在于,所...
【专利技术属性】
技术研发人员:王滨,杨军,原鑫,钟晨,
申请(专利权)人:中国电子科技集团公司第十五研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。