当前位置: 首页 > 专利查询>季华实验室专利>正文

一种棋类游戏对弈方法、系统、终端以及存储介质技术方案

技术编号:25638413 阅读:63 留言:0更新日期:2020-09-15 21:30
本申请实施例涉及一种棋类游戏对弈方法、系统、终端以及存储介质。所述方法包括:利用神经网络对蚁群算法进行优化,结合所述优化后的蚁群算法及树搜索算法进行棋类游戏的自对弈;根据所述自对弈数据对所述神经网络进行迭代训练,对所述迭代训练得到的神经网络进行棋力测试;当所述神经网络满足停止训练的预设条件时,将所述最后一次或最近一次训练得到的棋力测试胜率达到预设值的神经网络作为所述棋类游戏实际对弈的最优神经网络。本申请实施例提升了蚁群算法的搜索能力及棋力表现,拓宽了蚁群算法在更多的棋类游戏上的应用。

【技术实现步骤摘要】
一种棋类游戏对弈方法、系统、终端以及存储介质
本申请实施例属于人工智能
,特别涉及一种棋类游戏对弈方法、系统、终端以及存储介质。
技术介绍
棋类游戏中,智能体的棋力由搜索算法的能力决定。常用的搜索算法包括蚁群算法和树搜索算法,蚁群算法是一种模拟蚂蚁觅食行为的模拟优化算法,由意大利学者Dorigo、Maniezzo等人于二十世纪九十年代首次提出。在研究蚂蚁觅食的过程中,他们发现蚁群总是能在不同的环境下寻找到达食物源最短的路径。经进一步研究,他们认为这是因为蚂蚁会在其经过的路径上释放一种可以称之为“信息素”的物质。蚂蚁对“信息素”具有感知能力,在沿着“信息素”浓度高的路径上行走的同时,它们还会在经过的路上留下更多的“信息素”来帮助后续的蚂蚁寻找实物,从而形成正反馈的机制,使得蚁群具有整体的智能行为。受蚁群觅食的启发而演变来的算法,习惯上称为蚁群算法。这种算法具有分布式计算、信息正反馈和启发式搜索的特征,本质上是进化算法中的一种启发式全局优化算法。然而,由于蚁群算法自身的特点,使得其在棋类游戏中存在搜索时容易陷入局部最优解、收敛到全局最优的时间本文档来自技高网...

【技术保护点】
1.一种棋类游戏对弈方法,其特征在于,包括以下步骤:/n步骤a:利用神经网络对蚁群算法进行优化,结合所述优化后的蚁群算法及树搜索算法进行棋类游戏的自对弈;其中,所述自对弈包括:将所述棋类游戏真实棋局的棋盘状态作为根节点,利用所述优化后的蚁群算法在树搜索中扩展节点,对所述真实棋局进行模拟,根据所述模拟的搜索概率选择行动,并对所述真实棋局执行行动,得到所述真实棋局的自对弈数据;/n步骤b:根据所述自对弈数据对所述神经网络进行迭代训练,对所述迭代训练得到的神经网络进行棋力测试;/n步骤c:当所述神经网络满足停止训练的预设条件时,将所述最后一次或最近一次训练得到的棋力测试胜率达到预设值的神经网络作为所...

【技术特征摘要】
1.一种棋类游戏对弈方法,其特征在于,包括以下步骤:
步骤a:利用神经网络对蚁群算法进行优化,结合所述优化后的蚁群算法及树搜索算法进行棋类游戏的自对弈;其中,所述自对弈包括:将所述棋类游戏真实棋局的棋盘状态作为根节点,利用所述优化后的蚁群算法在树搜索中扩展节点,对所述真实棋局进行模拟,根据所述模拟的搜索概率选择行动,并对所述真实棋局执行行动,得到所述真实棋局的自对弈数据;
步骤b:根据所述自对弈数据对所述神经网络进行迭代训练,对所述迭代训练得到的神经网络进行棋力测试;
步骤c:当所述神经网络满足停止训练的预设条件时,将所述最后一次或最近一次训练得到的棋力测试胜率达到预设值的神经网络作为所述棋类游戏实际对弈的最优神经网络。


2.根据权利要求1所述的棋类游戏对弈方法,其特征在于,所述步骤a中,所述神经网络为卷积神经网络,所述卷积神经网络包括三层全卷积网络层和三层全连接层,所述三层全卷积网络层的输出包括策略网络和价值网络两端,所述策略网络端连接第一层全连接层,所述价值网络端使用滤波器进行降维,并连接第二层全连接层,最后输出到第三层全连接层。


3.根据权利要求2所述的棋类游戏对弈方法,其特征在于,所述步骤a中,所述利用神经网络对蚁群算法进行优化具体包括:
将所述棋类游戏的胜负信息转换成蚁群信息素信息;
对新展开节点进行信息素初始化;
利用所述神经网络自动预测标签数据,
所述标签数据包括所述策略网络给出的先验概率以及所述价值网络给出的状态价值。


4.根据权利要求3所述的棋类游戏对弈方法,其特征在于,所述利用所述神经网络自动预测标签数据包括:
利用所述蚁群信息素和策略网络计算蚂蚁的行动概率:



上式中,t代表时间,at为蚂蚁在时刻t的行动概率,k代表蚂蚁的序号,τ代表信息素,st代表时间t下的状态,ηnet(st,at)是所述策略网络给出的先验概率,β是调整所述先验概率的权重的参数;Jk(st)是对于蚂蚁k在st状态下所有行动的集合;



上式中,α是信息素挥发参数,Vk是第k只蚂蚁完成搜索后得到的结果,m是蚂蚁的数量,Q是信息素权重的超参数;当每只蚂蚁完成搜索后,根据最终的棋局胜负结果训练所述价值网络;
利用所述价值网络对搜索路径上所有节点的全局信息素进行更新:





5.根据权利要求4所述的棋类游戏对弈方法,其特征在于,在所述步骤a中,所述利用所述优化后的蚁群算法在树搜索中扩展节点包括:
将所述根节点作为当前节点;
克隆当前棋局,初始化搜索路径;
利用所述神经网络扩展所述当前节点,根据所述蚁群算法的状态转移概率分布选择行动;
在所述克隆棋局上执行所述行动,并返回下一时刻所述克隆棋局的棋盘状态作为新的当前节点;
在所述搜索路径上增加所述新的当前节点,并重新利用所述神经网络扩展所述新的当前节点;
当所有节点扩展结束后,对所述搜索路径进行回溯,全局更新信息素。


6.根据权利要求1所述的棋类游戏对弈方法,其特征在于,在所述步骤...

【专利技术属性】
技术研发人员:戚骁亚张校志
申请(专利权)人:季华实验室
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1