一种基于深度卷积神经网络的亚马逊棋招法生成方法技术

技术编号:24656541 阅读:468 留言:0更新日期:2020-06-27 02:34
本发明专利技术涉及一种基于深度卷积神经网络的亚马逊棋招法生成方法,属于人工智能技术领域。本发明专利技术包含深度网络模型,网络模型训练,以及最优招法生成三部分。深度网络模型包括棋子移动网络和障碍放置网络。网络模型训练使用RMSProp算法优化网络权重,通过监督学习的方式训练网络。最优招法生成通过组合各网络的输出指导亚马逊棋智能系统生成可靠的最优招法及预测的胜率。对比现有技术,本发明专利技术方法的招法生成不完全依赖于人类先验知识,具有效率稳定,不受极端局面影响的优势;采用分步决策的方式,提高了招法生成效率和准确率;通过共享部分网络层的方式,体现了各决策步骤的相似性和连续性。

A method of generating Amazon moves based on deep convolution neural network

【技术实现步骤摘要】
一种基于深度卷积神经网络的亚马逊棋招法生成方法
本专利技术涉及一种基于深度卷积神经网络的亚马逊棋招法生成方法,属于人工智能
,按照国际专利分类表(IPC)属于人类生活必须部,保健;救生;娱乐分部。主要采用深度卷积神经网络缓解亚马逊棋智能系统的招法生成过分依赖人类先验知识的局限性,指导其更加高效地生成可靠的最优招法。
技术介绍
计算机问世使得人类的计算能力得到了飞跃性的提升。计算机虽然能够提供强大的计算能力,却无法像人类一样在复杂环境中做出决策。为了解决这类问题,人工智能领域应运而生。深度学习与大数据的兴起带来了人工智能的爆发,作为人工智能领域的重要研究方向之一,计算机博弈能够帮助人们更加深入地研究和理解人工智能。亚马逊棋作为一种计算机博弈的重要形式,结合了围棋与国际象棋的行棋规则,具有招法多样,棋局复杂的特点。传统的亚马逊棋招法生成方法建立在人类现有的棋类知识的基础上,根据对亚马逊棋的理解手动编写估值函数,对现有局面优劣进行估值判断。这种方式难以高效的生成准确的最优招法,并且仅仅依靠估值函数一定程度上限制了亚马逊棋智能系统本文档来自技高网...

【技术保护点】
1.一种基于深度卷积神经网络的亚马逊棋招法生成方法,其特征在于,包括以下内容:/n针对当前棋局,使用经训练的网络模型生成最优招法;/n所述网络模型包括棋子移动网络和障碍放置网络,其中棋子移动网络用于生成棋子移动前后的坐标,障碍放置网络用于生成放置障碍的坐标;/n(1)棋子移动网络包括走子局面价值子网和走子价值-策略转换子网,走子局面价值子网对当前局面特征矩阵F经过12层卷积层和3层Dropout层处理后得到走子局面价值张量,3层Dropout层分别处于第4、8、12层卷积层之后;走子价值-策略转换子网包含两个部分,第一部分将走子局面价值张量经过1层全连接层得到表示预估胜率的标量,第二部分包含4...

【技术特征摘要】
20200116 CN 20201004622221.一种基于深度卷积神经网络的亚马逊棋招法生成方法,其特征在于,包括以下内容:
针对当前棋局,使用经训练的网络模型生成最优招法;
所述网络模型包括棋子移动网络和障碍放置网络,其中棋子移动网络用于生成棋子移动前后的坐标,障碍放置网络用于生成放置障碍的坐标;
(1)棋子移动网络包括走子局面价值子网和走子价值-策略转换子网,走子局面价值子网对当前局面特征矩阵F经过12层卷积层和3层Dropout层处理后得到走子局面价值张量,3层Dropout层分别处于第4、8、12层卷积层之后;走子价值-策略转换子网包含两个部分,第一部分将走子局面价值张量经过1层全连接层得到表示预估胜率的标量,第二部分包含4层卷积层和1层全连接层,走子局面价值张量经过4层卷积层后得到走子策略张量,走子策略张量经过1层全连接层后输出策略矩阵P,其中每一个元素都代表一种走法;在将P中所有非法走法所对应的概率置零后进行softmax操作,以得到所有非零元素均代表合法走法的策略矩阵Pvalid,选取Pvalid中概率最大的一点(x*,y*)通过下式映射为棋子走法:



其中,“/”表示整除运算,“%”表示取余运算,且棋盘坐标A,…,J与1,…,10一一对应,为预测的棋子坐标,为预测的落子坐标;
F由Fk组成,k∈{1,2,3,4},Fk中元素通过如下公式计算:



其中,局面特征矩阵Fk的第ij号元素的值表示为:在棋盘矩阵中,以第k号棋子所在位置(ki,kj)与目标位置(i,j)为对角线所围成的矩形区域I各元素值之和的均值;Mxy表示棋盘矩阵M中位置(x,y)处的元素值;cardI表示集合I中元素的个数;
棋子移动网络的损失函数通过如下公式计算:



L1为走子局面价值张量经过全连接层处理得到的预测结果误差,具体通过如下公式计算:



其中为棋子移动网络给出的预测值,...

【专利技术属性】
技术研发人员:施重阳廖兆和柴增豪
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1