一种基于深度卷积神经网络的亚马逊棋招法生成方法技术

技术编号:24656541 阅读:421 留言:0更新日期:2020-06-27 02:34
本发明专利技术涉及一种基于深度卷积神经网络的亚马逊棋招法生成方法,属于人工智能技术领域。本发明专利技术包含深度网络模型,网络模型训练,以及最优招法生成三部分。深度网络模型包括棋子移动网络和障碍放置网络。网络模型训练使用RMSProp算法优化网络权重,通过监督学习的方式训练网络。最优招法生成通过组合各网络的输出指导亚马逊棋智能系统生成可靠的最优招法及预测的胜率。对比现有技术,本发明专利技术方法的招法生成不完全依赖于人类先验知识,具有效率稳定,不受极端局面影响的优势;采用分步决策的方式,提高了招法生成效率和准确率;通过共享部分网络层的方式,体现了各决策步骤的相似性和连续性。

A method of generating Amazon moves based on deep convolution neural network

【技术实现步骤摘要】
一种基于深度卷积神经网络的亚马逊棋招法生成方法
本专利技术涉及一种基于深度卷积神经网络的亚马逊棋招法生成方法,属于人工智能
,按照国际专利分类表(IPC)属于人类生活必须部,保健;救生;娱乐分部。主要采用深度卷积神经网络缓解亚马逊棋智能系统的招法生成过分依赖人类先验知识的局限性,指导其更加高效地生成可靠的最优招法。
技术介绍
计算机问世使得人类的计算能力得到了飞跃性的提升。计算机虽然能够提供强大的计算能力,却无法像人类一样在复杂环境中做出决策。为了解决这类问题,人工智能领域应运而生。深度学习与大数据的兴起带来了人工智能的爆发,作为人工智能领域的重要研究方向之一,计算机博弈能够帮助人们更加深入地研究和理解人工智能。亚马逊棋作为一种计算机博弈的重要形式,结合了围棋与国际象棋的行棋规则,具有招法多样,棋局复杂的特点。传统的亚马逊棋招法生成方法建立在人类现有的棋类知识的基础上,根据对亚马逊棋的理解手动编写估值函数,对现有局面优劣进行估值判断。这种方式难以高效的生成准确的最优招法,并且仅仅依靠估值函数一定程度上限制了亚马逊棋智能系统的棋力,因而,有必要寻找一种更为高效的招法生成方法,生成亚马逊棋博弈过程中的最优招法。本专利技术针对现有亚马逊棋招法生成方法的局限性,创新性地在亚马逊棋领域引入深度卷积神经网络,使得亚马逊棋招法生成不完全依赖于人类先验知识。本专利技术中涉及的相关技术如下:1.计算机博弈计算机博弈是人工智能领域的重要研究方向,作为机器智能、兵棋推演、智能决策系统等人工智能领域的重要科研基础,计算机博弈被认为是人工智能领域最具挑战性的研究方向之一。亚马逊棋(GameoftheAmazons)是在1988年推出的两人棋类博弈,是奥林匹亚电脑游戏程式竞赛的比赛指定棋类,由于局面过于复杂,每一步可行的招法可高达数千种,故该棋类多不用于人类之间比赛,而是用于计算机博弈相关方面的比赛与研究。亚马逊棋的研究及实现涉及编程语言,算法思想,博弈思想等,常用的算法有蒙特卡洛算法,退火算法,遗传算法等。随着机器学习与深度学习的发展,亚马逊棋作为计算机博弈的一个项目正逐渐的被更广泛的熟知。2.深度学习深度学习(DeepLearning)是机器学习(MachineLearning)的分支,是一种以人工神经网络为架构,对数据进行表征学习的算法。深度学习的优势之一是其采用了非监督式或半监督式的特征学习和分层特征的方式,替代了手工获取样本特征的方式。深度学习被广泛应用于学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对文本、图像、音频等数据的解释有很大的帮助。深度学习在数据挖掘,计算机视觉,自然语言处理等诸多领域都取得丰富的成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了巨大进步。其最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像、音频等数据。作为一个复杂的机器学习算法,深度学习在语音和图像识别方面取得的效果,远远超过先前相关技术。3.卷积神经网络卷积神经网络(ConvolutionalNeuralNetwork)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。卷积神经网络模仿生物的视知觉机制设计构建,可以进行监督学习和非监督学习,其隐藏层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征(例如像素、音频)进行学习,并且有稳定的效果且对数据没有额外的特征工程要求。卷积神经网络的相关研究始于二十世纪80至90年代,时间延迟网络和LeNet-5是最早出现的卷积神经网络;在二十一世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被广泛应用于各种计算机视觉、自然语言处理等任务,并取得了巨大的成果。卷积神经网络由一个或多个卷积层(ConvolutionLayer)和顶端的全连通层(DenseLayer)组成,同时也包括共享权重和池化层(PoolingLayer)。这一结构使得卷积神经网络能够充分利用输入数据的二维结构进行特征的提取,与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。卷积神经网络可以使用反向传播算法(BackPropagation)进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要训练的参数更少。
技术实现思路
本专利技术的目的是基于深度卷积神经网络,针对亚马逊棋的规则和先验知识,设计适用于亚马逊棋招法生成的网络结构,并基于这一网络结构实现基于深度卷积神经网络的亚马逊棋招法生成方法,从而使得亚马逊棋智能系统能在博弈对局过程中生成己方的最优招法。本专利技术的目的是通过以下技术方案实现的:一种基于深度卷积神经网络的亚马逊棋招法生成方法,包括以下内容:针对当前棋局,使用经训练的网络模型生成最优招法(棋子移动前后的坐标以及放置障碍的坐标);所述网络模型包括棋子移动网络和障碍放置网络,其中棋子移动网络用于生成棋子移动前后的坐标,障碍放置网络用于生成放置障碍的坐标;(1)棋子移动网络包括走子局面价值子网和走子价值-策略转换子网,走子局面价值子网对当前局面特征矩阵F经过12层卷积层和3层Dropout层处理后得到走子局面价值张量,3层Dropout层分别处于第4、8、12层卷积层之后;走子价值-策略转换子网包含两个部分,第一部分将走子局面价值张量经过1层全连接层得到表示预估胜率的标量,第二部分包含4层卷积层和1层全连接层,走子局面价值张量经过4层卷积层后得到走子策略张量,走子策略张量经过1层全连接层后输出策略矩阵P,其中每一个元素都代表一种走法;在将P中所有非法走法所对应的概率置零后进行softmax操作,以得到所有非零元素均代表合法走法的策略矩阵Pvalid,选取Pvalid中概率最大的一点(x*,y*)通过下式映射为棋子走法:其中,“/”表示整除运算,“%”表示取余运算,且棋盘坐标A,…,J与1,…,10一一对应,为预测的棋子坐标,为预测的落子坐标;F由Fk组成,k∈{1,2,3,4},Fk中元素通过如下公式计算:其中,局面特征矩阵Fk的第ij号元素的值表示为:在棋盘矩阵中,以第k号棋子所在位置(ki,kj)与目标位置(i,j)为对角线所围成的矩形区域I各元素值之和的均值;Mxy表示棋盘矩阵M中位置(x,y)处的元素值;cardI表示集合I中元素的个数;棋子移动网络的损失函数通过如下公式计算:L1为走子局面价值张量经过全连接层处理得到的预测结果误差,具体通过如下公式计算:其中为棋子移动网络给出的预测值,y∈{0,1}为实际标签值;L2为棋子移动的预测误差,具体通过如下公式计算:其中(x1,y1)本文档来自技高网
...

【技术保护点】
1.一种基于深度卷积神经网络的亚马逊棋招法生成方法,其特征在于,包括以下内容:/n针对当前棋局,使用经训练的网络模型生成最优招法;/n所述网络模型包括棋子移动网络和障碍放置网络,其中棋子移动网络用于生成棋子移动前后的坐标,障碍放置网络用于生成放置障碍的坐标;/n(1)棋子移动网络包括走子局面价值子网和走子价值-策略转换子网,走子局面价值子网对当前局面特征矩阵F经过12层卷积层和3层Dropout层处理后得到走子局面价值张量,3层Dropout层分别处于第4、8、12层卷积层之后;走子价值-策略转换子网包含两个部分,第一部分将走子局面价值张量经过1层全连接层得到表示预估胜率的标量,第二部分包含4层卷积层和1层全连接层,走子局面价值张量经过4层卷积层后得到走子策略张量,走子策略张量经过1层全连接层后输出策略矩阵P,其中每一个元素都代表一种走法;在将P中所有非法走法所对应的概率置零后进行softmax操作,以得到所有非零元素均代表合法走法的策略矩阵P

【技术特征摘要】
20200116 CN 20201004622221.一种基于深度卷积神经网络的亚马逊棋招法生成方法,其特征在于,包括以下内容:
针对当前棋局,使用经训练的网络模型生成最优招法;
所述网络模型包括棋子移动网络和障碍放置网络,其中棋子移动网络用于生成棋子移动前后的坐标,障碍放置网络用于生成放置障碍的坐标;
(1)棋子移动网络包括走子局面价值子网和走子价值-策略转换子网,走子局面价值子网对当前局面特征矩阵F经过12层卷积层和3层Dropout层处理后得到走子局面价值张量,3层Dropout层分别处于第4、8、12层卷积层之后;走子价值-策略转换子网包含两个部分,第一部分将走子局面价值张量经过1层全连接层得到表示预估胜率的标量,第二部分包含4层卷积层和1层全连接层,走子局面价值张量经过4层卷积层后得到走子策略张量,走子策略张量经过1层全连接层后输出策略矩阵P,其中每一个元素都代表一种走法;在将P中所有非法走法所对应的概率置零后进行softmax操作,以得到所有非零元素均代表合法走法的策略矩阵Pvalid,选取Pvalid中概率最大的一点(x*,y*)通过下式映射为棋子走法:



其中,“/”表示整除运算,“%”表示取余运算,且棋盘坐标A,…,J与1,…,10一一对应,为预测的棋子坐标,为预测的落子坐标;
F由Fk组成,k∈{1,2,3,4},Fk中元素通过如下公式计算:



其中,局面特征矩阵Fk的第ij号元素的值表示为:在棋盘矩阵中,以第k号棋子所在位置(ki,kj)与目标位置(i,j)为对角线所围成的矩形区域I各元素值之和的均值;Mxy表示棋盘矩阵M中位置(x,y)处的元素值;cardI表示集合I中元素的个数;
棋子移动网络的损失函数通过如下公式计算:



L1为走子局面价值张量经过全连接层处理得到的预测结果误差,具体通过如下公式计算:



其中为棋子移动网络给出的预测值,...

【专利技术属性】
技术研发人员:施重阳廖兆和柴增豪
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1