一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质技术方案

技术编号:34958654 阅读:23 留言:0更新日期:2022-09-17 12:37
本发明专利技术提供了一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质,包括,获取玩家的当前状态;确定玩家在所述当前状态下的多个预测动作;对于所述多个预测动作中的每一个:将所述当前状态和预测动作输入棋牌模型,模型输出所述预测动作对应的第一评分,其中,所述棋牌模型通过基于蒙特卡洛采样得到的训练样本训练得到;将最大的第一评分所对应的预测动作作为玩家的当前动作,使得可以将模型的输出变成1维,便于结果收敛。便于结果收敛。便于结果收敛。

【技术实现步骤摘要】
一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质


[0001]本专利技术涉及机器学习
,具体而言,涉及一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质。

技术介绍

[0002]对于现在流行的深度强化学习方法,例如,ppo、ac和dqn等,都是通过神经网络去拟合游戏策略得到玩家当前每个动作的概率,或每个动作的价值的。但是在棋牌游戏中,玩家的所能进行的动作是很多的,比如四人麻将,里面涉及到的牌型有多种,每种牌型又有多种类型,且不同牌型还有很多不同的组合,因此,难以通过现有的神经网络计算玩家每个动作的价值。
[0003]有鉴于此,本申请提出了一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质,使得玩家可以在有多个可操作的动作的情况下,更准确地得到每个可操作的动作的价值。

技术实现思路

[0004]本专利技术的目的在于提供一种棋牌强化学习方法,包括,获取玩家的当前状态;确定玩家在所述当前状态下的多个预测动作;对于所述多个预测动作中的每一个:将所述当前状态和预测动作输入棋牌模型,模型输出所述预测动作对应的第一评分;其中,棋牌模型通过基于蒙特卡洛采样得到的训练样本训练得到;将最大的第一评分所对应的预测动作作为玩家的当前动作。
[0005]进一步的,所述棋牌模型通过以下方式获得:获取样本对局信息;基于所述样本对局信息中玩家的输赢,标注所述样本对局信息的分值;将所述被标注的样本对局信息输入初始棋牌模型进行训练,得到训练好的棋牌模型。
[0006]进一步的,所述获取样本对局信息,包括:获取玩家在每局游戏中的多个样本当前状态;对于所述多个样本当前状态中的每一个:基于标注分值,分别对所述样本当前状态对应的多个样本预测动作和样本当前动作赋值;将每局游戏中的所述多个样本当前状态、每个所述样本当前状态对应的所述样本预测动作的值和所述样本当前动作的值作为所述样本对局信息。
[0007]进一步的,所述得到训练好的棋牌模型,包括,将所述样本对局信息输入所述初始棋牌模型,基于所述初始棋牌模型的输出和标签构建损失函数;其中,所述损失函数为:
[0008][0009]其中,N为每场对局中所述样本当前状态的总数;y
i
为所述初始棋牌模型的输出,y

i
为标签值;基于所述损失函数迭代更新所述初始棋牌模型的参数,得到所述棋牌模型。
[0010]进一步的,所述当前状态至少包括玩家当前所拥有的牌、其他玩家打出的牌、碰杠的牌和/或玩家当前能胡的牌;所述获取玩家的当前状态包括:将当前游戏信息输入神经网
络模型,模型输出所述玩家当前所拥有的牌、所述其他玩家打出的牌、所述碰杠的牌和/或所述玩家当前能胡的牌的第一特征向量。
[0011]进一步的,所述当前状态还包括玩家所留牌型和其他玩家所留牌型;所述将所述当前状态和预测动作输入棋牌模型,模型输出所述预测动作对应的第一评分,包括:将所述第一特征向量、所述玩家所留牌型、所述其他玩家所留牌型进行全连接,得到第二特征向量;将所述第二特征向量和所述预测动作输入所述棋牌模型,模型输出该预测动作的第一评分。
[0012]进一步的,所述神经网络模型至少包括两个9*3*4的卷积层和一个9*4*1的卷积层;其中,所述9*3*4的卷积层分别用于提取玩家当前拥有的牌的特征和其他玩家打出的牌的特征;所述9*4*1的卷积层用于提取碰杠胡牌的特征。
[0013]本专利技术的目的在于提供一种基于蒙特卡洛采样的棋牌强化学习系统,包括,当前状态获取模块,用于获取玩家的当前状态;预测动作确定模块,用于确定玩家在所述当前状态下的多个预测动作;第一评分确定模块,用于对于所述多个预测动作中的每一个:将所述当前状态和预测动作输入棋牌模型,模型输出所述预测动作对应的第一评分;当前动作确定模块,用于将最大的第一评分所对应的预测动作作为玩家的当前动作;模型训练模块,用于获取棋牌模型;其中,棋牌模型通过基于蒙特卡洛采样得到的训练样本训练得到;样本获取模块,用于获取样本对局信息。
[0014]进一步的,所述棋牌模型通过以下方式获得:获取多个样本对局信息;基于所述样本对局信息中玩家的输赢,标注所述样本对局信息的分值;将被标注的样本对局信息输入初始棋牌模型进行训练,得到训练好的棋牌模型。
[0015]本专利技术的目的在于提供一种计算机可读存储介质,所述存储介质存储计算机指令,所述计算机指令被处理器执行时,实现上述任一项所述的基于棋牌的强化学习方法对应的操作。
[0016]本专利技术实施例的技术方案至少具有如下优点和有益效果:
[0017]本说明书中的一些实施例通过将预测动作和当前状态一起输入模型,得到第一评分,以评估该预测动作的优劣;使得可以将模型的输出变成1维,便于结果收敛。
附图说明
[0018]图1为本专利技术一些实施例提供的一种基于蒙特卡洛采样的棋牌强化学习方法的示例性流程图;
[0019]图2为本专利技术一些实施例提供的获得棋牌模型的示例性示意图;
[0020]图3为本专利技术一些实施例提供的获取样本对局信息的示例性流程图;
[0021]图4为本专利技术一些实施例提供的一种基于蒙特卡洛采样的棋牌强化学习系统的示例性模块图。
具体实施方式
[0022]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施
例的组件可以以各种不同的配置来布置和设计。
[0023]图1为本专利技术一些实施例提供的一种基于蒙特卡洛采样的棋牌强化学习方法的示例性流程图。在一些实施例中,流程100可以由系统400执行。如图1所示,流程100可以包括以下步骤:
[0024]步骤110,获取玩家的当前状态。在一些实施例中,步骤110可以由当前状态获取模块410执行。
[0025]当前状态可以为玩家出牌时的状态。以打麻将为例,当前状态可以为轮到玩家出牌时的状态。当前状态也可以是玩家进行碰杠胡时的状态。
[0026]在一些实施例中,当前状态至少包括玩家当前所拥有的牌、其他玩家打出的牌、碰杠的牌、玩家当前能胡的牌等中的一种或多种。可以通过各种可行的方式获取玩家的当前状态,例如,通过图像识别技术获取当前状态等。
[0027]在一些实施例中,可以将玩家的当前游戏信息输入神经网络模型,模型输出玩家当前所拥有的牌、其他玩家打出的牌、碰杠的牌和/或玩家当前能胡的牌的第一特征向量。当前游戏信息可以是指承载有玩家出牌时的游戏信息的数据。以打麻将为例,当前游戏信息可以包括牌桌的照片、玩家所拥有的牌的照片、游戏数据等信息。当前游戏信息可以通过各种可行的方式获取,例如,对于线下,可以通过照相机获取;对于线上,可以直接提取游戏时的数据。例如,利用不同的卷积层分别处理当前游戏信息,以获取第一特征向量。
[0028]在一些实施例中,由于麻将分为3种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于蒙特卡洛采样的棋牌强化学习方法,其特征在于,包括,获取玩家的当前状态;确定玩家在所述当前状态下的多个预测动作;对于所述多个预测动作中的每一个:将所述当前状态和预测动作输入棋牌模型,模型输出所述预测动作对应的第一评分;其中,所述棋牌模型通过基于蒙特卡洛采样得到的训练样本训练得到;将最大的第一评分所对应的预测动作作为玩家的当前动作。2.根据权利要求1所述的基于棋牌的强化学习方法,其特征在于,所述棋牌模型通过以下方式获得:获取多个样本对局信息;基于所述样本对局信息中玩家的输赢,标注所述样本对局信息的分值;将被标注的样本对局信息输入初始棋牌模型进行训练,得到训练好的棋牌模型。3.根据权利要求2所述的基于棋牌的强化学习方法,其特征在于,获取样本对局信息,包括:获取玩家在每局游戏中的多个样本当前状态;对于所述多个样本当前状态中的每一个:基于标注分值,分别对所述样本当前状态对应的多个样本预测动作和样本当前动作赋值;将每局游戏中的所述多个样本当前状态、每个所述样本当前状态对应的所述样本预测动作的值和所述样本当前动作的值作为所述样本对局信息。4.根据权利要求3所述的基于棋牌的强化学习方法,其特征在于,所述得到训练好的棋牌模型,包括,将所述样本对局信息输入所述初始棋牌模型,基于所述初始棋牌模型的输出和标签构建损失函数;其中,所述损失函数为:其中,N为每场对局中所述样本当前状态的总数;y
i
为所述初始棋牌模型的输出,y

i
为标签值;基于所述损失函数迭代更新所述初始棋牌模型的参数,得到所述棋牌模型。5.根据权利要求1所述的基于棋牌的强化学习方法,其特征在于,所述当前状态至少包括玩家当前所拥有的牌、其他玩家打出的牌、碰杠的牌和/或玩家当前能胡的牌;所述获取玩家的当前状态包括:将当前游戏信息输入神经网络模型,模型输出所述玩家当前所拥有的牌、所述其他玩...

【专利技术属性】
技术研发人员:尹学渊肖钦引康彪江天宇
申请(专利权)人:成都潜在人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1