一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质技术方案

技术编号：34958654 阅读：23 留言：0更新日期：2022-09-17 12:37

本发明专利技术提供了一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质，包括，获取玩家的当前状态；确定玩家在所述当前状态下的多个预测动作；对于所述多个预测动作中的每一个：将所述当前状态和预测动作输入棋牌模型，模型输出所述预测动作对应的第一评分，其中，所述棋牌模型通过基于蒙特卡洛采样得到的训练样本训练得到；将最大的第一评分所对应的预测动作作为玩家的当前动作,使得可以将模型的输出变成1维，便于结果收敛。便于结果收敛。便于结果收敛。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质

[0001]本专利技术涉及机器学习
，具体而言，涉及一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质。

技术介绍

[0002]对于现在流行的深度强化学习方法，例如，ppo、ac和dqn等，都是通过神经网络去拟合游戏策略得到玩家当前每个动作的概率，或每个动作的价值的。但是在棋牌游戏中，玩家的所能进行的动作是很多的，比如四人麻将，里面涉及到的牌型有多种，每种牌型又有多种类型，且不同牌型还有很多不同的组合，因此，难以通过现有的神经网络计算玩家每个动作的价值。
[0003]有鉴于此，本申请提出了一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质，使得玩家可以在有多个可操作的动作的情况下，更准确地得到每个可操作的动作的价值。

技术实现思路

[0004]本专利技术的目的在于提供一种棋牌强化学习方法，包括，获取玩家的当前状态；确定玩家在所述当前状态下的多个预测动作；对于所述多个预测动作中的每一个：将所述当前状态和预测动作输入棋牌模型，模型输出所述预测动作对应的第一评分；其中，棋牌模型通过基于蒙特卡洛采样得到的训练样本训练得到；将最大的第一评分所对应的预测动作作为玩家的当前动作。
[0005]进一步的，所述棋牌模型通过以下方式获得：获取样本对局信息；基于所述样本对局信息中玩家的输赢，标注所述样本对局信息的分值；将所述被标注的样本对局信息输入初始棋牌模型进行训练，得到训练好的棋牌模型。
[0006]进一步的，所述获取样本对局信息，包括：...

【技术保护点】

【技术特征摘要】
1.一种基于蒙特卡洛采样的棋牌强化学习方法，其特征在于，包括，获取玩家的当前状态；确定玩家在所述当前状态下的多个预测动作；对于所述多个预测动作中的每一个：将所述当前状态和预测动作输入棋牌模型，模型输出所述预测动作对应的第一评分；其中，所述棋牌模型通过基于蒙特卡洛采样得到的训练样本训练得到；将最大的第一评分所对应的预测动作作为玩家的当前动作。2.根据权利要求1所述的基于棋牌的强化学习方法，其特征在于，所述棋牌模型通过以下方式获得：获取多个样本对局信息；基于所述样本对局信息中玩家的输赢，标注所述样本对局信息的分值；将被标注的样本对局信息输入初始棋牌模型进行训练，得到训练好的棋牌模型。3.根据权利要求2所述的基于棋牌的强化学习方法，其特征在于，获取样本对局信息，包括：获取玩家在每局游戏中的多个样本当前状态；对于所述多个样本当前状态中的每一个：基于标注分值，分别对所述样本当前状态对应的多个样本预测动作和样本当前动作赋值；将每局游戏中的所述多个样本当前状态、每个所述样本当前状态对应的所述样本预测动作的值和所述样本当前动作的值作为所述样本对局信息。4.根据权利要求3所述的基于棋牌的强化学习方法，其特征在于，所述得到训练好的棋牌模型，包括，将所述样本对局信息输入所述初始棋牌模型，基于所述初始棋牌模型的输出和标签构建损失函数；其中，所述损失函数为：其中，N为每场对局中所述样本当前状态的总数；y
i
为所述初始棋牌模型的输出，y
′
i
为标签值；基于所述损失函数迭代更新所述初始棋牌模型的参数，得到所述棋牌模型。5.根据权利要求1所述的基于棋牌的强化学习方法，其特征在于，所述当前状态至少包括玩家当前所拥有的牌、其他玩家打出的牌、碰杠的牌和/或玩家当前能胡的牌；所述获取玩家的当前状态包括：将当前游戏信息输入神经网络模型，模型输出所述玩家当前所拥有的牌、所述其他玩...

【专利技术属性】
技术研发人员：尹学渊，肖钦引，康彪，江天宇，
申请(专利权)人：成都潜在人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人