国标麻将游戏自动博弈方法、系统、设备及存储介质技术方案

技术编号：37855482 阅读：12 留言：0更新日期：2023-06-14 22:48

本发明专利技术公开了一种国标麻将游戏自动博弈方法、系统、设备及存储介质，吸收了传统方法的设计思路，使用深度强化学习方法和分布式训练框架的工程架构，能够提升设备利用效率，可以更为高效更为全面的进行游戏仿真，通过智能体的自博弈能够采集到大量的训练数据，通过深度强化学习方法能够训练出高性能的智能体，将训练得到的智能体应用于国标麻将游戏自动博弈能够提升整体的智能化程度，也能够提升用户体验。验。验。

全部详细技术资料下载

【技术实现步骤摘要】
国标麻将游戏自动博弈方法、系统、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种国标麻将游戏自动博弈方法、系统、设备及存储介质。

技术介绍

[0002]近年来，深度强化学习取得了令人瞩目的成果。由于与现实场景类似并具有良好的交互性等特点，游戏成为了深度强化学习技术理想的实验靶场。目前，人工智能技术在简单的游戏场景中已经取得了超越人类的水平，研究热点开始转向环境更加复杂的游戏，如非完美信息条件下多智能体合作或竞争环境。
[0003]国标麻将游戏环境是一种经典的零和博弈环境，在国标麻将游戏环境中，共有四名玩家同台竞技并各自为战，在34种、132张牌中收集想要的牌组成不同的和牌番型。智能体需要在和牌番型与和牌概率中权衡，还需根据场上局势分析对手所需牌型，减少对手和牌获胜的可能。牌墙、暗牌等不可见牌型为国标麻将环境增加了非完美信息因素，给游戏环境增加了不确定性和庞大的动作空间；国标麻将番型多样，上至88番下至1番，共12个等级81种番型，且部分番型可叠加，极大增加了游戏的复杂性。
[0004]目前国标麻将游戏自动博弈方案中大多采用如下两类方法：
[0005]第一类是采用基于规则的方法，如启发式算法、搜索树、行为树等，此类方法引入人类经验信息，往往采取获胜最快的动作，缺点是难以利用全部状态信息，如对手信息、时序信息等，也难以权衡防御策略，因此，智能化程度不高。具体的：此类方法往往是由现有的国标麻将游戏经验出发，针对不同情况下的状态信息，依据先验知识对决策树的搜索范围进行限制。国标...

【技术保护点】

【技术特征摘要】
1.一种国标麻将游戏自动博弈方法，其特征在于，包括：构建训练架构并进行训练，训练架构包括：数据训练模块、数据收集模块与消息传输中间件；其中，数据收集模块包含多个容器，容器之间采用docker虚拟化技术进行隔离，每个容器中包含国标麻将游戏环境内核和四个实时与环境交互并采集数据的智能体，四个智能体结合国标麻将游戏环境内核进行国标麻将游戏对局，国标麻将游戏对局记录数据经处理后作为一个容器采集到的训练数据，所有容器采集到的训练数据即为数据采集模块采集到的训练数据；数据训练模块利用数据收集模块采集到的训练数据进行智能体的训练，更新的智能体参数广播至数据收集模块由所有智能体共享；消息传输中间件连接数据收集模块与数据训练模块，负责训练数据与智能体参数的传输；训练完毕后，将智能体应用于国标麻将游戏自动博弈。2.根据权利要求1所述的一种国标麻将游戏自动博弈方法，其特征在于，该方法还包括：设置一个Elo评估模块，其通过带有CPU的容器实现，定期获取最新智能体参数的智能体，并与对手池中多个对手并行进行对局评测。3.根据权利要求2所述的一种国标麻将游戏自动博弈方法，其特征在于，该方法还包括：采用容器的地址映射技术，建立数据训练模块、数据收集模块与Elo评估模块共同映射地址；其中，开辟一块共享空间，使数据训练模块的容器、数据收集模块的容器与Elo评估模块的容器对共享空间都有读写访问权限，且共享空间的内容是所有容器共享的，每个容器会将自身虚拟地址映射为共享空间的物理地址，实现共享空间的读写访问。4.根据权利要求1所述的一种国标麻将游戏自动博弈方法，其特征在于，一个容器采集到的训练数据包括：每一回合时游戏环境的状态，输出的动作的采样概率、状态价值与执行的动作，国标麻将游戏环境内核反馈的奖励值；其中，动作是指智能体打出的手牌。5.根据权利要求1或4所述的一种国标麻将游戏自动博弈方法，其特征在于，所述智能体参数包括智能体中神经网络的参数，所述神经网络包括：依次设置的多个卷积层、归一化与激活函数层以及多个残差块，最后一个残差块连接两部分全连接层，第一部分全连接层输出动作概率分布，根据动作概率分布采样一个动作并执行；第二部分全连接层输出状态价值；其中，动作是指智能体打出的手牌，动作概率分布、采样的动作以及状态价值均为训练数据中的一部分。6.根据权利要求4所述的一...

【专利技术属性】
技术研发人员：李厚强，周文罡，范智磊，赵鉴，赵有朋，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人