国标麻将游戏自动博弈方法、系统、设备及存储介质技术方案

技术编号:37855482 阅读:12 留言:0更新日期:2023-06-14 22:48
本发明专利技术公开了一种国标麻将游戏自动博弈方法、系统、设备及存储介质,吸收了传统方法的设计思路,使用深度强化学习方法和分布式训练框架的工程架构,能够提升设备利用效率,可以更为高效更为全面的进行游戏仿真,通过智能体的自博弈能够采集到大量的训练数据,通过深度强化学习方法能够训练出高性能的智能体,将训练得到的智能体应用于国标麻将游戏自动博弈能够提升整体的智能化程度,也能够提升用户体验。验。验。

【技术实现步骤摘要】
国标麻将游戏自动博弈方法、系统、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种国标麻将游戏自动博弈方法、系统、设备及存储介质。

技术介绍

[0002]近年来,深度强化学习取得了令人瞩目的成果。由于与现实场景类似并具有良好的交互性等特点,游戏成为了深度强化学习技术理想的实验靶场。目前,人工智能技术在简单的游戏场景中已经取得了超越人类的水平,研究热点开始转向环境更加复杂的游戏,如非完美信息条件下多智能体合作或竞争环境。
[0003]国标麻将游戏环境是一种经典的零和博弈环境,在国标麻将游戏环境中,共有四名玩家同台竞技并各自为战,在34种、132张牌中收集想要的牌组成不同的和牌番型。智能体需要在和牌番型与和牌概率中权衡,还需根据场上局势分析对手所需牌型,减少对手和牌获胜的可能。牌墙、暗牌等不可见牌型为国标麻将环境增加了非完美信息因素,给游戏环境增加了不确定性和庞大的动作空间;国标麻将番型多样,上至88番下至1番,共12个等级81种番型,且部分番型可叠加,极大增加了游戏的复杂性。
[0004]目前国标麻将游戏自动博弈方案中大多采用如下两类方法:
[0005]第一类是采用基于规则的方法,如启发式算法、搜索树、行为树等,此类方法引入人类经验信息,往往采取获胜最快的动作,缺点是难以利用全部状态信息,如对手信息、时序信息等,也难以权衡防御策略,因此,智能化程度不高。具体的:此类方法往往是由现有的国标麻将游戏经验出发,针对不同情况下的状态信息,依据先验知识对决策树的搜索范围进行限制。国标麻将中不可见牌型的存在带来庞大的状态空间,跳跃的回合轮次使得在考虑全局信息情况下,搜索树的宽度庞大难以承受。而仅考虑己方状态的决策树难以搜索到有效的防御策略,因此性能很容易遇到瓶颈且很难提升,导致智能化程度较低。
[0006]第二类是采用监督学习方法,此类方法采用神经网络拟合人类专家动作,具有训练速度快,计算资源需求小的优势。但此类方法的性能上限严重依赖训练数据集质量,且难以做到风格多样,因此,智能化程度也有待提升。具体的:此类方法对训练集质量敏感,智能体的水平上限、决策风格与训练集数据相关性强,当数据集确定时,很难突破原有性能上限,也很难制作多风格的决策系统。人类专家对局数据收集成本巨大,由于国标麻将游戏中暗牌的存在为游戏带来随机性,因此难以通过少量对局判断数据的质量,也难以在训练过程中实时判断不同阶段智能体的决策水平,因此,同样导致智能化程度较低。
[0007]随着强化学习技术的发展与计算机硬件的迭代更新,越来越多的智能决策工作开始围绕深度强化学习技术来开展。这一技术路线逐渐成为解决国标麻将游戏问题的主流方法,同时此方法也可以向同类的其他非完美信息多智能体回合制博弈问题进行推广。但是,基于强化学习的国标麻将方法依赖大量地与环境交互,因此高效的并发系统尤为重要。传统的方法仅考虑算力的堆叠,往往忽视了并发交互环境之间带来的影响,降低了计算设备的利用效率,增大了智能体开发的计算成本与时间成本。
[0008]因此,有必要研究新的技术方案,在提升国标麻将游戏自动博弈智能化程度的同时,提升设备利用效率。

技术实现思路

[0009]本专利技术的目的是提供一种国标麻将游戏自动博弈方法、系统、设备及存储介质,可以在提升国标麻将游戏自动博弈智能化程度的同时,提升设备利用效率。
[0010]本专利技术的目的是通过以下技术方案实现的:
[0011]一种国标麻将游戏自动博弈方法,包括:
[0012]构建训练架构并进行训练,训练架构包括:数据训练模块、数据收集模块与消息传输中间件;其中,数据收集模块包含多个容器,容器之间采用docker虚拟化技术进行隔离,每个容器中包含国标麻将游戏环境内核和四个实时与环境交互并采集数据的智能体,四个智能体结合国标麻将游戏环境内核进行国标麻将游戏对局,国标麻将游戏对局记录数据经处理后作为一个容器采集到的训练数据,所有容器采集到的训练数据即为数据采集模块采集到的训练数据;数据训练模块利用数据收集模块采集到的训练数据进行智能体的训练,更新的智能体参数广播至数据收集模块由所有智能体共享;消息传输中间件连接数据收集模块与数据训练模块,负责训练数据与智能体参数的传输;
[0013]训练完毕后,将智能体应用于国标麻将游戏自动博弈。
[0014]一种国标麻将游戏自动博弈系统,包括:
[0015]训练架构构建与训练单元,用于构建训练架构并进行训练,训练架构包括:数据训练模块、数据收集模块与消息传输中间件;其中,数据收集模块包含多个容器,容器之间采用docker虚拟化技术进行隔离,每个容器中包含国标麻将游戏环境内核和四个实时与环境交互并采集数据的智能体,四个智能体结合国标麻将游戏环境内核进行国标麻将游戏对局,国标麻将游戏对局记录数据经处理后作为一个容器采集到的训练数据,所有容器采集到的训练数据即为数据采集模块采集到的训练数据;数据训练模块利用数据收集模块采集到的训练数据进行智能体的训练,更新的智能体参数广播至数据收集模块由所有智能体共享;消息传输中间件连接数据收集模块与数据训练模块,负责训练数据与智能体参数的传输;
[0016]自动博弈单元,用于训练完毕后,将智能体应用于国标麻将游戏自动博弈。
[0017]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0018]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0019]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0020]由上述本专利技术提供的技术方案可以看出,使用深度强化学习方法和分布式训练框架的工程架构,能够提升设备利用效率,可以更为高效更为全面的进行游戏仿真,通过智能体的自博弈能够采集到大量的训练数据,通过深度强化学习方法能够训练出高性能的智能体,将训练得到的智能体应用于国标麻将游戏自动博弈能够提升整体的智能化程度,也能够提升用户体验。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0022]图1为本专利技术实施例提供的一种国标麻将游戏自动博弈方法框架示意图;
[0023]图2为本专利技术实施例提供的一种训练架构的示意图;
[0024]图3为本专利技术实施例提供的一种神经网络的示意图;
[0025]图4为本专利技术实施例提供的一种国标麻将游戏自动博弈系统的示意图;
[0026]图5为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0027]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种国标麻将游戏自动博弈方法,其特征在于,包括:构建训练架构并进行训练,训练架构包括:数据训练模块、数据收集模块与消息传输中间件;其中,数据收集模块包含多个容器,容器之间采用docker虚拟化技术进行隔离,每个容器中包含国标麻将游戏环境内核和四个实时与环境交互并采集数据的智能体,四个智能体结合国标麻将游戏环境内核进行国标麻将游戏对局,国标麻将游戏对局记录数据经处理后作为一个容器采集到的训练数据,所有容器采集到的训练数据即为数据采集模块采集到的训练数据;数据训练模块利用数据收集模块采集到的训练数据进行智能体的训练,更新的智能体参数广播至数据收集模块由所有智能体共享;消息传输中间件连接数据收集模块与数据训练模块,负责训练数据与智能体参数的传输;训练完毕后,将智能体应用于国标麻将游戏自动博弈。2.根据权利要求1所述的一种国标麻将游戏自动博弈方法,其特征在于,该方法还包括:设置一个Elo评估模块,其通过带有CPU的容器实现,定期获取最新智能体参数的智能体,并与对手池中多个对手并行进行对局评测。3.根据权利要求2所述的一种国标麻将游戏自动博弈方法,其特征在于,该方法还包括:采用容器的地址映射技术,建立数据训练模块、数据收集模块与Elo评估模块共同映射地址;其中,开辟一块共享空间,使数据训练模块的容器、数据收集模块的容器与Elo评估模块的容器对共享空间都有读写访问权限,且共享空间的内容是所有容器共享的,每个容器会将自身虚拟地址映射为共享空间的物理地址,实现共享空间的读写访问。4.根据权利要求1所述的一种国标麻将游戏自动博弈方法,其特征在于,一个容器采集到的训练数据包括:每一回合时游戏环境的状态,输出的动作的采样概率、状态价值与执行的动作,国标麻将游戏环境内核反馈的奖励值;其中,动作是指智能体打出的手牌。5.根据权利要求1或4所述的一种国标麻将游戏自动博弈方法,其特征在于,所述智能体参数包括智能体中神经网络的参数,所述神经网络包括:依次设置的多个卷积层、归一化与激活函数层以及多个残差块,最后一个残差块连接两部分全连接层,第一部分全连接层输出动作概率分布,根据动作概率分布采样一个动作并执行;第二部分全连接层输出状态价值;其中,动作是指智能体打出的手牌,动作概率分布、采样的动作以及状态价值均为训练数据中的一部分。6.根据权利要求4所述的一...

【专利技术属性】
技术研发人员:李厚强周文罡范智磊赵鉴赵有朋
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1