一种基于自学习模型的麻将博弈决策方法技术

技术编号:35081408 阅读:17 留言:0更新日期:2022-09-28 11:50
本发明专利技术公开了一种基于自学习模型的麻将博弈决策方法,包括以下步骤:S1、采集麻将视频数据,并对其进行预处理获得编码矩阵;S2、根据编码矩阵生成多维矩阵,构建自学习模型;S3、基于自学习模型与神经网络,构建初始博弈树;S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价,得到最终的博弈决策分析结果。本发明专利技术利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于目标函数和奖赏函数做决策的能力,对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决。决。决。

【技术实现步骤摘要】
一种基于自学习模型的麻将博弈决策方法


[0001]本专利技术属于人工智能领域,具体涉及一种基于自学习模型的麻将博弈决策方法。

技术介绍

[0002]麻将博弈作为非完美信息博弈的代表之一,已经有许多技术方案来设计AI模拟人类在博弈中做出决策。目前,先有的技术主要有两大类。
[0003](1)第一类基于博弈树搜索与知识推理。麻将经过相应的抽象之后,展开成一颗博弈树来表示,博弈树包含了所有参与者在博弈过程中遇到的博弈状态以及相应的决策动作,从根节点开始,经过不同参与者做出决策动作以及状态发生转移后,博弈树就会产生新的分支,而叶子节点就代表最终的结果。
[0004](2)第二类基于深度强化学习的博弈方法。利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于状态和回报做决策的能力,对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决。
[0005]方法(1)中,如果在决策中,考虑所有四个玩家的动作,整个游戏树将变得非常大。另外,随着游戏树搜索层数的加深,算法要考虑的状态节点也在不断地增加,导致,搜索算法的计算时间就会呈指数级增长,从而无法在有限的时间内给出决策动作。
[0006]方法(2)中,目前,在麻将中,运用此技术较好的是微软的“Suphx”系统,在模型的训练学习阶段,将一些本来对玩家隐藏的信息暴露出来,从而使得训练朝着更加接近实际最优的方向优化。但是,该系统也有不足的地方。一方面,“Suphx”在强化学习中,所用到的策略梯度算法,对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的变化差异过大则不利于学习;另一方面,在回报函数的设计上,并不能针对“血战麻将”这一麻将博弈进行适配和优化。

技术实现思路

[0007]针对现有技术中的上述不足,本专利技术提供的一种基于自学习模型的麻将博弈决策方法解决了现实情景的麻将博弈过程中智能AI筛选出最优策略比较困难且过程复杂的问题。
[0008]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于自学习模型的麻将博弈决策方法,包括以下步骤:S1、采集麻将视频数据,并对其进行预处理获得编码矩阵;S2、根据编码矩阵生成多维矩阵,构建自学习模型;S3、基于自学习模型与神经网络,构建初始博弈树;S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价,得到最终的博弈决策分析结果。
[0009]进一步地:所述S1包括以下分步骤:S11、通过摄像头采集麻将视频数据,并用帧过滤方法提取麻将视频数据中每一帧
图像,并对每一帧图像进行预处理;S12、基于预处理后的每一帧图像中麻将的张数以及牌型,通过one

hot的编码方式生成编码矩阵。
[0010]进一步地:所述S11中,预处理的方法具体为:对每一帧图像依次进行灰度化、几何变化和图像增强处理;所述S12中,生成编码矩阵的方法具体为:构建4*27的矩阵,其中矩阵的行表示每种麻将牌的数量,矩阵的列表示每种麻将牌的类型,根据预处理后的每一帧图像中麻将的张数以及牌型将矩阵中的对应位置记录为1,其余位置设置为0,得到编码矩阵。
[0011]上述进一步方案的有益效果为:编码矩阵可以反映当前对局的信息,便于后续的神经网络分析出决策结果。
[0012]进一步地:所述S2具体为:根据编码矩阵获取对局中麻将的所有信息,包括玩家的手牌信息、其他玩家的出牌信息以及场面上已经打出的牌的信息,得到多维矩阵,进而根据多维矩阵构建自学习模型;其中,所述多维矩阵包括自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征、出牌顺序特征、对局中碰牌特征、对局中杠牌特征、胡牌顺序特征、其他玩家胡牌信息特征、其他玩家的胡牌分数特征和总的弃牌信息特征。
[0013]进一步地:所述S2中,自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型;其中,所述选牌子模型包括麻将特殊规则特征、玩家自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征和总的弃牌信息特征;所述碰牌子模型和杠牌子模型均包括玩家自身的手牌特征、总的弃牌信息特征、出牌顺序特征和其他玩家胡牌信息特征;所述胡牌子模型包括玩家自身的手牌特征、总的弃牌信息特征、对局中碰牌特征、对局中杠牌特征、其他玩家的胡牌分数特征和胡牌顺序特征。
[0014]进一步地:所述S3中,初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法;所述玩家摸牌决策方法包括以下步骤:SA1、通过玩家摸牌判断是否能自摸;若是,则将胡牌子模型输入神经网络,判断是否决定胡牌,若是,则对局结束;若否,则进入SA2;若否,则进入SA2;SA2、根据玩家当前的牌判断是否能自杠;若是,则将杠牌子模型输入神经网络,判断是否选择杠牌,若是,则判断杠牌是否点炮,若点炮,则对局结束;若否,则进入SA3;若否,则进入SA3;SA3、将选牌子模型输入神经网络选择一张手牌打出,判断打出的牌是否点炮;若是,则对局结束;若否,则轮到其他玩家出牌或者流局;
所述其他玩家出牌决策方法包括以下步骤:SB1、根据其他玩家打了一张牌,判断能否胡牌;若是,则将胡牌子模型输入神经网络,判断是否选择胡牌,若是,则对局结束,若否,则进入SB2;若否,则进入SB2;SB2、根据玩家当前的牌判断是否能自杠;若是,则将杠牌子模型输入神经网络,判断是否杠牌,若是,则进入杠牌动作,若否,则进入SB3;若否,则进入SB3;SB3、根据玩家当前的牌判断是否能碰;若是,则将碰牌子模型输入神经网络,判断是否选择碰牌,若是,则进入碰牌动作;若否,则进入过牌动作;若否,则进入过牌动作。
[0015]进一步地:所述步骤S4具体为:根据初始博弈树的决策结果,通过目标函数和奖赏函数分别计算所述决策结果的目标函数值和奖赏函数值,根据目标函数值和奖赏函数值进行决策结果评价,当目标函数值和奖赏函数值均达到设定的阈值时,则将初始博弈树的决策结果作为最终的博弈决策分析结果。
[0016]进一步地:所述S4中,所述目标函数的表达式具体为:式中,为状态S
t
下采取动作a
t
的回报,为更新前后的概率密度比,为状态S
t
下采取动作a
t
的期望值,为与环境做互动更新的参数。
[0017]进一步地:所述S4中,所述奖赏函数的表达式具体为:式中,、和均为的加权系数,I
shoot
为在一局中的点炮参数,当I
shoot
=1时,代表已点炮,当I
shoot
=0时代表未点炮;I
drew
为在一局中的被自摸参数,当I
drew
=1时,代表已被自摸,当I
drew
=0时代表未被自摸;I
unready
为在一局中的听牌参数,当I
unready
=1时,代表未听牌,当I
unready
=0时代表已听牌;R为奖励值,为自身胡牌与另外两家之中最大胡牌的相对分数,为自身本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自学习模型的麻将博弈决策方法,其特征在于,包括以下步骤:S1、采集麻将视频数据,并对其进行预处理获得编码矩阵;S2、根据编码矩阵生成多维矩阵,构建自学习模型;S3、基于自学习模型与神经网络,构建初始博弈树;S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价,得到最终的博弈决策分析结果。2.根据权利要求1所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S1包括以下分步骤:S11、通过摄像头采集麻将视频数据,并用帧过滤方法提取麻将视频数据中每一帧图像,并对每一帧图像进行预处理;S12、基于预处理后的每一帧图像中麻将的张数以及牌型,通过one

hot的编码方式生成编码矩阵。3.根据权利要求2所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S11中,预处理的方法具体为:对每一帧图像依次进行灰度化、几何变化和图像增强处理;所述S12中,生成编码矩阵的方法具体为:构建4*27的矩阵,其中矩阵的行表示每种麻将牌的数量,矩阵的列表示每种麻将牌的类型,根据预处理后的每一帧图像中麻将的张数以及牌型将矩阵中的对应位置记录为1,其余位置设置为0,得到编码矩阵。4.根据权利要求2所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S2具体为:根据编码矩阵获取对局中麻将的所有信息,包括玩家的手牌信息、其他玩家的出牌信息以及场面上已经打出的牌的信息,得到多维矩阵,进而根据多维矩阵构建自学习模型;其中,所述多维矩阵包括自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征、出牌顺序特征、对局中碰牌特征、对局中杠牌特征、胡牌顺序特征、其他玩家胡牌信息特征、其他玩家的胡牌分数特征和总的弃牌信息特征。5.根据权利要求4所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S2中,自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型;其中,所述选牌子模型包括麻将特殊规则特征、玩家自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征和总的弃牌信息特征;所述碰牌子模型和杠牌子模型均包括玩家自身的手牌特征、总的弃牌信息特征、出牌顺序特征和其他玩家胡牌信息特征;所述胡牌子模型包括玩家自身的手牌特征、总的弃牌信息特征、对局中碰牌特征、对局中杠牌特征、其他玩家的胡牌分数特征和胡牌顺序特征。6.根据权利要求5所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S3中,初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法;所述玩家摸牌决策方法包括以下步骤:SA1、通过玩家摸牌判断是否能自摸;若是,则将胡牌子模型输入神经网络,判断是否决定胡牌,若是,则对局结束;若否,则
进入SA2;若否,则进入SA...

【专利技术属性】
技术研发人员:苟先太魏峰顾凡苟瀚文程丽红曾开心蒋晓凤
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1