【技术实现步骤摘要】
一种基于自学习模型的麻将博弈决策方法
[0001]本专利技术属于人工智能领域,具体涉及一种基于自学习模型的麻将博弈决策方法。
技术介绍
[0002]麻将博弈作为非完美信息博弈的代表之一,已经有许多技术方案来设计AI模拟人类在博弈中做出决策。目前,先有的技术主要有两大类。
[0003](1)第一类基于博弈树搜索与知识推理。麻将经过相应的抽象之后,展开成一颗博弈树来表示,博弈树包含了所有参与者在博弈过程中遇到的博弈状态以及相应的决策动作,从根节点开始,经过不同参与者做出决策动作以及状态发生转移后,博弈树就会产生新的分支,而叶子节点就代表最终的结果。
[0004](2)第二类基于深度强化学习的博弈方法。利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于状态和回报做决策的能力,对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决。
[0005]方法(1)中,如果在决策中,考虑所有四个玩家的动作,整个游戏树将变得非常大。另外,随着游戏树搜索层数的加深,算法要考虑的状态节点也在不断地增加,导致,搜索算法的计算时间就会呈指数级增长,从而无法在有限的时间内给出决策动作。
[0006]方法(2)中,目前,在麻将中,运用此技术较好的是微软的“Suphx”系统,在模型的训练学习阶段,将一些本来对玩家隐藏的信息暴露出来,从而使得训练朝着更加接近实际最优的方向优化。但是,该系统也有不足的地方。一方面,“Suphx”在强化学习中,所用到的策略梯度算法,对步长十分敏感,但是又难以选择合适的步长 ...
【技术保护点】
【技术特征摘要】
1.一种基于自学习模型的麻将博弈决策方法,其特征在于,包括以下步骤:S1、采集麻将视频数据,并对其进行预处理获得编码矩阵;S2、根据编码矩阵生成多维矩阵,构建自学习模型;S3、基于自学习模型与神经网络,构建初始博弈树;S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价,得到最终的博弈决策分析结果。2.根据权利要求1所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S1包括以下分步骤:S11、通过摄像头采集麻将视频数据,并用帧过滤方法提取麻将视频数据中每一帧图像,并对每一帧图像进行预处理;S12、基于预处理后的每一帧图像中麻将的张数以及牌型,通过one
‑
hot的编码方式生成编码矩阵。3.根据权利要求2所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S11中,预处理的方法具体为:对每一帧图像依次进行灰度化、几何变化和图像增强处理;所述S12中,生成编码矩阵的方法具体为:构建4*27的矩阵,其中矩阵的行表示每种麻将牌的数量,矩阵的列表示每种麻将牌的类型,根据预处理后的每一帧图像中麻将的张数以及牌型将矩阵中的对应位置记录为1,其余位置设置为0,得到编码矩阵。4.根据权利要求2所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S2具体为:根据编码矩阵获取对局中麻将的所有信息,包括玩家的手牌信息、其他玩家的出牌信息以及场面上已经打出的牌的信息,得到多维矩阵,进而根据多维矩阵构建自学习模型;其中,所述多维矩阵包括自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征、出牌顺序特征、对局中碰牌特征、对局中杠牌特征、胡牌顺序特征、其他玩家胡牌信息特征、其他玩家的胡牌分数特征和总的弃牌信息特征。5.根据权利要求4所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S2中,自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型;其中,所述选牌子模型包括麻将特殊规则特征、玩家自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征和总的弃牌信息特征;所述碰牌子模型和杠牌子模型均包括玩家自身的手牌特征、总的弃牌信息特征、出牌顺序特征和其他玩家胡牌信息特征;所述胡牌子模型包括玩家自身的手牌特征、总的弃牌信息特征、对局中碰牌特征、对局中杠牌特征、其他玩家的胡牌分数特征和胡牌顺序特征。6.根据权利要求5所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S3中,初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法;所述玩家摸牌决策方法包括以下步骤:SA1、通过玩家摸牌判断是否能自摸;若是,则将胡牌子模型输入神经网络,判断是否决定胡牌,若是,则对局结束;若否,则
进入SA2;若否,则进入SA...
【专利技术属性】
技术研发人员:苟先太,魏峰,顾凡,苟瀚文,程丽红,曾开心,蒋晓凤,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。