【技术实现步骤摘要】
一种基于深度强化学习的斗地主AI改进方法
[0001]本专利技术涉及深度强化学习与智能斗地主智能体
,尤其涉及一种基于深度强化学习的斗地主AI改进方法。
技术介绍
[0002]近年来,人工智能在各类博弈游戏中取得了巨大的成就,比如围棋,德州扑克,麻将,DOTA2等。各位专家学者也在斗地主当中做出了很多的努力,在牌类游戏当中流行的算法Counterfactual Regret Minimization(CFR)以及它的变体不能在三人游戏中取得很好的效果;梯度下降方法,比如说A3C不能很自然地泛化之前没有见过的动作;一些研究将斗地主中的牌认为是一种分类问题,运用CNN神经网络出牌,但这也导致了训练出来的神经网络质量十分依赖于样本,然而样本是很难采集到的。
[0003]除了上述各类研究的不足之处,斗地主当中存在着许多强化学习中的问题,第一,计算耗费长,要通过深度强化学习来得到一个效果不错的智能体所需要的时间长,在斗地主AI平台当中,一般都把手牌表示为5
×
15的矩阵,运算时较为消耗资源,第二,智能体 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的斗地主AI改进方法,其特征在于,具体包括以下步骤:步骤1、在RLcard斗地主平台中对斗地主数据进行预处理,具体如下:步骤1.1、采集多个牌局内玩家出牌的信息,形成出牌数据集;步骤1.2、对出牌数据集进行处理,采集三个玩家最近总共的12步动作为一个数据,形成历史出牌数据集;步骤2、利用Double Deep Q Leaning算法构建深度强化学习框架,根据Double Deep Q Leaning当中神经网络的做法,神经网络里包含四层全连接层用以形成Q值;步骤3、将步骤1.1中的出牌数据集导入Double Deep Q Leaning深度强化学习框架,进行训练并与随机智能体对战,记录结果;步骤4、在RLCard斗地主平台中改变牌的编码方式,利用二进制思想对RLCard斗地主平台当中表示牌的5
×
15矩阵缩小为3
×
15的矩阵;步骤5、将步骤1.1中的出牌数据集导入Double Deep Q Leaning深度强化学习框架,进行训练并与随机智能体对战,记录结果;步骤6、更改Double Deep Q Leaning当中的神经网络,具体如下:步骤6.1、在全连接层前面加入Gate Recurrent Unit网络,以记住历史信息;步骤6.2、将Gate Recurrent Unit网络生成的矩阵和状态矩阵合并作为全连接层的输入;步骤7、将步骤1.1中的出牌数据集和步骤1.2中的历史出牌数据集导入Double Deep Q Leaning深度强化学习框架,进行训练并与随机智能体对战,记录结果;步骤8、比较步骤3、5、7的实验结果。2.根据权利要求1所述的一种基于深度强化学习的斗地主AI改进方法,其特征在于,所述步骤1.1中采集当前智能体对战过程中产生的轨迹并更改成五元组的形式,包含当前状态出牌信息,动作,奖励值,下个状态出牌信息,是否对局结束信息,并形成出牌数据集。3.根据权利要求1所述的一种基于深度强化学习的斗地主AI改进方法,其特征在于,所述步骤1.2中对出牌数据集进行处理,生成最近对局中的12步动作矩阵,当最近12步动作中有pass或者小于12步动作时则用零矩阵表示,形成历史出牌数据集。4.根据权利要求1所述的一种基于深度强化学习的斗地主AI改进...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。