基于人工智能的棋牌关卡生成方法、训练方法及装置制造方法及图纸

技术编号:22565794 阅读:41 留言:0更新日期:2019-11-16 12:19
本申请公开了一种基于人工智能的棋牌关卡生成方法、训练方法、装置及终端,属于人机交互领域。所述方法包括:生成棋牌初始牌局;根据第一人工智能模型和第二人工智能模型进行棋牌对战,得到所述棋牌初始牌局的n个对战结果;所述第一人工智能模型是采用固定策略的机器学习模型,所述第二人工智能模型是采用随机策略的机器学习模型,n为正整数;根据所述棋牌初始牌局的n个对战结果,得到所述棋牌初始牌局对应的统计数据;根据所述棋牌初始牌局对应的对战统计数据确定所述棋牌初始牌局的难度系数,所述难度系数用于确定所述棋牌初始牌局在棋牌关卡中的关卡位置。

The method, training method and device of chess and card level generation based on Artificial Intelligence

The application discloses a chess and card level generation method, training method, device and terminal based on artificial intelligence, belonging to the field of human-computer interaction. The method comprises the following steps: generating the initial game of chess and cards; playing chess and cards according to the first artificial intelligence model and the second artificial intelligence model, obtaining n match results of the initial game of chess and cards; the first artificial intelligence model is a machine learning model with fixed strategy, the second artificial intelligence model is a machine learning model with random strategy, n is a positive integer; root According to the N match results of the initial game of chess and cards, the corresponding statistical data of the initial game of chess and cards are obtained; the difficulty coefficient of the initial game of chess and cards is determined according to the match statistical data of the initial game of chess and cards, and the difficulty coefficient is used to determine the position of the initial game of chess and cards in the chess and card level.

【技术实现步骤摘要】
基于人工智能的棋牌关卡生成方法、训练方法及装置
本申请实施例涉及人工智能领域,特别涉及一种基于人工智能的棋牌关卡生成方法、训练方法及装置。
技术介绍
在线棋牌类游戏是基于计算机网络技术将多个客户端连接起来以实现联机棋牌的应用程序。在线棋牌类游戏提供有闯关模式,用户可以参与闯关模式来完成多级对战。以麻将棋牌类游戏为例,服务器按照第一代码规则生成每个用户的棋牌初始牌局,棋牌初始牌局中包括若干个将、刻子和顺子等,使得玩家胡牌难度降低。再按照第二代码规则为每个用户分配对局中的棋牌。其中,第一代码规则和第二代码规则是由程序员设计的代码。但是上述方式中的第一代码规则和第二代码规则的设计难度较大,也无法衡量每个棋牌初始牌局的难易程度,有时候会出现排序较早的棋牌初始牌局的难度很大,而排序较晚的棋牌初始牌局的难度较小的情况。
技术实现思路
本申请提供了一种基于人工智能的棋牌关卡生成方法、训练方法及装置,可以解决由代码规则所生成的棋牌初始牌局,无法衡量难易程度的问题。所述技术方案如下:根据本申请的一方面,提供了一种基于人工智能的棋牌关卡生成方法,所述方法包括:生成棋牌初始牌局;根据第一人工智能模型和第二人工智能模型进行棋牌对战,得到所述棋牌初始牌局的n个对战结果;所述第一人工智能模型是采用固定策略的机器学习模型,所述第二人工智能模型是采用随机策略的机器学习模型,n为正整数;根据所述棋牌初始牌局的n个对战结果,得到所述棋牌初始牌局对应的统计数据;根据所述棋牌初始牌局对应的对战统计数据确定所述棋牌初始牌局的难度系数,所述难度系数用于确定所述棋牌初始牌局在棋牌关卡中的关卡位置。根据本申请的另一方面,提供了一种人工智能模型的训练方法,所述方法包括:获取多组训练样本,每组所述训练样本包括:样本棋牌初始牌局和所述样本棋牌初始牌局的历史对局行为数据;对于每组所述训练样本,将所述样本棋牌初始牌局的历史对局行为数据中的第1手至第i手样本对局行为转换为一组输入数据,i为正整数;将所述输入数据输入至第一人工智能模型进行对局行为预测,得到第i+1手预测对局行为;根据所述第i+1手预测对局行为和所述历史对局行为数据中的第i+1手样本对局行为计算第一损失函数,所述第一损失函数是用于衡量对局行为的预测准确性的损失函数;根据所述第一损失函数对所述第一人工智能模型中的模型参数进行误差反向传播。根据本申请的另一方面,提供了一种人工智能模型的训练方法,所述方法包括:获取多组训练样本,每组所述训练样本包括:样本棋牌初始牌局和所述样本棋牌初始牌局的历史对局行为数据和样本胜负情况;对于每组所述训练样本,将所述样本棋牌初始牌局的历史对局行为数据中的第1手至第i手样本对局行为转换为一组输入数据,i为正整数;将所述输入数据输入至第二人工智能模型进行对局行为预测,得到第i+1手预测对局行为和预测胜负情况;根据所述第i+1手预测对局行为和所述历史对局行为数据中的第i+1手样本对局行为计算第一损失函数,所述第一损失函数是用于衡量对局行为的预测准确性的损失函数;根据所述预测胜负情况和所述样本胜负情况计算第二损失函数,所述第二损失函数是用于衡量胜负情况的预测准确性的损失函数根据所述第一损失函数和所述第二损失函数对所述第二人工智能模型中的模型参数进行误差反向传播。根据本申请的另一方面,提供了一种基于人工智能的棋牌关卡生成装置,所述装置包括:生成模块,用于生成棋牌初始牌局;对战模块,用于根据第一人工智能模型和第二人工智能模型进行棋牌对战,得到所述棋牌初始牌局的n个对战结果;所述第一人工智能模型是采用固定策略的机器学习模型,所述第二人工智能模型是采用随机策略的机器学习模型,n为正整数;统计模块,用于根据所述棋牌初始牌局的n个对战结果,得到所述棋牌初始牌局对应的统计数据;确定模块,用于根据所述棋牌初始牌局对应的对战统计数据确定所述棋牌初始牌局的难度系数,所述难度系数用于确定所述棋牌初始牌局在棋牌关卡中的关卡位置。根据本申请的另一方面,提供了一种人工智能模型的训练装置,所述装置包括:获取模块,用于获取多组训练样本,每组所述训练样本包括:样本棋牌初始牌局和所述样本棋牌初始牌局的历史对局行为数据;转换模块,用于对于每组所述训练样本,将所述样本棋牌初始牌局的历史对局行为数据中的第1手至第i手样本对局行为转换为一组输入数据,i为正整数;预测模块,用于将所述输入数据输入至第一人工智能模型进行对局行为预测,得到第i+1手预测对局行为;计算模块,用于根据所述第i+1手预测对局行为和所述历史对局行为数据中的第i+1手样本对局行为计算第一损失函数,所述第一损失函数是用于衡量对局行为的预测准确性的损失函数;训练模块,用于根据所述第一损失函数对所述第一人工智能模型中的模型参数进行误差反向传播。根据本申请的另一方面,提供了一种人工智能模型的训练装置,所述装置包括:获取模块,用于获取多组训练样本,每组所述训练样本包括:样本棋牌初始牌局和所述样本棋牌初始牌局的历史对局行为数据和样本胜负情况;转换模块,用于对于每组所述训练样本,将所述样本棋牌初始牌局的历史对局行为数据中的第1手至第i手样本对局行为转换为一组输入数据,i为正整数;预测模块,用于将所述输入数据输入至第二人工智能模型进行对局行为预测,得到第i+1手预测对局行为和预测胜负情况;计算模块,用于根据所述第i+1手预测对局行为和所述历史对局行为数据中的第i+1手样本对局行为计算第一损失函数,根据所述预测胜负情况和所述样本胜负情况计算第二损失函数,所述第一损失函数是用于衡量对局行为的预测准确性的损失函数,所述第二损失函数是用于衡量胜负情况的预测准确性的损失函数;训练模块,用于根据所述第一损失函数和所述第二损失函数对所述第二人工智能模型中的模型参数进行误差反向传播。根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的基于人工智能的棋牌关卡生成方法,和/或,人工智能模型的训练方法。根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的基于人工智能的棋牌关卡生成方法,和/或,人工智能模型的训练方法。本申请实施例提供的技术方案带来的有益效果至少包括:通过根据第一人工智能模型和第二人工智能模型进行棋牌对战,得到棋牌初始牌局的n个对战结果;根据棋牌初始牌局的n个对战结果,得到棋牌初始牌局对应的统计数据;根据棋牌初始牌局对应的对战统计数据确定棋牌初始牌局的难度系本文档来自技高网...

【技术保护点】
1.一种基于人工智能的棋牌关卡生成方法,其特征在于,所述方法包括:/n生成棋牌初始牌局;/n根据第一人工智能模型和第二人工智能模型进行棋牌对战,得到所述棋牌初始牌局的n个对战结果;所述第一人工智能模型是采用固定策略的机器学习模型,所述第二人工智能模型是采用随机策略的机器学习模型,n为正整数;/n根据所述棋牌初始牌局的n个对战结果,得到所述棋牌初始牌局对应的统计数据;/n根据所述棋牌初始牌局对应的对战统计数据确定所述棋牌初始牌局的难度系数,所述难度系数用于确定所述棋牌初始牌局在棋牌关卡中的关卡位置。/n

【技术特征摘要】
1.一种基于人工智能的棋牌关卡生成方法,其特征在于,所述方法包括:
生成棋牌初始牌局;
根据第一人工智能模型和第二人工智能模型进行棋牌对战,得到所述棋牌初始牌局的n个对战结果;所述第一人工智能模型是采用固定策略的机器学习模型,所述第二人工智能模型是采用随机策略的机器学习模型,n为正整数;
根据所述棋牌初始牌局的n个对战结果,得到所述棋牌初始牌局对应的统计数据;
根据所述棋牌初始牌局对应的对战统计数据确定所述棋牌初始牌局的难度系数,所述难度系数用于确定所述棋牌初始牌局在棋牌关卡中的关卡位置。


2.根据权利要求1所述的方法,其特征在于,所述根据第一人工智能模型和第二人工智能模型进行棋牌对战,得到所述棋牌初始牌局的n个对战结果,包括:
在第k次模拟对战中,根据所述棋牌初始牌局交替调用第一人工智能模型和第二人工智能模型进行棋牌对战,在满足胜负条件时得到第k个对战结果;
在所述k小于n时,将所述k加一后,再次根据所述棋牌初始牌局交替调用第一人工智能模型和第二人工智能模型进行棋牌对战,在满足胜负条件时得到所述第k个对战结果;
其中,k和n均为正整数。


3.根据权利要求2所述的方法,其特征在于,所述根据所述棋牌初始牌局交替调用第一人工智能模型和第二人工智能模型进行棋牌对战,在满足胜负条件时得到第k个对战结果,包括,
设所述棋牌初始牌局为当前牌局;
当所述当前牌局为奇数手牌局且不满足胜负条件时,调用所述第一人工智能模型采用预测出的概率最高的第一对局行为,输出下一手牌局;
当所述当前牌局为偶数手牌局且不满足胜负条件时,调用所述第二人工智能模型在第一概率情况下随机确定出的第二对局行为或第二概率情况下采用预测出的概率最高的第一对局行为,输出所述下一手牌局;
当所述当前牌局满足所述胜负条件时,得到所述棋牌初始牌局的所述第k个对战结果;
其中,所述第一概率和所述第二概率之和等于1。


4.根据权利要求3所述的方法,其特征在于,所述调用所述第一人工智能模型采用预测出的概率最高的第一对局行为,输出下一手牌局,包括:
将所述棋牌初始牌局、所述棋牌初始牌局和所述当前牌局之间的历史对局行为转换为通道矩阵信息,所述通道矩阵信息是采用二值化矩阵来表达的信息;
调用所述第一人工智能模型对所述第一通道矩阵信息进行预测,得到概率最高的第一对局行为,输出所述下一手牌局。


5.根据权利要求3所述的方法,其特征在于,所述调用所述第二人工智能模型在第二概率情况下采用预测出的概率最高的第一对局行为,包括:
将所述棋牌初始牌局、所述棋牌初始牌局和所述当前牌局之间的历史对局行为转换为通道矩阵信息,所述通道矩阵信息是采用二值化矩阵来表达的信息;
调用所述第二人工智能模型在第二概率情况下对所述第一通道矩阵信息进行预测,得到概率最高的第一对局行为,输出所述下一手牌局。


6.根据权利要求1至5任一所述的方法,其特征在于,
所述第一人工智能模型和所述第二人工智能模型是根据第一损失函数训练得到的,所述第一损失函数是用于衡量对局行为的预测准确性的损失函数。


7.根据权利要求1至5任一所述的方法,其特征在于,
所述第一人工智能模型是根据第一损失函数训练得到的,所述第一损失函数是用于衡量对局行为的预测准确性的损失函数;
所述第二人工智能模型是根据所述第一损失函数和第二损失函数训练得到的,所述第二损失函数是用于衡量胜负情况的预测准确性的损失函数。


8.一种人工智能模型的训练方法,其特征在于,所述方法包括:
获取多组训练样本,每组所述训练样本包括:样本棋牌初始牌局和所述样本棋牌初始牌局的历史对局行为数据;
对于每组所述训练样本,将所述样本棋牌初始牌局的历史对局行为数据中的第1手至第i手样本对局行为转换为一组输入数据,i为正整数;
将所述输入数据输入至第一人工智能模型进行对局行为预测,得到第i+1手预测对局行为;
根据所述第i+1手预测对局行为和所述历史对局行为数据中的第i+1手样本对局行为计算第一损失函数,所述第一损失函数是用于衡量对局行为的预测准确性的损失函数;
根据所述第一损失函数对所述第一人工智能模型中的模型参数进行误差反向传播。


9.一种人工智能模型的训练方法,...

【专利技术属性】
技术研发人员:范俊杰曾子骄
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1