一种游戏对战模型训练方法、游戏对战方法及相关装置制造方法及图纸

技术编号:33082151 阅读:9 留言:0更新日期:2022-04-15 10:37
本申请实施例提供一种游戏对战模型训练方法、游戏对战方法及相关装置,能够将从游戏对战模型集合中筛选出的目标游戏对战模型进行游戏对战,从而生成对战状态信息,并基于对战状态信息实现对游戏对战模型进行训练,从而可以将训练得到训练后游戏对战模型应用在游戏对战中,如此可以采用训练后游戏对战模型对敌方战队的位置进行预测,使得训练后游戏对战模型可以观测到近似游戏全局状态的游戏局面,从而增强训练后游戏对战模型对游戏决策的准确性,避免游戏局部状态带来的决策偏差。避免游戏局部状态带来的决策偏差。避免游戏局部状态带来的决策偏差。

【技术实现步骤摘要】
一种游戏对战模型训练方法、游戏对战方法及相关装置


[0001]本申请涉及人工智能
,具体涉及一种游戏对战模型训练方法、游戏对战方法及相关装置,该相关装置包括游戏对战模型训练装置、游戏对战装置、计算机设备和计算机可读存储介质。

技术介绍

[0002]现有的多人在线战术竞技游戏(Multiplayer Online Battle Arena,MOBA)类游戏中,玩家分成两个敌对阵营,通过对抗竞争最终摧毁敌方的水晶来赢得比赛。由于多人在线战术竞技游戏中,复杂的地形环境,如地形环境存在草丛,和游戏的视野有限,以致游戏对战模型只能观测到敌方阵营的游戏局部状态,无法观测到敌方阵营的游戏全局状态,如此一来,游戏对战模型无法在游戏中做出合理的决策,导致对游戏决策的准确性较低。

技术实现思路

[0003]本申请实施例提供一种游戏对战模型训练方法,能够提高对游戏决策的准确性。
[0004]一种游戏对战模型训练方法,包括:
[0005]获取游戏对战模型集合,游戏对战模型集合包括若干游戏对战模型,游戏对战模型包括由对初始游戏对战模型进行迭代训练得到的更新版本游戏对战模型;
[0006]从游戏对战模型集合中筛选出至少两个目标游戏对战模型进行游戏对战,以生成当前战队和敌方战队的对战状态信息,目标游戏对战模型包括游戏对战模型集合中的最新版本游戏对战模型和游戏对战模型集合中的非最新版本游戏对战模型;
[0007]对对战状态信息进行提取,得到对战状态特征和针对敌方战队的位置标签;
[0008]基于对战状态特征和位置标签对最新版本游戏对战模型进行训练,得到训练后游戏对战模型。
[0009]相应地,本申请实施例提供一种游戏对战模型训练装置,包括:
[0010]第一获取单元,可以用于获取游戏对战模型集合,游戏对战模型集合包括若干游戏对战模型,游戏对战模型包括由对初始游戏对战模型进行迭代训练得到的更新版本游戏对战模型;
[0011]筛选单元,可以用于从游戏对战模型集合中筛选出至少两个目标游戏对战模型进行游戏对战,以生成当前战队和敌方战队的对战状态信息,目标游戏对战模型包括游戏对战模型集合中的最新版本游戏对战模型和游戏对战模型集合中的非最新版本游戏对战模型;
[0012]第一提取单元,可以用于对对战状态信息进行提取,得到对战状态特征和针对敌方战队的位置标签;
[0013]训练单元,可以用于基于对战状态特征和位置标签对最新版本游戏对战模型进行训练,得到训练后游戏对战模型。
[0014]在一些实施例中,最新版本游戏对战模型包括敌方位置预测子模型和动作决策预
测子模型;训练单元,具体可以用于基于对战状态特征和位置标签,对敌方位置预测子模型进行训练,得到训练后敌方位置预测子模型;基于对战状态特征,对动作决策预测子模型进行训练,得到训练后动作决策预测子模型。
[0015]在一些实施例中,非最新版本游戏对战模型包括非最新状态价值子模型;训练单元,具体可以用于基于对战状态特征,采用动作决策预测子模型进行动作预测,得到当前战队针对对战状态信息的预测动作概率分布;基于对战状态特征,采用非最新状态价值子模型进行价值预测,得到针对对战状态信息的状态价值;基于状态价值和预测动作概率分布,对动作决策预测子模型进行训练,得到训练后动作决策预测子模型。
[0016]在一些实施例中,训练单元,具体可以用于基于对战状态特征,采用敌方位置预测子模型对敌方战队进行位置预测,得到敌方战队预测位置;基于对战状态特征和对战角色特征,采用动作决策预测子模型进行动作预测,得到当前战队针对对战状态信息的预测动作概率分布。
[0017]在一些实施例中,筛选单元,具体可以用于获取预设概率值;当预设概率值大于或等于预设阈值时,从游戏对战模型集合中筛选出最新版本游戏对战模型和非最新版本游戏对战模型进行游戏对战,以生成对战状态信息。
[0018]本申请实施例还提供一种游戏对战方法,包括:
[0019]获取当前游戏中当前战队和敌方战队的对战状态信息;
[0020]对对战状态信息进行特征提取,得到当前游戏的对战状态特征;
[0021]基于对战状态特征,采用训练后游戏对战模型对敌方战队进行位置预测,以确定敌方战队预测位置,训练后游戏对战模型为前述的训练后游戏对战模型;
[0022]基于敌方战队预测位置,采用训练后游戏对战模型对当前战队进行动作预测,并控制当前战队执行预测动作。
[0023]相应地,本申请实施例提供一种游戏对战模型训练装置,包括:
[0024]第二获取单元,可以用于获取当前游戏中当前战队和敌方战队的对战状态信息;
[0025]第二提取单元,可以用于对战状态信息进行特征提取,得到当前游戏的对战状态特征;
[0026]确定单元,可以用于基于对战状态特征,采用训练后游戏对战模型对敌方战队进行位置预测,以确定敌方战队预测位置,训练后游戏对战模型为前述的训练后游戏对战模型;
[0027]预测单元,可以用于基于敌方战队预测位置,采用训练后游戏对战模型对当前战队进行动作预测,并控制当前战队执行预测动作。
[0028]在一些实施例中,训练后游戏对战模型包括训练后敌方位置预测子模型和训练后动作决策预测子模型;确定单元,具体可以用于基于对战状态特征,采用训练后敌方位置预测子模型对敌方战队进行位置预测,以确定敌方战队预测位置;预测单元,具体可以用于基于敌方战队预测位置,采用训练后动作决策预测子模型对当前战队进行动作预测。
[0029]此外,本申请实施例还提供一种计算机设备,包括存储器和处理器;存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以执行本申请实施例提供的任一种游戏对战模型训练方法。
[0030]此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储
有计算机程序,计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种游戏对战模型训练方法。
[0031]此外,本申请实施例还提供一种计算机设备,包括存储器和处理器;存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以执行本申请实施例提供的任一种游戏对战方法。
[0032]此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种游戏对战方法。
[0033]本申请实施例可以获取游戏对战模型集合,游戏对战模型集合包括若干游戏对战模型,游戏对战模型包括由对初始游戏对战模型进行迭代训练得到的更新版本游戏对战模型;从游戏对战模型集合中筛选出至少两个目标游戏对战模型进行游戏对战,以生成当前战队和敌方战队的对战状态信息,目标游戏对战模型包括游戏对战模型集合中的最新版本游戏对战模型和游戏对战模型集合中的非最新版本游戏对战模型;对对战状态信息进行提取,得到对战状态特征和针对敌方战队的位置标签;基于对战状态特征和位置标签对最新版本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种游戏对战模型训练方法,其特征在于,包括:获取游戏对战模型集合,所述游戏对战模型集合包括若干游戏对战模型,所述游戏对战模型包括由对所述初始游戏对战模型进行迭代训练得到的更新版本游戏对战模型;从所述游戏对战模型集合中筛选出至少两个目标游戏对战模型进行游戏对战,以生成当前战队和敌方战队的对战状态信息,目标游戏对战模型包括游戏对战模型集合中的最新版本游戏对战模型和游戏对战模型集合中的非最新版本游戏对战模型;对所述对战状态信息进行提取,得到对战状态特征和针对所述敌方战队的位置标签;基于所述对战状态特征和所述位置标签对所述最新版本游戏对战模型进行训练,得到训练后游戏对战模型。2.根据权利要求1所述的游戏对战模型训练方法,其特征在于,所述最新版本游戏对战模型包括敌方位置预测子模型和动作决策预测子模型;所述基于所述对战状态特征和所述位置标签对所述最新版本游戏对战模型进行训练,得到训练后游戏对战模型,包括:基于所述对战状态特征和所述位置标签,对所述敌方位置预测子模型进行训练,得到训练后敌方位置预测子模型;基于所述对战状态特征,对所述动作决策预测子模型进行训练,得到训练后动作决策预测子模型。3.根据权利要求2所述的游戏对战模型训练方法,其特征在于,所述非最新版本游戏对战模型包括非最新状态价值子模型;所述基于所述对战状态特征,对所述动作决策预测子模型进行训练,得到训练后动作决策预测子模型,包括:基于所述对战状态特征,采用所述动作决策预测子模型进行动作预测,得到当前战队针对所述对战状态信息的预测动作概率分布;基于所述对战状态特征,采用所述非最新状态价值子模型进行价值预测,得到针对所述对战状态信息的状态价值;基于所述状态价值和所述预测动作概率分布,对所述动作决策预测子模型进行训练,得到训练后动作决策预测子模型。4.根据权利要求3所述的游戏对战模型训练方法,其特征在于,所述基于所述对战状态特征,采用所述动作决策预测子模型进行动作预测,得到当前战队针对所述对战状态信息的预测动作概率分布,包括:基于所述对战状态特征,采用敌方位置预测子模型对敌方战队进行位置预测,得到敌方战队预测位置;基于所述敌方战队预测位置、所述对战状态特征,采用所述动作决策预测子模型进行动作预测,得到当前战队针对所述对战状态信息的预测动作概率分布。5.根据权利要求1所述的游戏对战模型训练方法,其特征在于,所述从所述游戏对战模型集合中筛选出至少两个目标游戏对战模型进行游戏对战,以生成当前战队和敌方战队的对战状态信息,包括:...

【专利技术属性】
技术研发人员:邱福浩王伟轩练振杰王亮韩国安
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1