【技术实现步骤摘要】
一种游戏对战模型训练方法、游戏对战方法及相关装置
[0001]本申请涉及人工智能
,具体涉及一种游戏对战模型训练方法、游戏对战方法及相关装置,该相关装置包括游戏对战模型训练装置、游戏对战装置、计算机设备和计算机可读存储介质。
技术介绍
[0002]现有的多人在线战术竞技游戏(Multiplayer Online Battle Arena,MOBA)类游戏中,玩家分成两个敌对阵营,通过对抗竞争最终摧毁敌方的水晶来赢得比赛。由于多人在线战术竞技游戏中,复杂的地形环境,如地形环境存在草丛,和游戏的视野有限,以致游戏对战模型只能观测到敌方阵营的游戏局部状态,无法观测到敌方阵营的游戏全局状态,如此一来,游戏对战模型无法在游戏中做出合理的决策,导致对游戏决策的准确性较低。
技术实现思路
[0003]本申请实施例提供一种游戏对战模型训练方法,能够提高对游戏决策的准确性。
[0004]一种游戏对战模型训练方法,包括:
[0005]获取游戏对战模型集合,游戏对战模型集合包括若干游戏对战模型,游戏对战模型包 ...
【技术保护点】
【技术特征摘要】
1.一种游戏对战模型训练方法,其特征在于,包括:获取游戏对战模型集合,所述游戏对战模型集合包括若干游戏对战模型,所述游戏对战模型包括由对所述初始游戏对战模型进行迭代训练得到的更新版本游戏对战模型;从所述游戏对战模型集合中筛选出至少两个目标游戏对战模型进行游戏对战,以生成当前战队和敌方战队的对战状态信息,目标游戏对战模型包括游戏对战模型集合中的最新版本游戏对战模型和游戏对战模型集合中的非最新版本游戏对战模型;对所述对战状态信息进行提取,得到对战状态特征和针对所述敌方战队的位置标签;基于所述对战状态特征和所述位置标签对所述最新版本游戏对战模型进行训练,得到训练后游戏对战模型。2.根据权利要求1所述的游戏对战模型训练方法,其特征在于,所述最新版本游戏对战模型包括敌方位置预测子模型和动作决策预测子模型;所述基于所述对战状态特征和所述位置标签对所述最新版本游戏对战模型进行训练,得到训练后游戏对战模型,包括:基于所述对战状态特征和所述位置标签,对所述敌方位置预测子模型进行训练,得到训练后敌方位置预测子模型;基于所述对战状态特征,对所述动作决策预测子模型进行训练,得到训练后动作决策预测子模型。3.根据权利要求2所述的游戏对战模型训练方法,其特征在于,所述非最新版本游戏对战模型包括非最新状态价值子模型;所述基于所述对战状态特征,对所述动作决策预测子模型进行训练,得到训练后动作决策预测子模型,包括:基于所述对战状态特征,采用所述动作决策预测子模型进行动作预测,得到当前战队针对所述对战状态信息的预测动作概率分布;基于所述对战状态特征,采用所述非最新状态价值子模型进行价值预测,得到针对所述对战状态信息的状态价值;基于所述状态价值和所述预测动作概率分布,对所述动作决策预测子模型进行训练,得到训练后动作决策预测子模型。4.根据权利要求3所述的游戏对战模型训练方法,其特征在于,所述基于所述对战状态特征,采用所述动作决策预测子模型进行动作预测,得到当前战队针对所述对战状态信息的预测动作概率分布,包括:基于所述对战状态特征,采用敌方位置预测子模型对敌方战队进行位置预测,得到敌方战队预测位置;基于所述敌方战队预测位置、所述对战状态特征,采用所述动作决策预测子模型进行动作预测,得到当前战队针对所述对战状态信息的预测动作概率分布。5.根据权利要求1所述的游戏对战模型训练方法,其特征在于,所述从所述游戏对战模型集合中筛选出至少两个目标游戏对战模型进行游戏对战,以生成当前战队和敌方战队的对战状态信息,包括:...
【专利技术属性】
技术研发人员:邱福浩,王伟轩,练振杰,王亮,韩国安,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。