【技术实现步骤摘要】
多人对战游戏的自对弈模型训练方法、装置和计算机设备
本申请涉及计算机
,特别是涉及一种多人对战游戏的自对弈模型训练方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,计算机游戏等人机交互应用,如多人在线战术竞技游戏(MultiplayerOnlineBattleArena,MOBA)类游戏成为越来越多人的娱乐方式,用户玩家可以在计算机游戏提供的虚拟场景中,操控虚拟对象单元进行游戏操作。在MOBA类游戏中,用户玩家一般可分为多个敌对阵营,通过操控虚拟对象单元对抗竞争完成游戏目标赢得游戏胜利。在玩家对战中,对战双方均为用户玩家,由用户玩家根据游戏提供的虚拟场景控制虚拟对象单元进行对抗,而在人机对战或游戏托管时,需要由计算机,如游戏AI(ArtificialIntelligence,人工智能)自动控制电脑玩家或对应托管的虚拟对象单元进行游戏对抗。目前,MOBA类游戏中虚拟地图环境复杂、虚拟对象单元丰富、虚拟道具和虚拟操作类型多种多样,此外对抗竞争中还涉及各式各样的玩法策略,游戏的复杂性极大地增加了游戏 ...
【技术保护点】
1.一种多人对战游戏的自对弈模型训练方法,其特征在于,所述方法包括:/n获取历史对战视频数据;/n从所述历史对战视频数据的对战视频帧中各状态特征区域获得训练对战状态特征,并从所述对战视频帧中各对战操作区域获得所述训练对战状态特征相应的操作标签;/n基于所述训练对战状态特征和所述操作标签进行训练,得到对战策略模型;/n通过所述对战策略模型,基于对战中的对战状态特征预测操作以进行对战;/n获取对战中的所述对战状态特征和相应预测的操作的操作价值标签;/n基于所述对战状态特征和所述操作价值标签训练对战操作价值模型;/n根据所述对战策略模型和所述对战操作价值模型构建自对弈模型并训练。/n
【技术特征摘要】
1.一种多人对战游戏的自对弈模型训练方法,其特征在于,所述方法包括:
获取历史对战视频数据;
从所述历史对战视频数据的对战视频帧中各状态特征区域获得训练对战状态特征,并从所述对战视频帧中各对战操作区域获得所述训练对战状态特征相应的操作标签;
基于所述训练对战状态特征和所述操作标签进行训练,得到对战策略模型;
通过所述对战策略模型,基于对战中的对战状态特征预测操作以进行对战;
获取对战中的所述对战状态特征和相应预测的操作的操作价值标签;
基于所述对战状态特征和所述操作价值标签训练对战操作价值模型;
根据所述对战策略模型和所述对战操作价值模型构建自对弈模型并训练。
2.根据权利要求1所述的方法,其特征在于,所述从所述历史对战视频数据的对战视频帧中各状态特征区域获得训练对战状态特征,并从所述对战视频帧中各对战操作区域获得所述训练对战状态特征相应的操作标签包括:
从所述历史对战视频数据的对战视频帧中各状态特征区域提取历史对战状态特征;
从所述对战视频帧的各对战操作区域中提取所述历史对战状态特征对应的历史操作标签;
根据所述历史对战状态特征和所述历史操作标签得到训练对战状态特征和相应的操作标签。
3.根据权利要求2所述的方法,其特征在于,所述从所述历史对战视频数据的对战视频帧中各状态特征区域提取历史对战状态特征包括:
从所述历史对战视频数据中抽取对战视频帧;
确定所述对战视频帧中的各状态特征区域;
对各所述状态特征区域进行状态特征提取,获得历史对战状态特征。
4.根据权利要求3所述的方法,其特征在于,所述对各所述状态特征区域进行状态特征提取,获得历史对战状态特征包括:
对各所述状态特征区域中的地图状态区域和对战状态区域进行特征提取,得到对战状态图像特征;
对各所述状态特征区域中的对战全局属性区域进行特征提取,得到对战全局属性特征;
对各所述状态特征区域中的对战单元属性区域进行特征提取,得到对战单元状态特征;所述历史对战状态特征包括所述对战状态图像特征、所述对战全局属性特征和所述对战单元状态特征。
5.根据权利要求3所述的方法,其特征在于,所述从所述对战视频帧的各对战操作区域中提取所述历史对战状态特征对应的历史操作标签包括:
确定所述对战视频帧中的各对战操作区域;
从各所述对战操作区域中确定操作类型;
确定所述操作类型对应的操作参数;所述历史操作标签包括所述操作类型和相应的操作参数。
6.根据权利要求1所述的方法,其特征在于,所述获取对战中的所述对战状态特征和相应预测的操作的操作价值标签包括:
获取对战中的所述对战状态特征;
获取所述对战策略模型针对所述对战状态特征所相应预测的操作;
确定预测的所述操作的操作价值标签。
7.根据权利要求6所述的方法,其特征在于,所述确定预测的所述操作的操作价值标签包括:
从所述对战状态特征中确定所述操作对应的前一对战状态特征;
从所述对战状态特征中确定所述操作对应的后一对战状态特征;
根据所述前一对战状态特征和所述后一对战状态特征,确定所述操作的操作价值标签。
8.根据权利要求1所述的方法,其特征在于,所述根据所述对战策略模型和所述对战操作价值模型构建自对弈模型并训练包括:
根据所述对战策略模型和所述对战操作...
【专利技术属性】
技术研发人员:韩国安,邱福浩,李晓倩,王亮,付强,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。