【技术实现步骤摘要】
一种虚拟角色的控制方法、装置、电子设备和存储介质
[0001]本申请涉及人工智能
,尤其涉及一种虚拟角色的控制方法、装置、电子设备和存储介质。
技术介绍
[0002]多人在线战术竞技(Multiplayer Online Battle Arena,MOBA)类游戏具有多智能体协作与竞争机制、时间长、状态动作空间大、信息不完全等特点,备受研究者关注。由于这类游戏是一种多人协作竞争类游戏,天然适合研究人机协作问题。
[0003]目前人机协作领域的主流方法为:基于贝叶斯推断的人机协作方法。该方法的主要思想是:在智能体与真实的人类玩家(后续简称真实玩家)协作时,通过贝叶斯推断(Bayesian Inference,BI)或逆强化学习(Inverse Reinforcement Learning,IRL)等技术,从真实玩家的历史行为中推断出真实玩家的目标,然后智能体通过完成这些目标,来实现与真实玩家的协作。
[0004]由于复杂MOBA游戏中人类的目标是多样的,且真实玩家的行为往往跟其目标没有直接关系,因此,基于上述方法推断出来的人类目标与人类真实目标之间往往存在较大差异,往往无法准确推断出人类真实目标,导致最终协作结果较差。
[0005]因而,如何提高虚拟角色控制的准确性,进而提高人机交互效率是亟待解决的。
技术实现思路
[0006]本申请实施例提供一种虚拟角色的控制方法、装置、电子设备和存储介质,用以提高虚拟角色控制的准确性和人机交互效率。
[0007]本申请实施例提供 ...
【技术保护点】
【技术特征摘要】
1.一种虚拟角色的控制方法,其特征在于,所述方法包括:分别对非玩家虚拟角色及所述非玩家虚拟角色待协作的玩家虚拟角色,在当前的游戏状态信息进行特征提取,获得所述非玩家虚拟角色的第一状态特征,和所述玩家虚拟角色的第二状态特征;基于所述第一状态特征获得相应的预测获胜概率,所述预测获胜概率为:所述非玩家虚拟角色与所述玩家虚拟角色所在阵营在本局游戏获胜的概率;若所述预测获胜概率以及所述非玩家虚拟角色与所述玩家虚拟角色之间的距离满足预设协作条件,则基于所述第一状态特征和所述第二状态特征获得相应的状态融合特征;基于所述状态融合特征,获得所述非玩家虚拟角色待执行的预测目标动作,并控制所述非玩家虚拟角色执行所述预测目标动作,以协作所述玩家虚拟角色。2.如权利要求1所述的方法,其特征在于,所述方法还包括:若所述预测获胜概率大于预设概率阈值,且所述非玩家虚拟角色与所述玩家虚拟角色之间的距离在预设距离范围内,则确定所述预测获胜概率以及所述非玩家虚拟角色与所述玩家虚拟角色之间的距离满足所述预设协作条件。3.如权利要求1所述的方法,其特征在于,所述预测目标动作是通过已训练的策略网络获得的,所述已训练的策略网络是通过如下方式训练的:基于预先构建的多水平队友种群,对待训练的策略网络进行循环迭代训练,获得所述已训练的策略网络;所述多水平队友种群包括不同战力水平的样本玩家模型;其中,每次循环迭代训练都执行以下过程:从所述多水平队友种群中选取一个样本玩家模型,分别对样本非玩家虚拟角色及所述样本玩家模型控制的样本玩家虚拟角色,在当前的游戏状态信息进行特征提取,获得所述样本非玩家虚拟角色的第一样本状态特征,和所述样本玩家虚拟角色的第二样本状态特征;基于所述第一样本状态特征与所述第二样本状态特征,获取所述样本非玩家虚拟角色从当前至本局游戏结束期间所获得第一累积奖励,以及所述样本非玩家虚拟角色协作所述样本玩家虚拟角色时,所述样本玩家虚拟角色从当前至本局游戏结束期间所获得第二累积奖励;基于所述第一累积奖励与所述第二累积奖励,构建目标函数,并基于所述目标函数,对所述待训练的策略网络进行参数调整。4.如权利要求3所述的方法,其特征在于,所述基于所述第一样本状态特征与所述第二样本状态特征,获取所述样本非玩家虚拟角色从当前至本局游戏结束期间所获得第一累积奖励,以及所述样本非玩家虚拟角色协作所述样本玩家虚拟角色时,所述样本玩家虚拟角色从当前至本局游戏结束期间所获得第二累积奖励,包括:将所述第一状态特征输入价值网络,预测得到所述第一累积奖励;所述价值网络是以第一实际即时奖励作为样本标签,通过监督学习训练得到的;所述第一实际即时奖励表示:所述样本非玩家虚拟角色所获得的实际即时奖励;将所述第一样本状态特征与所述第二样本状态特征进行融合,获得相应的样本状态融合特征,并将所述状态融合特征输入协作价值网络,预测得到所述第二累积奖励;所述协作价值网络是以第二实际即时奖励作为样本标签,通过监督学习训练得到的;所述第二实际
即时奖励表示:基于所述样本非玩家虚拟角色协作所述样本玩家虚拟角色的情况下,所述样本玩家虚拟角色所获得的实际即时奖励。5.如权利要求4所述的方法,其特征在于,在所述基于所述第一累积奖励与所述第二累积奖励,构建目标函数之前,还包括:将所述样本状态融合特征输入所述待训练的策略网络,获得所述待训练的策略网络输出的样本目标动作;则所述基于所述第一累积奖励与所述第二累积奖励,构建目标函数,包括:将所述样本非玩家虚拟角色在当前的游戏状态下执行所述样本目标动作后,至本局游戏结束期间的各第一实际即时奖励之和,与所述第一累积奖励之差,作为原始增益;将所述样本非玩家虚拟角色在当前的游戏状态下执行所述样本目标动作后,至本局游戏结束期间的各第二实际即时奖励之和,与所述第二累积奖励之差,作为协作增益;基于所述原始增益与所述协作增益之和,确定所述目标函数。6.如权利要求5所述的方法,其特征在于,在将所述样本状态融合特征输入所述待训练的策略网络之前,还包括:将所述第一样本状态特征输入胜负预测网络,获得相应的样本获胜概率,所述样本获胜概率为:所述样本非玩家虚拟角色与...
【专利技术属性】
技术研发人员:刘飞宇,高一鸣,王亮,付强,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。