【技术实现步骤摘要】
交互模型处理方法、装置、计算机设备和存储介质
[0001]本申请涉及计算机
,特别是涉及一种交互模型处理方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
[0002]随着计算机技术的不断发展,游戏成为越来越多人的娱乐交互方式,如对于多人在线战术竞技游戏(Multiplayer Online Battle Arena,MOBA)类游戏,用户可以在计算机提供的虚拟场景中,操控虚拟对象进行游戏竞技交互;又如对于第一人称射击(First
‑
person Shooting,FPS)类游戏,用户可以以第一人称视角为主视角进行射击对抗交互。在玩家间进行游戏对抗的交互时,游戏双方均为用户玩家;而在人机对战或游戏托管时,需要利用人工智能模型进行游戏对抗的交互,如自动控制电脑玩家或对应托管的虚拟对象进行游戏对抗的交互。
[0003]目前,实现游戏对抗交互的人工智能模型大多是依赖于不断的对抗交互训练进行迭代进化,人工智能模型在游戏对抗中的交互策略和交互行为容易趋于单一化,导致人工智能模型在游戏中的对抗交互能力较低。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够提高交互模型的交互能力的交互模型处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种交互模型处理方法。所述方法包括:
[0006]获取虚拟对象所处虚拟交互场景的状态特征;
[0007]将状态特征输入到移动策略模型中,得到虚拟 ...
【技术保护点】
【技术特征摘要】
1.一种交互模型处理方法,其特征在于,所述方法包括:获取虚拟对象所处虚拟交互场景的状态特征;将所述状态特征输入到移动策略模型中,得到所述虚拟对象从所处位置待移动到的目标位置;所述移动策略模型,是基于在所述虚拟交互场景中进行交互所得到的历史交互数据进行训练得到的;将所述状态特征和所述目标位置输入到待训练的交互模型中进行交互操作映射,获得所述虚拟对象在所述所处位置待执行的交互动作;获取所述虚拟对象执行所述交互动作得到的交互收益,并获取所述虚拟对象从所述所处位置向所述目标位置移动时得到的移动引导收益;基于所述状态特征、所述目标位置、所述交互动作、所述交互收益和所述移动引导收益,对所述待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:控制所述虚拟对象从所述所处位置向所述目标位置进行移动;所述获取所述虚拟对象从所述所处位置向所述目标位置移动时得到的移动引导收益,包括:当满足移动判定条件,确定所述虚拟对象从所述所处位置向所述目标位置移动时所到达的中间位置;确定所述中间位置和所述目标位置之间的距离差;根据所述距离差映射得到移动引导收益。3.根据权利要求2所述的方法,其特征在于,所述控制所述虚拟对象从所述所处位置向所述目标位置进行移动,包括:根据所述目标位置和所述所处位置确定所述虚拟对象的移动路径;针对所述移动路径进行特征提取,得到所述移动路径的路径特征;按照所述路径特征,控制所述虚拟对象从所述所处位置向所述目标位置进行移动。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:控制所述虚拟对象执行所述交互动作;所述获取所述虚拟对象执行所述交互动作得到的交互收益,包括:获取所述虚拟对象执行所述交互动作得到的局部收益和全局收益;根据所述局部收益和所述全局收益得到交互收益。5.根据权利要求4所述的方法,其特征在于,所述根据所述局部收益和所述全局收益得到交互收益,包括:根据所述局部收益和局部收益权重计算得到局部加权收益;根据所述全局收益和全局收益权重计算得到全局加权收益;基于所述局部加权收益和全局加权收益得到交互收益。6.根据权利要求1所述的方法,其特征在于,所述基于所述状态特征、所述目标位置、所述交互动作、所述交互收益和所述移动引导收益,对所述待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型,包括:基于所述状态特征、所述目标位置、所述交互动作、所述交互收益和所述移动引导收益,确定目标损失值;
根据所述目标损失值对所述待训练的交互模型的模型参数进行更新,获得更新后的交互模型;通过更新后的交互模型继续进行训练,直至满足训练结束条件,获得训练完成的交互模型。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取在所述虚拟交互场景中,历史账号通过控制虚拟对象进行交互所得到的历史交互数据;针对所述历史交互数据进行状态特征提取,得到携带目标位置标签的历史状态特征数据;基于所述历史状态特征数据进行训练,获得所述移动策略模型。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取最新的数据类别判别模型;所述数据类别判别模型,是基于携带数据类别标签的交互样本数据进行训练获得的;基于所述状态特征和所述交互动作得到目标交互数据,并将所述目标交互数据输入到最新的数据类别判别模型中,得到数据判定类别;根据所述数据判定类别得到所述目标交互数据的数据类别模拟收益;所述基于所述状态特征、所述目标位置、所述交互动作、所述交互收益和所述移动引导收益,对所述待训练的交互模型进行更新...
【专利技术属性】
技术研发人员:杨阳,邱福浩,付强,文荟俨,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。