交互模型处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39275386 阅读:12 留言:0更新日期:2023-11-07 10:52
本申请涉及一种交互模型处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取虚拟对象所处虚拟交互场景的状态特征;将状态特征输入到移动策略模型中,得到虚拟对象从所处位置待移动到的目标位置;将状态特征和目标位置输入到待训练的交互模型中进行交互操作映射,获得虚拟对象在所处位置待执行的交互动作;获取虚拟对象执行交互动作得到的交互收益,并获取虚拟对象从所处位置向目标位置移动时得到的移动引导收益;基于状态特征、目标位置、交互动作、交互收益和移动引导收益,对待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。采用本方法能够提高交互模型的交互能力。能够提高交互模型的交互能力。能够提高交互模型的交互能力。

【技术实现步骤摘要】
交互模型处理方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种交互模型处理方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的不断发展,游戏成为越来越多人的娱乐交互方式,如对于多人在线战术竞技游戏(Multiplayer Online Battle Arena,MOBA)类游戏,用户可以在计算机提供的虚拟场景中,操控虚拟对象进行游戏竞技交互;又如对于第一人称射击(First

person Shooting,FPS)类游戏,用户可以以第一人称视角为主视角进行射击对抗交互。在玩家间进行游戏对抗的交互时,游戏双方均为用户玩家;而在人机对战或游戏托管时,需要利用人工智能模型进行游戏对抗的交互,如自动控制电脑玩家或对应托管的虚拟对象进行游戏对抗的交互。
[0003]目前,实现游戏对抗交互的人工智能模型大多是依赖于不断的对抗交互训练进行迭代进化,人工智能模型在游戏对抗中的交互策略和交互行为容易趋于单一化,导致人工智能模型在游戏中的对抗交互能力较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高交互模型的交互能力的交互模型处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种交互模型处理方法。所述方法包括:
[0006]获取虚拟对象所处虚拟交互场景的状态特征;
[0007]将状态特征输入到移动策略模型中,得到虚拟对象从所处位置待移动到的目标位置;移动策略模型,是基于在虚拟交互场景中进行交互所得到的历史交互数据进行训练得到的;
[0008]将状态特征和目标位置输入到待训练的交互模型中进行交互操作映射,获得虚拟对象在所处位置待执行的交互动作;
[0009]获取虚拟对象执行交互动作得到的交互收益,并获取虚拟对象从所处位置向目标位置移动时得到的移动引导收益;
[0010]基于状态特征、目标位置、交互动作、交互收益和移动引导收益,对待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。
[0011]第二方面,本申请还提供了一种交互模型处理装置。所述装置包括:
[0012]状态特征获取模块,用于获取虚拟对象所处虚拟交互场景的状态特征;
[0013]目标位置获得模块,用于将状态特征输入到移动策略模型中,得到虚拟对象从所处位置待移动到的目标位置;移动策略模型,是基于在虚拟交互场景中进行交互所得到的历史交互数据进行训练得到的;
[0014]交互动作获得模块,用于将状态特征和目标位置输入到待训练的交互模型中进行
交互操作映射,获得虚拟对象在所处位置待执行的交互动作;
[0015]收益获取模块,用于获取虚拟对象执行交互动作得到的交互收益,并获取虚拟对象从所处位置向目标位置移动时得到的移动引导收益;
[0016]模型更新模块,用于基于状态特征、目标位置、交互动作、交互收益和移动引导收益,对待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。
[0017]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0018]获取虚拟对象所处虚拟交互场景的状态特征;
[0019]将状态特征输入到移动策略模型中,得到虚拟对象从所处位置待移动到的目标位置;移动策略模型,是基于在虚拟交互场景中进行交互所得到的历史交互数据进行训练得到的;
[0020]将状态特征和目标位置输入到待训练的交互模型中进行交互操作映射,获得虚拟对象在所处位置待执行的交互动作;
[0021]获取虚拟对象执行交互动作得到的交互收益,并获取虚拟对象从所处位置向目标位置移动时得到的移动引导收益;
[0022]基于状态特征、目标位置、交互动作、交互收益和移动引导收益,对待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。
[0023]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0024]获取虚拟对象所处虚拟交互场景的状态特征;
[0025]将状态特征输入到移动策略模型中,得到虚拟对象从所处位置待移动到的目标位置;移动策略模型,是基于在虚拟交互场景中进行交互所得到的历史交互数据进行训练得到的;
[0026]将状态特征和目标位置输入到待训练的交互模型中进行交互操作映射,获得虚拟对象在所处位置待执行的交互动作;
[0027]获取虚拟对象执行交互动作得到的交互收益,并获取虚拟对象从所处位置向目标位置移动时得到的移动引导收益;
[0028]基于状态特征、目标位置、交互动作、交互收益和移动引导收益,对待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。
[0029]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0030]获取虚拟对象所处虚拟交互场景的状态特征;
[0031]将状态特征输入到移动策略模型中,得到虚拟对象从所处位置待移动到的目标位置;移动策略模型,是基于在虚拟交互场景中进行交互所得到的历史交互数据进行训练得到的;
[0032]将状态特征和目标位置输入到待训练的交互模型中进行交互操作映射,获得虚拟对象在所处位置待执行的交互动作;
[0033]获取虚拟对象执行交互动作得到的交互收益,并获取虚拟对象从所处位置向目标位置移动时得到的移动引导收益;
[0034]基于状态特征、目标位置、交互动作、交互收益和移动引导收益,对待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。
[0035]上述交互模型处理方法、装置、计算机设备、存储介质和计算机程序产品,通过将虚拟对象所处虚拟交互场景的状态特征,输入到基于历史交互数据训练得到的移动策略模型中,并将获得的目标位置和状态特征输入到待训练的交互模型中进行交互操作映射,以得到虚拟对象待执行的交互动作,基于获得的虚拟对象执行交互动作得到的交互收益、虚拟对象从所处位置向目标位置移动时得到的移动引导收益、状态特征、目标位置和交互动作,对待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。虚拟对象从所处位置待移动到的目标位置,通过基于历史交互数据训练得到的移动策略模型输出得到,并基于状态特征和目标位置进行交互操作映射,得到待执行的交互动作,可以有效利用历史交互数据控制虚拟对象的移动,引导交互模型在训练过程中学习到多样化的交互策略,从而能够有效提高交互模型的交互能力。
附图说明
[0036]图1为一个实施例中交互模型处理方法的应用环境图;
[0037]图2为一个实施例中交互模型处理方法的流程示意图;
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交互模型处理方法,其特征在于,所述方法包括:获取虚拟对象所处虚拟交互场景的状态特征;将所述状态特征输入到移动策略模型中,得到所述虚拟对象从所处位置待移动到的目标位置;所述移动策略模型,是基于在所述虚拟交互场景中进行交互所得到的历史交互数据进行训练得到的;将所述状态特征和所述目标位置输入到待训练的交互模型中进行交互操作映射,获得所述虚拟对象在所述所处位置待执行的交互动作;获取所述虚拟对象执行所述交互动作得到的交互收益,并获取所述虚拟对象从所述所处位置向所述目标位置移动时得到的移动引导收益;基于所述状态特征、所述目标位置、所述交互动作、所述交互收益和所述移动引导收益,对所述待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:控制所述虚拟对象从所述所处位置向所述目标位置进行移动;所述获取所述虚拟对象从所述所处位置向所述目标位置移动时得到的移动引导收益,包括:当满足移动判定条件,确定所述虚拟对象从所述所处位置向所述目标位置移动时所到达的中间位置;确定所述中间位置和所述目标位置之间的距离差;根据所述距离差映射得到移动引导收益。3.根据权利要求2所述的方法,其特征在于,所述控制所述虚拟对象从所述所处位置向所述目标位置进行移动,包括:根据所述目标位置和所述所处位置确定所述虚拟对象的移动路径;针对所述移动路径进行特征提取,得到所述移动路径的路径特征;按照所述路径特征,控制所述虚拟对象从所述所处位置向所述目标位置进行移动。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:控制所述虚拟对象执行所述交互动作;所述获取所述虚拟对象执行所述交互动作得到的交互收益,包括:获取所述虚拟对象执行所述交互动作得到的局部收益和全局收益;根据所述局部收益和所述全局收益得到交互收益。5.根据权利要求4所述的方法,其特征在于,所述根据所述局部收益和所述全局收益得到交互收益,包括:根据所述局部收益和局部收益权重计算得到局部加权收益;根据所述全局收益和全局收益权重计算得到全局加权收益;基于所述局部加权收益和全局加权收益得到交互收益。6.根据权利要求1所述的方法,其特征在于,所述基于所述状态特征、所述目标位置、所述交互动作、所述交互收益和所述移动引导收益,对所述待训练的交互模型进行更新后继续训练,直至获得训练完成的交互模型,包括:基于所述状态特征、所述目标位置、所述交互动作、所述交互收益和所述移动引导收益,确定目标损失值;
根据所述目标损失值对所述待训练的交互模型的模型参数进行更新,获得更新后的交互模型;通过更新后的交互模型继续进行训练,直至满足训练结束条件,获得训练完成的交互模型。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取在所述虚拟交互场景中,历史账号通过控制虚拟对象进行交互所得到的历史交互数据;针对所述历史交互数据进行状态特征提取,得到携带目标位置标签的历史状态特征数据;基于所述历史状态特征数据进行训练,获得所述移动策略模型。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取最新的数据类别判别模型;所述数据类别判别模型,是基于携带数据类别标签的交互样本数据进行训练获得的;基于所述状态特征和所述交互动作得到目标交互数据,并将所述目标交互数据输入到最新的数据类别判别模型中,得到数据判定类别;根据所述数据判定类别得到所述目标交互数据的数据类别模拟收益;所述基于所述状态特征、所述目标位置、所述交互动作、所述交互收益和所述移动引导收益,对所述待训练的交互模型进行更新...

【专利技术属性】
技术研发人员:杨阳邱福浩付强文荟俨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1