虚拟对象的动作确定模型训练方法、装置、设备及介质制造方法及图纸

技术编号:27048306 阅读:19 留言:0更新日期:2021-01-15 14:14
本申请提供了一种虚拟对象的动作确定模型训练方法、装置、设备及介质,属于人工智能技术领域。方法包括:基于虚拟场景的第一环境状态,确定虚拟场景在目标时长后的计算环境状态;根据计算环境状态和第一环境状态在下一时刻的实际环境状态,确定内在奖励信息;根据内在奖励信息,调整当前动作确定模型的参数;响应于当前动作确定模型符合第一目标条件,将当前动作确定模型确定为训练完毕的动作确定模型。上述方案,使得该动作确定模型输出的动作,能够对应不同的游戏策略,提高了虚拟对象在游戏策略上的对抗能力和鲁棒性。

【技术实现步骤摘要】
虚拟对象的动作确定模型训练方法、装置、设备及介质
本申请涉及人工智能
,特别涉及一种虚拟对象的动作确定模型训练方法、装置、设备及介质。
技术介绍
随着人工智能(ArtificialIntelligence,AI)技术的发展,AI已经在多种领域向顶尖人类发出了挑战,且已经接近人类顶尖竞技水平。例如,在围棋领域,AlphaGo战胜围棋世界冠军,在游戏领域,AlphaStar战胜星级争霸II(一种即时战略游戏)职业选手等。当前,对游戏AI问题的研究,已成为探索真实世界的通用人工智能的试验场。目前,对于多人在线战术竞技游戏(MultiplayerOnlineBattleArena,MOBA),由于MOBA游戏受到阵容组合、战略目标以及战术执行等多种复杂内容的影响,通常是采用采用强化学习(ReinforcementLearning,RL)的方法来训练AI,RL中通过奖励信号(Reward)来引导AI的学习。上述技术方案存在的技术问题是,由于上述RL中AI的奖励信号是技术人员定义的稠密的奖励信号,导致训练得到的AI仅能执行单一的游戏策略,导致该AI在游戏策略上的对抗能力较弱,缺少鲁棒性。
技术实现思路
本申请实施例提供了一种虚拟对象的动作确定模型训练方法、装置、设备及介质,使得该动作确定模型输出的动作,能够对应不同的游戏策略,提高了虚拟对象在游戏策略上的对抗能力和鲁棒性。所述技术方案如下:一方面,提供了一种虚拟对象的动作确定模型训练方法,所述方法包括:基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,所述第一环境状态和所述计算环境状态分别表示虚拟场景的环境;根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,所述内在奖励信息用于指示执行目标动作是否对虚拟对象有益,所述实际环境状态用于指示所述虚拟场景处于所述第一环境状态下所述虚拟对象执行所述目标动作后的环境状态;根据所述内在奖励信息,调整当前动作确定模型的参数;响应于所述当前动作确定模型符合第一目标条件,将所述当前动作确定模型确定为训练完毕的动作确定模型,所述动作确定模型用于根据输入的环境状态输出动作。另一方面,提供了一种虚拟对象的动作确定模型训练装置,所述装置包括:状态确定模块,用于基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,所述第一环境状态和所述计算环境状态分别表示虚拟场景的环境;信息确定模块,用于根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,所述内在奖励信息用于指示执行目标动作是否对虚拟对象有益,所述实际环境状态用于指示所述虚拟场景处于所述第一环境状态下所述虚拟对象执行所述目标动作后的环境状态;参数调整模块,用于根据所述内在奖励信息,调整当前动作确定模型的参数;模型确定模块,用于响应于所述当前动作确定模型符合第一目标条件,将所述当前动作确定模型确定为训练完毕的动作确定模型,所述动作确定模型用于根据输入的环境状态输出动作。在一种可能的实现方式中,所述信息确定模块,用于获取所述第一环境状态与所述计算环境状态的第一差值;获取所述实际环境状态与所述计算环境状态的第二差值;将所述第一差值和所述第二差值之间的目标差值确定为所述内在奖励信息,所述目标差值不为负表示执行所述目标动作对所述虚拟对象有益。在一种可能的实现方式中,所述装置还包括:状态变换模块,用于将所述第一环境状态和所述实际环境状态,变换到与所述计算环境状态相同的维度。在一种可能的实现方式中,所述状态确定模块,用于确定所述虚拟场景的第一环境状态的第一环境向量;将所述第一环境向量输入环境状态确定模型,由所述环境状态确定模型输出所述虚拟场景在目标时长后的计算环境状态,所述环境状态确定模型用于根据已知的环境状态计算目标时长后的环境状态。在一种可能的实现方式中,所述环境状态确定模型的训练步骤包括:获取第一样本环境状态和在目标时长之后所述第一样本环境状态对应的第二样本环境状态;以所述第一样本环境状态为输入,所述第二样本环境状态为标签信息,对本次迭代过程中的环境状态确定模型进行训练;响应于所述本次迭代过程中的环境状态确定模型符合第二目标条件,将所述本次迭代过程中的环境状态确定模型作为训练完毕的环境状态确定模型。在一种可能的实现方式中,所述第二样本环境状态基于先验知识提取得到。在一种可能的实现方式中,所述环境状态确定模型为任一次迭代过程对应的环境状态确定模型。在一种可能的实现方式中,所述装置还包括自对弈模块用于对所述当前动作确定模型进行自对弈训练。另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行以实现本申请实施例中的虚拟对象的动作确定模型训练方法中所执行的操作。另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序代码,所述至少一段程序代码由处理器加载并执行以实现如本申请实施例中虚拟对象的动作确定模型训练方法中所执行的操作。另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各个方面或者各个方面的各种可选实现方式中提供的虚拟对象的动作确定模型训练方法。本申请实施例提供的技术方案带来的有益效果是:在本申请实施例中,提供了一种虚拟对象的动作确定模型训练方法,在强化学习过程中,基于内在奖励信息来对当前动作确定模型的参数进行调整,由于该内在奖励信息,为根据预测的计算环境状态,和虚拟对象执行动作后的实际环境状态来确定的,使得训练得到的动作确定模型输出的动作,能够使虚拟对象执行后从虚拟场景获得更多的奖励,且由于内在奖励信息是根据预测的计算环境状态动态变化的,从而该动作确定模型输出的动作,能够对应不同的游戏策略,提高了虚拟对象在游戏策略上的对抗能力和鲁棒性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本申请实施例提供的虚拟对象的动作确定模型训练方法的实施环境示意图;图2是根据本申请实施例提供的一种虚拟对象的动作确定模型训练方法的流程图;图3是根据本申请实施例提供的另一种虚拟对象的动作确定模型训练方法的流程图;图4是根据本申请实施例提供的一种训练环境状态确定模型的流程示意图;图5是根据本申请实施例提供的一种训练动作确定模型的流程示意图;图6是根本文档来自技高网...

【技术保护点】
1.一种虚拟对象的动作确定模型训练方法,其特征在于,所述方法包括:/n基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,所述第一环境状态和所述计算环境状态分别表示虚拟场景的环境;/n根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,所述内在奖励信息用于指示执行目标动作是否对虚拟对象有益,所述实际环境状态用于指示所述虚拟场景处于所述第一环境状态下所述虚拟对象执行所述目标动作后的环境状态;/n根据所述内在奖励信息,调整当前动作确定模型的参数;/n响应于所述当前动作确定模型符合第一目标条件,将所述当前动作确定模型确定为训练完毕的动作确定模型,所述动作确定模型用于根据输入的环境状态输出动作。/n

【技术特征摘要】
1.一种虚拟对象的动作确定模型训练方法,其特征在于,所述方法包括:
基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,所述第一环境状态和所述计算环境状态分别表示虚拟场景的环境;
根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,所述内在奖励信息用于指示执行目标动作是否对虚拟对象有益,所述实际环境状态用于指示所述虚拟场景处于所述第一环境状态下所述虚拟对象执行所述目标动作后的环境状态;
根据所述内在奖励信息,调整当前动作确定模型的参数;
响应于所述当前动作确定模型符合第一目标条件,将所述当前动作确定模型确定为训练完毕的动作确定模型,所述动作确定模型用于根据输入的环境状态输出动作。


2.根据权利要求1所述的方法,其特征在于,所述根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,包括:
获取所述第一环境状态与所述计算环境状态的第一差值;
获取所述实际环境状态与所述计算环境状态的第二差值;
将所述第一差值和所述第二差值之间的目标差值确定为所述内在奖励信息,所述目标差值不为负表示执行所述目标动作对所述虚拟对象有益。


3.根据权利要求2所述的方法,其特征在于,所述获取所述第一环境状态与所述计算环境状态的第一差值之前,所述方法还包括:
将所述第一环境状态和所述实际环境状态,变换到与所述计算环境状态相同的维度。


4.根据权利要求1所述的方法,其特征在于,所述基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,包括:
确定所述虚拟场景的第一环境状态的第一环境向量;
将所述第一环境向量输入环境状态确定模型,由所述环境状态确定模型输出所述虚拟场景在目标时长后的计算环境状态,所述环境状态确定模型用于根据已知的环境状态计算目标时长后的环境状态。


5.根据权利要求4所述的方法,其特征在于,所述环境状态确定模型的训练步骤包括:
获取第一样本环境状态和在目标时长之后所述第一样本环境状态对应的第二样本环...

【专利技术属性】
技术研发人员:杜雪莹石贝练振杰高一鸣陈光伟王亮付强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1