【技术实现步骤摘要】
虚拟对象的动作确定模型训练方法、装置、设备及介质
本申请涉及人工智能
,特别涉及一种虚拟对象的动作确定模型训练方法、装置、设备及介质。
技术介绍
随着人工智能(ArtificialIntelligence,AI)技术的发展,AI已经在多种领域向顶尖人类发出了挑战,且已经接近人类顶尖竞技水平。例如,在围棋领域,AlphaGo战胜围棋世界冠军,在游戏领域,AlphaStar战胜星级争霸II(一种即时战略游戏)职业选手等。当前,对游戏AI问题的研究,已成为探索真实世界的通用人工智能的试验场。目前,对于多人在线战术竞技游戏(MultiplayerOnlineBattleArena,MOBA),由于MOBA游戏受到阵容组合、战略目标以及战术执行等多种复杂内容的影响,通常是采用采用强化学习(ReinforcementLearning,RL)的方法来训练AI,RL中通过奖励信号(Reward)来引导AI的学习。上述技术方案存在的技术问题是,由于上述RL中AI的奖励信号是技术人员定义的稠密的奖励信号,导致训练得到的AI仅能执行单一的游戏策略,导致该AI在游戏策略上的对抗能力较弱,缺少鲁棒性。
技术实现思路
本申请实施例提供了一种虚拟对象的动作确定模型训练方法、装置、设备及介质,使得该动作确定模型输出的动作,能够对应不同的游戏策略,提高了虚拟对象在游戏策略上的对抗能力和鲁棒性。所述技术方案如下:一方面,提供了一种虚拟对象的动作确定模型训练方法,所述方法包括:基于虚拟场景的第一环境状态, ...
【技术保护点】
1.一种虚拟对象的动作确定模型训练方法,其特征在于,所述方法包括:/n基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,所述第一环境状态和所述计算环境状态分别表示虚拟场景的环境;/n根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,所述内在奖励信息用于指示执行目标动作是否对虚拟对象有益,所述实际环境状态用于指示所述虚拟场景处于所述第一环境状态下所述虚拟对象执行所述目标动作后的环境状态;/n根据所述内在奖励信息,调整当前动作确定模型的参数;/n响应于所述当前动作确定模型符合第一目标条件,将所述当前动作确定模型确定为训练完毕的动作确定模型,所述动作确定模型用于根据输入的环境状态输出动作。/n
【技术特征摘要】
1.一种虚拟对象的动作确定模型训练方法,其特征在于,所述方法包括:
基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,所述第一环境状态和所述计算环境状态分别表示虚拟场景的环境;
根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,所述内在奖励信息用于指示执行目标动作是否对虚拟对象有益,所述实际环境状态用于指示所述虚拟场景处于所述第一环境状态下所述虚拟对象执行所述目标动作后的环境状态;
根据所述内在奖励信息,调整当前动作确定模型的参数;
响应于所述当前动作确定模型符合第一目标条件,将所述当前动作确定模型确定为训练完毕的动作确定模型,所述动作确定模型用于根据输入的环境状态输出动作。
2.根据权利要求1所述的方法,其特征在于,所述根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,包括:
获取所述第一环境状态与所述计算环境状态的第一差值;
获取所述实际环境状态与所述计算环境状态的第二差值;
将所述第一差值和所述第二差值之间的目标差值确定为所述内在奖励信息,所述目标差值不为负表示执行所述目标动作对所述虚拟对象有益。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一环境状态与所述计算环境状态的第一差值之前,所述方法还包括:
将所述第一环境状态和所述实际环境状态,变换到与所述计算环境状态相同的维度。
4.根据权利要求1所述的方法,其特征在于,所述基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,包括:
确定所述虚拟场景的第一环境状态的第一环境向量;
将所述第一环境向量输入环境状态确定模型,由所述环境状态确定模型输出所述虚拟场景在目标时长后的计算环境状态,所述环境状态确定模型用于根据已知的环境状态计算目标时长后的环境状态。
5.根据权利要求4所述的方法,其特征在于,所述环境状态确定模型的训练步骤包括:
获取第一样本环境状态和在目标时长之后所述第一样本环境状态对应的第二样本环...
【专利技术属性】
技术研发人员:杜雪莹,石贝,练振杰,高一鸣,陈光伟,王亮,付强,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。