【技术实现步骤摘要】
一种模型训练方法及相关装置
[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法及相关装置。
技术介绍
[0002]游戏人工智能(Artificial Intelligence,AI)是自动智能化操控游戏中虚拟角色的技术。基于游戏AI操控游戏中的虚拟角色时,可以根据当前游戏状态决策该虚拟角色所需执行的动作,进而控制该虚拟角色执行该动作。
[0003]相关技术中,可以使用预先训练的模型决策虚拟角色所需执行的动作,该模型可以通过监督学习或者强化学习训练得到。然而,通过监督学习训练该模型时,往往需要依赖大量的训练数据,若训练数据的数量无法满足要求,将影响所训练的模型的性能;通过强化学习训练该模型时,需要投入较多的人力对训练过程中使用的奖励函数进行反复精细的调整,只有这样才能保证训练得到的模型具备较好的拟人性。
[0004]综上,如何减少训练游戏AI模型所需的训练数据,降低训练该模型投入的人力,同时保证训练得到的模型具备较优的性能,已成为亟待解决的问题。
技术实现思路
[0005]本申请实施例提供了一种模型训练方法及相关装置,能够在保证训练出的游戏AI模型具备较优性能的情况下,减少模型训练所需的训练数据,并且减少模型训练所需投入的人力。
[0006]有鉴于此,本申请第一方面提供了一种模型训练方法,所述方法包括:获取技巧样本数据;所述技巧样本数据中包括具有对应关系的游戏状态数据序列和操作数据序列,所述游戏状态数据序列和所述操作数据序列对应目标帧长度;采用监督学习算法,根据所述 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取技巧样本数据;所述技巧样本数据中包括具有对应关系的游戏状态数据序列和操作数据序列,所述游戏状态数据序列和所述操作数据序列对应目标帧长度;采用监督学习算法,根据所述技巧样本数据,联合训练变分自编码器和先验策略模型;所述变分自编码器包括编码器和解码器,所述编码器用于将操作数据序列映射为技巧向量,所述解码器用于根据所述技巧向量重建操作数据序列;所述先验策略模型用于根据游戏状态数据序列确定技巧向量;采用强化学习算法,训练游戏人工智能模型;所述游戏人工智能模型是基于所述先验策略模型和所述解码器构建的。2.根据权利要求1所述的方法,其特征在于,所述采用监督学习算法,根据所述技巧样本数据,联合训练变分自编码器和先验策略模型,包括:通过所述变分自编码器中的所述编码器,根据所述技巧样本数据中的所述操作数据序列,确定第一技巧向量;通过所述变分自编码器中的所述解码器,根据所述第一技巧向量,确定重建操作数据序列;通过所述先验策略模型,根据所述技巧样本数据中的所述游戏状态数据序列,确定第二技巧向量;根据所述重建操作数据序列与所述操作数据序列之间的差异、以及所述第二技巧向量与所述第一技巧向量之间的差异,训练所述变分自编码器和所述先验策略模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述重建操作数据序列与所述操作数据序列之间的差异、以及所述第二技巧向量与所述第一技巧向量之间的差异,训练所述变分自编码器和所述先验策略模型,包括:根据所述重建操作数据序列与所述操作数据序列之间的差异,构建第一损失函数;根据所述第二技巧向量与所述第一技巧向量之间的差异,构建第二损失函数;根据所述第一损失函数和所述第二损失函数,确定综合损失函数;基于所述综合损失函数,调整所述变分自编码器的模型参数和所述先验策略模型的模型参数。4.根据权利要求1所述的方法,其特征在于,所述采用监督学习算法,根据所述技巧样本数据,联合训练变分自编码器和先验策略模型,包括:通过所述变分自编码器,根据所述技巧样本数据中的所述操作数据序列,确定重建操作数据序列;根据所述重建操作数据序列与所述操作数据序列之间的差异,训练所述变分自编码器;通过所述先验策略模型,根据所述技巧样本数据中的所述游戏状态数据序列,确定第三技巧向量;根据所述第三技巧向量与第四技巧向量之间的差异,训练所述先验策略模型;所述第四技巧向量是满足训练结束条件的所述变分自编码器中的编码器根据所述技巧样本数据中的操作数据序列确定的。5.根据权利要求1所述的方法,其特征在于,所述采用强化学习算法,训练游戏人工智能模型,包括:采用强化学习算法,训练所述游戏人工智能模型中的残差模型;所述游戏人工智能模型中包括所述先验策略模型、所述残差模型以及所述解码器,所述残差模型用于确定对于
所述先验策略模型输出的技巧向量的修正量。6.根据权利要求5所述的方法,其特征在于,所述采用强化学习算法,训练所述游戏人工智能模型中的残差模型,包括:获取训练游戏环境中的训练游戏状态数据序列;通过所述先验策略模型,根据所述训练游戏状态数据序列,确定基础技巧向量;通过所述残差模型,根据所述训练游戏状态数据序列,确定修正量;通过所述解码器,根据所述基础技巧向量和所述修正量,确定预测操作数据序列;控制所述训练游戏环境中的虚拟角色执行所述预测操作数据序列指示的动作序列,获取所述虚拟角色执行所述动作序列时产生的游戏状态变化数据;通过奖励函数,根据所述游戏状态变化数据确定目标奖励值;基于所述目标奖励值,训练所述残差模型。7.根据权利要求6所述的...
【专利技术属性】
技术研发人员:姜允执,黄新昊,万乐,徐志鹏,顾子卉,谢宇轩,刘林韬,郑规,殷俊,邓大付,欧阳卓能,金鼎健,廖明翔,刘总波,梁宇宁,官冰权,杨益浩,申家忠,刘思亮,高丽娜,漆舒汉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。