一种模型训练方法及相关装置制造方法及图纸

技术编号:36047225 阅读:62 留言:0更新日期:2022-12-21 10:56
本申请实施例公开了一种人工智能领域的模型训练方法及相关装置,其中该方法包括:获取技巧样本数据;技巧样本数据中包括具有对应关系的游戏状态数据序列和操作数据序列,游戏状态数据序列和操作数据序列对应目标帧长度;采用监督学习算法,根据技巧样本数据,联合训练变分自编码器和先验策略模型;变分自编码器包括编码器和解码器,编码器用于将操作数据序列映射为技巧向量,解码器用于根据技巧向量重建操作数据序列;先验策略模型用于根据游戏状态数据序列确定技巧向量;采用强化学习算法,训练根据先验策略模型和解码器构建的游戏AI模型。该方法能够减少游戏AI模型训练所需的训练数据,并且减少游戏AI模型训练所需投入的人力。力。力。

【技术实现步骤摘要】
一种模型训练方法及相关装置


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法及相关装置。

技术介绍

[0002]游戏人工智能(Artificial Intelligence,AI)是自动智能化操控游戏中虚拟角色的技术。基于游戏AI操控游戏中的虚拟角色时,可以根据当前游戏状态决策该虚拟角色所需执行的动作,进而控制该虚拟角色执行该动作。
[0003]相关技术中,可以使用预先训练的模型决策虚拟角色所需执行的动作,该模型可以通过监督学习或者强化学习训练得到。然而,通过监督学习训练该模型时,往往需要依赖大量的训练数据,若训练数据的数量无法满足要求,将影响所训练的模型的性能;通过强化学习训练该模型时,需要投入较多的人力对训练过程中使用的奖励函数进行反复精细的调整,只有这样才能保证训练得到的模型具备较好的拟人性。
[0004]综上,如何减少训练游戏AI模型所需的训练数据,降低训练该模型投入的人力,同时保证训练得到的模型具备较优的性能,已成为亟待解决的问题。

技术实现思路

[0005]本申请实施例提供了一种模型训练方法及相关装置,能够在保证训练出的游戏AI模型具备较优性能的情况下,减少模型训练所需的训练数据,并且减少模型训练所需投入的人力。
[0006]有鉴于此,本申请第一方面提供了一种模型训练方法,所述方法包括:获取技巧样本数据;所述技巧样本数据中包括具有对应关系的游戏状态数据序列和操作数据序列,所述游戏状态数据序列和所述操作数据序列对应目标帧长度;采用监督学习算法,根据所述技巧样本数据,联合训练变分自编码器和先验策略模型;所述变分自编码器包括编码器和解码器,所述编码器用于将操作数据序列映射为技巧向量,所述解码器用于根据所述技巧向量重建操作数据序列;所述先验策略模型用于根据游戏状态数据序列确定技巧向量;采用强化学习算法,训练游戏人工智能模型;所述游戏人工智能模型是基于所述先验策略模型和所述解码器构建的。
[0007]本申请第二方面提供了一种模型训练装置,所述装置包括:样本获取模块,用于获取技巧样本数据;所述技巧样本数据中包括具有对应关系的游戏状态数据序列和操作数据序列,所述游戏状态数据序列和所述操作数据序列对应目标帧长度;监督学习模块,用于采用监督学习算法,根据所述技巧样本数据,联合训练变分自编码器和先验策略模型;所述变分自编码器包括编码器和解码器,所述编码器用于将操作数据序列映射为技巧向量,所述解码器用于根据所述技巧向量重建操作数据序列;所述先验策略模型用于根据游戏状态数据序列确定技巧向量;
强化学习模块,用于采用强化学习算法,训练游戏人工智能模型;所述游戏人工智能模型是基于所述先验策略模型和所述解码器构建的。
[0008]本申请第三方面提供了一种计算机设备,所述设备包括处理器以及存储器:所述存储器用于存储计算机程序;所述处理器用于根据所述计算机程序,执行如上述第一方面所述的模型训练方法的步骤。
[0009]本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的模型训练方法的步骤。
[0010]本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的模型训练方法的步骤。
[0011]从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例提供了一种模型训练方法,该方法创新性地提出了“技巧”这一概念,所谓“技巧”即是特定长度的操作数据序列在低维向量空间中的表示;藉由“技巧”这一概念的引入,本申请实施例将传统游戏AI模型所需学习的策略(游戏状态数据到操作数据的映射)拆分为上层策略和下层策略,其中,上层策略为游戏状态数据序列到技巧的映射,下层策略为技巧到操作数据序列的映射。对于下层策略的学习,本申请实施例通过采用监督学习算法根据技巧样本数据训练变分自编码器来实现;即采用监督学习算法,基于技巧样本数据中的操作数据序列,训练变分自编码器中的编码器和解码器,其中,编码器用于将操作数据序列映射为技巧向量,解码器用于根据技巧向量重建操作数据序列;由于技巧向量与操作数据序列之间的映射不涉及游戏状态数据空间,大幅降低了训练任务的复杂度,因此只使用少量的技巧样本数据即可训练得到性能较优的变分自编码器。对于上层策略的学习,本申请实施例通过结合监督学习算法和强化学习算法训练先验策略模型来实现;即先采用监督学习算法,基于技巧样本数据中的游戏状态序列数据和变分自编码器中的编码器的输出结果,训练先验策略模型,然后采用强化学习算法,对包括该先验策略模型和变分自编码器中的解码器的游戏AI模型进行训练;先采用监督学习算法训练先验策略模型,可以使该先验策略模型具备一定的技巧编码能力,对包括该先验策略模型的游戏AI模型进行强化学习,可以在一定程度上减少强化学习的训练耗时,并且奖励函数的调整也更简单,可以减少强化学习过程中所需投入的用于调整奖励函数的人力,同时也能保证训练得到的游戏AI模型具有较优的拟人性。
附图说明
[0012]图1为本申请实施例提供的模型训练方法的应用场景示意图;图2为本申请实施例提供的模型训练方法的流程示意图;图3为本申请实施例提供的联合训练变分自编码器和先验策略模型的示意图;图4为本申请实施例提供的在强化学习阶段训练残差模型的流程示意图;图5为本申请实施例提供的一种强化学习阶段游戏AI模型的训练示意图;图6为本申请实施例提供的另一种强化学习阶段游戏AI模型的训练示意图;
图7为本申请实施例提供的一种FPS游戏的界面示意图;图8为本申请实施例提供的一种模型训练装置的结构示意图;图9为本申请实施例提供的终端设备的结构示意图;图10为本申请实施例提供的服务器的结构示意图。
具体实施方式
[0013]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0014]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0015]人工智能是利用数字计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取技巧样本数据;所述技巧样本数据中包括具有对应关系的游戏状态数据序列和操作数据序列,所述游戏状态数据序列和所述操作数据序列对应目标帧长度;采用监督学习算法,根据所述技巧样本数据,联合训练变分自编码器和先验策略模型;所述变分自编码器包括编码器和解码器,所述编码器用于将操作数据序列映射为技巧向量,所述解码器用于根据所述技巧向量重建操作数据序列;所述先验策略模型用于根据游戏状态数据序列确定技巧向量;采用强化学习算法,训练游戏人工智能模型;所述游戏人工智能模型是基于所述先验策略模型和所述解码器构建的。2.根据权利要求1所述的方法,其特征在于,所述采用监督学习算法,根据所述技巧样本数据,联合训练变分自编码器和先验策略模型,包括:通过所述变分自编码器中的所述编码器,根据所述技巧样本数据中的所述操作数据序列,确定第一技巧向量;通过所述变分自编码器中的所述解码器,根据所述第一技巧向量,确定重建操作数据序列;通过所述先验策略模型,根据所述技巧样本数据中的所述游戏状态数据序列,确定第二技巧向量;根据所述重建操作数据序列与所述操作数据序列之间的差异、以及所述第二技巧向量与所述第一技巧向量之间的差异,训练所述变分自编码器和所述先验策略模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述重建操作数据序列与所述操作数据序列之间的差异、以及所述第二技巧向量与所述第一技巧向量之间的差异,训练所述变分自编码器和所述先验策略模型,包括:根据所述重建操作数据序列与所述操作数据序列之间的差异,构建第一损失函数;根据所述第二技巧向量与所述第一技巧向量之间的差异,构建第二损失函数;根据所述第一损失函数和所述第二损失函数,确定综合损失函数;基于所述综合损失函数,调整所述变分自编码器的模型参数和所述先验策略模型的模型参数。4.根据权利要求1所述的方法,其特征在于,所述采用监督学习算法,根据所述技巧样本数据,联合训练变分自编码器和先验策略模型,包括:通过所述变分自编码器,根据所述技巧样本数据中的所述操作数据序列,确定重建操作数据序列;根据所述重建操作数据序列与所述操作数据序列之间的差异,训练所述变分自编码器;通过所述先验策略模型,根据所述技巧样本数据中的所述游戏状态数据序列,确定第三技巧向量;根据所述第三技巧向量与第四技巧向量之间的差异,训练所述先验策略模型;所述第四技巧向量是满足训练结束条件的所述变分自编码器中的编码器根据所述技巧样本数据中的操作数据序列确定的。5.根据权利要求1所述的方法,其特征在于,所述采用强化学习算法,训练游戏人工智能模型,包括:采用强化学习算法,训练所述游戏人工智能模型中的残差模型;所述游戏人工智能模型中包括所述先验策略模型、所述残差模型以及所述解码器,所述残差模型用于确定对于
所述先验策略模型输出的技巧向量的修正量。6.根据权利要求5所述的方法,其特征在于,所述采用强化学习算法,训练所述游戏人工智能模型中的残差模型,包括:获取训练游戏环境中的训练游戏状态数据序列;通过所述先验策略模型,根据所述训练游戏状态数据序列,确定基础技巧向量;通过所述残差模型,根据所述训练游戏状态数据序列,确定修正量;通过所述解码器,根据所述基础技巧向量和所述修正量,确定预测操作数据序列;控制所述训练游戏环境中的虚拟角色执行所述预测操作数据序列指示的动作序列,获取所述虚拟角色执行所述动作序列时产生的游戏状态变化数据;通过奖励函数,根据所述游戏状态变化数据确定目标奖励值;基于所述目标奖励值,训练所述残差模型。7.根据权利要求6所述的...

【专利技术属性】
技术研发人员:姜允执黄新昊万乐徐志鹏顾子卉谢宇轩刘林韬郑规殷俊邓大付欧阳卓能金鼎健廖明翔刘总波梁宇宁官冰权杨益浩申家忠刘思亮高丽娜漆舒汉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1