动作预测模型的训练方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:39261637 阅读:15 留言:0更新日期:2023-10-30 12:14
本申请公开一种动作预测模型的训练方法、装置、设备、存储介质及产品,涉及机器学习领域。该方法包括:获取样本动作类型对应的多个样本动作状态数据分别对应的第一特征表示,以及随机获取第一动作状态数据;将第一动作状态数据、多个样本动作状态数据分别对应的第一特征表示和样本动作类型输入样本策略生成器,输出得到多个样本动作状态数据分别对应的第一预测动作数据;基于第一动作状态数据获取多个第一预测动作数据分别对应的动作状态数据对;提取多个动作状态数据对分别对应的第二特征表示;基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对样本策略生成器进行训练,得到目标策略生成器。用于提高动作预测的多样性。测的多样性。测的多样性。

【技术实现步骤摘要】
动作预测模型的训练方法、装置、设备、存储介质及产品


[0001]本申请实施例涉及机器学习领域,特别涉及一种动作预测模型的训练方法、装置、设备、存储介质及产品。

技术介绍

[0002]随着人工智能技术的不断发展,虚拟对象的动作动画可以基于仿真物理模拟生成得到,也即,通过物理仿真能够根据虚拟对象当前的动作状态预测下一个动作,从而完成一整个动作动画。
[0003]在相关技术中,在对虚拟对象的动作进行预测的过程中,采用生成对抗网络(Generative Adversarial Networks,GAN)的方式,通过使用包含大量不同动作类型的数据集对GAN中的样本策略生成器进行训练,从而使其能针对输入的当前动作进行动作预测,输出更逼真的动作预测结果。
[0004]然而在相关技术中,使用不同动作类型的数据集对GAN进行训练的过程中会存在一些动作的特征信息丢失的情况,导致模型训练效果较差,使得最终的得到策略生成器输出结果的准确度较低。

技术实现思路

[0005]本申请实施例提供了一种动作预测模型的训练方法、装置、设备、存储介质及产品,能够提高动作预测模型的准确度。所述技术方案如下。
[0006]一方面,提供了一种动作预测模型的训练方法,所述方法包括:
[0007]获取样本动作类型对应的多个样本动作状态数据分别对应的第一特征表示,以及随机获取第一动作状态数据,所述动作状态数据是动作动画中的动作子片段;
[0008]将所述第一动作状态数据、所述多个样本动作状态数据分别对应的第一特征表示和所述样本动作类型输入样本策略生成器,输出得到多个样本动作状态数据分别对应的第二预测动作数据,其中,所述第二预测动作数据是在所述第一动作状态数据的基础上预测得到的与所述样本动作类型对应的动作状态数据;
[0009]基于所述第一动作状态数据获取多个第二动作状态数据分别对应的动作状态数据对,所述运动状态数据对中包括所述第一动作状态数据和所述第二动作状态数据;
[0010]提取多个动作状态数据对分别对应的第二特征表示;
[0011]基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练,得到目标策略生成器,所述目标策略生成器用于通过目标动作状态数据对应的第二特征表示和目标动作类型对所述目标动作状态数据进行动作预测,得到与目标动作状态数据衔接的动作子片段。
[0012]另一方面,提供了一种动作预测模型的训练装置,所述装置包括:
[0013]获取模块,用于获取与样本动作类型对应的多个样本动作状态数据分别对应的第一特征表示,以及随机获取第一动作状态数据,所述动作状态数据是动作动画中的动作子
片段;
[0014]输入模块,用于将所述第一动作状态数据、所述多个样本动作状态数据分别对应的第一特征表示和所述样本动作类型输入样本策略生成器,输出得到所述第一动作状态数据对应的多个第二预测动作数据,其中,所述第二预测动作数据是在所述第一动作状态数据的基础上预测得到的与所述样本动作类型对应的第二动作状态数据;
[0015]生成模块,用于基于所述第一动作状态数据生成多个第二动作状态数据分别对应的动作状态数据对,所述运动状态数据对中包括所述第一动作状态数据和所述第二动作状态数据;
[0016]提取模块,用于提取多个动作状态数据对分别对应的第二特征表示;
[0017]训练模块,用于基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练,得到目标策略生成器,所述目标策略生成器用于通过目标动作状态数据对应的第二特征表示和目标动作类型对所述目标动作状态数据进行动作预测,得到与目标动作状态数据衔接的动作子片段。
[0018]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述动作预测模型的训练方法。
[0019]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的动作预测模型的训练方法。
[0020]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的动作预测模型的训练方法。
[0021]本申请实施例提供的技术方案带来的有益效果至少包括:
[0022]在随机获取样本动作类型以及第一动作状态数据的情况下,获取样本动作类型对应的多个样本动作状态数据分别对应的第一特征表示,将第一动作状态数据、多个样本动作状态数据分别对应的第一特征表示和样本动作类型输入样本策略生成器,输出得到多个样本动作状态数据分别对应的第二预测动作数据,从而生成多个包含第一动作状态数据和第二动作状态数据的动作状态数据对,提取多个动作状态数据对分别对应的第二特征表示,最终,根据任意两个动作状态数据对分别对应的第二特征表示之间的差异对样本策略生成器进行训练,得到目标策略生成器。也即,针对同一样本动作类型下的不同样本动作数据进行建模,从而学习同一样本动作类型下不同样本动作数据的特征分布,从而使得目标策略生成器掌握更多的动作数据,进而提高目标策略生成器的动作预测的多样性,使其能够对更多动作数据进行动作预测。
附图说明
[0023]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请一个示例性实施例提供的实施环境示意图;
[0025]图2是本申请一个示例性实施例提供的动作预测模型的训练方法流程图;
[0026]图3是本申请一个示例性实施例提供的动作预测模型的训练方法流程图;
[0027]图4是本申请另一个示例性实施例提供的动作预测模型的训练方法示意图;
[0028]图5是本申请另一个示例性实施例提供的模型性能表现对比图;
[0029]图6是本申请另一个示例性实施例提供的模型性能表现对比图;
[0030]图7是本申请一个示例性实施例提供的动作多样性效果示意图;
[0031]图8是本申请一个示例性实施例提供的模型性能表现对比图;
[0032]图9是本申请一个示例性实施例提供的动作任务示意图;
[0033]图10是本申请一个示例性实施例提供的动作类型对应的动作数据示意图;
[0034]图1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作预测模型的训练方法,其特征在于,所述方法包括:获取样本动作类型对应的多个样本动作状态数据分别对应的第一特征表示,以及获取第一动作状态数据,所述动作状态数据是动作动画中的动作子片段对应的动作执行状态;将所述第一动作状态数据、所述多个样本动作状态数据分别对应的第一特征表示和所述样本动作类型输入样本策略生成器,输出得到多个样本动作状态数据分别对应的第一预测动作数据,其中,所述第一预测动作数据是在所述第一动作状态数据的基础上预测得到的与所述样本动作类型对应的动作子片段;基于所述第一动作状态数据获取多个第一预测动作数据分别对应的动作状态数据对,所述运动状态数据对中包括所述第一动作状态数据和所述第一预测动作数据对应的动作状态数据;提取多个动作状态数据对分别对应的第二特征表示;基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练,得到目标策略生成器,所述目标策略生成器用于通过目标动作状态数据对应的第二特征表示和目标动作类型对所述目标动作状态数据进行动作预测,得到与目标动作状态数据衔接的动作子片段。2.根据权利要求1所述的方法,其特征在于,所述提取多个动作状态数据对分别对应的第二特征表示,包括:将所述多个动作状态数据对分别输入样本条件编码器,输出得到所述多个动作状态数据对分别对应的第二特征表示,所述样本条件编码器用于对所述动作状态数据进行特征编码。3.根据权利要求2所述的方法,其特征在于,所述将所述多个动作状态数据对分别输入样本条件编码器,输出得到所述多个动作状态数据对分别对应的第二特征表示,包括:通过所述样本条件编码器对应的样本三维空间对所述多个动作状态数据对分别进行特征采样,得到所述多个动作状态数据对分别对应的第二特征表示,所述样本三维空间是与所述样本动作类型关联的特征空间。4.根据权利要求2所述的方法,其特征在于,所述基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练,得到目标策略生成器之前,还包括:获取所述样本动作类型对应的多个参考动作数据,所述参考动作数据是指与所述样本动作类型对应的参考动作动画中的动作子片段;对所述多个参考动作数据分别进行动作状态采样,得到所述多个参考动作数据分别对应的参考动作数据对;所述基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练,得到目标策略生成器,包括:以所述多个参考动作数据分别对应的参考动作数据对和所述样本动作类型作为正样本,以所述多个样本动作状态数据分别对应的动作状态数据对和所述样本动作类型作为负样本,对样本判别器进行训练,得到目标判别器,所述目标判别器用于判断输入数据的数据来源;根据所述目标判别器对所述动作状态数据对的预测结果和所述预测动作数据对对应
的第二特征表示,确定目标奖励函数;通过所述目标奖励函数和所述任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练,得到所述目标策略生成器。5.根据权利要求4所述的方法,其特征在于,所述对所述多个参考动作数据分别进行动作状态采样,得到所述多个参考动作数据分别对应的参考动作数据对,包括:获取所述样本动作类型对应的参考采样概率,所述参考采样概率用于指示所述样本动作类型被输入所述样本判别器进行判断的概率;获取所述样本动作类型对应的参考熟练度,所述参考熟练度用于指示所述样本策略模型学习所述样本动作类型对应的动作动画的熟练度;通过对所述参考采样概率和所述参考熟练度进行加权结合,对所述参考采样概率进行数据更新,得到目标采样概率;基于所述目标采样概率对所述多个参考动作数据分别进行所述动作采样,得到所述多个参考动作数据分别对应的参考动作数...

【专利技术属性】
技术研发人员:陈学霖窦志扬樊庆楠小村拓
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1