动作预测模型的训练方法、装置、设备、存储介质及产品制造方法及图纸

技术编号：39261637 阅读：15 留言：0更新日期：2023-10-30 12:14

本申请公开一种动作预测模型的训练方法、装置、设备、存储介质及产品，涉及机器学习领域。该方法包括：获取样本动作类型对应的多个样本动作状态数据分别对应的第一特征表示，以及随机获取第一动作状态数据；将第一动作状态数据、多个样本动作状态数据分别对应的第一特征表示和样本动作类型输入样本策略生成器，输出得到多个样本动作状态数据分别对应的第一预测动作数据；基于第一动作状态数据获取多个第一预测动作数据分别对应的动作状态数据对；提取多个动作状态数据对分别对应的第二特征表示；基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对样本策略生成器进行训练，得到目标策略生成器。用于提高动作预测的多样性。测的多样性。测的多样性。

全部详细技术资料下载

【技术实现步骤摘要】
动作预测模型的训练方法、装置、设备、存储介质及产品

[0001]本申请实施例涉及机器学习领域，特别涉及一种动作预测模型的训练方法、装置、设备、存储介质及产品。

技术介绍

[0002]随着人工智能技术的不断发展，虚拟对象的动作动画可以基于仿真物理模拟生成得到，也即，通过物理仿真能够根据虚拟对象当前的动作状态预测下一个动作，从而完成一整个动作动画。
[0003]在相关技术中，在对虚拟对象的动作进行预测的过程中，采用生成对抗网络(Generative Adversarial Networks，GAN)的方式，通过使用包含大量不同动作类型的数据集对GAN中的样本策略生成器进行训练，从而使其能针对输入的当前动作进行动作预测，输出更逼真的动作预测结果。
[0004]然而在相关技术中，使用不同动作类型的数据集对GAN进行训练的过程中会存在一些动作的特征信息丢失的情况，导致模型训练效果较差，使得最终的得到策略生成器输出结果的准确度较低。

技术实现思路

[0005]本申请实施例提供了一种动作预测模型的训练方法、装置、设备、存储介质及产品，能够提高动作预测模型的准确度。所述技术方案如下。
[0006]一方面，提供了一种动作预测模型的训练方法，所述方法包括：
[0007]获取样本动作类型对应的多个样本动作状态数据分别对应的第一特征表示，以及随机获取第一动作状态数据，所述动作状态数据是动作动画中的动作子片段；
[0008]将所述第一动作状态数据、所述多个样本动作状态数据分别对应的第一特...

【技术保护点】

【技术特征摘要】
1.一种动作预测模型的训练方法，其特征在于，所述方法包括：获取样本动作类型对应的多个样本动作状态数据分别对应的第一特征表示，以及获取第一动作状态数据，所述动作状态数据是动作动画中的动作子片段对应的动作执行状态；将所述第一动作状态数据、所述多个样本动作状态数据分别对应的第一特征表示和所述样本动作类型输入样本策略生成器，输出得到多个样本动作状态数据分别对应的第一预测动作数据，其中，所述第一预测动作数据是在所述第一动作状态数据的基础上预测得到的与所述样本动作类型对应的动作子片段；基于所述第一动作状态数据获取多个第一预测动作数据分别对应的动作状态数据对，所述运动状态数据对中包括所述第一动作状态数据和所述第一预测动作数据对应的动作状态数据；提取多个动作状态数据对分别对应的第二特征表示；基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练，得到目标策略生成器，所述目标策略生成器用于通过目标动作状态数据对应的第二特征表示和目标动作类型对所述目标动作状态数据进行动作预测，得到与目标动作状态数据衔接的动作子片段。2.根据权利要求1所述的方法，其特征在于，所述提取多个动作状态数据对分别对应的第二特征表示，包括：将所述多个动作状态数据对分别输入样本条件编码器，输出得到所述多个动作状态数据对分别对应的第二特征表示，所述样本条件编码器用于对所述动作状态数据进行特征编码。3.根据权利要求2所述的方法，其特征在于，所述将所述多个动作状态数据对分别输入样本条件编码器，输出得到所述多个动作状态数据对分别对应的第二特征表示，包括：通过所述样本条件编码器对应的样本三维空间对所述多个动作状态数据对分别进行特征采样，得到所述多个动作状态数据对分别对应的第二特征表示，所述样本三维空间是与所述样本动作类型关联的特征空间。4.根据权利要求2所述的方法，其特征在于，所述基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练，得到目标策略生成器之前，还包括：获取所述样本动作类型对应的多个参考动作数据，所述参考动作数据是指与所述样本动作类型对应的参考动作动画中的动作子片段；对所述多个参考动作数据分别进行动作状态采样，得到所述多个参考动作数据分别对应的参考动作数据对；所述基于任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练，得到目标策略生成器，包括：以所述多个参考动作数据分别对应的参考动作数据对和所述样本动作类型作为正样本，以所述多个样本动作状态数据分别对应的动作状态数据对和所述样本动作类型作为负样本，对样本判别器进行训练，得到目标判别器，所述目标判别器用于判断输入数据的数据来源；根据所述目标判别器对所述动作状态数据对的预测结果和所述预测动作数据对对应
的第二特征表示，确定目标奖励函数；通过所述目标奖励函数和所述任意两个动作状态数据对分别对应的第二特征表示之间的差异对所述样本策略生成器进行训练，得到所述目标策略生成器。5.根据权利要求4所述的方法，其特征在于，所述对所述多个参考动作数据分别进行动作状态采样，得到所述多个参考动作数据分别对应的参考动作数据对，包括：获取所述样本动作类型对应的参考采样概率，所述参考采样概率用于指示所述样本动作类型被输入所述样本判别器进行判断的概率；获取所述样本动作类型对应的参考熟练度，所述参考熟练度用于指示所述样本策略模型学习所述样本动作类型对应的动作动画的熟练度；通过对所述参考采样概率和所述参考熟练度进行加权结合，对所述参考采样概率进行数据更新，得到目标采样概率；基于所述目标采样概率对所述多个参考动作数据分别进行所述动作采样，得到所述多个参考动作数据分别对应的参考动作数...

【专利技术属性】
技术研发人员：陈学霖，窦志扬，樊庆楠，小村拓，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人