一种通用即时3D口型动画生成方法、装置及存储介质制造方法及图纸

技术编号：37333213 阅读：9 留言：0更新日期：2023-04-21 23:11

本发明专利技术公开一种通用即时3D口型动画生成方法，具体实现方法为：获取待处理语音数据样本，将获取的待处理语音数据样本经过预处理模块，得到经过预处理的预处理语音数据样本，将预处理语音数据样本输入预测模型，得到口型动画的粗生成结果，最后根据语音类型、语言类型以及3D人物特化建模特点对口型动画的所述粗生成结果予以修正并生成3D口型动画。生成结果予以修正并生成3D口型动画。生成结果予以修正并生成3D口型动画。

全部详细技术资料下载

【技术实现步骤摘要】
一种通用即时3D口型动画生成方法、装置及存储介质

[0001]本专利技术涉及语音数据处理
，特别涉及一种通用即时3D口型动画生成方法、装置及存储介质。

技术介绍

[0002]目前，随着3D游戏技术的发展，大众对沉浸感的要求在不断提高。在剧情演绎、虚拟人互联等游戏场景中，通常会涉及到音频与3D口型动画相互配合的对话场景，例如在重要演出时，人物模型要具有和音频保持一致的嘴部动画。
[0003]在传统的工作流程中，要为3D人物模型添加音频一致的口型动画，有赖于动画师的手动定帧或者人工采集面部捕捉的方式。其中前者需要耗费大量的人力，且存在人工标定方差较大的问题，后者经济成本较高，且对演绎面部捕捉的演员要求也较高。传统的方法都没能很好的解决多语言的问题。
[0004]在游戏应用场景中，例如玩家间的交流同步表现为口型动画的场景，现有的技术无法即时生成对应到玩家3D人物的口型动画，或对不同语言的玩家无法表现拟真的动画效果。
[0005]因此需要一种成本相对较低，通用性更强并具有即时性的通用即时3D口型动画生成方法、装置及存储介质。

技术实现思路

[0006]本专利技术的主要目的是提供一种成本相对较低，通用性更强并具有即时性的通用即时3D口型动画生成方法、装置及存储介质。
[0007]本专利技术提出一种通用即时3D口型动画生成方法、装置及存储介质，获取待处理语音数据样本；
[0008]将获取的待处理语音数据样本经过预处理模块，得到经过预处理的预处理语音数据样本；
...

【技术保护点】

【技术特征摘要】
1.一种通用即时3D口型动画生成方法，其特征在于，获取待处理语音数据样本；将获取的待处理语音数据样本经过预处理模块，得到经过预处理的预处理语音数据样本；将预处理语音数据样本输入预测模型，得到口型动画的粗生成结果；根据语音类型、语言类型以及3D人物特化建模特点对口型动画的所述粗生成结果予以修正并生成3D口型动画；其中，所述预测模型通过训练数据集经过以下训练方法训练得到：所述训练数据集包括训练语音数据样本和训练动画数据样本；将获取的所述训练语音数据样本经过预处理模块，得到经过预处理的预处理训练语音数据样本，并将所述预处理训练语音数据样本作为驱动初始预测模型训练的输入特征，所述初始训练模型由通用特征提取器神经网络以及深度卷积神经网络组成；通过所述初始预测模型对生成的所述输入特征的预测，得到口型动画的预测数据；通过所述预测数据和所述训练动画数据样本确定用以计算预测效果的准确度的代价函数；通过最小化的所述代价函数对初始预测模型的参数进行调整，使初始预测模型的预测精度达到预设的拟真标准，从而得到所述预测模型。2.根据权利要求1所述的通用即时3D口型动画生成方法，其特征在于，得到修正后的所述粗生成结果后生成3D口型动画的步骤为：1)将修正后的所述粗生成结果按预定协议序列化为序列化文件；2)将所述序列化文件在3D引擎的自定义插件中按帧反序列化成动画序列文件；3)将所述动画序列文件导入3D引擎编辑器中生成3D口型动画。3.根据权利要求1所述的通用即时3D口型动画生成方法、装置及存储介质，其特征在于，所述通用特征提取器神经网络为通用语音识别预训练模型WavLM，所述通用特征提取器神经网络包含第一卷积编码器以及Transfor...

【专利技术属性】
技术研发人员：石梓豪，高原，
申请(专利权)人：软星科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人