一种口型驱动方法、装置、设备及存储介质制造方法及图纸

技术编号：43470027 阅读：18 留言：0更新日期：2024-11-27 13:08

本公开提出了一种口型驱动方法、装置、设备及存储介质，其中，所述方法包括：获取待处理的音频数据，并提取所述音频数据的音频特征；生成所述音频特征对应的口型驱动特征，以通过所述口型驱动特征进行口型驱动；其中，若基于所述音频特征生成第一监督特征，所述第一监督特征与根据所述音频数据生成的表征监督真值的第二监督特征相匹配。本公开一个或者多个实施方式提供的技术方案，在满足一定的实时性要求的情况下，提高口型驱动的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及图像处理，具体涉及一种口型驱动方法、装置、设备及存储介质。

技术介绍

1、口型驱动可以利用音频数据作为输入，借助于驱动算法，将音频数据转换为驱动信号，从而通过驱动信号引导口型的变换。

2、在相关技术中，可以采用blendshape或者viseme方案，实现口型驱动。其中，blendshape方案可以预先定义一系列的规则口型，然后通过对输入的音频数据进行处理，从而得到规则口型的权重系数。利用权重系数对规则口型进行加权求和，便可以得到与音频数据相匹配的实际口型。在viseme方案中，可以将音频数据处理为对应的音素，不同的音素可以对应不同的口型，通过音素来驱动口型便可以使得驱动得到的口型与输入的音频数据相匹配。

3、在现有的一些场景下，口型驱动的过程需要在一些运算能力比较普通的设备上进行，这就限制了口型驱动过程中能够处理的数据量。此外，口型驱动通常对于延时也会有一定的要求。鉴于此，目前需要一种高效的，并且能够满足一定实时性条件的口型驱动方法。

技术实现思路

1、...

【技术保护点】

1.一种口型驱动方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，提取所述音频数据的音频特征包括：

3.根据权利要求2所述的方法，其特征在于，从所述采样数据中选取窗口数据包括：

4.根据权利要求3所述的方法，其特征在于，所述第一数量的取值范围为所述第二数量的1.5倍至2.5倍。

5.根据权利要求1所述的方法，其特征在于，所述音频特征通过特征提取模型提取，所述特征提取模型按照以下方式进行训练：

6.根据权利要求5所述的方法，其特征在于，通过所述特征提取模型提取所述音频训练数据的训练特征包括：

...

【技术特征摘要】

1.一种口型驱动方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，提取所述音频数据的音频特征包括：

3.根据权利要求2所述的方法，其特征在于，从所述采样数据中选取窗口数据包括：

4.根据权利要求3所述的方法，其特征在于，所述第一数量的取值范围为所述第二数量的1.5倍至2.5倍。

5.根据权利要求1所述的方法，其特征在于，所述音频特征通过特征提取模型提取，所述特征提取模型按照以下方式进行训练：

6.根据权利要求5所述的方法，其特征在于，通过所述特征提取模型提取所述音频训练数据的训练特征包括：

7.根据权利要求5所述的方法，其特征在于，所述第一特征处理分支中包括第一全连接层；生成所述训练特征对应的口型预测特征包括：

8.根据权利要求5所述的方法，...

【专利技术属性】
技术研发人员：孙敬娜，董欣，张惜今，杜康，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人