口型动画生成方法、装置、电子设备以及存储介质制造方法及图纸

技术编号：40350426 阅读：3 留言：0更新日期：2024-02-09 14:34

本申请提供了一种本申请实施例提供了一种口型动画生成方法、装置、电子设备以及存储介质，该方法涉及口型动画生成领域，其通过口型生成模型获取与语音识别模型输出的至少一个语音特征对应的至少一个口型参数集合，以及得到与至少一个情绪标签对应的至少一个情绪参数集合，然后基于至少一个口型参数集合和至少一个情绪参数集合，生成含表情的口型动画，不仅实现了全自动的生成带表情的口型动画，降低了口型动画的制作成本；而且，还可以适用于制作多语种的口型动画以及具有大量对白的动画。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及视频领域中的口型动画生成领域，并且更具体地，涉及口型动画生成方法、装置、电子设备以及存储介质。

技术介绍

1、截止目前，支持含表情的口型合成方案主要是基于模板匹配的口型动画生成方案。具体地，针对文本通过人工的方式标注出情绪标签以及对应的强度，进而基于情绪标签以及对应的强度获取文本的表情绑定参数，从而基于文本的表情绑定参数得到文本对应的情绪模板；此外，利用基于音素的口型合成方案，基于文本的音素得到口型模板；然后，将口型模板和表情模板效果叠加，得到最后的含表情的口型模板。

2、例如，可以使用可扩展标示语言(extensive markup language，xml)作为规范情绪标签的方式，并在通过手动标注的方式获取标注文件后，利用口型动画制作设备对标注文件进行解析(parsing)，以获得文本对应的表情绑定参数。

3、但是，上述方案至少存在以下两个问题：

4、1、针对文本通过人工的方式标注情绪标签以及对应的强度时，需要有经验的动画师参与制作，而且需要提供对应的文本给动画师帮忙评判具体的情绪标签和对应的强度，其整个过程耗时而且对人力要求较高，尤其涉及多语种的场景时，需要有相关语言能力的动画师，导致口型动画的制作成本过大且不适合制作具有大量对白的动画。

5、2、需要通过人工的方式设置情绪标签对应的面部绑定参数，提升了口型动画的制作成本。

技术实现思路

1、本申请实施例提供了一种口型动画生成方法、装置、电子设备以及存储介质，能够

2、第一方面，本申请实施例提供了一种口型动画生成方法，包括：

3、获取待识别语音；

4、利用语音识别模型对该待识别语音的特征进行识别，得到该待识别语音的至少一个语音特征；

5、利用口型生成模型对该至少一个语音特征进行预测处理，得到与该至少一个语音特征对应的至少一个口型参数集合；其中，该口型参数集合包括与多个表情基对应的多个口型参数，该多个口型参数用于驱动该多个表情基控制目标对象的口型；

6、利用情绪识别模型对该待识别语音所表达的情绪进行识别，得到该待识别语音的至少一个情绪标签；

7、基于该至少一个情绪标签，获取与该至少一个情绪标签对应的至少一个情绪参数集合；其中，该情绪参数集合包括与该多个表情基对应的多个情绪参数，该多个情绪参数用于驱动该多个表情基控制目标对象的表情；

8、基于该至少一个口型参数集合和该至少一个情绪参数集合，生成该目标对象含表情的口型动画。

9、第二方面，本申请实施例提供了一种电子设备，用于执行上述第一方面或其各实现方式中的方法。具体地，该电子设备包括用于执行上述第一方面或其各实现方式中的方法的功能模块。

10、在一种实现方式中，该电子设备可包括处理单元，该处理单元用于执行与信息处理相关的功能。例如，该处理单元可以为处理器。

11、在一种实现方式中，该电子设备可包括发送单元和/或接收单元。该发送单元用于执行与发送相关的功能，该接收单元用于执行与接收相关的功能。例如，该发送单元可以为发射机或发射器，该接收单元可以为接收机或接收器。再如，该电子设备为通信芯片，该发送单元可以为该通信芯片的输入电路或者接口，该发送单元可以为该通信芯片的输出电路或者接口。

12、第三方面，本申请提供了一种电子设备，包括处理器和存储器。该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行上述第一方面或其各实现方式中的方法。

13、在一种实现方式中，该处理器为一个或多个，该存储器为一个或多个。

14、在一种实现方式中，该存储器可以与该处理器集成在一起，或者该存储器与处理器分离设置。

15、在一种实现方式中，该电子设备还包括发射机(发射器)和接收机(接收器)。

16、第四方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，用于存储计算机程序，该计算机程序使得计算机执行上述第一方面的方法。

17、第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如执行上述第一方面的方法。

18、第六方面，本申请实施例提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面至第二方面中的任一方面或其各实现方式中的方法。

19、基于以上技术方案，通过口型生成模型对语音识别模型输出的至少一个语音特征的口型参数集合进行识别并得到至少一个口型参数集合，以及通过情绪识别模型识别得到的至少一个情绪标签得到至少一个情绪参数集合，然后基于至少一个口型参数集合和至少一个情绪参数集合，生成含表情的口型动画，不仅避免了通过人工的方式标注情绪标签以及对应的强度，也不需要有相关语言能力的标签标注员参与动画的制作，实现了全自动的生成带表情的口型动画，能够降低口型动画的制作成本；而且，由于语音识别模型和情绪识别模型都是基于待识别语音进行的识别，因此，可以本申请实施例提供的口型动画生成方法适用于制作多语种的口型动画以及具有大量对白的动画。

20、此外，通过引入用于生成口型动画的至少一个口型参数集合和至少一个情绪参数集合，并将每一口型参数集合设计为包括用于控制目标对象的口型的且与多个表情基对应的多个口型参数，将每一情绪参数集合设计为包括用于控制该目标对象的表情的且与该多个表情基对应的多个情绪参数，相当于，至少一个口型参数集合和至少一个情绪参数集合都是基于多个表情基定义的参数集合，降低了基于该至少一个口型参数集合和该至少一个情绪参数集合生成口型动画时的复杂度，进而降低了口型动画的制作成本。

21、另外，与基于模板匹配的口型动画生成方案相比，基于音素的口型合成方案得到口型模板时，有可能多个音素对应到相同的口型模板上，而通过口型生成模型输出至少一个口型参数集合时，在口型生成模型的输入的语音特征包括除音素之外的其他特征时，能够细化口型的口型类型，进而提升口型动画的动画效果。

本文档来自技高网...

【技术保护点】

1.一种口型动画生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用语音识别模型对所述待识别语音的特征进行识别，得到所述待识别语音的至少一个语音特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用情绪识别模型对所述待识别语音所表达的情绪进行识别，得到所述待识别语音的至少一个情绪标签，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述待识别语音划分为至少一个语音片段，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用口型生成模型对所述至少一个语音特征进行预测处理，得到与所述至少一个语音特征对应的至少一个口型参数集合之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述参数损失和所述基准点损失的加权平均值，训练所述口型生成模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个情绪标签，获取与所述至少一个情绪标签对应的至少一个情绪参数集合，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取参数池，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个口型参数集合和所述至少一个情绪参数集合，生成所述目标对象含表情的口型动画，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述至少一个情绪参数集合，确定在时间上与所述每一个口型参数集合匹配的情绪参数集合，包括：

11.根据权利要求9所述的方法，其特征在于，所述基于所述至少一个最终参数集合生成所述口型动画，包括：

12.一种口型动画生成装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至11中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现如权利要求1至11中任一项所述的方法。

...

【技术特征摘要】

1.一种口型动画生成方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述待识别语音划分为至少一个语音片段，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述参数损失和所述基准点损失的加权平均值，训练所述口型生成模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个情绪标签，获取与所述至少一个情绪标签对应的至少一个情绪参数集...

【专利技术属性】
技术研发人员：陈雅静，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人