一种虚拟形象视频生成方法、装置、设备及介质制造方法及图纸

技术编号：40190317 阅读：8 留言：0更新日期：2024-01-26 23:52

本申请公开了一种虚拟形象视频生成方法、装置、设备及介质，涉及视频处理技术领域，该方法包括：获取音频数据和虚拟形象模板；从音频数据中提取音频特征，根据音频特征搜索与音频特征匹配的多帧面部图像，多帧面部图像的唇形变化与音频特征匹配；将虚拟形象模板和多帧面部图像融合，获得虚拟形象视频。由此，在实际应用中无需耗费大量计算资源，实现仅依赖音频数据即可实时生成虚拟形象视频，使得虚拟形象视频生成更加简单、便捷，提高虚拟形象视频生成的生成效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视频处理，特别是涉及一种虚拟形象视频生成方法、装置、设备及介质。

技术介绍

1、虚拟形象指的是通过计算机技术，例如是人工智能(artificial intelligence，ai)技术构建的面部图像化表示。其中，图像化表示可以是图像，或者是包括多帧图像的视频。当图像化表示为视频时，虚拟形象也可以称作虚拟形象视频。面部可以是人脸、卡通形象面部或动物面部。

2、在许多场景中，例如是虚拟主播、电影动画或电话会议场景中，可以根据说话者的语音，为说话者生成虚拟形象视频，从而提供更好的交互体验。以虚拟主播场景为例，根据主播的语音，通过说话人脸视频生成(talking face generation)技术可以为主播生成虚拟形象视频，该虚拟形象视频可以是卡通形象的面部视频，或者是公众人物的面部视频，由此可以实现类似于换脸的效果，一方面可以丰富交互体验，另一方面可以保障隐私安全。

3、相关技术中，每次生成说话人脸视频时，都需要大量的计算资源进行实时推理，难以满足业务需求。

技术实现思路

1、本申请提供了一种虚拟形象视频生成方法、装置、设备及介质，能够提高虚拟形象视频生成的生成效率。

2、本申请公开了如下技术方案：

3、第一方面，本申请提供了一种虚拟形象视频生成方法，该方法包括：

4、获取音频数据和虚拟形象模板；

5、从所述音频数据中提取音频特征，根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述音频特征匹配；

6、将所述虚拟形象模板和所述多帧面部图像融合，获得虚拟形象视频。

7、可选的，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述音频特征匹配，包括：

8、对所述音频特征进行聚类，得到聚类中心信息；

9、根据所述聚类中心信息，搜索与所述聚类中心信息匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述聚类中心信息匹配。

10、可选的，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，包括：

11、将所述音频特征输入至面部生成网络中，通过所述面部生成网络，在所述面部生成网络的音频特征集中选取与所述音频特征对应的目标音频特征后，输出与所述目标音频特征对应的多帧面部图像，所述多帧面部图像是在所述面部生成网络的视频特征集中选取出的。

12、可选的，所述面部生成网络通过如下方式构建得到：

13、获取训练数据，所述训练数据为音视频数据；

14、通过将所述训练数据输入至唇读同步鉴别器中，更新所述唇读同步鉴别器的参数；

15、根据更新后的唇读同步鉴别器，构建面部生成网络。

16、可选的，在所述构建面部生成网络之后，所述方法还包括：

17、将所述训练数据代入所述面部生成网络的总损失函数中，得到总损失函数值，所述总损失函数与生成对抗网络损失函数、面部身份损失函数、面部高清损失函数和感知损失函数相关；

18、根据所述总损失函数值，更新所述面部生成网络的参数。

19、可选的，所述方法还包括：

20、若所述虚拟形象视频中存在静音视频片段，则将所述静音视频片段中的虚拟形象替换为目标形象，得到处理后的虚拟形象视频，所述目标形象为将所述虚拟形象模板和目标面部图像融合的形象，所述目标面部图像为嘴巴闭合、眼睛睁开的面部图像。

21、可选的，所述将所述静音视频片段中的虚拟形象替换为目标形象，包括：

22、获取所述静音视频片段中的虚拟形象的第一关键点和目标形象的第二关键点；

23、通过将所述第一关键点和所述第二关键点重合，将所述虚拟形象替换为目标形象。

24、第二方面，本申请提供了一种虚拟形象视频生成装置，该装置包括：获取模块、搜索模块和融合模块；

25、所述获取模块，用于获取音频数据和虚拟形象模板；

26、所述搜索模块，用于从所述音频数据中提取音频特征，根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述音频特征匹配；

27、所述融合模块，用于将所述虚拟形象模板和所述多帧面部图像融合，获得虚拟形象视频。

28、第三方面，本申请提供了一种虚拟形象视频生成设备，包括：存储器和处理器；

29、所述存储器，用于存储程序；

30、所述处理器，用于执行所述计算机程序时实现上述虚拟形象视频生成方法的步骤。

31、第四方面，本申请提供了一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述虚拟形象视频生成方法的步骤。

32、相较于现有技术，本申请具有以下有益效果：

33、本申请提供了一种虚拟形象视频生成方法、装置、设备及介质，该方法根据音频数据的音频特征，搜索与音频特征相匹配的面部图像，并进一步将虚拟形象模板和面部图像相融合，从而生成虚拟形象视频。由此，在实际应用中无需耗费大量计算资源，实现仅依赖音频数据即可实时生成虚拟形象视频，使得虚拟形象视频生成更加简单、便捷，提高虚拟形象视频生成的生成效率。

本文档来自技高网...

【技术保护点】

1.一种虚拟形象视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述音频特征匹配，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述面部生成网络通过如下方式构建得到：

5.根据权利要求4所述的方法，其特征在于，在所述构建面部生成网络之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述静音视频片段中的虚拟形象替换为目标形象，包括：

8.一种虚拟形象视频生成装置，其特征在于，所述装置包括：获取模块、搜索模块和融合模块；

9.一种虚拟形象视频生成设备，其特征在于，包括：存储器和处理器；

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器

...

【技术特征摘要】

1.一种虚拟形象视频生成方法，其特征在于，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述面部生成网络通过如下方式构建得到：

5.根据权利要求4所述的方法，其特征在于，在所述构建面部生成网络之后，所述方...

【专利技术属性】
技术研发人员：徐佳宏，黄亚康，朱吕亮，
申请(专利权)人：深圳市茁壮网络股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人