视频生成方法、装置及电子设备制造方法及图纸

技术编号：40977560 阅读：3 留言：0更新日期：2024-04-18 21:25

本申请提供一种视频生成方法、装置及电子设备，涉及人工智能技术领域，所述方法包括：获取目标音频及包含目标对象的参考视频；通过梅尔频率倒谱系数方法对目标音频进行特征提取，得到目标音频特征向量；对参考视频进行三维人脸重建，得到目标嘴部区域图像序列；对参考视频进行掩码处理，得到去除嘴部区域图像的参考视频帧图像序列；将目标音频特征向量、参考嘴部区域图像序列以及参考视频帧图像输入已训练的语音驱动网络模型进行处理，得到目标对象在目标音频驱动下的目标驱动视频。相比于通过大量数据制作虚拟数字人，本申请可以使用少量数据实现虚拟数字人的高效驱动，降低成本，同时，还可以提高虚拟数字人的制作效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体而言，涉及一种视频生成方法、装置及电子设备。

技术介绍

1、随着人工智能(artificial intelligence，ai)技术的发展，虚拟数字人已经广泛应用于直播、新闻播报、语音提示等领域。通常需要基于想要播报的音频驱动虚拟数字人做出和该音频同步的动作、表情等，得到该音频驱动的视频。在现有技术中，一般需要针对每个虚拟数字人预先训练得到该虚拟数字人的语音驱动网络模型，在得到该虚拟数字人的语音驱动网络模型后，可以将不同的音频输入到该语音驱动网络模型中，即可以输出不同音频驱动下的该虚拟数字人的视频。然而，这种方式只能得到一个固定的虚拟数字人在不同音频驱动下的视频，如果要换成一个新虚拟数字人，则需重新获取大量的新虚拟数字人的音视频，利用新虚拟数字人的音视频重新训练新虚拟数字人的语音驱动网络模型，整个训练过程需要的数据量大，耗时较长，导致无法快速生成新虚拟数字人在某个音频驱动下的视频。

技术实现思路

1、为了至少克服现有技术中的上述不足，本申请的目的在于提供一种视频生成方法、装置及电子设备。

2、第一方面，本申请实施例提供一种视频生成方法，所述视频生成方法包括：

3、获取目标音频及包含目标对象的参考视频；

4、通过梅尔频率倒谱系数方法对所述目标音频进行特征提取，得到目标音频特征向量；

5、对所述参考视频进行三维人脸重建，得到目标嘴部区域图像序列；

6、对所述参考视频进行掩码处理，得到去除嘴部区域图像的参考视频帧图像序列；

7、将所述目标音频特征向量、所述参考嘴部区域图像序列以及所述参考视频帧图像输入已训练的语音驱动网络模型进行处理，得到所述目标对象在所述目标音频驱动下的目标驱动视频。

8、在一种可能的实现方式中，所述获取目标音频的步骤，包括：

9、获取目标文本信息；

10、通过文本转语音技术根据所述目标文本信息生成所述目标音频。

11、在一种可能的实现方式中，所述获取目标文本信息的步骤，包括：

12、获取目标文本信息及情绪参数序列；

13、所述通过文本转语音技术根据所述目标文本信息生成所述目标音频的步骤，包括：

14、通过文本转语音技术根据所述目标文本信息及所述情绪参数序列生成所述目标音频；

15、所述将所述目标音频特征向量、所述参考嘴部区域图像序列以及所述参考视频帧图像输入已训练的语音驱动网络模型进行处理的步骤，包括：

16、将所述目标音频特征向量、所述参考嘴部区域图像序列、所述参考视频帧图像及所述情绪参数序列输入已训练的语音驱动网络模型进行处理。

17、在一种可能的实现方式中，所述方法还包括：

18、获取音视频数据集，所述音视频数据集包括与多个样本对象对应的多个音视频数据；

19、通过梅尔频率倒谱系数方法对所述音视频数据进行音频信号的特征提取，得到样本音频特征向量；

20、对所述音视频数据进行三维人脸重建，得到样本嘴部区域图像序列；

21、对所述音视频数据进行掩码处理，得到去除嘴部区域图像的样本视频帧图像；

22、将所述样本音频特征向量、所述样本嘴部区域图像序列以及所述样本视频帧图像输入语音驱动网络模型进行训练。

23、在一种可能的实现方式中，所述对所述音视频数据进行掩码处理，得到去除嘴部区域图像的样本视频帧图像的步骤，包括：

24、随机选取所述音视频数据中的样本视频帧图像；

25、对所述样本视频帧图像进行掩码处理，得到去除嘴部区域图像的样本面部图像以及去除面部区域图像的样本背景图像。

26、在一种可能的实现方式中，所述对所述参考视频进行掩码处理，得到去除嘴部区域图像的参考视频帧图像序列的步骤，包括：

27、对所述参考视频进行掩码处理，得到去除嘴部区域图像的参考视频帧图像序列以及去除面部区域图像的参考视频帧图像序列。

28、在一种可能的实现方式中，在所述获取目标音频及目标对象对应的参考视频的步骤之后，所述方法还包括：

29、通过ffmpeg工具分别对所述目标音频的音频采样率以及所述参考视频的视频帧率进行调整。

30、第二方面，本申请实施例还提供一种视频生成装置，包括：

31、接收模块，用于获取目标音频及包含目标对象的参考视频；

32、特征提取模块，用于通过梅尔频率倒谱系数方法对所述目标音频进行特征提取，得到目标音频特征向量；

33、图像重建模块，用于对所述参考视频进行三维人脸重建，得到目标嘴部区域图像序列；

34、掩码处理模块，用于对所述参考视频进行掩码处理，得到去除嘴部区域图像的参考视频帧图像序列；

35、输出模块，用于将所述目标音频特征向量、所述参考嘴部区域图像序列以及所述参考视频帧图像输入已训练的语音驱动网络模型进行处理，得到所述目标对象在所述目标音频驱动下的目标驱动视频。

36、第三方面，本申请实施例还提供一种电子设备，包括：

37、存储器，用于存储一个或多个程序；

38、处理器，当所述一个或多个程序被所述处理器执行时，实现上述第一方面提供的视频生成方法。

39、第四方面，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述第一方面提供的视频生成方法。

40、基于上述任意一个方面，本申请实施例提供的视频生成方法、装置及电子设备，可以通过已训练的语音驱动网络模型对未经过训练的包含目标对象的参考视频进行处理，并根据目标音频同步驱动虚拟数字人的面部动作，相比于通过大量包含目标对象的数据制作虚拟数字人，本申请可以使用少量数据实现高效驱动，降低了人力和时间投入成本，同时，还可以大幅度提高虚拟数字人的制作效率，也极大地提高了虚拟数字人在各个领域(如直播、社交媒体、在线教育、虚拟助手等)的适应性和实用性。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频生成方法，其特征在于，所述获取目标音频的步骤，包括：

3.根据权利要求2所述的视频生成方法，其特征在于，所述获取目标文本信息的步骤，包括：

4.根据权利要求1所述的视频生成方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的视频生成方法，其特征在于，所述对所述音视频数据进行掩码处理，得到去除嘴部区域图像的样本视频帧图像的步骤，包括：

6.根据权利要求1所述的视频生成方法，其特征在于，所述对所述参考视频进行掩码处理，得到去除嘴部区域图像的参考视频帧图像序列的步骤，包括：

7.根据权利要求1所述的视频生成方法，其特征在于，在所述获取目标音频及目标对象对应的参考视频的步骤之后，所述方法还包括：

8.一种视频生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的方法。

...

【技术特征摘要】

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频生成方法，其特征在于，所述获取目标音频的步骤，包括：

3.根据权利要求2所述的视频生成方法，其特征在于，所述获取目标文本信息的步骤，包括：

4.根据权利要求1所述的视频生成方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的视频生成方法，其特征在于，所述对所述音视频数据进行掩码处理，得到去除嘴部区域图像的样本视频帧图像的步骤，包括：

6.根据权利要求1所述的视...

【专利技术属性】
技术研发人员：芦爱余，陈铭钦，林哲，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人