人脸视频生成方法、装置及电子设备制造方法及图纸

技术编号：40025137 阅读：10 留言：0更新日期：2024-01-16 17:22

本申请提供一种人脸视频生成方法、装置及电子设备，涉及人工智能技术领域，所述方法包括：获取输入语音与包含人脸的参考图像；将输入语音输入预先训练的嘴型特征提取模型进行处理，获取与输入语音对应的嘴型变化特征向量；根据嘴型变化特征向量及目标3D人脸模型，生成面部动作图像序列；面部动作图像序列包括至少2张具有不同的嘴型的面部动作图像；基于参考图像与面部动作图像序列，生成目标合成图像序列；根据目标合成图像序列及输入语音，生成目标人脸视频。在上述设计中，无需大量的训练数据，且可以防止目标人脸视频中出现人脸变形的现象，同时，无需指定语音输入。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体而言，涉及一种人脸视频生成方法、装置及电子设备。

技术介绍

1、随着人工智能技术的发展，在一些图像处理场景中，实现了利用神经网络模型根据一段语音和人脸图像生成具有相应嘴型变化的人脸说话视频。该技术可以应用于动画角色合成，虚拟交互，电影配音等领域中。但是现有的此类视频合成方案中直接采用生成式网络对输入的语音和图像进行处理，图片合成的质量不高，且清晰度较低。

技术实现思路

1、为了至少克服现有技术中的上述不足，本申请的目的在于提供一种人脸视频生成方法、装置及电子设备。

2、第一方面，本申请实施例提供一种人脸视频生成方法，所述人脸视频生成方法包括：

3、获取输入语音与包含人脸的参考图像；

4、将所述输入语音输入预先训练的嘴型特征提取模型进行处理，获取与所述输入语音对应的嘴型变化特征向量；

5、根据所述嘴型变化特征向量及目标3d人脸模型，生成面部动作图像序列；所述面部动作图像序列包括至少2张具有不同的嘴型的面部动作图像；

6、基于所述参考图像与面部动作图像序列，生成目标合成图像序列；

7、根据所述目标合成图像序列及所述输入语音，生成目标人脸视频。

8、在一种可能的实现方式中，所述根据所述嘴型变化特征向量及目标3d人脸模型，生成面部动作图像序列的步骤，包括：

9、根据所述嘴型变化特征向量以及预设的除嘴部以外的其他区域的表情特征向量，获得面部动作特征序列；

10、

11、在一种可能的实现方式中，所述面部动作特征序列包括至少两个时间点对应的面部动作参数；

12、所述根据所述面部动作特征序列及所述目标3d人脸模型，生成面部动作图像序列的步骤，包括：

13、针对所述面部动作特征序列中每个时间点对应的所述面部动作参数，调整所述目标3d人脸模型的面部轮廓数据，并基于调整后的所述目标3d人脸模型，渲染生成与该时间点对应的面部动作图像；

14、根据多个时间点对应的多帧所述面部动作图像，生成所述面部动作图像序列。

15、在一种可能的实现方式中，在所述根据所述嘴型变化特征向量及目标3d人脸模型，生成面部动作图像序列的步骤之前，所述方法还包括：

16、基于所述参考图像，得到与所述参考图像对应的所述目标3d人脸模型。

17、在一种可能的实现方式中，所述基于所述参考图像与所述面部动作图像序列，得到目标合成图像序列的步骤，包括：

18、将所述面部动作图像序列通过关键点检测网络，获得与每个所述面部动作图像对应的热点图；

19、将所述参考图像通过所述关键点检测网络，获得人脸区域图像；

20、将所述人脸区域图像与所述热点图输入到图像生成网络，生成目标图像；

21、将多个所述目标图像按顺序合成得到所述目标合成图像序列。

22、在一种可能的实现方式中，基于所述参考图像与面部动作图像序列，生成目标合成图像序列的步骤，包括：

23、对所述参考图像进行图像语义分割，获得参考人脸区域图像及参考背景图像；

24、基于所述参考人脸区域图像与面部动作图像序列，生成目标合成图像序列；

25、所述根据所述目标合成图像序列及所述输入语音，生成目标人脸视频的步骤，包括：

26、将所述目标合成图像序列与所述参考背景图像进行融合，获得视频帧；

27、将所述视频帧与所述输入语音结合，生成目标人脸视频。

28、在一种可能的实现方式中，所述获取输入语音与包含人脸的参考图像的步骤，包括:

29、获取目标直播间的主播用户提供的所述输入语音与包含人脸的所述参考图像；

30、所述根据所述目标合成图像序列及所述输入语音，生成目标人脸视频的步骤之后，所述方法还包括：

31、将所述目标人脸视频加载至所述目标直播间的直播视频中。

32、第二方面，本申请实施例还提供一种人脸视频生成装置，包括：

33、接收模块，获取输入语音与包含人脸的参考图像；

34、嘴型处理模块，将所述输入语音输入预先训练的嘴型特征提取模型进行处理，获取与所述输入语音对应的嘴型变化特征向量；

35、面部动作处理模块，根据所述嘴型变化特征向量及目标3d人脸模型，生成面部动作图像序列；所述面部动作图像序列包括至少2张具有不同的嘴型的面部动作图像；

36、目标合成图像序列生成模块，基于所述参考图像与面部动作图像序列，生成目标合成图像序列；

37、目标人脸视频生成模块，根据所述目标合成图像序列及所述输入语音，生成目标人脸视频。

38、第三方面，本申请实施例还提供一种电子设备，包括：

39、存储器，用于存储一个或多个程序；

40、处理器，当所述一个或多个程序被所述处理器执行时，实现上述第一方面提供的文件存储方法。

41、第四方面，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述第一方面提供的文件存储方法。

42、基于上述任意一个方面，本申请实施例提供的一种人脸视频生成方法、装置及电子设备，先通过输入语音获取嘴型变化特征向量，并引入3d模型作为中介，根据嘴型变化特征向量调整目标3d人脸模型，生成面部动作图像序列，再根据面部动作图像序列与参考图像生成目标合成图像序列，从而得到目标人脸视频。如此，没有根据输入语音直接生成动作图像，而是通过3d人脸模型作为语音信息和动作信息之间的中介，从而可以有效提高图像生成的质量，降低合成图像中产生人脸变形的风险。

本文档来自技高网...

【技术保护点】

1.一种人脸视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的人脸视频生成方法，其特征在于，所述根据所述嘴型变化特征向量及目标3D人脸模型，生成面部动作图像序列的步骤，包括：

3.根据权利要求2所述的人脸视频生成方法，其特征在于，所述面部动作特征序列包括至少两个时间点对应的面部动作参数；

4.根据权利要求1所述的人脸视频生成方法，其特征在于，在所述根据所述嘴型变化特征向量及目标3D人脸模型，生成面部动作图像序列的步骤之前，所述方法还包括：

5.根据权利要求1所述的人脸视频生成方法，其特征在于，所述基于所述参考图像与所述面部动作图像序列，得到目标合成图像序列的步骤，包括：

6.根据权利要求1所述的人脸视频生成方法，其特征在于，基于所述参考图像与面部动作图像序列，生成目标合成图像序列的步骤，包括：

7.根据权利要求1所述的人脸视频生成方法，其特征在于，所述获取输入语音与包含人脸的参考图像的步骤，包括:

8.一种人脸视频生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的方法。

...

【技术特征摘要】

1.一种人脸视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的人脸视频生成方法，其特征在于，所述根据所述嘴型变化特征向量及目标3d人脸模型，生成面部动作图像序列的步骤，包括：

3.根据权利要求2所述的人脸视频生成方法，其特征在于，所述面部动作特征序列包括至少两个时间点对应的面部动作参数；

4.根据权利要求1所述的人脸视频生成方法，其特征在于，在所述根据所述嘴型变化特征向量及目标3d人脸模型，生成面部动作图像序列的步骤之前，所述方法还包括：

5.根据权利要求1所述的人脸视频生成方法，其特征在于，所述基于所述参考图像...

【专利技术属性】
技术研发人员：林哲，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人