System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音频驱动面部运动生成的方法、系统、终端及存储介质技术方案_技高网

音频驱动面部运动生成的方法、系统、终端及存储介质技术方案

技术编号:41217550 阅读:4 留言:0更新日期:2024-05-09 23:38
本发明专利技术公开了音频驱动面部运动生成的方法、系统、终端及存储介质,涉及计算机视觉技术领域。方法通过获取音频数据和包含人像的视频数据;根据视频数据提取每帧图像的目标三维面部系数,针对每帧图像,根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数;根据音频数据和视频数据的目标三维面部系数生成视频数据中人像的面部运动,得到目标视频数据。本发明专利技术可以稳定提取视频中人像的三维面部系数,通过三维面部系数准确地反映人像的细节信息与立体信息,并将用于驱动的音频数据和视频数据的三维面部系数相结合来转换视频中人像的口型和面部运动,使得视频中人像讲话自然且正确性较高,最终得到与音频数据高度对齐的目标视频数据。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,尤其涉及的是音频驱动面部运动生成的方法、系统、终端及存储介质


技术介绍

1、语音驱动的人像视频翻译方法可以根据指定语种的翻译语音改变视频中说话者的口型。然而目前存在的方法聚焦于说话者口型的改变,忽略了人像的三维信息以及人脸的细节信息,导致翻译后生成的视频画面质量较低,存在画面拉伸不自然、局部模糊、丢失细节等问题。

2、因此,现有技术还有待改进和发展。


技术实现思路

1、本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供音频驱动面部运动生成的方法、系统、终端及存储介质,旨在解决现有技术中语音驱动的人像视频翻译方法生成的视频画面质量较低,存在画面拉伸不自然、局部模糊、丢失细节的问题。

2、本专利技术解决问题所采用的技术方案如下:

3、第一方面,本专利技术实施例提供一种音频驱动面部运动生成的方法,所述方法包括:

4、获取音频数据和包含人像的视频数据;

5、根据所述视频数据提取每帧图像的目标三维面部系数,其中,针对每帧图像,根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数;

6、根据所述音频数据和所述视频数据的目标三维面部系数生成所述视频数据中人像的面部运动,得到目标视频数据。

7、在一种实施方式中,所述根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数,包括:

8、根据该帧图像和相邻的若干帧图像提取该帧图像的人脸检测信息,其中,所述人脸检测信息包括人脸检测位置和面部关键点;

9、根据所述人脸检测信息提取该帧图像的目标三维面部系数。

10、在一种实施方式中,所述根据所述人脸检测信息提取该帧图像的目标三维面部系数,包括:

11、根据所述面部关键点对该帧图像进行图像变换,得到标准化图像;

12、根据所述标准化图像提取该帧图像的目标三维面部系数。

13、在一种实施方式中,所述根据所述标准化图像提取该帧图像的目标三维面部系数,包括:

14、根据每帧图像的所述标准化图像提取初始三维面部系数;

15、根据该帧图像的初始三维面部系数和相邻的若干帧图像的初始三维面部系数进行帧间平滑,得到目标三维面部系数。

16、在一种实施方式中,所述根据所述音频数据和所述视频数据的目标三维面部系数生成所述视频数据中人像的面部运动,得到目标视频数据,包括:

17、根据所述视频数据的目标三维面部系数生成所述视频数据的三维面部网格;

18、根据所述视频数据的三维面部网格和所述音频数据生成所述视频数据的预测三维面部网格;

19、根据所述视频数据的预测三维面部网格和目标三维面部系数生成所述视频数据中人像的面部运动,得到所述目标视频数据。

20、在一种实施方式中,所述根据所述视频数据的目标三维面部系数生成所述视频数据的三维面部网格,包括:

21、针对每帧图像,通过可微渲染器根据该帧图像的目标三维面部系数和背景图像生成该帧图像的三维面部网格。

22、在一种实施方式中,所述根据所述视频数据的三维面部网格和所述音频数据生成所述视频数据的预测三维面部网格,包括:

23、针对每帧图像,通过编码器根据所述视频数据的三维面部网格和所述音频数据,预测该帧图像的特征隐码;

24、通过解码器对预测的该帧图像的特征隐码进行解码,得到解码后的该帧图像的特征隐码;

25、根据解码后的该帧图像的特征隐码和所述视频数据的平均三维面部网格,生成该帧图像的预测三维面部网格;

26、根据各帧图像的预测三维面部网格得到所述视频数据的预测三维面部网格。

27、在一种实施方式中,所述针对每帧图像,通过编码器根据所述视频数据的三维面部网格和所述音频数据,预测该帧图像的特征隐码,包括:

28、将所述视频数据的三维面部网格输入编码器,获取所述三维面部网格的特征隐码;

29、针对每帧图像,通过三维面部运动生成模型,根据所述视频数据的平均三维面部网格、所述音频数据以及该帧之前各帧图像的三维面部网格的特征隐码,预测该帧图像的特征隐码,其中,所述平均三维面部网格基于所述视频数据中各帧图像的三维面部网格的平均值确定。

30、在一种实施方式中,所述根据所述视频数据的平均三维面部网格、所述音频数据以及该帧之前各帧图像的三维面部网格的特征隐码,预测该帧图像的特征隐码,包括:

31、根据所述视频数据的平均三维面部网格生成讲话风格编码;

32、根据所述音频数据生成音频编码;

33、根据所述讲话风格编码、所述音频编码以及该帧之前各帧图像的三维面部网格的特征隐码,预测该帧图像的特征隐码。

34、在一种实施方式中,所述根据所述视频数据的预测三维面部网格和目标三维面部系数生成所述视频数据中人像的面部运动,得到所述目标视频数据,包括:

35、针对每帧图像,通过可微渲染器根据该帧图像的预测三维面部网格、目标三维面部系数中的人脸运动参数以及背景图像生成条件图像;通过渲染器根据所述条件图像和参考图像生成该帧图像的渲染图像;

36、根据各帧图像的渲染图像得到所述目标视频数据。

37、第二方面,本专利技术实施例还提供一种音频驱动面部运动生成的系统,所述系统包括:

38、获取模块,用于获取音频数据和包含人像的视频数据;

39、提取模块,用于根据所述视频数据提取每帧图像的目标三维面部系数,其中,针对每帧图像,根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数;

40、生成模块,用于根据所述音频数据和所述视频数据的目标三维面部系数生成所述视频数据中人像的面部运动,得到目标视频数据。

41、第三方面,本专利技术实施例还提供一种终端,所述终端包括有存储器和一个以上处理器;所述存储器存储有一个以上的程序;所述程序包含用于执行如上述中任一所述的音频驱动面部运动生成的方法的指令;所述处理器用于执行所述程序。

42、第四方面,本专利技术实施例还提供一种计算机可读存储介质,其上存储有多条指令,所述指令适用于由处理器加载并执行,以实现上述中任一所述的音频驱动面部运动生成的方法的步骤。

43、本专利技术的有益效果:本专利技术实施例可以提取视频中人像的目标三维面部系数,通过目标三维面部系数准确地反映人像的细节信息与立体信息,并将用于驱动的音频数据和视频数据的目标三维面部系数相结合来转换视频中人像的口型和面部运动,使得视频中人像讲话自然且正确性较高,最终得到与音频数据高度对齐的目标视频数据。

本文档来自技高网...

【技术保护点】

1.一种音频驱动面部运动生成的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的音频驱动面部运动生成的方法,其特征在于,所述根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数,包括:

3.根据权利要求2所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述人脸检测信息提取该帧图像的目标三维面部系数,包括:

4.根据权利要求3所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述标准化图像提取该帧图像的目标三维面部系数,包括:

5.根据权利要求1所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述音频数据和所述视频数据的目标三维面部系数生成所述视频数据中人像的面部运动,得到目标视频数据,包括:

6.根据权利要求5所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述视频数据的目标三维面部系数生成所述视频数据的三维面部网格,包括:

7.根据权利要求5所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述视频数据的三维面部网格和所述音频数据生成所述视频数据的预测三维面部网格,包括:

8.根据权利要求7所述的音频驱动面部运动生成的方法,其特征在于,所述针对每帧图像,通过编码器根据所述视频数据的三维面部网格和所述音频数据,预测该帧图像的特征隐码,包括:

9.根据权利要求8所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述视频数据的平均三维面部网格、所述音频数据以及该帧之前各帧图像的三维面部网格的特征隐码,预测该帧图像的特征隐码,包括:

10.根据权利要求5所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述视频数据的预测三维面部网格和目标三维面部系数生成所述视频数据中人像的面部运动,得到所述目标视频数据,包括:

11.一种音频驱动面部运动生成的系统,其特征在于,所述系统包括:

12.一种终端,其特征在于,所述终端包括有存储器和一个以上处理器;所述存储器存储有一个以上的程序;所述程序包含用于执行如权利要求1-10中任一所述的音频驱动面部运动生成的方法的指令;所述处理器用于执行所述程序。

13.一种计算机可读存储介质,其上存储有多条指令,其特征在于,所述指令适用于由处理器加载并执行,以实现上述权利要求1-10任一所述的音频驱动面部运动生成的方法的步骤。

...

【技术特征摘要】

1.一种音频驱动面部运动生成的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的音频驱动面部运动生成的方法,其特征在于,所述根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数,包括:

3.根据权利要求2所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述人脸检测信息提取该帧图像的目标三维面部系数,包括:

4.根据权利要求3所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述标准化图像提取该帧图像的目标三维面部系数,包括:

5.根据权利要求1所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述音频数据和所述视频数据的目标三维面部系数生成所述视频数据中人像的面部运动,得到目标视频数据,包括:

6.根据权利要求5所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述视频数据的目标三维面部系数生成所述视频数据的三维面部网格,包括:

7.根据权利要求5所述的音频驱动面部运动生成的方法,其特征在于,所述根据所述视频数据的三维面部网格和所述音频数据生成所述视频数据的预测三维面部网格,包括:

8.根据权利要求7所...

【专利技术属性】
技术研发人员:刘云飞林丽健祝叶李昱余飞周昌印幺宝刚
申请(专利权)人:粤港澳大湾区数字经济研究院福田
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1