人脸姿态生成方法技术

技术编号：40492965 阅读：6 留言：0更新日期：2024-02-26 19:22

本申请提供一种人脸姿态生成方法，涉及计算机视觉技术领域，该方法包括：获取驱动语音和所述驱动语音对应的驱动文本，所述驱动文本包括多个音素片段；将所述驱动语音和所述驱动文本输入关键点检测模型，获取所述关键点检测模型输出的每个音素片段分别对应的多个人脸关键点；其中，所述关键点检测模型为基于训练样本集对预设模型训练得到的模型，所述训练样本集包括：多帧训练图像、多帧训练图像对应的语音、以及多帧训练图像对应的音素；基于所述每个音素片段分别对应的人脸关键点进行渲染，得到所述驱动语音对应的人脸姿态。拥有提高生成的人脸姿态的丰富性和生动性，进而提高生成的人物说话视频的真实度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉，尤其涉及一种人脸姿态生成方法。

技术介绍

1、随着人工智能的发展，合成的人物说话视频得到了越来越多的应用，例如应用于新闻播报、人机交互、培训等场景中模拟真人。

2、目前，通过语音驱动生成人物说话的视频是比较常用的手段，可以实现较为准确的唇形同步，但基于语音驱动生成的人物说话视频中人脸姿态、表情等不够生动，使生成的人物说话视频的真实度较低。

3、因此，如何提高生成的人物说话视频中人脸姿态的丰富性和生动性，以提高人物说话视频的真实度是亟待解决的问题。

技术实现思路

1、为了提高生成的人脸姿态的丰富性和生动性，进而提高生成的人物说话视频的真实度，本申请提供了一种人脸姿态生成方法、装置、电子设备及计算机可读存储介质。

2、第一方面，本申请提供了一种人脸姿态生成方法，包括：

3、获取驱动语音和所述驱动语音对应的驱动文本，所述驱动文本包括多个音素片段；

4、将所述驱动语音和所述驱动文本输入关键点检测模型，获取所述关键点检测模型输出的每个音素片段分别对应的多个人脸关键点；其中，所述关键点检测模型为基于训练样本集对预设模型训练得到的模型，所述训练样本集包括：多帧训练图像、多帧训练图像对应的语音、以及多帧训练图像对应的音素；

5、基于所述每个音素片段分别对应的人脸关键点进行渲染，得到所述驱动语音对应的人脸姿态。

6、作为本申请实施例一种可选的实施方式，所述方法还包括：基于所述训练样本集对预设模型

7、所述基于所述训练样本集对预设模型进行训练，包括：

8、基于多帧训练图像、多帧训练图像对应的语音、以及多帧训练图像对应的音素，获取每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征；

9、将所述每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征输入所述预设模型进行训练，以得到所述关键点检测模型。

10、作为本申请实施例一种可选的实施方式，所述预设模型包括编码层和解码层；

11、所述将所述每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征输入所述预设模型进行训练，包括：

12、将所述每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征输入所述编码层进行编码，得到编码向量；

13、将所述编码向量、所述语音特征、以及所述文本特征输入所述解码层，生成所述每个训练音素片段分别对应的预测人脸关键点；

14、根据所述预测人脸关键点的损失调整所述预设模型的参数，对所述预设模型进行训练。

15、作为本申请实施例一种可选的实施方式，所述预设模型还包括：判别器；

16、所述根据所述预测人脸关键点的损失调整所述预设模型的参数，对所述预设模型进行训练，包括：

17、基于所述预测人脸关键点和目标人脸关键点获取均方误差损失；

18、将所述预测人脸关键点输入所述判别器，获取判别损失和交叉熵损失；

19、根据所述均方误差损失、所述判别损失和所述交叉熵损失调整所述预设模型的参数，对所述预设模型进行训练。

20、作为本申请实施例一种可选的实施方式，所述基于多帧训练图像、多帧训练图像对应的语音、以及多帧训练图像对应的音素获取每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征，包括：

21、将所述多帧训练图像输入人脸3d形变统计模型进行特征提取，得到每帧训练图像分别对应的人脸特征；

22、将所述多帧训练图像对应的语音输入hubert预训练模型进行特征提取，得到所述语音对应的语音特征；

23、通过梅尔频谱倒谱对所述多帧训练图像对应的音素进行音素对齐，获取所述音素对应的文本特征；

24、根据对所述多帧训练图像、所述语音、以及所述音素的划分确定每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征。

25、作为本申请实施例一种可选的实施方式，所述根据对所述多帧训练图像、所述语音、以及所述音素的划分确定每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征，包括：

26、以预设步长为单位，对所述多帧训练图像、所述语音、以及所述音素分别进行截取，得到多个训练图像集合、多个语音片段、以及多个训练音素片段；

27、根据所述音素对应的文本特征确定每个训练音素片段分别对应的文本特征，将每个训练音素片段分别对应的训练图像集合的人脸特征确定为该训练音素片段对应的人脸特征，以及将每个训练音素片段分别对应的语音片段对应的语音特征确定为该训练音素片段对应的语音特征。

28、作为本申请实施例一种可选的实施方式，所述方法还包括：

29、获取原始说话视频和所述原始说话视频对应的说话文本；

30、基于所述原始说话视频提取多帧训练图像以及所述多帧训练图像对应的语音，并将所述说话文本转化为音素；

31、将所述多帧训练图像、所述多帧训练图像对应的语音、以及所述多帧训练图像对应的音素作为训练样本集。

32、第二方面，本申请提供一种人脸姿态生成装置，包括：

33、获取模块，用于获取驱动语音和所述驱动语音对应的驱动文本，所述驱动文本包括多个音素片段；

34、检测模块，用于将所述驱动语音和所述驱动文本输入关键点检测模型，获取所述关键点检测模型输出的每个音素片段分别对应的多个人脸关键点；其中，所述关键点检测模型为基于训练样本集对预设模型训练得到的模型，所述训练样本集包括：多帧训练图像、多帧训练图像对应的语音、以及多帧训练图像对应的音素；

35、生成模块，用于基于所述每个音素片段分别对应的人脸关键点进行渲染，得到所述驱动语音对应的人脸姿态。

36、作为本申请实施例一种可选的实施方式，所述装置还包括：

37、训练模块，用于基于所述训练样本集对预设模型进行训练，得到所述关键点检测模型；

38、提取模块，用于基于多帧训练图像、多帧训练图像对应的语音、以及多帧训练图像对应的音素，获取每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征；

39、输入模块，用于将所述每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征输入所述预设模型进行训练，以得到所述关键点检测模型。

40、作为本申请实施例一种可选的实施方式，所述预设模型包括编码层和解码层；

41、所述输入模块，具体用于将所述每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征输入所述编码层进行编码，得到编码向量；

42、将所述编码向量、所述语音特征、以及所述文本特征输入所述解码层，生成所述每个训练音素片段分别对应的预测人脸关键点；

43、所述训练模块，具体用于根据所述预测人脸关键点的损失调整所述预设模型的参数，对所述预设模型进行训练。

本文档来自技高网...

【技术保护点】

1.一种人脸姿态生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于所述训练样本集对预设模型进行训练，得到所述关键点检测模型；

3.根据权利要求2所述的方法，其特征在于，所述预设模型包括编码层和解码层；

4.根据权利要求3所述的方法，其特征在于，所述预设模型还包括：判别器；

5.根据权利要求2所述的方法，其特征在于，所述基于多帧训练图像、多帧训练图像对应的语音、以及多帧训练图像对应的音素获取每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据对所述多帧训练图像、所述语音、以及所述音素的划分确定每个训练音素片段分别对应的人脸特征、语音特征、以及文本特征，包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

8.一种人脸姿态生成装置，其特征在于，包括：

9.一种电子设备，包括：存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的人脸姿态生成方法。

...

【技术特征摘要】

1.一种人脸姿态生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于所述训练样本集对预设模型进行训练，得到所述关键点检测模型；

3.根据权利要求2所述的方法，其特征在于，所述预设模型包括编码层和解码层；

4.根据权利要求3所述的方法，其特征在于，所述预设模型还包括：判别器；

6.根据权利要求5所述的方法，其特...

【专利技术属性】
技术研发人员：雷禹，谭可华，
申请(专利权)人：天云融创数据科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人