在数字人领域驱动中文语音精准生成唇形视频的方法技术

技术编号：40754488 阅读：5 留言：0更新日期：2024-03-25 20:09

本发明专利技术提供了一种在数字人领域驱动中文语音精准生成唇形视频的方法，包括：下载CMLR中文数据集并进行预处理，得到预处理后的CMLR中文数据集；将预处理后的CMLR中文数据集作为训练数据，按照设置的训练标准对wav2lip唇形同步模型进行训练，得到新的模型；将预处理后的视频帧输入到新的模型进行唇部推理，输出新的口型驱动视频。本发明专利技术针对现有的模型中对中文语音支持度差的缺陷，通过采用中文语音的数据集进行了重训练，使得中文发音口型得到校准；避免了现有模型在匹配到中文语音时口型开合过快的问题。此外，新的模型在训练时采用人脸关键点检测技术，从而能够更好的适配了下半脸，使上下脸看起来更加协调。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频处理，具体地，涉及一种在数字人领域驱动中文语音精准生成唇形视频的方法。

技术介绍

1、随着深度学习技术的发展，人脸图像生成技术取得了显著的进展。然而，在生成真实场景中说话人脸图像时，依然面临许多挑战。例如，生成的人脸图像与音频之间的同步性不足，导致人脸运动与语音不协调。

2、现有技术通常是采用wav2lip唇形同步模型，然而wav2lip无法满足高质量的说话人视频生成。当推理生成任意说话人视频时，依然存在唇形同步效果不佳的弊端。并且wav2lip在音频特征和视频特征进行特征融合时，仅仅只是采用了简单的连接操作。这样的做法会导致视频的整体清晰度低，模型原始分辨率只有96x96。在英文音频下效果很好，中文音频下的牙齿部分还原度差，对中文支持不友好；驱动的人像说话频率过快，嘴巴张合幅度异常，口型对不上。此外，由于原始训练时将下半脸全部置0(显示是全黑区域)，致使模型推理时被遮挡的区域无参考信息，导致上下脸衔接不协调或变形。

技术实现思路

1、针对现有技术中的缺陷，本专利技术的目的是提供一种在数字人领域驱动中文语音精准生成唇形视频的方法。

2、第一方面，本申请实施例提供一种在数字人领域驱动中文语音精准生成唇形视频的方法，包括：

3、步骤1：下载cmlr中文数据集并进行预处理，得到预处理后的cmlr中文数据集；

4、步骤2：将预处理后的cmlr中文数据集作为训练数据，按照设置的训练标准对wav2lip唇形同步模型进行训练，得到新的模型；

5、步骤3：将预处理后的视频帧输入到新的模型进行唇部推理，输出新的口型驱动视频。

6、可选地，所述步骤1包括：

7、将下载的cmlr中文数据集进行超分处理，得到预设分辨率的视频；

8、对超分处理后的cmlr中文数据集进行音视频合成；

9、基于音视频合成后的cmlr中文数据集生成图像序列，并对人脸下半张脸进行关键点检测，得到图像序列中所有下半张脸的点位的最大值和最小值。

10、可选地，将下载的cmlr中文数据集进行超分处理，得到预设分辨率的视频，包括：

11、下载cmlr中文数据集；

12、将cmlr中文数据集中作为训练数据的所有视频采用gfpgan进行超分处理，得到960p分辨率的视频。

13、可选地，对超分处理后的cmlr中文数据集进行音视频合成，包括：

14、将音频和视频进行合成，其中，检测的帧率统一为25fps。

15、可选地，基于音视频合成后的cmlr中文数据集生成图像序列，并对人脸下半张脸进行关键点检测，得到图像序列中所有下半张脸的点位的最大值和最小值，包括：

16、基于音视频合成后的cmlr中文数据集，采用s3fd生成图像序列；

17、对图像序列中人脸图片的下半张脸进行关键点检测，并根据关键点的点位得到固定大小的bbox；其中，bbox中包含一个n帧视频中所有下半脸的点位的最大最小值，n为图像序列的帧数。

18、可选地，所述步骤2包括：

19、采用wav2lip的python脚本hq_wav2lip_train.py对wav2lip唇形同步模型进行训练，并通过设置训练标准来控制wav2lip唇形同步模型的精度，其中，设置的训练标准包括：专家鉴定器的损失需降至0.25左右，wav2lip评估同步损失应降至0.2左右。

20、可选地，所述步骤3中将预处理后的视频帧输入到新的模型进行唇部推理，包括：

21、采用gfpgan对视频进行超分，以达到需要的分辨率。

22、第二方面，本申请实施例提供一种在数字人领域驱动中文语音精准生成唇形视频的装置，包括：

23、数据预处理模块，用于下载cmlr中文数据集并进行预处理，得到预处理后的cmlr中文数据集；

24、模型训练模块，用于将预处理后的cmlr中文数据集作为训练数据，按照设置的训练标准对wav2lip唇形同步模型进行训练，得到新的模型；

25、唇部视频制作模块，用于将预处理后的视频帧输入到新的模型进行唇部推理，输出新的口型驱动视频。

26、可选地，所述数据预处理模块，具体用于：

27、将下载的cmlr中文数据集进行超分处理，得到预设分辨率的视频；

28、对超分处理后的cmlr中文数据集进行音视频合成；

29、基于音视频合成后的cmlr中文数据集生成图像序列，并对人脸下半张脸进行关键点检测，得到图像序列中所有下半张脸的点位的最大值和最小值。

30、可选地，所述数据预处理模块，具体用于：

31、下载cmlr中文数据集；

32、将cmlr中文数据集中作为训练数据的所有视频采用gfpgan进行超分处理，得到960p分辨率的视频。

33、可选地，所述数据预处理模块，具体用于：

34、将音频和视频进行合成，其中，检测的帧率统一为25fps。

35、可选地，所述数据预处理模块，具体用于：

36、基于音视频合成后的cmlr中文数据集，采用s3fd生成图像序列；

37、对图像序列中人脸图片的下半张脸进行关键点检测，并根据关键点的点位得到固定大小的bbox；其中，bbox中包含一个n帧视频中所有下半脸的点位的最大最小值，n为图像序列的帧数。

38、可选地，所述模型训练模块，具体用于：

39、采用wav2lip的python脚本hq_wav2lip_train.py对wav2lip唇形同步模型进行训练，并通过设置训练标准来控制wav2lip唇形同步模型的精度，其中，设置的训练标准包括：专家鉴定器的损失需降至0.25左右，wav2lip评估同步损失应降至0.2左右。

40、可选地，唇部视频制作模块，还用于：在进行唇部推理之前，先采用gfpgan对视频进行超分，以达到需要的分辨率。

41、第三方面，本申请实施例提供一种在数字人领域驱动中文语音精准生成唇形视频的设备，包括：处理器和存储器，所述存储器中存储有可执行的程序指令，所述处理器调用所述存储器中的程序指令时，所述处理器用于：

42、执行如第一方面中任一项所述的在数字人领域驱动中文语音精准生成唇形视频的方法的步骤。

43、第四方面，本申请实施例提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现如第一方面中任一项所述的在数字人领域驱动中文语音精准生成唇形视频的方法的步骤。

44、与现有技术相比，本专利技术具有如下的有益效果：

45、本申请中针对现有的模型中对中文语音支持度差的缺陷，通过采用中文语音的数据集进行了重训练，使得中文发音口型得到校准；避免了现有模型在匹配到中文语音时口型开合过快的问题，使中文语音生成的口型精准度提升到接近原输入音频的内容口型。此外，新的模本文档来自技高网...

【技术保护点】

1.一种在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，包括：

2.根据权利要求1所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，将下载的CMLR中文数据集进行超分处理，得到预设分辨率的视频，包括：

4.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，对超分处理后的CMLR中文数据集进行音视频合成，包括：

5.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，基于音视频合成后的CMLR中文数据集生成图像序列，并对人脸下半张脸进行关键点检测，得到图像序列中所有下半张脸的点位的最大值和最小值，包括：

6.根据权利要求1-5中任一项所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，所述步骤2包括：

7.根据权利要求1-6中任一项所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，所述步骤3中将预

8.一种在数字人领域驱动中文语音精准生成唇形视频的装置，其特征在于，包括：

9.一种在数字人领域驱动中文语音精准生成唇形视频的设备，其特征在于，包括：处理器和存储器，所述存储器中存储有可执行的程序指令，所述处理器调用所述存储器中的程序指令时，所述处理器用于：

10.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至7任一项所述的在数字人领域驱动中文语音精准生成唇形视频的方法的步骤。

...

【技术特征摘要】

1.一种在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，包括：

2.根据权利要求1所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，将下载的cmlr中文数据集进行超分处理，得到预设分辨率的视频，包括：

4.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，对超分处理后的cmlr中文数据集进行音视频合成，包括：

5.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，基于音视频合成后的cmlr中文数据集生成图像序列，并对人脸下半张脸进行关键点检测，得到图像序列中所有下半张脸的点位的最大值和最小值，包括：

【专利技术属性】
技术研发人员：郭文龙，唐杰，张宋伟，戴立言，
申请(专利权)人：上海网达软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人