唇音同步处理及模型训练方法、电子设备及存储介质技术

技术编号：42776912 阅读：21 留言：0更新日期：2024-09-21 00:39

本申请实施例提供了一种唇音同步处理及模型训练方法、电子设备及存储介质，包括：对输入的人脸数据进行掩码处理，得到人脸掩码视频帧；对输入的音频数据进行语音特征提取，得到嘴部特征视频帧；生成嘴部特征视频帧的各级采样特征图；至少将人脸掩码视频帧输入到预训练扩散模型的主输入侧，并且将嘴部特征视频帧的各级采样特征图输入到预训练扩散模型中的第一条件输入侧，得到唇音同步视频。通过本申请实施例，可以使得数字人在说话视频中唇音更加同步。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及音频处理，尤其涉及一种唇音同步处理及模型训练方法、电子设备及存储介质。

技术介绍

1、近年来，随着虚拟现实等前沿技术的发展，以元宇宙为代表的虚拟世界和数字空间正在开创互联网的新纪元。在影视制作、线上教育和网络直播等领域，二维数字人说话技术具有广阔的应用前景。随着深度学习技术的发展，大量生成二维说话数字人的方法应运而生。

2、相关技术中，基于像素的人脸重建损失去实现唇音同步，但是该方法无法有效约束音频-口型同步、指导精确的口型，或者忽略口型的动态变化而生成伪影导致模糊，导致生成的二维说话数字人质量差，且在一些实现唇音同步方法中，还需要针对一个特定人的小型数据集进行二次训练，提高了训练成本。在此情况下，如何低成本高质量的实现二维说话数字人唇音同步，成为亟待解决的问题。

技术实现思路

1、有鉴于此，本申请实施例提供一种唇音同步处理及模型训练方法、电子设备及存储介质，以至少部分解决上述问题。

2、根据本申请实施例的第一方面，提供了一种唇音同步处理方法，包括：...

【技术保护点】

1.一种唇音同步处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述预训练扩散模型包括第一变分自编码器；所述对输入的所述人脸数据进行图像预处理，得到人脸参考特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述人脸参考模型包括第二变分自编码器、第二空间注意力层和第二交叉注意力层；所述预训练扩散模型还包括第一空间注意力层；所述将所述预设人脸数据输入到预训练的人脸参考模型中，得到所述人脸参考特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述预...

【技术特征摘要】

1.一种唇音同步处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述预训练扩散模型还包括时间注意力层；所述将所述人脸掩码视频帧输入到所述预训练扩散模型的主输入侧，将所述嘴部特征视频帧的各级采样特征图输入到所述预训练扩散模型中的第一条件输入侧，并且将所述人脸...

【专利技术属性】
技术研发人员：闫浩男，张涛，杨超杰，周润楠，
申请(专利权)人：杭州像素互动科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人