数字人脸生成方法、装置、存储介质以及电子设备制造方法及图纸

技术编号：37603074 阅读：33 留言：0更新日期：2023-05-18 11:54

本公开涉及一种数字人脸生成方法、装置、存储介质以及电子设备，涉及计算机技术领域，该方法通过确定目标音频对应的HuBERT特征序列，并将HuBERT特征序列输入训练好的关键点预测模型，获得人脸关键点序列，然后基于人脸关键点序列，获得目标音频对应的数字人脸。通过使用HuBERT特征预测人脸关键点，使得人脸关键点与目标音频对应的说话人进行解耦，不仅可以接入其他说话人的音色，而且关键点预测模型无需使用特定语种的数据进行训练也能够输出特定语种的人脸关键点。例如，无需使用小语种数据对关键点预测模型进行训练，即可生成小语种的人脸关键点，当然，也能够应用至方言的人脸关键点预测。关键点预测。关键点预测。

全部详细技术资料下载

【技术实现步骤摘要】
数字人脸生成方法、装置、存储介质以及电子设备

[0001]本公开涉及计算机
，具体地，涉及一种数字人脸生成方法、装置、存储介质以及电子设备。

技术介绍

[0002]随着计算机技术的不断发展，语音识别与文本合成语音技术被越来越多地应用于音频驱动的数字人脸动画生成，即通过输入文本或音频，生成与文本或音频相匹配的数字人脸。
[0003]但是，目前的数字人脸生成技术，要么是生成的数字人脸与训练时的音素紧耦合，导致无法使用训练数据之外的音素，要么是与训练时的音频的音色紧耦合，导致在使用训练数据以外的说话人时，效果变差。因此，相关的数字人脸生成技术有待改进。

技术实现思路

[0004]提供该部分内容以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0005]第一方面，本公开实施例提供一种数字人脸生成方法，包括：
[0006]确定目标音频对应的HuBERT特征序列；
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数字人脸生成方法，其特征在于，包括：确定目标音频对应的HuBERT特征序列；将所述HuBERT特征序列输入训练好的关键点预测模型，获得所述关键点预测模型输出的人脸关键点序列；基于所述人脸关键点序列，获得所述目标音频对应的数字人脸。2.根据权利要求1所述的方法，其特征在于，所述训练好的关键点预测模型通过以下步骤获得：获取目标训练样本，其中，所述目标训练样本包括标记有人脸关键点的HuBERT特征；基于所述目标训练样本，对初始的关键点预测模型进行训练，获得所述训练好的关键点预测模型。3.根据权利要求2所述的方法，其特征在于，所述获取目标训练样本，包括：对目标视频进行音视频分离处理，获得样本音频以及样本视频；将所述样本音频输入训练好的HuBERT模型，获得所述HuBERT模型输出的样本HuBERT特征序列；将所述样本视频输入训练好的关键点提取模型，获得所述关键点提取模型输出的样本人脸关键点序列；基于所述样本HuBERT特征序列以及所述样本人脸关键点序列，获得所述目标训练样本。4.根据权利要求3所述的方法，其特征在于，所述基于所述样本HuBERT特征序列以及所述样本人脸关键点序列，获得所述目标训练样本，包括：针对所述样本HuBERT特征序列中的每一帧HuBERT特征，根据在该帧HuBERT特征之前的第一数量的HuBERT特征以及在该帧HuBERT特征之后的第二数量的HuBERT特征，获得初始训练样本；将所述样本人脸关键点序列中与该帧HuBERT特征对应的关键点作为所述初始训练样本的标签，获得所述目标训练样本。5.根据权利要求2所述的方法，其特征在于，所述基于所述目标训练样本，对初始的关键点预测模型进行训练，获得所述训练好的关键点预测模型，包括：将所述目标训练样本以及说话...

【专利技术属性】
技术研发人员：梁爽，樊博，张昊宇，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人