脸部视频生成与脸部特征预测模型训练方法、装置及设备制造方法及图纸

技术编号:43885427 阅读:18 留言:0更新日期:2025-01-03 13:02
本公开提供一种脸部视频生成与脸部特征预测模型训练方法、装置及设备,涉及视频处理技术领域。在本公开的一些实施例中,获取原始语音;将原始语音输入已经训练完成的脸部特征预测模型,得到原始语音对应的脸部特征参数;生成与脸部特征参数对应的目标视频,利用模型通过原始语音进行脸部特征参数的预测;脸部特征预测模型包括编码器和解码器,编码器用于将原始语音编码为目标音频特征向量,解码器用于将目标音频特征向量和历史脸部特征参数解码为脸部特征参数,编码器结合历史脸部特征参数对脸部特征参数进行预测,提高预测结果的准确度,提升脸部特征预测模型的精度。

【技术实现步骤摘要】

本公开涉及视频处理,尤其涉及一种脸部视频生成与脸部特征预测模型训练方法、装置及设备


技术介绍

1、随着互联网技术的快速发展,虚拟数字人应运而生。虚拟数字人的语音信息与对应的视频信息的匹配度要求逐渐增加。

2、目前,通过对样本对象说话时的样本语音数据和样本视频数据分别进行特征提取,得到样本数据的语音特征和脸部特征,将得到的脸部特征作为语音特征的训练标签,让模型可以学习从语音特征到脸部特征的方法。

3、采用上述方法训练得到的脸部特征预测模型,精度较低。


技术实现思路

1、本公开提供一种脸部视频生成与脸部特征预测模型训练方法、装置及设备,以至少解决现有脸部特征预测模型精度较低的问题。

2、本公开实施例提供一种脸部特征预测模型训练方法,包括:

3、采集样本多媒体数据,所述样本多媒体数据包括:样本语音和所述样本语音对应的样本视频;

4、对所述样本视频中的图片数据标注标签,生成训练样本集,所述训练样本集包括多个样本,每个样本包括:所述图片数据对应的音频数据和所本文档来自技高网...

【技术保护点】

1.一种脸部特征预测模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述样本视频中的图片数据标注标签,生成训练样本集,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本集对初始模型进行训练,得到脸部特征预测模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述脸部特征预测参数与所述标签的差别,确定损失函数,包括:

5.一种脸部视频生成方法,其特征在于,包括:

6.根据权利要求5所述的方法,其特征在于,所述历史脸部特征参数为上一时刻的脸部特征参数,所述将所述原始语音输...

【技术特征摘要】

1.一种脸部特征预测模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述样本视频中的图片数据标注标签,生成训练样本集,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本集对初始模型进行训练,得到脸部特征预测模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述脸部特征预测参数与所述标签的差别,确定损失函数,包括:

5.一种脸部视频生成方法,其特征在于,包括:

6.根据权利要求5所述的方法,其特征在于,所述历史脸部特征参数为上一时刻的脸部特征参数,所述将所述原始语音输入预先训练完成的脸部特征预测模型,得到所述原始语音对应的脸部特征参数,包括:

7.根据权利要求6所述的方法,其特征在于,所述编码器包括:音频特征提取层,线性插值网络层,多头注意力网络层和第一前馈网络层;所述将所述原始语音输入所述编码器中...

【专利技术属性】
技术研发人员:何轶孟猛
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1