数字人视频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32120921 阅读:19 留言:0更新日期:2022-01-29 19:07
本发明专利技术实施例提供了一种数字人视频生成方法、装置、电子设备及存储介质,所述方法包括:获取目标人物的音频,针对音频中任一音频帧,提取音频帧对应的音频特征,以及获取第一平均人脸3D网格;确定目标人物的样本视频,提取样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线;利用预设解码器,对音频特征、第一人脸姿态参数以及第一平均人脸3D网格进行处理,生成第一人脸3D网格;利用预设视频生成模型,对第一人脸3D网格以及第一背景轮廓线进行处理,生成数字人视频。基于目标人物的音频生成数字人视频,其中引入了第一平均人脸3D网格、目标样本图像的第一人脸姿态参数以及第一背景轮廓线,生成的数字人视频中数字人姿态自然、准确。准确。准确。

【技术实现步骤摘要】
数字人视频生成方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及人工智能
,尤其涉及一种数字人视频生成方法、装置、电子设备及存储介质。

技术介绍

[0002]数字人视频的生成技术现在越来越成熟,如果数字人视频生成技术想应用在商业,实现实时交互,至少需要满足两点:生成效果好和推理速度快,其中,生产效果好事必要的前提,推理速度快是商业的需要。
[0003]目前,基于声音推理生成数字人视频的方案,其主要是通过声音推理模型,采用声音推理生成人脸关键点。但基于声音推理生成的人脸关键点存在角度问题,导致最终生成的数字人视频中数字人姿态不自然。

技术实现思路

[0004]为了解决上述基于声音推理生成的人脸关键点存在角度问题,导致最终生成的数字人视频中数字人姿态不自然的技术问题,本专利技术实施例提供了一种数字人视频生成方法、装置、电子设备及存储介质。
[0005]在本专利技术实施例的第一方面,首先提供了一种数字人视频生成方法,所述方法包括:
[0006]获取目标人物的音频,针对所述音频中任一音频帧,提取所述音频帧对应的音频特征,以及获取第一平均人脸3D网格;
[0007]确定所述目标人物的样本视频,提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线;
[0008]利用预设解码器,对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理,生成第一人脸3D网格;
[0009]利用预设视频生成模型,对所述第一人脸3D网格以及所述第一背景轮廓线进行处理,生成数字人视频。
[0010]在一个可选的实施方式中,所述获取第一平均人脸3D网格,包括:
[0011]将所述目标样本图像输入至预设3D模型,获取所述预设3D模型输出的第一3D人脸重建信息;
[0012]提取所述第一3D人脸重建信息中的第一人脸姿态参数和第一人脸表情参数;
[0013]确定所述第一人脸姿态参数和所述第一人脸表情参数为第一平均人脸3D网格;
[0014]或者,
[0015]获取第一平均人脸3D网格集,获取所述第一平均人脸3D网格集中的任一第一平均人脸3D网格。
[0016]在一个可选的实施方式中,所述提取所述样本视频中目标样本图像的第一人脸姿态参数,包括:
[0017]将所述样本视频中目标样本图像输入至预设姿态提取模型,获取所述预设姿态提取模型输出的第一人脸姿态参数;
[0018]其中,所述预设姿态提取模型包括预设神经网格模型与全连接层,所述预设神经网格模型连接于所述全连接层。
[0019]在一个可选的实施方式中,所述利用预设解码器,对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理,生成第一人脸3D网格,包括:
[0020]针对所述音频中任一音频帧,将所述音频帧对应的所述音频特征输入至预设神经网格模型;
[0021]获取所述预设神经网格模型输出的所述音频帧对应的第一声音隐藏变量;
[0022]将所述第一平均人脸3D网格输入至所述预设神经网格模型,获取所述预设神经网格模型输出的第一图像隐藏变量;
[0023]按照通道合成的方式将所述音频帧对应的第一声音隐藏变量、所述第一图像隐藏变量以及所述第一人脸姿态参数进行合成,得到第一合成变量;
[0024]将所述第一合成变量输入至预设解码器,获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格。
[0025]在一个可选的实施方式中,所述将所述第一合成变量输入至预设解码器,获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格,包括:
[0026]将所述第一人脸姿态参数输入至所述预设神经网格模型,获取所述预设神经网格模型输出的所述第一人脸姿态参数的第一嘴周围特征向量;
[0027]将所述第一合成变量、所述第一嘴周围特征向量输入至预设解码器,获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格。
[0028]在一个可选的实施方式中,所述利用预设视频生成模型,对所述第一人脸3D网格以及所述第一背景轮廓线进行处理,生成数字人视频,包括:
[0029]按照所述通道合成的方式将所述音频帧对应的所述第一人脸3D网格与所述第一背景轮廓线进行合成,得到所述音频帧对应的第一合成图像;
[0030]将所述音频帧对应的所述第一合成图像输入至预设视频生成模型,获取所述预设视频生成模型输出的所述音频帧对应的数字人图像;
[0031]按照所述音频的时间序列,对各所述音频帧各自对应的所述数字人图像进行组合,生成数字人视频。
[0032]在一个可选的实施方式中,所述针对所述音频中任一音频帧,提取所述音频帧对应的音频特征,包括:
[0033]针对所述音频中任一音频帧,利用傅里叶变换提取Mel频率倒谱系数作为所述音频帧对应的音频特征;
[0034]或者,
[0035]针对所述音频中任一音频帧,利用预设语音识别模型提取所述音频帧对应的音频特征。
[0036]在一个可选的实施方式中,在执行所述方法之前,还包括:
[0037]获取目标人物的样本视频,其中,所述样本视频中样本图像与所述样本视频中样本音频的样本音频帧一一对应;
[0038]针对所述样本音频中任一所述样本音频帧,提取所述样本音频帧对应的样本音频特征,并获取第二平均人脸3D网格;以及,
[0039]提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数以及第二背景轮廓线;
[0040]利用预设解码器,对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3D网格进行处理,生成第二人脸3D网格;
[0041]利用预设视频生成模型,对所述第二人脸3D网格以及所述第二背景轮廓线进行处理,生成数字人样本视频。
[0042]在一个可选的实施方式中,所述获取第二平均人脸3D网格,包括:
[0043]将与所述样本音频帧对应的所述样本图像输入至预设3D模型,获取所述预设3D模型输出的第二3D人脸重建信息;
[0044]提取所述第二3D人脸重建信息中的第二人脸姿态参数和第二人脸表情参数;
[0045]确定所述第二人脸姿态参数和所述第二人脸表情参数为第二平均人脸3D网格;
[0046]或者,
[0047]获取第二平均人脸3D网格集,获取所述第二平均人脸3D网格集中的任一第二平均人脸3D网格。
[0048]在一个可选的实施方式中,所述提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数,包括:
[0049]将与所述样本音频帧对应的所述样本图像输入至预设姿态提取模型,获取所述预设姿态提取模型输出的第二人脸姿态参数;
[0050]其中,所述预设姿态提取模型包括预设神经网格模型与全连接层,所述预设神经网格模型连接于所述全连接层。
[0051]在一个可选的实施方式中,所述利用预设解码器,对所述样本音频特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字人视频生成方法,其特征在于,所述方法包括:获取目标人物的音频,针对所述音频中任一音频帧,提取所述音频帧对应的音频特征,以及获取第一平均人脸3D网格;确定所述目标人物的样本视频,提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线;利用预设解码器,对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理,生成第一人脸3D网格;利用预设视频生成模型,对所述第一人脸3D网格以及所述第一背景轮廓线进行处理,生成数字人视频。2.根据权利要求1所述的方法,其特征在于,所述获取第一平均人脸3D网格,包括:将所述目标样本图像输入至预设3D模型,获取所述预设3D模型输出的第一3D人脸重建信息;提取所述第一3D人脸重建信息中的第一人脸姿态参数和第一人脸表情参数;确定所述第一人脸姿态参数和所述第一人脸表情参数为第一平均人脸3D网格;或者,获取第一平均人脸3D网格集,获取所述第一平均人脸3D网格集中的任一第一平均人脸3D网格。3.根据权利要求1所述的方法,其特征在于,所述提取所述样本视频中目标样本图像的第一人脸姿态参数,包括:将所述样本视频中目标样本图像输入至预设姿态提取模型,获取所述预设姿态提取模型输出的第一人脸姿态参数;其中,所述预设姿态提取模型包括预设神经网格模型与全连接层,所述预设神经网格模型连接于所述全连接层。4.根据权利要求1所述的方法,其特征在于,所述利用预设解码器,对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理,生成第一人脸3D网格,包括:针对所述音频中任一音频帧,将所述音频帧对应的所述音频特征输入至预设神经网格模型;获取所述预设神经网格模型输出的所述音频帧对应的第一声音隐藏变量;将所述第一平均人脸3D网格输入至所述预设神经网格模型,获取所述预设神经网格模型输出的第一图像隐藏变量;按照通道合成的方式将所述音频帧对应的第一声音隐藏变量、所述第一图像隐藏变量以及所述第一人脸姿态参数进行合成,得到第一合成变量;将所述第一合成变量输入至预设解码器,获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格。5.根据权利要求4所述的方法,其特征在于,所述将所述第一合成变量输入至预设解码器,获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格,包括:将所述第一人脸姿态参数输入至所述预设神经网格模型,获取所述预设神经网格模型输出的所述第一人脸姿态参数的第一嘴周围特征向量;将所述第一合成变量、所述第一嘴周围特征向量输入至预设解码器,获取所述预设解
码器输出的所述音频帧对应的第一人脸3D网格。6.根据权利要求4或5所述的方法,其特征在于,所述利用预设视频生成模型,对所述第一人脸3D网格以及所述第一背景轮廓线进行处理,生成数字人视频,包括:按照所述通道合成的方式将所述音频帧对应的所述第一人脸3D网格与所述第一背景轮廓线进行合成,得到所述音频帧对应的第一合成图像;将所述音频帧对应的所述第一合成图像输入至预设视频生成模型,获取所述预设视频生成模型输出的所述音频帧对应的数字人图像;按照所述音频的时间序列,对各所述音频帧各自对应的所述数字人图像进行组合,生成数字人视频。7.根据权利要求1所述的方法,其特征在于,所述针对所述音频中任一音频帧,提取所述音频帧对应的音频特征,包括:针对所述音频中任一音频帧,利用傅里叶变换提取Mel频率倒谱系数作为所述音频帧对应的音频特征;或者,针对所述音频中任一音频帧,利用预设语音识别模型提取所述音频帧对应的音频特征。8.根据权利要求1所述的方法,其特征在于,在执行所述方法之前,还包括:获取目标人物的样本视频,其中,所述样本视频中样本图像与所述样本视频中样本音频的样本音频帧一一对应;针对所述样本音频中任一所述样本音频帧,提取所述样本音频帧对应的样本音频特征,并获取第二平均人脸3D网格;以及,提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数以及第二背景轮廓线;利用预设解码器,对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3D网格进行处理,生成第二人脸3D网格;利用预设视频生成模型,对所述第二人脸3D网格以及所述第二背景轮廓线进行处理,生成数字人样本视频。9.根据权利要求8所述的方法,其特征在于,所述获...

【专利技术属性】
技术研发人员:王鑫宇常向月刘炫鹏刘云峰
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1