一种生成虚拟人动画视频的方法、装置及存储介质制造方法及图纸

技术编号:37589425 阅读:15 留言:0更新日期:2023-05-18 11:15
本申请实施例公开了一种生成虚拟人动画视频的方法、装置及存储介质。其中,该方法包括:将第一音频特征、第一人脸视频帧和第一情绪标签输入生成对抗网络中,生成第二人脸视频帧;第二人脸视频帧中虚拟人的表情和第一情绪标签一致,第二人脸视频帧中虚拟人的口型和第一音频数据匹配;从第一人脸视频帧中获取第一3DMM参数;从第二人脸视频帧中获取第二3DMM参数;利用第一3DMM参数和第二3DMM参数得到第一3D人脸模型;将第一3D人脸模型对应的第一2D人脸图像输入神经渲染网络中,得到第二2D人脸图像;利用第二2D人脸图像、第一图像视频帧和第一音频数据,得到虚拟人动画视频。如此能在大大降低虚拟人动画视频的制作成本的同时,得到质量更高的虚拟人动画视频。质量更高的虚拟人动画视频。质量更高的虚拟人动画视频。

【技术实现步骤摘要】
一种生成虚拟人动画视频的方法、装置及存储介质


[0001]本申请涉及人工智能
,更具体的说,涉及一种生成虚拟人动画视频的方法、装置及存储介质。

技术介绍

[0002]目前,拥有人物形象的虚拟人通常有两种驱动方式,分别是三维建模制作和表演驱动。三维建模制作是指在三维模型软件里对人物进行建模,且人物的每一个动作和表情都需要建模师通过建模软件重新雕刻。表演驱动是利用精密的动作捕捉设备将人类表演者的动作准确记录下来,然后移植到虚拟人的3D模型上。
[0003]但是,三维建模制作需要的人力成本非常高,表演驱动使用的动作捕捉设备的成本也十分高昂,如此导致虚拟人动画视频的制作成本非常高。因此,如何降低虚拟人动画视频的制作成本成为亟需解决的技术问题。

技术实现思路

[0004]有鉴于此,本申请实施例公开一种生成虚拟人动画视频的方法、装置及存储介质,以降低虚拟人动画视频的制作成本。
[0005]本申请实施例提供的技术方案如下:
[0006]本申请实施例第一方面提供了一种生成虚拟人动画视频的方法,所述方法包括:
[0007]将第一音频特征、第一人脸视频帧和第一情绪标签输入预先训练好的生成对抗网络中,生成第二人脸视频帧;其中,所述第一音频特征通过对第一音频数据进行特征提取得到,所述第一人脸视频帧通过对第一图像视频帧进行裁剪得到,所述生成对抗网络通过视频训练数据集和情绪标签集训练得到,所述第二人脸视频帧中虚拟人的表情和所述第一情绪标签一致,所述第二人脸视频帧中虚拟人的口型和所述第一音频数据匹配;
[0008]从所述第一人脸视频帧中获取第一三维形态模型3DMM参数;
[0009]从所述第二人脸视频帧中获取第二3DMM参数;
[0010]利用所述第一3DMM参数和所述第二3DMM参数进行人脸重建,得到第一3D人脸模型;
[0011]将所述第一3D人脸模型投影渲染成对应的第一2D人脸图像;
[0012]将所述第一2D人脸图像输入预先训练好的神经渲染网络中,得到第二2D人脸图像;
[0013]将所述第二2D人脸图像和所述第一图像视频帧进行融合,得到融合视频帧;
[0014]将所述融合视频帧与所述第一音频数据进行拼接,得到虚拟人动画视频。
[0015]在一种可能的实现方式中,所述从所述第一人脸视频帧中获取第一三维形态模型3DMM参数,包括:
[0016]从所述第一人脸视频帧中获取第一纹理系数、第一几何系数、第一姿态系数和第一光照系数;
[0017]从所述第二人脸视频帧中获取第二3DMM参数,包括:
[0018]从所述第二人脸视频帧中获取第二表达系数;
[0019]利用所述第一3DMM参数和所述第二3DMM参数进行人脸重建,得到第一3D人脸模型,包括:
[0020]利用所述第一纹理系数、所述第一几何系数、所述第一姿态系数、所述第一光照系数和所述第二表达系数进行人脸重建,得到第一3D人脸模型。
[0021]在一种可能的实现方式中,所述将所述第一2D人脸图像输入预先训练好的神经渲染网络中,得到第二2D人脸图像,包括:
[0022]对所述第一人脸视频帧进行人脸检测,确定所述第一人脸视频帧中的人脸区域;
[0023]将所述第一人脸视频帧中的人脸区域的像素设置为白色,将所述第一人脸视频帧中除人脸区域外的像素设置为黑色,得到第一掩膜图像;
[0024]利用所述第一掩膜图像对所述第一人脸视频帧进行掩膜处理,得到掩膜处理后的第一人脸视频帧;
[0025]利用所述第一掩膜图像对所述第一2D人脸图像进行掩膜处理,得到掩膜处理后的第一2D人脸图像;
[0026]将所述掩膜处理后的第一人脸视频帧和所述掩膜处理后的第一2D人脸图像输入预先训练好的神经渲染网络中,得到所述第二2D人脸图像。
[0027]在一种可能的实现方式中,所述方法还包括:
[0028]通过如下构建过程构建所述生成对抗网络:
[0029]对所述视频训练数据集进行信息提取,得到音频训练数据集和图像视频帧训练集;其中,所述音频训练数据集包括多条第二音频数据,所述图像视频帧训练集包括多个第二图像视频帧,所述情绪标签集包括多个第二情绪标签;
[0030]对所述第二音频数据进行特征提取,得到第二音频特征;
[0031]对所述第二图像视频帧进行裁剪,得到第三人脸视频帧;
[0032]将所述第二音频特征、所述第三人脸视频帧和所述第二情绪标签输入初始生成对抗网络中,得到第四人脸视频;
[0033]利用所述第二音频特征、所述第三人脸视频帧、所述第四人脸视频帧和所述第二情绪标签计算损失值;
[0034]利用所述损失值对所述初始生成对抗网络进行反向传播训练,得到训练好的所述生成对抗网络。
[0035]在一种可能的实现方式中,所述将所述第二音频特征、所述第三人脸视频帧和所述第二情绪标签输入初始生成对抗网络中,得到第四人脸视频,包括:
[0036]将所述第三人脸视频帧输入所述初始生成对抗网络的帧编码器中,得到人脸身份特征编码集;
[0037]将所述第二音频特征输入所述初始生成对抗网络的语音编码器中,得到音频特征编码集;
[0038]将所述第二情绪标签输入所述初始生成对抗网络的情绪编码器中,得到情绪特征编码集;
[0039]连接所述人脸身份特征编码集、所述音频特征编码集和所述情绪特征编码集,得
到连接特征编码集;
[0040]将所述连接特征编码集输入所述初始生成对抗网络的解码器中,得到第四人脸视频帧。
[0041]在一种可能的实现方式中,所述利用所述第二音频特征、所述第三人脸视频帧、所述第四人脸视频帧和所述第二情绪标签计算损失值,包括:
[0042]将所述第三人脸视频帧和所述第四人脸视频帧输入所述初始生成对抗网络的帧鉴别器中,得到所述第三人脸视频帧对应的第一帧真假概率和所述第四人脸视频帧对应的第二帧真假概率;
[0043]将所述第四人脸视频帧和所述第二音频特征输入所述初始生成对抗网络的口型鉴别器中,得到口型同步概率;
[0044]将所述第四人脸视频帧输入所述初始生成对抗网络的情绪鉴别器中,得到情绪类别概率;
[0045]利用所述第一帧真假概率计算得到第一损失值;
[0046]利用所述第二帧真假概率计算得到第二损失值;
[0047]利用所述口型同步概率计算得到第三损失值;
[0048]利用所述情绪类别概率和所述第二情绪标签计算得到第四损失值。
[0049]在一种可能的实现方式中,所述方法还包括:
[0050]通过如下构建过程构建所述神经渲染网络:
[0051]从第三人脸视频帧中获取第三3DMM参数;
[0052]从第四人脸视频帧中获取第四3DMM参数;
[0053]利用第三3DMM参数和第四3DMM参数进行人脸重建,得到第二3D人脸模型;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成虚拟人动画视频的方法,其特征在于,所述方法包括:将第一音频特征、第一人脸视频帧和第一情绪标签输入预先训练好的生成对抗网络中,生成第二人脸视频帧;其中,所述第一音频特征通过对第一音频数据进行特征提取得到,所述第一人脸视频帧通过对第一图像视频帧进行裁剪得到,所述生成对抗网络通过视频训练数据集和情绪标签集训练得到,所述第二人脸视频帧中虚拟人的表情和所述第一情绪标签一致,所述第二人脸视频帧中虚拟人的口型和所述第一音频数据匹配;从所述第一人脸视频帧中获取第一三维形态模型3DMM参数;从所述第二人脸视频帧中获取第二3DMM参数;利用所述第一3DMM参数和所述第二3DMM参数进行人脸重建,得到第一3D人脸模型;将所述第一3D人脸模型投影渲染成对应的第一2D人脸图像;将所述第一2D人脸图像输入预先训练好的神经渲染网络中,得到第二2D人脸图像;将所述第二2D人脸图像和所述第一图像视频帧进行融合,得到融合视频帧;将所述融合视频帧与所述第一音频数据进行拼接,得到虚拟人动画视频。2.根据权利要求1所述的方法,其特征在于,所述从所述第一人脸视频帧中获取第一三维形态模型3DMM参数,包括:从所述第一人脸视频帧中获取第一纹理系数、第一几何系数、第一姿态系数和第一光照系数;从所述第二人脸视频帧中获取第二3DMM参数,包括:从所述第二人脸视频帧中获取第二表达系数;利用所述第一3DMM参数和所述第二3DMM参数进行人脸重建,得到第一3D人脸模型,包括:利用所述第一纹理系数、所述第一几何系数、所述第一姿态系数、所述第一光照系数和所述第二表达系数进行人脸重建,得到第一3D人脸模型。3.根据权利要求1所述的方法,其特征在于,所述将所述第一2D人脸图像输入预先训练好的神经渲染网络中,得到第二2D人脸图像,包括:对所述第一人脸视频帧进行人脸检测,确定所述第一人脸视频帧中的人脸区域;将所述第一人脸视频帧中的人脸区域的像素设置为白色,将所述第一人脸视频帧中除人脸区域外的像素设置为黑色,得到第一掩膜图像;利用所述第一掩膜图像对所述第一人脸视频帧进行掩膜处理,得到掩膜处理后的第一人脸视频帧;利用所述第一掩膜图像对所述第一2D人脸图像进行掩膜处理,得到掩膜处理后的第一2D人脸图像;将所述掩膜处理后的第一人脸视频帧和所述掩膜处理后的第一2D人脸图像输入预先训练好的神经渲染网络中,得到所述第二2D人脸图像。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过如下构建过程构建所述生成对抗网络:对所述视频训练数据集进行信息提取,得到音频训练数据集和图像视频帧训练集;其中,所述音频训练数据集包括多条第二音频数据,所述图像视频帧训练集包括多个第二图像视频帧,所述情绪标签集包括多个第二情绪标签;
对所述第二音频数据进行特征提取,得到第二音频特征;对所述第二图像视频帧进行裁剪,得到第三人脸视频帧;将所述第二音频特征、所述第三人脸视频帧和所述第二情绪标签输入初始生成对抗网络中,得到第四人脸视频;利用所述第二音频特征、所述第三人脸视频帧、所述第四人脸视频帧和所述第二情绪标签计算损失值;利用所述损失值对所述初始生成对抗网络进行反向传播训练,得到训练好的所述生成对抗网络。5.根据权利要求4所述的方法,其特征在于,所述将所述第二音频特征、所述第三人脸视频帧和所述第二情绪标签输入初始生成对抗网络中,得到第四人脸视频,包括:将所述第三人脸视频帧输入所述初始生成对抗网络的帧编码器中,得到人脸身份特征编码集;将所述第二音频特征输入所述初始生成对抗网络的语音编码器中,得到音频特征编码集;将所述第二情绪标签输入所述初始生成对抗网络的情绪编码器中,得到情绪特征编码集;连接所述人脸身份特征编码集、所述音频特征...

【专利技术属性】
技术研发人员:熊钊向钊豫吴红
申请(专利权)人:湖南快乐阳光互动娱乐传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1