用于生成说话人像视频和训练人脸渲染模型的方法、装置制造方法及图纸

技术编号:33708315 阅读:73 留言:0更新日期:2022-06-06 08:35
本公开的实施例公开了用于生成说话人像视频和用于训练人脸渲染模型的方法、装置。该方法的一具体实施方式包括:将预先获取的语音的音频特征序列输入至预先训练的口型生成模型,生成与该语音对应的口型特征序列;将该口型特征序列输入至基于预先获取的目标人像训练得到的人脸渲染模型,生成利用该语音操控该目标人像的说话人像视频,其中,该人脸渲染模型中包括第一解码器,该第一解码器用于表征人像特征与说话人像之间的对应关系,该人像特征包括预设表情特征和该口型特征序列中的口型特征。该实施方式实现了表情人为可控的说话人像视频的生成。像视频的生成。像视频的生成。

【技术实现步骤摘要】
用于生成说话人像视频和训练人脸渲染模型的方法、装置


[0001]本公开的实施例涉及计算机
,具体涉及用于生成说话人像视频和训练人脸渲染模型的方法、装置、电子设备和介质。

技术介绍

[0002]随着人工智能技术的发展,通过控制一张人脸图像根据给定音频生成该人像的说话视频的说话人像生成技术也展示出广泛的应用前景。例如,影视行业工作者可以根据演员人像和语音直接生成演员的表演镜头;游戏等娱乐行业人员可以通过语音操纵虚拟人物的面部动作,并可以通过结合人机对话的方式实现更加逼真的人机交互;在线上会议软件中,该技术可以根据音频恢复因网络故障缺失的说话人像视频帧。
[0003]现有技术主要关注生成的嘴形是否与音频对应,或者通过语音判断表情类别进而据此调整人像表情,因而,并不能实现说话人像表情的人为可控。

技术实现思路

[0004]本公开的实施例提出了用于生成说话人像视频和用于训练人脸渲染模型的方法和装置。
[0005]第一方面,本公开的实施例提供了一种用于生成说话人像视频的方法,该方法包括:将预先获取的语音的音频特征序列输入至预先训练的口型生成模型,生成与语音对应的口型特征序列;将口型特征序列输入至基于预先获取的目标人像训练得到的人脸渲染模型,生成利用语音操目标人像的说话人像视频,其中,人脸渲染模型中包括第一解码器,第一解码器用于表征人像特征与说话人像之间的对应关系,人像特征包括预设表情特征和口型特征序列中的口型特征。
[0006]在一些实施例中,上述口型生成模型包括第二编码器和第二解码器;以及上述将预先获取的语音的音频特征序列输入至预先训练的口型生成模型,生成与语音对应的口型特征序列,包括:将音频特征序列输入至预先训练的第二编码器,生成基于注意力机制的音频特征;将当前时刻的上一时刻的口型特征、基于注意力机制的音频特征和当前时刻的姿态特征输入至预先训练的第二解码器,生成当前时刻的口型特征,其中,姿态特征包括除嘴部之外的面部其他关键点的特征;基于所得到的多个当前时刻的口型特征,生成与语音的时长对应的口型特征序列。
[0007]在一些实施例中,上述第二编码器和第二解码器分别为Transformer编码器和Transformer解码器,上述Transformer解码器采用将姿态特征组成的姿态特征序列映射至与口型特征序列相匹配的维度的方式作为位置编码。
[0008]在一些实施例中,上述人像特征还包括利用与第一解码器对应的第一编码器从目标人像中提取的其他特征。
[0009]第二方面,本公开的实施例提供了一种用于训练人脸渲染模型的方法,该方法包括:获取训练样本集合,其中,训练样本集合中的训练样本包括样本人像;获取初始人脸渲
染模型,其中,初始人脸渲染模型中包括初始编码器、初始解码器和初始判别器;将样本人像输入至初始编码器,得到对应的人脸图像特征;将人脸图像特征输入至初始解码器,生成与样本人像对应的生成人像;利用预设损失函数生成损失值,其中,预设损失函数包括重构损失函数和对抗损失函数,重构损失函数用于表征样本人像与生成人像之间的差异;基于所生成的损失值,调整初始人脸渲染模型的参数。
[0010]在一些实施例中,上述人脸图像特征包括口型子特征和表情子特征,上述预设损失函数还包括以下至少一项:表情损失函数,口型损失函数;以及上述利用预设损失函数生成损失值,包括:将生成人像输入至预先训练的分类器,生成口型生成特征和表情生成特征;执行以下至少一项:基于口型生成特征和口型子特征之间的差异,利用口型损失函数生成口型损失值;基于表情生成特征和表情子特征之间的差异,利用表情损失函数生成表情损失值;基于所生成的口型损失值和表情损失值中的至少一项,生成总损失值。
[0011]第三方面,本公开的实施例提供了一种用于生成说话人像视频的装置,该装置包括:口型生成单元,被配置成将预先获取的语音的音频特征序列输入至预先训练的口型生成模型,生成与语音对应的口型特征序列;视频生成单元,被配置成将口型特征序列输入至基于预先获取的目标人像训练得到的人脸渲染模型,生成利用语音操控目标人像的说话人像视频,其中,人脸渲染模型中包括第一解码器,第一解码器用于表征人像特征与说话人像之间的对应关系,人像特征包括预设表情特征和口型特征序列中的口型特征。
[0012]在一些实施例中,上述口型生成模型包括第二编码器和第二解码器;以及上述口型生成单元,被进一步配置成:将音频特征序列输入至预先训练的第二编码器,生成基于注意力机制的音频特征;将当前时刻的上一时刻的口型特征、基于注意力机制的音频特征和当前时刻的姿态特征输入至预先训练的第二解码器,生成当前时刻的口型特征,其中,姿态特征包括除嘴部之外的面部其他关键点的特征;基于所得到的多个当前时刻的口型特征,生成与语音的时长对应的口型特征序列。
[0013]在一些实施例中,上述第二编码器和第二解码器分别为Transformer编码器和Transformer解码器,Transformer解码器采用将姿态特征组成的姿态特征序列映射至与口型特征序列相匹配的维度的方式作为位置编码。
[0014]在一些实施例中,上述人像特征还包括利用与第一解码器对应的第一编码器从目标人像中提取的其他特征。
[0015]第四方面,本公开的实施例提供了一种用于训练人脸渲染模型的装置,该装置包括:第一获取单元,被配置成获取训练样本集合,其中,训练样本集合中的训练样本包括样本人像;第二获取单元,被配置成获取初始人脸渲染模型,其中,初始人脸渲染模型中包括初始编码器、初始解码器和初始判别器;特征生成单元,被配置成将样本人像输入至初始编码器,得到对应的人脸图像特征;人像生成单元,被配置成将人脸图像特征输入至初始解码器,生成与样本人像对应的生成人像;损失确定单元,被配置成利用预设损失函数生成损失值,其中,预设损失函数包括重构损失函数和对抗损失函数,重构损失函数用于表征样本人像与生成人像之间的差异;调整单元,被配置成基于所生成的损失值,调整初始人脸渲染模型的参数。
[0016]在一些实施例中,上述人脸图像特征包括口型子特征和表情子特征,预设损失函数还包括以下至少一项:表情损失函数,口型损失函数;以及上述损失确定单元,被进一步
配置成:将生成人像输入至预先训练的分类器,生成口型生成特征和表情生成特征;执行以下至少一项:基于口型生成特征和口型子特征之间的差异,利用口型损失函数生成口型损失值;基于表情生成特征和表情子特征之间的差异,利用表情损失函数生成表情损失值;基于所生成的口型损失值和表情损失值中的至少一项,生成总损失值。
[0017]第五方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0018]第六方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于生成说话人像视频的方法,包括:将预先获取的语音的音频特征序列输入至预先训练的口型生成模型,生成与所述语音对应的口型特征序列;将所述口型特征序列输入至基于预先获取的目标人像训练得到的人脸渲染模型,生成利用所述语音操控所述目标人像的说话人像视频,其中,所述人脸渲染模型中包括第一解码器,所述第一解码器用于表征人像特征与说话人像之间的对应关系,所述人像特征包括预设表情特征和所述口型特征序列中的口型特征。2.根据权利要求1所述的方法,其中,所述口型生成模型包括第二编码器和第二解码器;以及所述将预先获取的语音的音频特征序列输入至预先训练的口型生成模型,生成与所述语音对应的口型特征序列,包括:将所述音频特征序列输入至预先训练的所述第二编码器,生成基于注意力机制的音频特征;将当前时刻的上一时刻的口型特征、所述基于注意力机制的音频特征和所述当前时刻的姿态特征输入至预先训练的所述第二解码器,生成所述当前时刻的口型特征,其中,所述姿态特征包括除嘴部之外的面部其他关键点的特征;基于所得到的多个当前时刻的口型特征,生成与所述语音的时长对应的口型特征序列。3.根据权利要求2所述的方法,其中,所述第二编码器和所述第二解码器分别为Transformer编码器和Transformer解码器,所述Transformer解码器采用将所述姿态特征组成的姿态特征序列映射至与所述口型特征序列相匹配的维度的方式作为位置编码。4.根据权利要求1

3之一所述的方法,其中,所述人像特征还包括利用与所述第一解码器对应的第一编码器从所述目标人像中提取的其他特征。5.一种用于训练人脸渲染模型的方法,包括:获取训练样本集合,其中,所述训练样本集合中的训练样本包括样本人像;获取初始人脸渲染模型,其中,所述初始人脸渲染模型中包括初始编码器、初始解码器和初始判别器;将所述样本人像输入至所述初始编码器,得到对应的人脸图像特征;将所述人脸图像特征输入至所述初始解码器,生成与所述样本人像对应的生成人像;利用预设损失函数生成损失值,其中,所述预设损失函数包括重构损失函数和对抗损失函数,所述重构损失函数用于表征所述样本人像与所述生成人像之间的差异;基于所生成的损失值,调整所述初始人脸渲染模型的参数。6.根据权利要求5所述的方法,其中,所述人脸图像特...

【专利技术属性】
技术研发人员:刘颖璐马致远石海林梅涛周伯文
申请(专利权)人:北京京东尚科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1