用于生成说话人像视频和训练人脸渲染模型的方法、装置制造方法及图纸

技术编号：33708315 阅读：73 留言：0更新日期：2022-06-06 08:35

本公开的实施例公开了用于生成说话人像视频和用于训练人脸渲染模型的方法、装置。该方法的一具体实施方式包括：将预先获取的语音的音频特征序列输入至预先训练的口型生成模型，生成与该语音对应的口型特征序列；将该口型特征序列输入至基于预先获取的目标人像训练得到的人脸渲染模型，生成利用该语音操控该目标人像的说话人像视频，其中，该人脸渲染模型中包括第一解码器，该第一解码器用于表征人像特征与说话人像之间的对应关系，该人像特征包括预设表情特征和该口型特征序列中的口型特征。该实施方式实现了表情人为可控的说话人像视频的生成。像视频的生成。像视频的生成。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成说话人像视频和训练人脸渲染模型的方法、装置

[0001]本公开的实施例涉及计算机
，具体涉及用于生成说话人像视频和训练人脸渲染模型的方法、装置、电子设备和介质。

技术介绍

[0002]随着人工智能技术的发展，通过控制一张人脸图像根据给定音频生成该人像的说话视频的说话人像生成技术也展示出广泛的应用前景。例如，影视行业工作者可以根据演员人像和语音直接生成演员的表演镜头；游戏等娱乐行业人员可以通过语音操纵虚拟人物的面部动作，并可以通过结合人机对话的方式实现更加逼真的人机交互；在线上会议软件中，该技术可以根据音频恢复因网络故障缺失的说话人像视频帧。
[0003]现有技术主要关注生成的嘴形是否与音频对应，或者通过语音判断表情类别进而据此调整人像表情，因而，并不能实现说话人像表情的人为可控。

技术实现思路

[0004]本公开的实施例提出了用于生成说话人像视频和用于训练人脸渲染模型的方法和装置。
[0005]第一方面，本公开的实施例提供了一种用于生成说话人像视频的方法，该方法包括：将预先获取的语音的音频特征序列输入至预先训练的口型生成模型，生成与语音对应的口型特征序列；将口型特征序列输入至基于预先获取的目标人像训练得到的人脸渲染模型，生成利用语音操目标人像的说话人像视频，其中，人脸渲染模型中包括第一解码器，第一解码器用于表征人像特征与说话人像之间的对应关系，人像特征包括预设表情特征和口型特征序列中的口型特征。
[0006]在一些实施例中，上述口型生成模型包括第二编码器和第二解码...

【技术保护点】

【技术特征摘要】
1.一种用于生成说话人像视频的方法，包括：将预先获取的语音的音频特征序列输入至预先训练的口型生成模型，生成与所述语音对应的口型特征序列；将所述口型特征序列输入至基于预先获取的目标人像训练得到的人脸渲染模型，生成利用所述语音操控所述目标人像的说话人像视频，其中，所述人脸渲染模型中包括第一解码器，所述第一解码器用于表征人像特征与说话人像之间的对应关系，所述人像特征包括预设表情特征和所述口型特征序列中的口型特征。2.根据权利要求1所述的方法，其中，所述口型生成模型包括第二编码器和第二解码器；以及所述将预先获取的语音的音频特征序列输入至预先训练的口型生成模型，生成与所述语音对应的口型特征序列，包括：将所述音频特征序列输入至预先训练的所述第二编码器，生成基于注意力机制的音频特征；将当前时刻的上一时刻的口型特征、所述基于注意力机制的音频特征和所述当前时刻的姿态特征输入至预先训练的所述第二解码器，生成所述当前时刻的口型特征，其中，所述姿态特征包括除嘴部之外的面部其他关键点的特征；基于所得到的多个当前时刻的口型特征，生成与所述语音的时长对应的口型特征序列。3.根据权利要求2所述的方法，其中，所述第二编码器和所述第二解码器分别为Transformer编码器和Transformer解码器，所述Transformer解码器采用将所述姿态特征组成的姿态特征序列映射至与所述口型特征序列相匹配的维度的方式作为位置编码。4.根据权利要求1
‑
3之一所述的方法，其中，所述人像特征还包括利用与所述第一解码器对应的第一编码器从所述目标人像中提取的其他特征。5.一种用于训练人脸渲染模型的方法，包括：获取训练样本集合，其中，所述训练样本集合中的训练样本包括样本人像；获取初始人脸渲染模型，其中，所述初始人脸渲染模型中包括初始编码器、初始解码器和初始判别器；将所述样本人像输入至所述初始编码器，得到对应的人脸图像特征；将所述人脸图像特征输入至所述初始解码器，生成与所述样本人像对应的生成人像；利用预设损失函数生成损失值，其中，所述预设损失函数包括重构损失函数和对抗损失函数，所述重构损失函数用于表征所述样本人像与所述生成人像之间的差异；基于所生成的损失值，调整所述初始人脸渲染模型的参数。6.根据权利要求5所述的方法，其中，所述人脸图像特...

【专利技术属性】
技术研发人员：刘颖璐，马致远，石海林，梅涛，周伯文，
申请(专利权)人：北京京东尚科信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人