语音驱动唇形生成方法技术

技术编号:39597265 阅读:15 留言:0更新日期:2023-12-03 19:56
本申请提供一种语音驱动唇形生成方法

【技术实现步骤摘要】
语音驱动唇形生成方法、装置及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种语音驱动唇形生成方法

装置及存储介质


技术介绍

[0002]语音驱动唇形生成是一种先进的人工智能技术,用于通过语音输入生成高质量的唇形图像

通过语音驱动唇形生成技术,可以实现高度逼真的唇形动画,使虚拟角色或人工智能助理的口型与语音输入完美匹配

这种技术在电影

动画

虚拟现实

游戏

语音合成和人机交互等领域具有广泛的应用潜力

[0003]数字人生动真实的说话能力是展现数字人表现力的关键要素,其中的核心问题是保持唇形和语音内容的同步性

现有的一些语音驱动唇形生成方法,使用深度神经网络来预测与音频输入相对应的嘴唇运动,但提取的唇部表观先验信息不够准确,导致唇形同步不准确


技术实现思路

[0004]本申请实施例提供一种语音驱动唇形生成方法

装置及存储介质,用以解决现有技术中唇形同步的准确性低的技术问题

[0005]第一方面,本申请实施例提供一种语音驱动唇形生成方法,包括:
[0006]将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;
[0007]将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;
[0008]基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形

[0009]在一些实施例中,所述将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征,包括:
[0010]基于对比约束将运动信息从所述初始纹理特征中解耦;所述对比约束用于最大化具有相同识别码的每一人脸图像的纹理特征和每一人脸图像对应的成对图像的纹理特征的相似性;
[0011]计算所有人脸图像的解耦后的初始纹理特征的平均值,得到所述人脸图像的目标纹理特征

[0012]在一些实施例中,所述方法还包括:
[0013]将多帧人脸图像输入至运动编码器中进行运动特征提取,得到每一人脸图像的初始运动特征;
[0014]将纹理信息从所述初始运动特征中解耦,得到所述人脸图像的目标运动特征;
[0015]判断能否根据所述人脸图像的目标纹理特征和所述人脸图像的目标运动特征还原人脸,并根据判断结果验证所述人脸图像的目标纹理特征的有效性

[0016]在一些实施例中,所述将纹理信息从所述初始运动特征中解耦,得到所述人脸图
像的目标运动特征,包括:
[0017]基于正交约束将纹理信息从所述初始运动特征中解耦;所述正交约束用于正交化每一人脸图像的纹理特征和运动特征;
[0018]确定所述人脸图像的目标运动特征为任一解耦后的初始运动特征

[0019]在一些实施例中,所述基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形,包括:
[0020]获取所述人脸图像的表情特征并基于语音输入确定唇形运动特征;
[0021]基于所述人脸图像的目标纹理特征

所述人脸图像的表情特征和所述唇形运动特征生成人脸唇形

[0022]在一些实施例中,所述基于所述人脸图像的目标纹理特征

所述人脸图像的表情特征和所述唇形运动特征生成人脸唇形,包括:
[0023]将所述人脸图像的表情特征和所述唇形运动特征进行特征融合,得到融合运动特征;
[0024]基于所述人脸图像的目标纹理特征和所述融合运动特征,利用生成对抗网络
StyleGAN
生成人脸唇形

[0025]在一些实施例中,所述方法还包括:
[0026]根据所述人脸图像的目标运动特征对所述融合运动特征进行相似性约束

[0027]第二方面,本申请实施例提供一种语音驱动唇形生成装置,包括:
[0028]第一获取模块,用于将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;
[0029]第一解耦模块,用于将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;
[0030]生成模块,用于基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形

[0031]第三方面,本申请实施例提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的语音驱动唇形生成方法

[0032]第四方面,本申请实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的语音驱动唇形生成方法

[0033]第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的语音驱动唇形生成方法

[0034]本申请实施例提供的语音驱动唇形生成方法

装置及存储介质,通过纹理编码器获取每一人脸图像的初始纹理特征,并将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征,从而基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形,避免了运动信息对生成结果的影响,提升了唇形生成及同步的准确性

附图说明
[0035]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申
请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0036]图1是本申请实施例提供的语音驱动唇形生成方法的流程示意图;
[0037]图2是本申请实施例提供的语音驱动唇形生成方法的示例场景的特征解耦框架图;
[0038]图3是本申请实施例提供的一种语音驱动唇形生成方法的示例场景的唇形生成框架图;
[0039]图4是本申请实施例提供的一种语音驱动唇形生成装置的结构示意图;
[0040]图5是本申请实施例提供的电子设备的结构示意图

具体实施方式
[0041]语音驱动唇形生成技术利用深度学习算法,将语音信号与唇形图像之间的复杂关系进行建模,并在生成唇形时实现高度的同步性

[0042]现有的一些方法已经能做到语音驱动,例如,
Wav2Lip
是一种从音频输入和人脸的单个静止图像生成谈话头部视频的方法

它使用深度神经网络来预测与音频输入相对应的嘴唇运动,然而它仅能合成嘴部,并且分辨率较低
...

【技术保护点】

【技术特征摘要】
1.
一种语音驱动唇形生成方法,其特征在于,包括:将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形
。2.
根据权利要求1所述的语音驱动唇形生成方法,其特征在于,所述将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征,包括:基于对比约束将运动信息从所述初始纹理特征中解耦;所述对比约束用于最大化具有相同识别码的每一人脸图像的纹理特征和每一人脸图像对应的成对图像的纹理特征的相似性;计算所有人脸图像的解耦后的初始纹理特征的平均值,得到所述人脸图像的目标纹理特征
。3.
根据权利要求1所述的语音驱动唇形生成方法,其特征在于,所述方法还包括:将多帧人脸图像输入至运动编码器中进行运动特征提取,得到每一人脸图像的初始运动特征;将纹理信息从所述初始运动特征中解耦,得到所述人脸图像的目标运动特征;判断能否根据所述人脸图像的目标纹理特征和所述人脸图像的目标运动特征还原人脸,并根据判断结果验证所述人脸图像的目标纹理特征的有效性
。4.
根据权利要求3所述的语音驱动唇形生成方法,其特征在于,所述将纹理信息从所述初始运动特征中解耦,得到所述人脸图像的目标运动特征,包括:基于正交约束将纹理信息从所述初始运动特征中解耦;所述正交约束用于正交化每一人脸图像的纹理特征和运动特征;确定所述人脸图像的目标运动特征为任一解耦后的初始运动特征
。5.
根据权利要求1所述的语音驱动唇形生成方法,其特征在于,所述基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形,包括:获取...

【专利技术属性】
技术研发人员:刘智威曾豪王金桥
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1