基于语义的音频驱动数字人生成方法及系统技术方案

技术编号:27834057 阅读:73 留言:0更新日期:2021-03-30 11:51
本发明专利技术公开一种基于语义的音频驱动数字人生成方法及系统,其中生成方法包括以下步骤:获取目标音频和第一人脸图像序列;对所述目标音频进行特征提取,获得相应的音频特征;将所述音频特征输入至预训练的语义转换网络,由所述语义转换网络将所述音频特征进行语义转换,获得相应的语义运动序列,所述语义运动序列包括若干个嘴部语义图;基于第一人脸图像序列获取所述嘴部语义图相同数量的待渲染人脸图像,待渲染人脸图像的嘴部区域被遮挡,基于所述嘴部语义图和所述待渲染人脸图像进行人脸合成,生成合成人脸序列。本发明专利技术通过语义转换网络实现音频与面部语义的转换,且利用面部语义达到对口型的精确表达。部语义达到对口型的精确表达。部语义达到对口型的精确表达。

【技术实现步骤摘要】
基于语义的音频驱动数字人生成方法及系统


[0001]本专利技术涉及机器学习领域,尤其涉及一种基于语义的音频驱动数字人生成方法及系统。

技术介绍

[0002]音频驱动所生成的数字人同步说话动作的视频广泛应用于多种视频分享的场景,例如新闻播报、培训分享,广告宣传等场景;
[0003]参照公布号为CN1032188842所公开的一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过提取视频帧中各声韵母所对应的基于MPEG

4定义的口型特征参数和面部姿势特征参数,然后计算各特征点坐标与标准帧坐标的差值Vel,再计算按MPEG

4定义的人脸上的对应尺度参考量P,通过差值Vel和尺度参考量P计算得到人脸运动参数;
[0004]该专利申请采用所构建的三维人脸作为数字人,建模所生成的人脸与真实人脸存在较大差别,不适用于新闻播报、培训分享等要求数字人脸与真实人脸一致的场合;
[0005]由于人脸运动和说话是一个非常精细复杂的过程,用特征点坐标只能初步表征人脸运动,并且人脸特征点定位存在误差,且人脸运动和说话存在个体差异,该方法通过计算各特征点坐标与标准帧坐标的差值Vel和人脸上的对应尺度参考量P得到运动参数,未考虑个体说话的差异性;该方法关联各声韵母与口型面部姿势特征参数,而声音的音调,语种,快慢都与面部运动有关,该方法局限性大。

技术实现思路

[0006]本专利技术针对现有技术中的缺点,提供了对面部表达更准确精细的一种基于语义的音频驱动数字人生成方法及系统,适用于要求数字人与目标人物相近似的场合。
[0007]为了解决上述技术问题,本专利技术通过下述技术方案得以解决:
[0008]一种基于语义的音频驱动数字人生成方法,包括以下步骤:
[0009]获取目标音频和目标人脸图像序列,对所述目标人脸图像序列中各目标人脸图像的嘴部区域做掩膜处理后,获得相应的第一人脸图像序列;
[0010]对所述目标音频进行特征提取,获得相应的音频特征;
[0011]将所述音频特征输入至预训练的语义转换网络,由所述语义转换网络将所述音频特征进行语义转换,获得相应的语义运动序列,所述语义运动序列包括若干个嘴部语义图;
[0012]基于第一人脸图像序列构建第二人脸图像序列,所述第二人脸图像序列包含与所述嘴部语义图相同数量的待渲染人脸图像,基于所述嘴部语义图和所述待渲染人脸图像进行人脸合成,生成合成人脸序列,所述合成人脸序列中包含与各嘴部语义图一一对应的合成人脸。
[0013]作为一种可实施方式,所述语义转换网络包括循环神经网络和上采样卷积神经网络;
[0014]所述循环神经网络,用于将所述音频特征转换为表情向量:
[0015]所述上采样卷积神经网络,用于基于所述表情向量生成语义运动序列。
[0016]作为一种可实施方式:
[0017]将嘴部语义图分别与其相对应的待渲染人脸图像进行连接,获得相应的待合成数据;
[0018]将所述待合成数据输入至预设的神经渲染网络,由所述神经渲染网络基于所述嘴部语义图对所述待渲染人脸图像合成渲染,生成相对应的合成人脸。
[0019]作为一种可实施方式,预训练语义转换网络的步骤为:
[0020]获取目标人脸对应的说话视频,提取所述说话视频的音频特征,获得样本音频特征,提取所述说话视频的视频帧,对各视频帧中的人脸进行检测,并分割该人脸的嘴部语义图,将所得嘴部语义图作为样本语义图;
[0021]基于所述样本音频特征和所述样本语义图训练所述语义转换网络。
[0022]作为一种可实施方式,预训练语义转换网络的步骤为:
[0023]对所述视频帧中人脸的嘴部区域做掩膜处理后,获得相对应的待渲染样本图像;
[0024]将所述待渲染样本图像和对应的样本语义图进行连接,获得相应的待合成样本数据;
[0025]基于所述待合成样本数据和所述样本人脸图像训练所述神经渲染网络。
[0026]作为一种可实施方式:
[0027]音频特征为梅尔频率倒谱系数。
[0028]本专利技术还提出一种基于语义的音频驱动数字人生成系统,包括:
[0029]数据获取模块,用于获取目标音频和目标人脸图像序列,对所述目标人脸图像序列中各目标人脸图像的嘴部区域做掩膜处理后,获得相应的第一人脸图像序列;
[0030]特征提取模块,用于对所述目标音频进行特征提取,获得相应的音频特征;
[0031]语义转换模块,用于将所述音频特征输入至预训练的语义转换网络,由所述语义转换网络将所述音频特征进行语义转换,获得相应的语义运动序列,所述语义运动序列包括若干个嘴部语义图;
[0032]合成渲染模块,用于基于第一人脸图像序列构建第二人脸图像序列,所述第二人脸图像序列包含与所述嘴部语义图相同数量的待渲染人脸图像,基于所述嘴部语义图和所述待渲染人脸图像进行人脸合成,生成合成人脸序列,所述合成人脸序列中包含与各嘴部语义图一一对应的合成人脸。
[0033]作为一种可实施方式:
[0034]所述语义转换网络包括循环神经网络和上采样卷积神经网络;
[0035]所述循环神经网络,用于将所述音频特征转换为表情向量:
[0036]所述上采样卷积神经网络,用于基于所述表情向量生成语义运动序列。
[0037]作为一种可实施方式,合成渲染模块包括:
[0038]连接单元,用于将嘴部语义图分别与其相对应的待渲染人脸图像进行连接,获得相应的待合成数据;
[0039]渲染单元,用于将所述待合成数据输入至预设的神经渲染网络,由所述神经渲染网络基于所述嘴部语义图对所述待渲染人脸图像合成渲染,生成相对应的合成人脸。
[0040]本专利技术还提出一种计算机可读存储介质,其存储有计算机程序,该程序被处理器
执行时实现权利要求上述任意一项所述方法的步骤。
[0041]本专利技术由于采用了以上技术方案,具有显著的技术效果:
[0042]本专利技术通过预训练的语义转换网络,采用语义达到对口型的精细表达,语义本质上是数字人面部口型的二值图,相较于面部关键点或者参数,对面部的表达更加的准确精细。
[0043]本专利技术通过神经渲染网络进行合成渲染,能够更精准鲁邦的实现音频驱动的数字人生成,令合成人脸与真实人脸更近似,提高观看感受。
附图说明
[0044]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]图1是本专利技术一种基于语义的音频驱动数字人生成方法的流程示意图;
[0046]图2是实施例1中神经渲染网络的网络架构示意图;
[0047]图3是案例中神经渲染网络基于嘴部语义图和待渲染人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义的音频驱动数字人生成方法,其特征在于包括以下步骤:获取目标音频和目标人脸图像序列,对所述目标人脸图像序列中各目标人脸图像的嘴部区域做掩膜处理后,获得相应的第一人脸图像序列;对所述目标音频进行特征提取,获得相应的音频特征;将所述音频特征输入至预训练的语义转换网络,由所述语义转换网络将所述音频特征进行语义转换,获得相应的语义运动序列,所述语义运动序列包括若干个嘴部语义图;基于第一人脸图像序列构建第二人脸图像序列,所述第二人脸图像序列包含与所述嘴部语义图相同数量的待渲染人脸图像,基于所述嘴部语义图和所述待渲染人脸图像进行人脸合成,生成合成人脸序列,所述合成人脸序列中包含与各嘴部语义图一一对应的合成人脸。2.根据权利要求1所述的基于语义的音频驱动数字人生成方法,其特征在于,所述语义转换网络包括循环神经网络和上采样卷积神经网络;所述循环神经网络,用于将所述音频特征转换为表情向量:所述上采样卷积神经网络,用于基于所述表情向量生成语义运动序列。3.根据权利要求1或2所述的基于语义的音频驱动数字人生成方法,其特征在于:将嘴部语义图与其相对应的待渲染人脸图像进行连接,获得相应的待合成数据;将所述待合成数据输入至预设的神经渲染网络,由所述神经渲染网络基于所述嘴部语义图对所述待渲染人脸图像进行合成渲染,生成相对应的合成人脸。4.根据权利要求3所述的基于语义的音频驱动数字人生成方法,其特征在于,预训练语义转换网络的步骤为:获取目标人脸对应的说话视频,提取所述说话视频的音频特征,获得样本音频特征,提取所述说话视频的视频帧,对各视频帧中的人脸进行检测,并分割该人脸的嘴部语义图,将所得嘴部语义图作为样本语义图;基于所述样本音频特征和所述样本语义图训练所述语义转换网络。5.根据权利要求4所述的基于语义的音频驱动数字人生成方法,其特征在于,预训练语义转换网络的步骤为:对所述视频帧中人脸的嘴部区域做掩膜处理后,获得相对应的待渲染样本...

【专利技术属性】
技术研发人员:王涛徐常亮
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1