System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 2D图像数字人说话人脸生成的方法及系统技术方案_技高网

2D图像数字人说话人脸生成的方法及系统技术方案

技术编号:42207833 阅读:12 留言:0更新日期:2024-07-30 18:51
本发明专利技术公开了2D图像数字人说话人脸生成的方法及系统,属于人工智能技术领域,要解决的技术问题为驱动单张图片的情况下实现面部表情和头部姿态的自然生成、并确保面部表情的逼真度。通过I2Tri‑plane模型实现了源图像到三平面表示的轻量级提取,通过A2PriMotion模型实现了驱动音频到3DMM表达式参数的轻量级提取,通过MC2DP模型模型实现了PNCC到残余运动差分平面的高效提取,基于三种模型配合实现了音频驱动单张图像的、基于3D重建的、具有明确三维结构表示的、one‑shot无需训练的2D图片数字人说话人脸生成。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体地说是2d图像数字人说话人脸生成的方法及系统。


技术介绍

1、随着虚拟现实和增强现实技术的迅速发展,对于逼真的虚拟人物形象的需求日益增加。人们希望能够与虚拟人物进行自然交流,并期望虚拟人物能够根据输入的文本或语音生成逼真的面部表情和口型。这种需求推动了2d数字人说话人脸生成技术的发展,该技术旨在利用深度学习和人工智能技术来实现虚拟人物的逼真表现和交互能力,从而提供更加沟通友好和生动的交互体验。

2、目前,已有许多基于深度学习的人脸生成技术,可划分为四大技术域,其一,基于生成对抗网络gan或变分自编码器vae的生成式技术,如wav2lip、dinet、ip-lap等;其二,基于三维形变人脸模型bfm和神经辐射场nerf的神经渲染技术,如ad-nerf、rad-nerf、er-nerf等;其三,基于3d运动场运动系数和深度人脸渲染的风格化技术,如sadtalker等;其四,基于扩散模型用于改善嘴唇同步和图像质量技术,如th-pad、dreamtalk等。

3、这些技术能够生成逼真的人脸图像,但在驱动单张图片的情况下通常无法实现面部表情和头部姿态的自然生成,且面部表情生成的逼真度有限。尤其在使用基于三维形变人脸模型bfm和神经辐射场nerf的神经渲染技术时,因其为拟合特定人的定制化模型,对于新的说话人脸需要昂贵的训练过程。基于2d的方法由于缺少明确的三维结构表示,在头部姿态控制的自然度和一致性方面存在缺陷。即使采用多阶段方法,使用脸部标志或3dmm作为中间表达,仍然会引入额外的误差和信息损失。此外,基于nerf的方法往往需要一个复杂的、基于mlp的网格编码器,来隐式学习区域音频运动映射,限制了重建的质量和收敛性。同时由于nerf本身为了增强复杂场景的表达能力,对三维空间点一视同仁,采样点数目过多,导致散列冲突的高频发生。

4、驱动单张图片的情况下实现面部表情和头部姿态的自然生成、并确保面部表情的逼真度,是需要解决的技术问题。


技术实现思路

1、本专利技术的技术任务是针对以上不足,提供2d图像数字人说话人脸生成的方法及系统,来解决驱动单张图片的情况下实现面部表情和头部姿态的自然生成、并确保面部表情的逼真度的技术问题。

2、本专利技术一种2d图像数字人说话人脸生成的方法,包括如下步骤:

3、模型构建:构建i2tri-plane模型、a2primotion模型以及mc2dp模型,并基于i2tri-plane模型、a2primotion模型以及mc2dp模型组合构建2dimageportrait,i2tri-plane模型为3d人脸表示神经网络模型,用于以2d图像为输入,基于3dface gan的先验知识、以预测变量的方式学习2d图像到3d平面表示的映射,a2primotion模型为条件vae模型,用于学习音频到具有强几何先验的3dmm表达式参数的运动映射,并用于采用流程增强的方式、增强音频到运动的映射,mc2dp模型为运动条件到残余运动差分表现的三维表示的神经网络模型mc2dp;

4、数据采集:采集数据集,数据集包括用于训练、验证和测试i2tri-plane模型、a2primotion模型、mc2dp模型的数据,其中,训练i2tri-plane模型的数据由3d face gan的训练过程在线生成,训练a2primotion模型的数据为voxceleb2,训练mc2dp模型的数据为celebv-hq;

5、模型训练:基于采集的数据集依次训练训练i2tri-plane模型、a2primotion模型和mc2dp模型,得到训练后2dimageportrait模型;

6、数据预处理:采集并分组划分测试数据celebv-hq,进行数据预处理,得到预处理后数据;

7、说话头预测:将预处理后的数据带入训练后2dimageportrait模型、预测输出最终音频驱动后的说话头。

8、作为优选,i2tri-plane模型包括vgg分支、vit分支、upsample模块、连接层、卷积模块以及split模块,vit分支的前端包括多个segformer块,segformer块用于模拟坐标系映射关系;

9、vgg分支和vit分支配合用于对输入的图像进行特征提取;

10、upsample模块用于对vit分支提取的特征进行上采样,并将采样后特征输出到连接层;

11、连接层用于将vgg和vit分支提取的特征进行拼接并输出到卷积模块;

12、卷积模块包括卷积操作和激活函数leakrulu,用于对拼接后的特征进行卷积计算,并将计算结果输出到split模块,split模块输出三维平面表示的映射以及外观特征;

13、所述a2primotion模型包括两个vae,第一个vae中编码器和解码器均为wavnet,用于实现音频到3dmm表达式参数的运动表示映射,第二个vae作为第一个vae的增强先验,是一个基于流的模型,其主干网络包括wavnet;

14、所述mc2dp模型以与身份特征无关的pncc运动表示作为输入,输出注入了运动条件的三平面残余运动差分平面,mc2dp模型中包括segformer模块,通过segformer模块为特征图块分配不同的关注度,pncc表示为z-buffer(vertex3d(i,e),ncc),其中vertex3d是重构的3dmm面在规范空间中的顶点,由80维身份码i和64维表达式码e确定,bid和bexp是3dmm模型的模板形状、标识基础和表达基础;

15、对于2dimageportrait模型,给定pncc和相机姿态的情况下,音频驱动源图像的整体表达为idrv=sr(vr(pcano+pdiff,cam)),其中pcano=i2tri-plane(isrc),pdiff=mc2dp(pnccdrv,pnccsrc),i2tri-plane和mc2dp为模块处理函数。

16、作为优选,模型训练时,对于i2tri-plane模型,设定训练目标,其损失约束的表达式为:

17、

18、式中imv和分别为多视图相机图像和重建的规范三平面,vgg19和vggface分别为vgg19和vggface网络的感知损失,dualadv为3d face gan(eg3d)的双重分区,imv_raw,分别为volume renderer的低分辨率图像和超解图像;

19、对于a2primotion模型,设定训练目标,其损失约束的表达式为:

20、lossa2primotion=losskl+lossexprecon+lossldmrecon+lossexplap,

21、losskl为条件vae的kl散度,lossexprecon为3dmm表达式参数的l2损失,lossldmrecon为重建的3dmm顶点的468个关键点的l2重构误差,lossexplap为预测表达式代码序列本文档来自技高网...

【技术保护点】

1.一种2D图像数字人说话人脸生成的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的2D图像数字人说话人脸生成的方法,其特征在于,I2Tri-plane模型包括VGG分支、ViT分支、Upsample模块、连接层、卷积模块以及Split模块,ViT分支的前端包括多个SegFormer块,SegFormer块用于模拟坐标系映射关系;

3.根据权利要求1所述的2D图像数字人说话人脸生成的方法,其特征在于,模型训练时,对于I2Tri-plane模型,设定训练目标,其损失约束的表达式为:

4.根据权利要求1所述的2D图像数字人说话人脸生成的方法,其特征在于,分组划分测试数据CelebV-H时,划分三组评估数据,分别为同身份说话人脸生成、跨身份说话人脸生成和音频驱动场景,包括如下步骤:

5.一种2D图像数字人说话人脸生成的系统,其特征在于,用于通过如权利要求1-4任一项所述的一种2D图像数字人说话人脸生成的方法生成说话人脸,包括模型构建模块、数据采集模块、模型训练模块、数据预处理模块以及说话头预测模块;

6.根据权利要求5所述的2D图像数字人说话人脸生成的系统,其特征在于,I2Tri-plane模型包括VGG分支、ViT分支、Upsample模块、连接层、卷积模块以及Split模块,ViT分支的前端包括多个SegFormer块,SegFormer块用于模拟坐标系映射关系;

7.根据权利要求5所述的2D图像数字人说话人脸生成的系统,其特征在于,模型训练时,对于I2Tri-plane模型,设定训练目标,其损失约束的表达式为:

8.根据权利要求5所述的2D图像数字人说话人脸生成的系统,其特征在于,分组划分测试数据CelebV-H时,划分三组评估数据,分别为同身份说话人脸生成、跨身份说话人脸生成和音频驱动场景,对应的,所述数据预处理模块用于执行如下:

...

【技术特征摘要】

1.一种2d图像数字人说话人脸生成的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的2d图像数字人说话人脸生成的方法,其特征在于,i2tri-plane模型包括vgg分支、vit分支、upsample模块、连接层、卷积模块以及split模块,vit分支的前端包括多个segformer块,segformer块用于模拟坐标系映射关系;

3.根据权利要求1所述的2d图像数字人说话人脸生成的方法,其特征在于,模型训练时,对于i2tri-plane模型,设定训练目标,其损失约束的表达式为:

4.根据权利要求1所述的2d图像数字人说话人脸生成的方法,其特征在于,分组划分测试数据celebv-h时,划分三组评估数据,分别为同身份说话人脸生成、跨身份说话人脸生成和音频驱动场景,包括如下步骤:

5.一种2d图像数字人说话人脸生成的系统,其特征在于,用于通过如权利要求1-4任一...

【专利技术属性】
技术研发人员:王宗增王培元尹青山房兰涛李洪生
申请(专利权)人:山东浪潮超高清智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1