基于语言引导三维模型的人脸图像属性控制方法及系统技术方案

技术编号：41086456 阅读：4 留言：0更新日期：2024-04-25 13:48

本发明专利技术公开了一种基于语言引导三维模型的人脸图像属性控制方法及系统，该方法包括下述步骤：人脸图像经编码器得到原始潜在代码，原始潜在代码经生成器得到反演图像，反演图像经三维重建器得到原始的三维表示，原始的三维表示经渲染器得到三维渲染图像，三维渲染图像经图像编码器得到图像嵌入，语言属性描述经语言编码器得到语言嵌入，图像嵌入映射到属性嵌入空间中，受到语言嵌入指引的图像嵌入映射回图像空间，经映射网络得到目标三维表示，目标三维表示与原始的三维表示的残差与原始潜在代码一并输入到跨模态映射网络中，进而输出潜代码残差，潜代码残差与原始潜在代码相加后经生成器输出二维人脸图像。本发明专利技术实现了更加细粒度的面部属性控制。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体涉及一种基于语言引导三维模型的人脸图像属性控制方法及系统。

技术介绍

1、随着信息技术和社交软件的飞速发展，人脸面部属性(如表情、姿势和光照)的编辑操作在电影制作和游戏设计等场景中有了更加广泛的应用，因此人脸面部属性编辑已经成为了一个热门的前沿的研究话题。然而现有的人脸面部属性编辑方法通常需要一个预训练的属性分类器或需要大量的标注的数据进行监督训练，这十分耗费人力并且只能操作预定义的属性；最近几年来，随着对比语言图像预训练模型的出现，一些研究方法利用语言模型的语义一致性约束来实现语言驱动的人脸面部属性编辑，这种方法更加灵活，但是这种方法不足以实现更加细粒度的人脸属性控制，特别是在三维人脸的属性上；另一方面，也有一些结合三维先验信息进行人脸面部属性控制的工作，这些方法通常构建一个全局的三维人脸表示作为生成二维人脸图像的输入，从而通过编辑三维表示来实现所需的控制。然而，由于直接将三维表示映射为生成器的潜代码十分困难，这种方法生成的人脸图像质量低，控制精准程度差并且也没有语言驱动的人脸属性编辑方法的便捷性，而且目前也还没有针对语言引导三维模型的人脸图像属性控制技术。

技术实现思路

1、为了克服现有技术存在的缺陷与不足，本专利技术提供一种基于语言引导三维模型的人脸图像属性控制方法及系统，本专利技术可以根据一段对人脸面部属性的语言描述和一张输入的人脸图像结合三维先验信息和语言引导信息地去精确地控制人脸面部的属性。

2、为了达到上述目的，本专利技术采用以下技术方案：

3、本专利技术提供一种基于语言引导三维模型的人脸图像属性控制方法，包括下述步骤：

4、获取人脸图像，所述人脸图像经过编码器编码得到原始潜在代码，所述原始潜在代码经生成器解码得到反演图像，所述反演图像经过三维重建器的三维重建得到原始的三维表示；

5、原始的三维表示经过渲染器的渲染得到三维渲染图像，所述三维渲染图像经过三维编辑器的图像编码器，得到三维人脸图像的图像嵌入；

6、获取语言属性描述，所述语言属性描述经过三维编辑器的语言编码器，得到语言属性描述的语言嵌入；

7、所述图像嵌入映射到属性嵌入空间中，语言嵌入在属性嵌入空间中指引图像嵌入向目标属性方向改变，随后受到语言嵌入指引的图像嵌入映射回原始的图像空间，得到目标嵌入，所述目标嵌入经过三维编辑器的映射网络得到目标三维表示；

8、目标三维表示与原始的三维表示作差得到三维表示残差，与原始潜在代码作维度拼接并输入到跨模态映射网络中，跨模态映射网络输出潜代码残差，所述潜代码残差与原始潜在代码相加得到最终的潜代码，最终的潜代码经过生成器解码输出二维人脸图像。

9、作为优选的技术方案，所述目标嵌入表示为：

10、etrgt＝m(ep,et)+r

11、其中，

12、

13、

14、

15、et＝etxt(t)

16、其中，etrgt表示目标嵌入，eimg表示图像编码器，etxt表示语言编码器，t表示语言属性描述，xr表示三维渲染图像，表示图像嵌入，et表示语言嵌入，p表示映射到属性嵌入空间的过程，r表示残差向量，m表示指引操作。

17、作为优选的技术方案，三维编辑器构建语义一致的约束，表示为：

18、lsem＝1-cos(eimg(rrender(γ(etrgt)))，etrgt)

19、其中，cos表示计算余弦相似度，eimg表示图像编码器，rrender表示渲染器的渲染过程，γ表示三维编辑器，etrgt表示目标嵌入。

20、作为优选的技术方案，最终的潜代码经过生成器解码输出二维人脸图像，具体表示为：

21、xtrgt＝g(w0+φ(w0，δθ))

22、δθ＝θtrgt-θ0

23、其中，xtrgt表示输出的二维人脸图像，g表示生成器，w0表示原始潜在代码，φ表示跨模态映射网络，δθ表示三维表示残差，θtrgt表示目标三维表示，θ0表示原始的三维表示。

24、作为优选的技术方案，跨模态映射网络构建三维一致性约束，表示为：

25、l3dmm＝||θtrgt-rrec(xtrgt)||2

26、其中，l3dmm表示三维一致性约束，θtrgt表示目标三维表示，rrec表示三维重建过程，rrec(xtrgt)表示输出的二维人脸图像三维重建后的三维表示。

27、作为优选的技术方案，跨模态映射网络构建二维人脸特征点一致性约束，表示为：

28、llm＝||rrender(θtrgt)-f(xtrgt)||2

29、其中，llm表示二维人脸特征点一致性约束，rrender表示渲染器的渲染过程，θtrgt表示目标三维表示，xtrgt表示输出的二维人脸图像，f表示预训练的人脸特征点检测模型。

30、作为优选的技术方案，所述原始潜在代码划分为不同的粒度。

31、作为优选的技术方案，目标三维表示描述为：

32、θtrgt＝(α，δ，β，γ，p)

33、其中，α表示脸型属性，δ表示纹理属性，β表示表情属性，γ表示光照系数，用于表示光照的三维表示，p表示相机模型的系数，用于控制人脸面部的姿态。

34、作为优选的技术方案，目标三维表示通过3dmm数据库进行可微运算得到三维渲染图像。

35、本专利技术还提供一种基于语言引导三维模型的人脸图像属性控制系统，包括：人脸图像获取模块、编码器、生成器、三维重建器、渲染器、三维编辑器、语言属性描述获取模块、目标嵌入构建模块、三维表示残差构建模块、跨模态映射网络、维度拼接模块、最终潜代码构建模块；

36、所述三维编辑器包括图像编码器、语言编码器、映射网络；

37、所述人脸图像获取模块用于获取人脸图像；

38、所述编码器用于将人脸图像编码得到原始潜在代码；

39、所述生成器用于将原始潜在代码解码得到反演图像；

40、所述三维重建器用于将反演图像三维重建得到原始的三维表示；

41、所述渲染器用于将原始的三维表示渲染得到三维渲染图像；

42、所述三维编辑器的图像编码器用于将三维渲染图像编码得到三维人脸图像的图像嵌入；

43、所述语言属性描述获取模块用于获取语言属性描述；

44、所述三维编辑器的语言编码器用于将语言属性描述编码得到语言属性描述的语言嵌入；

45、所述目标嵌入构建模块用于将所述图像嵌入映射到属性嵌入空间中，语言嵌入在属性嵌入空间中指引图像嵌入向目标属性方向改变，受到语言嵌入指引的图像嵌入映射回原始的图像空间，得到目标嵌入；

46、所述三维编辑器的映射网络用于将目标嵌入生成目标三维表示；

47、所述三维表示残差构建模块用于将目标三维表示与原始的三维表示作差得到三本文档来自技高网...

【技术保护点】

1.一种基于语言引导三维模型的人脸图像属性控制方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，所述目标嵌入表示为：

3.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，三维编辑器构建语义一致的约束，表示为：

4.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，最终的潜代码经过生成器解码输出二维人脸图像，具体表示为：

5.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，跨模态映射网络构建三维一致性约束，表示为：

6.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，跨模态映射网络构建二维人脸特征点一致性约束，表示为：

7.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，所述原始潜在代码划分为不同的粒度。

8.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，目标三维表示描述为：

9.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，目标三维表示通过3DMM数据库进行可微运算得到三维渲染图像。

10.一种基于语言引导三维模型的人脸图像属性控制系统，其特征在于，包括：人脸图像获取模块、编码器、生成器、三维重建器、渲染器、三维编辑器、语言属性描述获取模块、目标嵌入构建模块、三维表示残差构建模块、跨模态映射网络、维度拼接模块、最终潜代码构建模块；

...

【技术特征摘要】

1.一种基于语言引导三维模型的人脸图像属性控制方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，所述目标嵌入表示为：

3.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，三维编辑器构建语义一致的约束，表示为：

4.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，最终的潜代码经过生成器解码输出二维人脸图像，具体表示为：

5.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，跨模态映射网络构建三维一致性约束，表示为：

6.根据权利要求1所述的基于语言引导三维模型的人脸图像属性控制方法，其特征在于，跨模...

【专利技术属性】
技术研发人员：许勇，徐非凡，吴斯，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人