当前位置: 首页 > 专利查询>天津大学专利>正文

基于多视图知识集成和频率一致性的人脸跨域翻译方法技术

技术编号:39008042 阅读:7 留言:0更新日期:2023-10-07 10:39
本发明专利技术公开一种基于多视图知识集成和频率一致性的人脸跨域翻译方法,将大型单域数据中的人脸知识共同引入到有限的跨域数据中。具体来说,一边将输入照片通过人脸解析网络提取特征后,级联至基于多视图知识集成模型的翻译网络中。另一边输入照片通过人脸识别网络提取人脸身份特征,级联后的特征与人脸身份特征计算KL损失从而起到身份一致监督,以增强生成的图像和真实图像之间的高低频率一致性。提出的频率一致性损失是一种通用的重建损失,可以灵活地应用于其他生成模型,提高模型对噪声的鲁棒性。棒性。棒性。

【技术实现步骤摘要】
基于多视图知识集成和频率一致性的人脸跨域翻译方法


[0001]本专利技术属于计算机视觉
,尤其涉及基于多视图知识集成和频率一致性的人脸跨域翻译方法。

技术介绍

[0002]人脸跨域翻译的目的是在不同领域之间翻译人脸图像,包括人脸照片与素描,照片与线条画,以及近红外(NIR)与可见光(VIS)。它可以应用于各种场景,从执法到数字娱乐,近期已经引起了广泛关注。艺术肖像线条画(APDrawings)由稀疏的线条组成,用于构建人脸粗糙的结构信息。此外,人脸照片

素描/照片

线条画的翻译也被证明可以提高动画制作的效率,或者为没有经过专业绘画训练的人在社交平台上提供个性化的头像。此外,NIR

VIS人脸图像翻译被广泛用于提高门禁系统的安全性。近红外相机捕捉反射的近红外光,不受可见光条件的影响,而可见光相机深深地依赖于光线条件,在弱光或暗光条件下,很容易产生低质量的图像,纹理模糊。然而,由于存在明显的风格域差异,很难将近红外图像与公民人脸数据库的图像直接匹配。人脸NIR

VIS翻译可以弥补这一不足,提高人脸识别的准确性。
[0003]跨域人脸翻译的方法可以分为两类:基于样本的方法和基于GAN的方法。基于样本的方法通过将人脸图像裁剪成图像块并将图像级的翻译任务简化为图像块级,从而增加了训练数据。输出图像是通过用一组重建系数对图像块进行加权来重建的。然而,这些方法很耗时,并会产生模糊或过度平滑的结构,RSLCR通过随机采样和局部约束加速了人脸照片

素描合成过程。DPGM结合了PGM和深度判别图像块表示,这联合地建模了深度图像块表示和素描块重建,但这类方法仍然需要更多的时间搜索最近邻图像块和优化重建系数。
[0004]卷积神经网络的重大进展启发了最近基于GAN的方法,这些方法主要是直接将输入的人脸图像从源域转化为目标域,并且需要足够的样本来产生真实的纹理。Pix2pix是一种学习图像到图像映射的条件GAN模型,在图像翻译任务中实现了可观的性能,KT使用了预训练的教师网络来指导生成网络。然而,受限于复杂的成像条件和成本,成对的跨域人脸图像很难获得,导致跨域数据规模有限。鉴于这种限制,即使合成的外观通常是真实的,这些方法通常会产生不合理的纹理或严重的变形,特别是在眼睛和头发区域。

技术实现思路

[0005]本专利技术的目的是为了克服现有技术中的不足,提供一种基于多视图知识集成和频率一致性的人脸跨域翻译方法,该方法通过引入预训练的结构模块和身份模块,讲不同视图的信息结合起来提升生成图像的结构稳定性并保持一致的身份;提出了包含多方向Prewitt损失和高斯模糊损失的频率一致性损失,能够同时在高频域和低频域约束生成图像具有更清晰的结构、真实的纹理、合理的颜色分布。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]一种基于多视图知识集成和频率一致性的人脸跨域翻译方法,多视图知识集成模
型包括结构模块、身份模块和翻译网络T;翻译网络T包括在风格域X和风格域Y之间的两个映射,即Ty:X

Y和Tx:Y

X;翻译网络T采用了编码器

解码器架构,以9个残差块为骨干网络;在训练阶段,通过表示将图像从源域映射到目标域基本的生成约束:
[0008][0009]其中x和y分别表示风格域X和风格域Y中的一个样本,由翻译网络T
y
输入x生成,而由翻译网络T
x
输入y生成;此外,通过循环一致性损失激励x
rec
=x,y
rec
=y,其中x
rec
是由翻译网络T
x
输入生成,y
rec
是由翻译网络T
y
输入生成:
[0010][0011]在多视图知识集成模型中,两个判别器D
x
和D
y
分别服务于翻译网络T
y
和翻译网络T
x
,对抗损失表示为:
[0012][0013]其中表示期望,T
y
企图去生成更真实的图像T
y
(x),D
y
关注于区分真实图像y和生成的图像T
y
(x);相应地,T
x
企图去生成更真实的图像T
x
(y),D
x
关注于区分真实图像x和生成的图像T
x
(y)相反翻译方向的对抗损失表示为:
[0014][0015]完整的对抗损失为:
[0016][0017]最终,将翻译网络的目标表示如下:
[0018][0019]所述结构模块利用预训练的人脸解析网络去获得人脸成分掩膜作为先验知识,并训练从人脸成分掩膜到目标域图像的自编码器,通过级联结构知识f
S
和翻译网络的特征f
T
得到级联起来的特征f
S,T
,所述级联结构知识f
S
包括和翻译网络的特征f
T
包括和f
S,T
包括和结构模块能够向翻译网络提供结构知识,以降低不同人脸部件之间的混淆噪声并抑制每个人脸部件内的离群像素值;
[0020]所述身份模块由预训练的人脸识别网络实现,通过设定监督KL散度度量级联起来的特征的分布与身份特征的分布的偏差,多视图知识集成模型的损失函数表示为:
[0021][0022]其中,f
I
表示身份视图的知识,P和Q分别是和在第i个知识聚合处的期望分布;
[0023]频率一致性损失通过计算翻译网络T的多方向mPrewitt损失和高斯模糊损失,分别约束高频和低频一致性。
[0024]进一步的,引入频率一致性辅助生成约束并通过频率一致性损失来约束频率域中的生成图像;频率一致性损失由多方向的Prewitt损失和高斯模糊损失组成,具体如下:
[0025](1)多方向Prewitt损失;
[0026]应用多方向Prewitt算子作为预定义的卷积核并获得输入图像水平、竖直、主对角线方向和次对角线方向四个方向相应的梯度图,Prewitt算子通过每个像素和它周围的8个像素计算梯度:
[0027][0028]其中W
i
表示W的第i个核,表示的第i个梯度图,且表示生成图像;梯度图的正值表示对应像素周围的梯度与mPrewitt运算符的方向相同,而负值表示方向相反;零表示没有梯度变化;通过约束生成图像及和真实图像及之间的L1范数:
[0029][0030](2)高斯模糊损失;
[0031]高斯模糊核能够模糊图像的内容,暴露图像的风格,一个k
×
k大小的高斯模糊核通过下式生成:
[0032][0033][0034]其中m,n表示以该核的中心为原点的(m,n)位置;σ表示高斯函数的标准偏差,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多视图知识集成和频率一致性的人脸跨域翻译方法,其特征在于,多视图知识集成模型包括结构模块、身份模块和翻译网络T;翻译网络T包括在风格域X和风格域Y之间的两个映射,即T
y
:X

Y和T
x
:Y

X;翻译网络T采用了编码器

解码器架构,以9个残差块为骨干网络;在训练阶段,通过表示将图像从源域映射到目标域基本的生成约束:其中x和y分别表示风格域X和风格域Y中的一个样本,由翻译网络T
y
输入x生成,而由翻译网络T
x
输入y生成;此外,通过循环一致性损失激励x
rec
=x,y
rec
=y,其中x
rec
是由翻译网络T
x
输入生成,y
rec
是由翻译网络T
y
输入生成:在多视图知识集成模型中,两个判别器D
x
和D
y
分别服务于翻译网络T
y
和翻译网络T
x
,对抗损失表示为:其中表示期望,T
y
企图去生成更真实的图像T
y
(x),D
y
关注于区分真实图像y和生成的图像T
y
(x);相应地,T
x
企图去生成更真实的图像T
x
(y),D
x
关注于区分真实图像x和生成的图像T
x
(y)相反翻译方向的对抗损失表示为:完整的对抗损失为:最终,将翻译网络的目标表示如下:所述结构模块利用预训练的人脸解析网络去获得人脸成分掩膜作为先验知识,并训练从人脸成分掩膜到目标域图像的自编码器,通过级联结构知识f
S
和翻译网络的特征f
T
得到级联起来的特征f
S,T
,所述级联结构知识f
S
包括和翻译网络的特征f
T
包括和f
S,T
包括和结构模块能够向翻译网络提供结构知识,以降低不同人脸部件之间的混淆噪声并抑制每个人脸部件内的离群像素值;所述身份模块由预训练的人脸识别网络实现...

【专利技术属性】
技术研发人员:曹兵王清和朱鹏飞胡清华赵佳鸣毕志伟亓国梁孙一铭高毓聪曹亚如
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1