一种文本和形变驱动的人脸编辑方法技术

技术编号:37604647 阅读:20 留言:0更新日期:2023-05-18 11:56
本发明专利技术涉及一种文本和形变驱动的人脸编辑方法,技术核心是将人脸几何变形过程视为将形变场施加在人脸图像上,并用多层感知机拟合形变场。该方法包含:一、用多层感知机拟合人脸形变场;二、基于人脸形变场生成几何变形人脸;三、基于卷积神经网络改变人脸图像颜色;四、计算文本描述与人脸编辑结果间的相似度损失和其他损失;五、迭代优化多层感知机和卷积神经网络权重。本发明专利技术将人脸编辑过程中的几何形变视为将连续光滑的人脸形变场作用在输入图像上,具有形变过程物理意义明确的优点。本发明专利技术无需构造数据集,对每张输入图像单独迭代优化,具有容易使用、普适性强的优点,具有广阔应用前景和价值。用前景和价值。用前景和价值。

【技术实现步骤摘要】
一种文本和形变驱动的人脸编辑方法


[0001]本专利技术涉及一种优化框架下文本和形变驱动的人脸编辑方法,属于计算机视觉领域。

技术介绍

[0002]人脸编辑(Face manipulation)是一种计算机视觉方法,旨在对输入人脸图像中的表情、年龄、身份、风格等属性进行编辑并生成高分辨率的逼真结果。目前人脸编辑成为各种美颜相机、图像修复工具和短视频平台的核心功能。
[0003]人脸编辑技术面临两方面问题。一是人脸编辑的自由度和便捷性问题,用户期望简便地实现对人脸各种属性进行自由编辑;二是编辑过程是否具有物理可解释性,目前基于深度学习的人脸编辑方法主要利用生成对抗神经网络(Generative Adversarial Network,GAN),其编辑过程缺乏物理可解释性。
[0004]目前,实现人脸编辑的方式主要有三种,基于交互式液化笔刷的编辑方法、基于固定模板的编辑方法、基于生成对抗神经网络的编辑方法。
[0005]基于交互式液化笔刷的编辑方法,主要应用于各类专业图像处理软件。用户使用笔刷在人脸图像上拖动进行像素移动,进而实现人脸编辑。此种方式给用户提供了较大的操作自由度,用户可以灵活地控制最终实现效果。但此种方法依靠用户手动操作完成人脸编辑,操作难度大,容易出现人脸过度扭曲变形,使用体验不佳。
[0006]基于固定模板的编辑方法,主要应用于各类短视频平台和智能图像处理软件。软件中提供固定的人脸变形模板,如“瘦脸”、“大眼”等固定样式。用户挑选这些模板并应用到人脸上,实现面部变形。此种方法对用户的操作技巧和经验要求较低,但受限于固定变形模板,用户难以实现多样的人脸编辑效果,限制了用户的操作自由度。
[0007]基于深度学习的编辑方法,近年来受到学术界广泛关注。其通过对输入图片的隐空间描述向量(latent vector)进行编辑,经过生成对抗神经网络的生成器,生成带有预期特征的人脸编辑结果。这种方法的生成效果较好,但其编辑人脸属性的内在机理缺乏物理可解释性。
[0008]在人脸编辑技术中,用户操作较为简便又具备较大自由度的方式是基于文本提示的人脸编辑。用户输入任意提示文本,例如“big eyes(大眼睛)”,“angry face(生气的脸)”,算法对用户输入的人脸图像进行编辑,得到尽可能接近提示文本语义的效果。
[0009]本专利技术应用了OpenAI提出的开源预训练模型CLIP(Contrastive Language

Image Pre

training,CLIP),该模型能计算文本和图片之间的相关程度。其核心部件主要包括文本编码器(Text Encoder,TE)和图像编码器(Image Encoder,IE),分别将输入的英文文本与图像编码为潜空间(latent space)中的特征向量,再计算文本特征向量与图像特征向量的内积,即代表两者的相似度。本专利技术应用该模型衡量文本和人脸图像的相关程度。
[0010]本专利技术提出了一种迭代优化框架下文本和形变驱动的人脸编辑方法,同时解决了人脸编辑过程中自由度与便捷性、物理可解释性两个问题。用户仅需输入待编辑的人脸图
片和对待编辑属性的文字描述,本专利技术即可自动基于用户的文本描述对人脸图片进行编辑。本专利技术将人脸编辑过程分为人脸几何变形和颜色改变两个阶段。人脸几何变形是将形变场应用在人脸图像上,形变场表示图像中每个像素点在图像宽度、高度两个维度的偏移。人脸颜色改变是在HSV颜色空间下将图像色调、饱和度进行调整。因此人脸编辑过程具有明确的物理意义。本专利技术利用CLIP模型,计算文本描述和图像的相似度,利用梯度下降算法优化相似度损失和其它损失,得到与用户描述最接近的人脸编辑效果。本专利技术提高了人脸编辑过程中用户的编辑自由度,也简化了用户的操作难度。

技术实现思路

[0011]1、目的:本专利技术的目的在于提供一种迭代优化框架下文本和形变驱动的人脸编辑方法。该方法设计了一种新的基于用户文字描述的人脸编辑方法。本专利技术利用了CLIP多模态预训练模型,计算了用户文本描述与人脸图像内容之间的相似度,使得用户可以直接通过输入文本描述来自由控制人脸属性。本专利技术设计了基于形变场的人脸编辑新方式,即将人脸几何变形过程视为将形变场施加在人脸图像上。在大自由度编辑人脸的同时,整个过程具有明确的物理意义。本专利技术丰富和完善了基于深度学习的人脸编辑方式,用户在仅输入文本描述的情况下就可以获得符合描述的逼真人脸变形结果。
[0012]2、技术方案:本专利技术是通过以下技术方案实现的:
[0013]本专利技术是一种迭代优化框架下文本和形变驱动的人脸编辑方法,分为五个步骤:用多层感知机拟合人脸形变场、基于人脸形变场生成几何变形人脸、基于卷积神经网络改变人脸图像颜色、计算文本描述与人脸编辑结果间的相似度损失和其他损失、迭代优化多层感知机和卷积神经网络权重。由于本方法基于迭代优化方式对每张人脸图像单独操作,无需构造数据集,使用的多层感知机和卷积神经网络无需预先训练,使用简便。
[0014]步骤一:用多层感知机拟合人脸形变场
[0015]本专利技术使用一种全连接神经网络即多层感知机(Multilayer Perceptron,MLP)拟合人脸形变场(以下简称“形变场”)。形变场用于表示使编辑后的人脸与用户文本描述匹配时,输入的人脸图像像素(以下简称“像素”)在宽度、高度两个维度上的偏移量。
[0016]本专利技术设计一个四层MLP拟合形变场,该MLP是像素偏移量关于像素坐标的连续光滑函数,有利于生成平滑自然的人脸形变场。本专利技术将输入MLP的像素坐标(x,y)归一化到[

1,1],采用最大最小归一化方式,归一化后的坐标记作(x

,y

)。
[0017]考虑到MLP在拟合高频信息时的不足,本专利技术使用位置编码(Positional Ecoding,PE)对输入MLP的像素坐标进行编码,编码公式如下:
[0018]p=(x

,y

)
[0019]PE(p)=(p,sin(20πp),cos(20πp),sin(21πp),cos(21πp),

,sin(2
L
‑1πp),cos(2
L
‑1πp))
[0020]上式中,p代表归一化的像素坐标对(x

,y

),x

表示归一化图像横坐标(宽度方向坐标),y

表示归一化图像纵坐标(高度方向坐标),PE为编码过程,L为控制编码结果数目的可调参数。
[0021]MLP的输入是像素坐标的位置编码结果,输出为像素在宽度、高度两个维度上的归一化偏移量δx

,δy

,即:
[0022]δx

,δy

=f(PE(p))
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本和形变驱动的人脸编辑方法,其特征在于,包括如下步骤:步骤一:用多层感知机拟合人脸形变场使用全连接神经网络即多层感知机MLP拟合人脸形变场,以下简称“形变场”;形变场用于表示使编辑后的人脸与用户文本描述匹配时,输入的人脸图像像素,以下简称“像素”,在宽度、高度两个维度上的偏移量;步骤二:基于人脸形变场生成几何变形人脸步骤一中形变场的数值表示人脸编辑过程中输入图像每个像素点的偏移值δx,δy,使用该形变场进行人脸几何变形;将输入图像每个像素在宽、高维度上偏移,得到人脸变形结果;步骤三:基于卷积神经网络改变人脸图像颜色在步骤一和步骤二中,完成对人脸图像的几何变形操作;但为了匹配提示文本的语义,需要对图像的颜色进行必要改变,并构造用于改变图像颜色的卷积神经网络;步骤四:计算文本描述与人脸编辑结果间的相似度损失和其他损失设计用户文本描述和编辑后人脸图像的相似度损失L
Clip
、限制几何变形人脸过度变形的平滑性损失L
TV
、正则化损失L
Reg
及限制颜色过度变化的颜色损失L
color
,确保生成符合用户文本描述的,自然真实的人脸编辑结果;步骤五:迭代优化多层感知机和卷积神经网络权重针对每张输入人脸图像,在PyTorch深度学习框架下对最终损失进行迭代优化。2.根据权利要求1所述的一种文本和形变驱动的人脸编辑方法,其特征在于:在步骤一中,设计一个四层MLP拟合形变场,该MLP是像素偏移量关于像素坐标的连续光滑函数,有利于生成平滑自然的人脸形变场;将输入MLP的像素坐标(x,y)归一化到[

1,1],采用最大最小归一化方式,归一化后的坐标记作(x

,y

);考虑到MLP在拟合高频信息时的不足,使用位置编码PE对输入MLP的像素坐标进行编码,编码公式如下:p=(x

,y

)PE(p)=(p,sin(20πp),cos(20πp),sin(21πp),cos(21πp),...,sin(2
L
‑1πp),cos(2
L
‑1πp))上式中,p代表归一化的像素坐标对(x

,y

),x

表示归一化图像横坐标即宽度方向坐标,y

表示归一化图像纵坐标即高度方向坐标,L为控制编码结果数目的可调参数。3.根据权利要求2所述的一种文本和形变驱动的人脸编辑方法,其特征在于:MLP的输入是像素坐标的位置编码结果,输出为像素在宽度、高度两个维度上的归一化偏移量δx

,δy

,即:δx

,δy

=f(PE(p))上式中,f表示由MLP拟合的函数;将归一化偏移量(δx

,δy

)反归一化为(δx,δy),将图像各个像素的偏移量表示为矩阵D
x
和D
y
:D
x
(x,y)=δxD
y
(x,y)=δy。4.根据权利要求1所述的一种文本和形变驱动的人脸编辑方法,其特征在于:在步骤二
中,过程表示为:I

(x,y)=I(x+δx,y+δy)上式中,I为输入图像,I

为几何变形后的人脸图像;上式表明,I

在(x,y)位置的像素值为I在(x+δx,y+δy)位置的像素值;但偏移值δx,δy会出现小数,而图像的像素坐标均为整数;当x+δx和y+δy不是整数时,位置像素值由该位置周围四个整数坐标像素的像素值经双线性插值方法得到。5.根据权利要求1所述的一种文本和形变驱动的人脸编辑方法,其特征在于:在步骤三中,对图像颜色空间进行转换,将图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,色调Hue取值范围为[0,360],定量地描述色调情况;饱和度Saturation用于描述颜色的色相可识别性,可识别性越高,颜色越纯,饱和度越高,取值范围为...

【专利技术属性】
技术研发人员:史振威邹征夏孟亚鹏杨松儒胡旭胡宇轩
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1