一种文本和形变驱动的人脸编辑方法技术

技术编号：37604647 阅读：20 留言：0更新日期：2023-05-18 11:56

本发明专利技术涉及一种文本和形变驱动的人脸编辑方法，技术核心是将人脸几何变形过程视为将形变场施加在人脸图像上，并用多层感知机拟合形变场。该方法包含：一、用多层感知机拟合人脸形变场；二、基于人脸形变场生成几何变形人脸；三、基于卷积神经网络改变人脸图像颜色；四、计算文本描述与人脸编辑结果间的相似度损失和其他损失；五、迭代优化多层感知机和卷积神经网络权重。本发明专利技术将人脸编辑过程中的几何形变视为将连续光滑的人脸形变场作用在输入图像上，具有形变过程物理意义明确的优点。本发明专利技术无需构造数据集，对每张输入图像单独迭代优化，具有容易使用、普适性强的优点，具有广阔应用前景和价值。用前景和价值。用前景和价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本和形变驱动的人脸编辑方法

：
[0001]本专利技术涉及一种优化框架下文本和形变驱动的人脸编辑方法，属于计算机视觉领域。

技术介绍
：
[0002]人脸编辑(Face manipulation)是一种计算机视觉方法，旨在对输入人脸图像中的表情、年龄、身份、风格等属性进行编辑并生成高分辨率的逼真结果。目前人脸编辑成为各种美颜相机、图像修复工具和短视频平台的核心功能。
[0003]人脸编辑技术面临两方面问题。一是人脸编辑的自由度和便捷性问题，用户期望简便地实现对人脸各种属性进行自由编辑；二是编辑过程是否具有物理可解释性，目前基于深度学习的人脸编辑方法主要利用生成对抗神经网络(Generative Adversarial Network,GAN)，其编辑过程缺乏物理可解释性。
[0004]目前，实现人脸编辑的方式主要有三种，基于交互式液化笔刷的编辑方法、基于固定模板的编辑方法、基于生成对抗神经网络的编辑方法。
[0005]基于交互式液化笔刷的编辑方法，主要应用于各类专业图像处理软件。用户使用笔刷在人脸图像上拖动进行像素移动，进而实现人脸编辑。此种方式给用户提供了较大的操作自由度，用户可以灵活地控制最终实现效果。但此种方法依靠用户手动操作完成人脸编辑，操作难度大，容易出现人脸过度扭曲变形，使用体验不佳。
[0006]基于固定模板的编辑方法，主要应用于各类短视频平台和智能图像处理软件。软件中提供固定的人脸变形模板，如“瘦脸”、“大眼”等固定样式。用户挑选这些模板并应用到人脸上，实现面部变形。...

【技术保护点】

【技术特征摘要】
1.一种文本和形变驱动的人脸编辑方法，其特征在于，包括如下步骤：步骤一：用多层感知机拟合人脸形变场使用全连接神经网络即多层感知机MLP拟合人脸形变场，以下简称“形变场”；形变场用于表示使编辑后的人脸与用户文本描述匹配时，输入的人脸图像像素，以下简称“像素”，在宽度、高度两个维度上的偏移量；步骤二：基于人脸形变场生成几何变形人脸步骤一中形变场的数值表示人脸编辑过程中输入图像每个像素点的偏移值δx，δy，使用该形变场进行人脸几何变形；将输入图像每个像素在宽、高维度上偏移，得到人脸变形结果；步骤三：基于卷积神经网络改变人脸图像颜色在步骤一和步骤二中，完成对人脸图像的几何变形操作；但为了匹配提示文本的语义，需要对图像的颜色进行必要改变，并构造用于改变图像颜色的卷积神经网络；步骤四：计算文本描述与人脸编辑结果间的相似度损失和其他损失设计用户文本描述和编辑后人脸图像的相似度损失L
Clip
、限制几何变形人脸过度变形的平滑性损失L
TV
、正则化损失L
Reg
及限制颜色过度变化的颜色损失L
color
，确保生成符合用户文本描述的，自然真实的人脸编辑结果；步骤五：迭代优化多层感知机和卷积神经网络权重针对每张输入人脸图像，在PyTorch深度学习框架下对最终损失进行迭代优化。2.根据权利要求1所述的一种文本和形变驱动的人脸编辑方法，其特征在于：在步骤一中，设计一个四层MLP拟合形变场，该MLP是像素偏移量关于像素坐标的连续光滑函数，有利于生成平滑自然的人脸形变场；将输入MLP的像素坐标(x，y)归一化到[
‑
1，1]，采用最大最小归一化方式，归一化后的坐标记作(x
′
，y
′
)；考虑到MLP在拟合高频信息时的不足，使用位置编码PE对输入MLP的像素坐标进行编码，编码公式如下：p＝(x
′
，y
′
)PE(p)＝(p，sin(20πp)，cos(20πp)，sin(21πp)，cos(21πp)，...，sin(2
L
‑1πp)，cos(2
L
‑1πp))上式中，p代表归一化的像素坐标对(x
′
，y
′
)，x
′
表示归一化图像横坐标即宽度方向坐标，y
′
表示归一化图像纵坐标即高度方向坐标，L为控制编码结果数目的可调参数。3.根据权利要求2所述的一种文本和形变驱动的人脸编辑方法，其特征在于：MLP的输入是像素坐标的位置编码结果，输出为像素在宽度、高度两个维度上的归一化偏移量δx
′
，δy
′
，即：δx
′
，δy
′
＝f(PE(p))上式中，f表示由MLP拟合的函数；将归一化偏移量(δx
′
，δy
′
)反归一化为(δx，δy),将图像各个像素的偏移量表示为矩阵D
x
和D
y
：D
x
(x，y)＝δxD
y
(x，y)＝δy。4.根据权利要求1所述的一种文本和形变驱动的人脸编辑方法，其特征在于：在步骤二
中，过程表示为：I
′
(x，y)＝I(x+δx，y+δy)上式中，I为输入图像，I
′
为几何变形后的人脸图像；上式表明，I
′
在(x，y)位置的像素值为I在(x+δx，y+δy)位置的像素值；但偏移值δx，δy会出现小数，而图像的像素坐标均为整数；当x+δx和y+δy不是整数时，位置像素值由该位置周围四个整数坐标像素的像素值经双线性插值方法得到。5.根据权利要求1所述的一种文本和形变驱动的人脸编辑方法，其特征在于：在步骤三中，对图像颜色空间进行转换，将图像从RGB颜色空间转换到HSV颜色空间；在HSV颜色空间中，色调Hue取值范围为[0，360]，定量地描述色调情况；饱和度Saturation用于描述颜色的色相可识别性，可识别性越高，颜色越纯，饱和度越高，取值范围为...

【专利技术属性】
技术研发人员：史振威，邹征夏，孟亚鹏，杨松儒，胡旭，胡宇轩，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人