一种文本驱动的人脸图像编辑方法技术

技术编号:43472956 阅读:45 留言:0更新日期:2024-11-27 13:12
本发明专利技术公开了一种文本驱动的人脸图像编辑方法,属于AIGC技术领域。文本驱动的人脸编辑方法的实施包括:构建人脸属性概念字典;生成StyleGAN样式空间隐向量;利用CLIP编码器对人脸数据和属性字典进行编码,得到图像和文本隐向量特征及其均值;基于隐向量特征均值,通过凸优化算法构建人脸属性编码器;使用人脸属性编码器对输入图像进行编码,获得图像特征隐向量;构建损失函数,最小化随机成对图像间的隐向量差值和样式空间隐向量差值的距离,训练映射网络;利用训练好的映射网络对输入文本进行推理,得到样式空间编辑方向。本发明专利技术有效解决了文本驱动人脸编辑中人脸身份信息不一致的问题。该技术在AIGC时代展现出大语言模型驱动人脸图像编辑的广阔应用前景。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体涉及一种文本驱动的人脸图像编辑方法


技术介绍

1、编辑人脸的属性是计算机图形学的一个长期目标。近年来,深度生成模型在这一领域中崭露头角。生成对抗网络(gan)框架是一个估算数据点如何在概率性框架中生成的深度学习架构。许多gan模型,例如pcgan,biggan和stylegan,已经被研发并应用于从随机噪声生成高质量、多样化的图像。

2、研究表明,gan能够在中间特征和隐空间中有效编码丰富的语义信息。这些特性使得通过改变隐空间编码可以合成具有多样性变化的图像。gan的逆映射功能能够将给定的图像转换回预训练的gan模型的隐向量空间中,这使基于gan的真实图像处理成为了可能,并赋予基于gan先验的图像编辑现实意义。为了编辑与用户意图相符的图像区域属性,许多研究试图利用gan作为图像先验实现可控的图像合成和编辑。

3、文本引导的图像生成旨在根据文本描述生成逼真的图像,并对现有图像进行文本引导的编辑操作。相比之下,文本引导的图像编辑主要目的是利用文本描述来操控现有图像,实现用户指定的视觉属性变化。

本文档来自技高网...

【技术保护点】

1.一种文本驱动的人脸图像编辑方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:在步骤S2中,通过公式,得到中间潜在空间隐向量;其中,为一种用于StyleGAN的图像逆映射框架,为高清人脸图像;

3.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:在步骤S3中,所述人脸属性编码器是由两个CLIP编码器和ADMM凸优化模块组成的;

4.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:在步骤S4中,分别采用两个独立的映射模块学习人脸特征隐向量差值和样式空间隐向量s1...

【技术特征摘要】

1.一种文本驱动的人脸图像编辑方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:在步骤s2中,通过公式,得到中间潜在空间隐向量;其中,为一种用于stylegan的图像逆映射框架,为高清人脸图像;

3.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:在步骤s3中,所述人脸属性编码器是由两个clip编码器和admm凸优化模块组成的;

4.根据权利要求1所述的一种文本驱动的人脸图...

【专利技术属性】
技术研发人员:赵玉良周至诚
申请(专利权)人:东北大学秦皇岛分校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1