一种基于扩散模型的双模态人脸局部编辑方法及相关设备技术

技术编号:46611576 阅读:1 留言:0更新日期:2025-10-14 21:09
本发明专利技术公开了一种基于扩散模型的双模态人脸局部编辑方法及相关设备,其中模型包含图像局部提示处理模块、文本提示处理模块、隐空间扩散模型、图像编码器与解码器、文本‑图像注意力处理算法、空文本反演算法;通过文本、图像两种解耦注意力结合,细粒度地对图像进行局部编辑。一方面,文本注意力使用较粗粒度的语义引导,源图像对应部分语义发生改变。另一方面,文本难以描述的部分,可以通过图像注意力进行语义引导。经过文本注意力粗粒度的语义引导结合图像注意力细粒度的语义引导,最终实现细粒度的人脸编辑任务。本发明专利技术具有较强的灵活性与实用性,可在人脸个性化生成、编辑任务中具备实际应用价值,可广泛应用于计算机视觉领域。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,尤其涉及一种基于扩散模型的双模态人脸局部编辑方法及相关设备


技术介绍

1、目前人脸局部编辑方法大致分为基于文本的人脸局部编辑方法与基于隐空间的人脸局部编辑方法。

2、基于文本的人脸局部编辑方法旨在通过预训练的文本到图像模型,根据文本与图像语义的良好对齐性质,使用文本注意力操控图像生成。具体来说,首先使用图像反转方法获得潜在噪声作为生成起点,同时使用重建分支与编辑分支对潜在噪声进行去噪。去噪过程中,重建分支将原图像部分文本注意力图注入编辑分支,编辑分支使用目标提示与重建分支的注意力图进行去噪,从而编辑结果具备重建分支的高保真性与编辑分支目标提示的语义一致性。这种方法能够通过文本较灵活的对人脸进行局部编辑。然而,由于文本天然具有表征的局限性,难以通过文本细粒度的描绘目标编辑图像所具备的样式,从而导致细粒度编辑结果与用户的想法存在偏差。

3、基于隐空间的人脸局部编辑方法旨在通过模型训练过程对人脸表征隐空间进行解耦,从而在推理时通过操纵隐空间改变人脸表征,达到人脸局部编辑的效果。具体来说,在训练时,编码器-解本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的双模态人脸局部编辑方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于扩散模型的双模态人脸局部编辑方法,其特征在于,所述图像局部提示预处理,包括:

3.根据权利要求2所述的一种基于扩散模型的双模态人脸局部编辑方法,其特征在于,所述人脸图像适配器通过人脸图像数据集进行训练;人脸图像在训练时随机使用人脸语义分割模型进行掩码,并使用预训练的人脸图像编码器得到非掩码部分人脸图像的嵌入表示,经过投影网络,输入至去噪模型中;使用重建损失对人脸图像适配器进行优化;其中,人脸图像编码器在训练阶段冻结参数,不参与训练,仅训练投影网络。

...

【技术特征摘要】

1.一种基于扩散模型的双模态人脸局部编辑方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于扩散模型的双模态人脸局部编辑方法,其特征在于,所述图像局部提示预处理,包括:

3.根据权利要求2所述的一种基于扩散模型的双模态人脸局部编辑方法,其特征在于,所述人脸图像适配器通过人脸图像数据集进行训练;人脸图像在训练时随机使用人脸语义分割模型进行掩码,并使用预训练的人脸图像编码器得到非掩码部分人脸图像的嵌入表示,经过投影网络,输入至去噪模型中;使用重建损失对人脸图像适配器进行优化;其中,人脸图像编码器在训练阶段冻结参数,不参与训练,仅训练投影网络。

4.根据权利要求1或2所述的一种基于扩散模型的双模态人脸局部编辑方法,其特征在于,所述人脸图像适配器的训练步骤具体包括:

5.根据权利要求4所述的一种基于扩散模型的双模态人脸局部编辑方法,其特征在于,将表征投影网络替换为表征学习网络。

6.根据权利要求1所述的一种基于扩散模型的...

【专利技术属性】
技术研发人员:刘竹琳苏泽鹏陈俊龙张通
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1