基于GAN反演的鲁棒自适应图像处理方法技术

技术编号:39157119 阅读:15 留言:0更新日期:2023-10-23 15:01
本申请公开了一种基于GAN反演的鲁棒自适应图像处理方法,包括:步骤S1:建立基本框架,基本框架作为文本驱动的图像操作,对给定的文本提示t应用相同的编辑操作;步骤S2:GAN反演包括依序进行的:基于元素的EV剪枝、EV微调、LC搜索;步骤S3:建立稳健目标,构建图像的空间结构实现图像合成和语义分割,将多分支生成器集成到框架中,以捕获图像处理的空间局部性;步骤S4:定义图像因编辑而改变的感兴趣区域r;步骤S5:提出CLIP感知损失,放大感兴趣区域的图文相似度,降低外围区域的图文相似度;步骤S6:采用启发式算法去除编辑矢量噪音,同时为当前图像处理找到有意义的编辑向量和有意义的层。该方法图像搜索后能获得更精准的图像到图像映射结果。映射结果。映射结果。

【技术实现步骤摘要】
基于GAN反演的鲁棒自适应图像处理方法


[0001]本申请涉及图像处理
,特别是一种基于GAN反演的鲁棒自适应图像处理方法。

技术介绍

[0002]甘斯对图像合成领域产生了深远的影响,最近基于风格的Gans(Karras,Laine和Aila2019;Karras等人2020)拥有近乎照片般逼真的合成视觉效果。利用StyleGan的表达能力需要为用户设计简洁有效的界面,以方便地将他们的意图传达给GAN.由于自然语言可以表达广泛的视觉概念,将自然语言与StyleGan的生成能力相结合,为图像处理创造了极具吸引力的机会。对比语言

图像预训练(CLIP)模型在大量的图像

文本对上进行预训练,可以为自然语言和视觉之间架起一座桥梁。
[0003]StyleCLIP(Patashnik等人2021)认为,利用剪辑模型的力量,可以在文本描述的指导下进行直观的语义图像操作。遗憾的是,StyleClip中的方法并不是真正的开箱即用。
[0004]优化方案是必要的,然而,由于搜索空间的巨大和模糊性,朴素的多阶段优化方案的结果仍然不是鲁棒的。我们认为CLIP模型的感知和表示能力的瓶颈导致了反演过程的巨大和模糊的搜索空间。利用先验知识来修剪每个优化阶段的搜索空间对于优化过程的鲁棒性是至关重要的。
[0005]基于CLIP模型(例如,StyleCLIP)的GAN反演的剪枝搜索空间的两个互补观点:方法观点(I)和模型观点(II)。对于(I),剪辑模型仅为模型的图像

文本对提供较差的空间级对齐能力。提高对齐能力可以有效地限制搜索空间,但目前还没有一种可行的策略。对于(II),在巨大且模糊的空间中进行搜索是一个复杂的优化问题。Shen等人提出通过对海量数据的分析,可以得到一个理想的语义超平面。将超平面的正常编辑向量(EV)应用于对应于图像的潜在代码(LC)对于操纵图像是有效的。然而,在没有大量数据分析的情况下搜索电动汽车是一个悬而未决的难题。
[0006]事实上,Stylegan中的中间潜在空间已经实现了许多解纠缠和有意义的图像操作。一些研究试图通过训练将给定图像反转为被操纵图像的潜在表示的网络,使用端到端框架来执行图像操纵。同时,利用预训练生成器的潜在空间进行图像处理。其他方法试图找到潜在方向,以便应用它们来导致图像操纵。这样的方法可以被分类为(I)使用图像注释来寻找有意义的潜在方向的方法,以及(II)在没有监督的情况下发现有意义的方向的方法,并且需要对每个方向进行人工检查。然而,(I)是数据饥渴和耗时的;(II)难以找到用户期望的特定方向。
[0007]带有文本条件的GAN反演过程可以看成如下优化问题,首先观察styleCLIP中提出的目标函数,argminDCLIP(G(ω),t)+lL2||ω

ωS||2+lID
£
ID(ω),ω∈W+,利用CLIP指导图像操作的简单方法是通过潜在代码优化。ωs是给定的源潜码,文本提示T是自然语言中给定的指令。在等式中,1,G是一个预训练的styleGAN生成器,并且DCLIF是其两个不同模态(图像和文本)输入的CLIP嵌入之间的余弦相似度。L2是原始潜在代码和最终潜在代码之间
的测地距离。LID为原图与优化后图像的人脸特征余弦相似度,视觉特征通常可分为两种类型:(I)显性控制(莫霍克发型、金发),以及(II)通过指示真实或虚构的人来隐性控制。λL2和λID的值取决于所需编辑的性质。因此,在扩展对应于任何文本条件的新图像处理功能时,超参数设置是很棘手的。此外,生成的结果不是稳健的。

技术实现思路

[0008]本申请针对上述技术问题,提供了一种基于GAN反演的鲁棒自适应图像处理方法。
[0009]本申请提供了一种基于GAN反演的鲁棒自适应图像处理方法,包括以下步骤:
[0010]步骤S1:建立基本框架,基本框架作为文本驱动的图像操作,对给定的文本提示t应用相同的编辑操作:G(ω
s
)=I;C(ω
s
)=ω
t
,G(ω
t
)=I
t
,其中,为与w对应的任何图像i设计了一个统一的计算框架C,以搜索有前途的潜在代码ωt,ωt对应的图像It应符合文本提示t,提出RAIN框架C=Crain,RAIN框架分为两部分CEV初始化和RAGAN反演,启发式算法初始化CEV为

ω,S=CEV初始化(T),通过GAN反演找到g'ndidate编辑矢量

o以及层宽度标量阵列S;
[0011]步骤S2:GAN反演包括依序进行的:基于元素的EV剪枝、EV微调、LC搜索,在ElementWidth级别进一步修剪编辑矢量的有意义的层;
[0012]步骤S3:建立稳健目标,构建图像的空间结构实现图像合成和语义分割,将多分支生成器集成到框架中,以捕获图像处理的空间局部性,定义多分支生成器G为:W

I,S联合分布P(i,s)图像i和语义分割s进行建模;
[0013]步骤S4:定义图像因编辑而改变的感兴趣区域r为r={p:C
ps
∈Q
edit
}∪{p:C∈Q
edit
},r由所有像素p定义,其部分分割标签C
s,sedit
根据初始分割s或编辑的segS
edit
位于与编辑相关的部分标签的特定编辑预指定列表Q
edit
内;
[0014]步骤S5:提出CLIP感知损失,放大感兴趣区域的图文相似度,降低外围区域的图文相似度,L
STAGE1
=L
RCP
(

ω,ω)=D
CLIP
(G(

ω+ω)
·
r,t)

D
CLIP
(G(

ω+ω)
·
(1

r),t),L
STAGE2
=L
RCD
(

ω,ω)=L
PCD
(

ω,ω,r)+L
PCD
(

ω,ω,r∪r
sub
)+L
PCD
(

ω,ω,1),L
STAGE3
=L
R

LPIPS

t
)=L
LPIPS
(G(ω
t
·
r),I
·
r)+L
LPIPS
(G(ω
t
·
(1

r)),I2·
(1

r)),采用如下的CLIP定向损失的损失函数形式:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GAN反演的鲁棒自适应图像处理方法,其特征在于,包括以下步骤:步骤S1:建立基本框架,基本框架作为文本驱动的图像操作,对给定的文本提示t应用相同的编辑操作:G(ω
s
)=I;C(ω
s
)=ω
t
,G(ω
t
)=I
t
,其中,为与w对应的任何图像i设计了一个统一的计算框架C,以搜索有前途的潜在代码ωt,ωt对应的图像It应符合文本提示t,提出RAIN框架C=Crain,RAIN框架分为两部分CEV初始化和RAGAN反演,启发式算法初始化CEV为

ω,S=CEV初始化(T),通过GAN反演找到g'ndidate编辑矢量

o以及层宽度标量阵列S;步骤S2:GAN反演包括依序进行的:基于元素的EV剪枝、EV微调、LC搜索,在ElementWidth级别进一步修剪编辑矢量的有意义的层;步骤S3:建立稳健目标,构建图像的空间结构实现图像合成和语义分割,将多分支生成器集成到框架中,以捕获图像处理的空间局部性,定义多分支生成器G为:W

I,S联合分布P(i,s)图像i和语义分割s进行建模;步骤S4:定义图像因编辑而改变的感兴趣区域r为r={p:C
ps
∈Q
edit
}∪{p:C∈Q
edit
},r由所有像素p定义,其部分分割标签C
s,sedit
根据初始分割s或编辑的segS
edit
位于与编辑相关的部分标签的特定编辑预指定列表Q
edit
内;步骤S5:提出CLIP感知损失,放大感兴趣区域的图文相似度,降低外围区域的图文相似度,L
STAGE1
=L
RCP
(

ω,ω)=D
CLIP
(G(

ω+ω)
·
r,t)

D
CLIP
(G(

ω+ω)
·
(1

r),t),L
STAGE2
=L
RCD
(

ω,ω)=L
PCD
(Δω,ω,r)+L
PCD
(Δω,ω,r∪r
sub
)+L
PCD
(Δω,ω,1),L
STAGE3
=L
R

LPIPS

t
)=L
LPIPS
(G(ω
t
·
r),I
·
r)+L
LPIPS
(G(ω
t
·
(1

r)),I2·
(1

r)),采用如下的CLIP定向损失的损失函数形式:Δt=E
T
(t
tar
)

E
T
(t
neu
)和ΔI(w,Δw,r)=E
I
(G(w+Δw)
·
r)

E
I
(G(w)
·
r);步骤S6:CEV初始化:采用启发式算法去除编辑矢量噪音,同时为当前图像处理...

【专利技术属性】
技术研发人员:宫磊王超周学海李曦陈香兰朱宗卫
申请(专利权)人:中国科学技术大学苏州高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1