基于GAN反演的鲁棒自适应图像处理方法技术

技术编号：39157119 阅读：15 留言：0更新日期：2023-10-23 15:01

本申请公开了一种基于GAN反演的鲁棒自适应图像处理方法，包括：步骤S1：建立基本框架，基本框架作为文本驱动的图像操作，对给定的文本提示t应用相同的编辑操作；步骤S2：GAN反演包括依序进行的：基于元素的EV剪枝、EV微调、LC搜索；步骤S3：建立稳健目标，构建图像的空间结构实现图像合成和语义分割，将多分支生成器集成到框架中，以捕获图像处理的空间局部性；步骤S4：定义图像因编辑而改变的感兴趣区域r；步骤S5：提出CLIP感知损失，放大感兴趣区域的图文相似度，降低外围区域的图文相似度；步骤S6：采用启发式算法去除编辑矢量噪音，同时为当前图像处理找到有意义的编辑向量和有意义的层。该方法图像搜索后能获得更精准的图像到图像映射结果。映射结果。映射结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于GAN反演的鲁棒自适应图像处理方法

[0001]本申请涉及图像处理
，特别是一种基于GAN反演的鲁棒自适应图像处理方法。

技术介绍

[0002]甘斯对图像合成领域产生了深远的影响，最近基于风格的Gans(Karras,Laine和Aila2019；Karras等人2020)拥有近乎照片般逼真的合成视觉效果。利用StyleGan的表达能力需要为用户设计简洁有效的界面，以方便地将他们的意图传达给GAN.由于自然语言可以表达广泛的视觉概念，将自然语言与StyleGan的生成能力相结合，为图像处理创造了极具吸引力的机会。对比语言
‑
图像预训练(CLIP)模型在大量的图像
‑
文本对上进行预训练，可以为自然语言和视觉之间架起一座桥梁。
[0003]StyleCLIP(Patashnik等人2021)认为，利用剪辑模型的力量，可以在文本描述的指导下进行直观的语义图像操作。遗憾的是，StyleClip中的方法并不是真正的开箱即用。
[0004]优化方案是必要的，然而，由于搜索空间的巨大和模糊性，朴素的多阶段优化方案的结果仍然不是鲁棒的。我们认为CLIP模型的感知和表示能力的瓶颈导致了反演过程的巨大和模糊的搜索空间。利用先验知识来修剪每个优化阶段的搜索空间对于优化过程的鲁棒性是至关重要的。
[0005]基于CLIP模型(例如，StyleCLIP)的GAN反演的剪枝搜索空间的两个互补观点：方法观点(I)和模型观点(II)。对于(I),剪辑模型仅为模型的图像
‑...

【技术保护点】

【技术特征摘要】
1.一种基于GAN反演的鲁棒自适应图像处理方法，其特征在于，包括以下步骤：步骤S1：建立基本框架，基本框架作为文本驱动的图像操作，对给定的文本提示t应用相同的编辑操作：G(ω
s
)＝I；C(ω
s
)＝ω
t
，G(ω
t
)＝I
t
，其中，为与w对应的任何图像i设计了一个统一的计算框架C，以搜索有前途的潜在代码ωt，ωt对应的图像It应符合文本提示t，提出RAIN框架C＝Crain，RAIN框架分为两部分CEV初始化和RAGAN反演，启发式算法初始化CEV为
△
ω，S＝CEV初始化(T)，通过GAN反演找到g'ndidate编辑矢量
△
o以及层宽度标量阵列S；步骤S2：GAN反演包括依序进行的：基于元素的EV剪枝、EV微调、LC搜索，在ElementWidth级别进一步修剪编辑矢量的有意义的层；步骤S3：建立稳健目标，构建图像的空间结构实现图像合成和语义分割，将多分支生成器集成到框架中，以捕获图像处理的空间局部性，定义多分支生成器G为：W
→
I，S联合分布P(i,s)图像i和语义分割s进行建模；步骤S4：定义图像因编辑而改变的感兴趣区域r为r＝{p：C
ps
∈Q
edit
}∪{p：C∈Q
edit
}，r由所有像素p定义，其部分分割标签C
s，sedit
根据初始分割s或编辑的segS
edit
位于与编辑相关的部分标签的特定编辑预指定列表Q
edit
内；步骤S5：提出CLIP感知损失，放大感兴趣区域的图文相似度，降低外围区域的图文相似度，L
STAGE1
＝L
RCP
(
△
ω，ω)＝D
CLIP
(G(
△
ω+ω)
·
r，t)
‑
D
CLIP
(G(
△
ω+ω)
·
(1
‑
r)，t)，L
STAGE2
＝L
RCD
(
△
ω，ω)＝L
PCD
(Δω，ω，r)+L
PCD
(Δω，ω，r∪r
sub
)+L
PCD
(Δω，ω，1)，L
STAGE3
＝L
R
‑
LPIPS
(ω
t
)＝L
LPIPS
(G(ω
t
·
r)，I
·
r)+L
LPIPS
(G(ω
t
·
(1
‑
r))，I2·
(1
‑
r))，采用如下的CLIP定向损失的损失函数形式：Δt＝E
T
(t
tar
)
‑
E
T
(t
neu
)和ΔI(w，Δw，r)＝E
I
(G(w+Δw)
·
r)
‑
E
I
(G(w)
·
r)；步骤S6：CEV初始化：采用启发式算法去除编辑矢量噪音，同时为当前图像处理...

【专利技术属性】
技术研发人员：宫磊，王超，周学海，李曦，陈香兰，朱宗卫，
申请(专利权)人：中国科学技术大学苏州高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人