一种基于分层分类文本指导的真实场景图像编辑方法技术

技术编号：39143241 阅读：12 留言：0更新日期：2023-10-23 14:55

本发明专利技术公开了一种基于分层分类文本指导的真实场景图像编辑方法，首先选取一个层级多标签文本分类模型，将输入的风格描述文本进行层级分类；利用e4e反演模型得到室内场景图像的潜在向量，基于StyleGAN的语义分层特性，将潜在向量进行划分；训练隐空间残差映射器，并分为四组，分别代表场景图像中的布局、对象、属性和颜色细节的生成，并可通过文本分层模型得到的二级词汇对映射模型进行选择性的训练；将文本分类模型得到的三级词汇输入到CLIP网络，并利用CLIP损失控制映射网络的训练；潜在向量通过分层输入映射网络后得到一个偏置向量，与原始向量进行求和后，输入StyleGAN，得到编辑后的图像。本发明专利技术实现对于文本指导图像的自动化编辑，减少了人为的手动操控。减少了人为的手动操控。减少了人为的手动操控。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分层分类文本指导的真实场景图像编辑方法

[0001]本专利技术涉及生成对抗网络(GAN)的分层语义表示，图像的逆映射和文本分层分类以及文本指导图像编辑领域。具体是指在图像生成模型中，通过输入抽象风格文本，利用文本分层分类模型和对比语言图像预训练模型(CLIP)，对真实室内场景图像逆映射后的潜在向量进行编辑的方法。

技术介绍

[0002]现有的对图像进行编辑的方法包括利用预训练的分类器，学习到一个分界面，结合生成对抗网络，令图像的潜在向量沿着某个方向移动来达到对图像操控的目的。而这种方法在很大程度上依赖于隐空间完全解耦的假设，同时还需要手动调整参数，比如操纵强度等。还有人提出通过操纵样式图的匹配位置来编辑图像的特定区域，即通过选择想要替换的图像中的某个位置，利用图像生成网络来合成新的图像。但这个方法需要手动选择需要修改的区域，操作起来比较繁琐。最近，还有一些通过文本控制人脸图像变化的方法，由于人的面部结构比较简单，因此也取得了不错的效果。
[0003]最近利用文本指导图像的编辑取得了很大的进展以及关注度。TediGAN是通过将图像和文本映射到共享的StyleGAN潜在空间，利用文本调控图像的潜在向量。FEAT引入了一个注意力模块，将输入文本与图像进行匹配，学习一个注意力mask，利用生成对抗网络实现文本指导图像的编辑。由于扩散模型的火热，有一些基于去噪扩散模型的文本指导图像的方法也取得了不错的效果，比如DALLE和DiffusionCLIP，进一步提高了文本到图像的生成性能。
[0004]近年来...

【技术保护点】

【技术特征摘要】
1.一种基于分层分类文本指导的真实场景图像编辑方法，其特征在于，包括如下步骤：步骤1：选取一个层级多标签文本分类模型，将一级词汇t1输入该模型，对室内风格描述进行层级分类；该模型的输出设置有三个层级：一级词汇t1为抽象风格描述、二级词汇t2为场景图像的构成描述以及三级词汇t3为抽象风格对应的详细描述；所述的构成描述包括布局、对象、属性、颜色；所述的详细描述包括布局、对象、属性、颜色对应的具体描述；步骤2：利用e4e反演模型得到在LSUN数据集中训练的室内图像的潜在向量w，w∈W+，W+表示向量空间；并基于StyleGAN的语义分层特性，结合步骤1得到的二级词汇t2对潜在向量w进行分段；步骤3：训练多个隐空间残差映射器；由于已知不同的StyleGAN层负责生成场景图像中不同级别的细节；因此将多个隐空间残差映射器分为四组，每组单独一个，四组分别对应场景图中布局、对象、属性和颜色细节的生成；并利用由步骤1得到的三级词汇t3和CLIP模型，实现直观的抽象文本对真实场景图像的操控。2.根据权利要求1所述的一种基于分层分类文本指导的真实场景图像编辑方法，其特征在于，步骤1具体方法如下：1
‑
1.基于图卷积网络，利用文本编码器和标签编码器，通过共享在标签集中学习到的分层结构关系表示E，分别提取文本语义S
t
和标签语义S
l
，如下公式所示，其中V
t
表示分层结构节点的集合；V
l
表示标签节点的集合，σ为激活函数ReLU；S
t
＝σ(E
·
V
t
)S
l
＝σ(E
·
V
l
)1
‑
2.将文本语义S
t
和标签语义S
l
投影到一个联合嵌入空间中，联合嵌入损失控制文本语义S
t
和标签语义S
l
的相似性；1
‑
3通过匹配学习损失，训练得到细粒度标签语义、粗粒度标签语义以及不正确的标签语义，其中细粒度标签语义最接近输入的三级词汇t3；即细粒度标签语义为t3，粗粒度标签语义为t2，其他不正确的标签语义则远离一级词汇t1；1
‑
4.通过训练好的层级多标签文本分类模型，输入一级词汇t1得到需要的三级词汇t3和二级词汇t2。3.根据权利要求1或2所述的一种基于分层分类文本指导的真实场景图像编辑方法，其特征在于，步骤2具体方法如下：2
‑
1.利用在LSUN数据集上训练好的e4e模型，得到真实室内场景的反演潜在向量w，格式是.pt文件，用于作为St...

【专利技术属性】
技术研发人员：张桦，王慕薇，张灵均，叶挺聪，许艳萍，吴以凡，罗逸章，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人