一种基于分层分类文本指导的真实场景图像编辑方法技术

技术编号:39143241 阅读:12 留言:0更新日期:2023-10-23 14:55
本发明专利技术公开了一种基于分层分类文本指导的真实场景图像编辑方法,首先选取一个层级多标签文本分类模型,将输入的风格描述文本进行层级分类;利用e4e反演模型得到室内场景图像的潜在向量,基于StyleGAN的语义分层特性,将潜在向量进行划分;训练隐空间残差映射器,并分为四组,分别代表场景图像中的布局、对象、属性和颜色细节的生成,并可通过文本分层模型得到的二级词汇对映射模型进行选择性的训练;将文本分类模型得到的三级词汇输入到CLIP网络,并利用CLIP损失控制映射网络的训练;潜在向量通过分层输入映射网络后得到一个偏置向量,与原始向量进行求和后,输入StyleGAN,得到编辑后的图像。本发明专利技术实现对于文本指导图像的自动化编辑,减少了人为的手动操控。减少了人为的手动操控。减少了人为的手动操控。

【技术实现步骤摘要】
一种基于分层分类文本指导的真实场景图像编辑方法


[0001]本专利技术涉及生成对抗网络(GAN)的分层语义表示,图像的逆映射和文本分层分类以及文本指导图像编辑领域。具体是指在图像生成模型中,通过输入抽象风格文本,利用文本分层分类模型和对比语言图像预训练模型(CLIP),对真实室内场景图像逆映射后的潜在向量进行编辑的方法。

技术介绍

[0002]现有的对图像进行编辑的方法包括利用预训练的分类器,学习到一个分界面,结合生成对抗网络,令图像的潜在向量沿着某个方向移动来达到对图像操控的目的。而这种方法在很大程度上依赖于隐空间完全解耦的假设,同时还需要手动调整参数,比如操纵强度等。还有人提出通过操纵样式图的匹配位置来编辑图像的特定区域,即通过选择想要替换的图像中的某个位置,利用图像生成网络来合成新的图像。但这个方法需要手动选择需要修改的区域,操作起来比较繁琐。最近,还有一些通过文本控制人脸图像变化的方法,由于人的面部结构比较简单,因此也取得了不错的效果。
[0003]最近利用文本指导图像的编辑取得了很大的进展以及关注度。TediGAN是通过将图像和文本映射到共享的StyleGAN潜在空间,利用文本调控图像的潜在向量。FEAT引入了一个注意力模块,将输入文本与图像进行匹配,学习一个注意力mask,利用生成对抗网络实现文本指导图像的编辑。由于扩散模型的火热,有一些基于去噪扩散模型的文本指导图像的方法也取得了不错的效果,比如DALLE和DiffusionCLIP,进一步提高了文本到图像的生成性能。
[0004]近年来,生成对抗网络迅速发展,在高质量图像生成领域取得了很大的成功。具体而言,StyleGAN是著名的GAN模型之一,它可以生成高保真的图像。此外,经研究发现,StyleGAN还提供了语义丰富的潜在空间,不同的网络层对应的语义是不同的。像HiGAN中提到的,在场景图像生成中,StyleGAN的底层控制着布局的合成,其次是对象,之后是属性,而高层控制的则是颜色。并且这些分层的潜在空间具有解纠缠的特性。这使得我们能够利用预训练的模型对合成图像和真实图像进行编辑操作。
[0005]综上,目前利用文本指导图像编辑的方法还存在一些问题。大多方法对于真实应用来说,操作过于繁琐,需要通过输入具体的文本描述实现对于图像内容的操控。且由于场景图像的复杂性和多样性,目前针对文本指导真实场景图像的编辑研究还比较少,大多数方法是针对人脸图像的研究。因此,本专利技术拟提出一种基于分层分类文本指导的真实场景图像编辑的方法。该方法借助最近被提出CLIP模型,实现直观的基于文本的图像操作,该操作既不需要预训练操作的方向,也不需要手动选择要操控的图像位置。CLIP模型是一个利用网络上四亿对图像

文本数据进行预训练的模型,由于自然语言能够表达更广泛的视觉概念,因此,该方法将CLIP和StyleGAN的分层语义特性相结合,利用文本分层分类模型,将输入的文本描述进行层级分类,并将分类结果分别运用到StyleGAN映射网络的分层训练和对真实图像的语义的控制,能够达到通过抽象文本描述对真实场景图像进行更加自动化操
控的目的。

技术实现思路

[0006]针对上述问题,本专利技术提出了一种基于分层分类文本指导的真实场景图像编辑的方法。从StyleGAN的分层语义表示和通过文本实现对图像的操控出发,设计了一个基于跨模态的真实室内场景编辑的方法,该方法可以通过一个抽象的风格文本描述,使真实室内场景在固有属性特点不变的情况下具有该风格的特征,可作用于室内装修设计等实际应用中。本专利技术的技术方案包括如下步骤:
[0007]步骤1:选取一个层级多标签文本分类模型,将一级词汇t1输入该模型,对室内风格描述进行层级分类。该模型的输出设置有三个层级:一级词汇t1为抽象风格描述、二级词汇t2为场景图像的构成描述以及三级词汇t3为抽象风格对应的详细描述;
[0008]所述的构成描述包括布局、对象、属性、颜色;
[0009]所述的详细描述包括布局、对象、属性、颜色对应的具体描述;
[0010]步骤2:利用e4e反演模型得到在LSUN数据集中训练的室内图像的潜在向量w,w∈W+,W+表示向量空间;并基于StyleGAN的语义分层特性,结合步骤1得到的二级词汇t2对潜在向量w进行分段。
[0011]步骤3:训练多个隐空间残差映射器。由于已知不同的StyleGAN层负责生成场景图像中不同级别的细节。因此将多个隐空间残差映射器分为四组,每组单独一个,四组分别对应场景图中布局、对象、属性和颜色细节的生成。并利用由步骤1得到的三级词汇t3和CLIP模型,实现直观的抽象文本对真实场景图像的操控。
[0012]本专利技术的有益效果如下:
[0013]1.通过训练层级多标签分类模型,对输入的风格描述文本进行层级分类,将抽象的词汇转为具体的文本描述,一是作为映射网络训练的选择,二是作为CLIP模型的文本输入,达到使模型更加自动化训练的目的,即不需要太多人为的操控。
[0014]2.利用StyleGAN的分层语义表示,针对不同层对应场景图中语义的不同,训练不同的映射网络。以此达到只训练需要改变输入图像对应语义的映射网络,而保留输入图像的其他元素不变目的,从而提高模型训练的效率,减少所需资源。
附图说明
[0015]图1是本专利技术方法实施流程图;
[0016]图2是本专利技术示意图。
具体实施方式
[0017]下面结合附图,对本专利技术的具体实施方案作进一步详细描述。
[0018]如图1和2所示,本专利技术提出了一种基于分层分类文本指导的真实场景图像编辑方法,该方法利用层级多标签文本分类模型,将抽象文本描述转换为具体文本描述,基于StyleGAN的分层语义表示特征,设计了一个自动化的文本操控图像编辑的网络模型。
[0019]本专利技术首先选取一个层级多标签文本分类模型,将输入的风格描述文本进行层级分类,得到由抽象词汇到具体词汇描述的展开;利用e4e反演模型得到室内场景图像的潜在
向量,基于StyleGAN的语义分层特性,将潜在向量进行划分;训练一个隐空间残差映射器,将映射器分为四组,分别代表场景图像中的布局、对象、属性和颜色细节的生成,并可通过文本分层模型得到的二级词汇对映射模型进行选择性的训练;将文本分类模型得到的三级词汇输入到CLIP网络,并利用CLIP损失控制映射网络的训练;潜在向量通过分层输入映射网络后得到一个偏置向量,与原始向量进行求和后,输入StyleGAN,得到编辑后的图像。
[0020]本专利技术具体实现步骤如下:
[0021]步骤1:选取一个层级多标签文本分类模型,输入的文本为对室内场景装修风格的描述,例如北欧风,中式风,简约风等。经过模型的训练,得到如图二所示的三层文本分类结构,一级词汇为输入的抽象风格描述t1;二级词汇t2为场景图像的不同构成元素,在本方法中包含“布局”、“对象”、“属性”以及“颜色”;三级词汇t3为对于抽象风格的具体描述,例如中式风格对应的“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层分类文本指导的真实场景图像编辑方法,其特征在于,包括如下步骤:步骤1:选取一个层级多标签文本分类模型,将一级词汇t1输入该模型,对室内风格描述进行层级分类;该模型的输出设置有三个层级:一级词汇t1为抽象风格描述、二级词汇t2为场景图像的构成描述以及三级词汇t3为抽象风格对应的详细描述;所述的构成描述包括布局、对象、属性、颜色;所述的详细描述包括布局、对象、属性、颜色对应的具体描述;步骤2:利用e4e反演模型得到在LSUN数据集中训练的室内图像的潜在向量w,w∈W+,W+表示向量空间;并基于StyleGAN的语义分层特性,结合步骤1得到的二级词汇t2对潜在向量w进行分段;步骤3:训练多个隐空间残差映射器;由于已知不同的StyleGAN层负责生成场景图像中不同级别的细节;因此将多个隐空间残差映射器分为四组,每组单独一个,四组分别对应场景图中布局、对象、属性和颜色细节的生成;并利用由步骤1得到的三级词汇t3和CLIP模型,实现直观的抽象文本对真实场景图像的操控。2.根据权利要求1所述的一种基于分层分类文本指导的真实场景图像编辑方法,其特征在于,步骤1具体方法如下:1

1.基于图卷积网络,利用文本编码器和标签编码器,通过共享在标签集中学习到的分层结构关系表示E,分别提取文本语义S
t
和标签语义S
l
,如下公式所示,其中V
t
表示分层结构节点的集合;V
l
表示标签节点的集合,σ为激活函数ReLU;S
t
=σ(E
·
V
t
)S
l
=σ(E
·
V
l
)1

2.将文本语义S
t
和标签语义S
l
投影到一个联合嵌入空间中,联合嵌入损失控制文本语义S
t
和标签语义S
l
的相似性;1

3通过匹配学习损失,训练得到细粒度标签语义、粗粒度标签语义以及不正确的标签语义,其中细粒度标签语义最接近输入的三级词汇t3;即细粒度标签语义为t3,粗粒度标签语义为t2,其他不正确的标签语义则远离一级词汇t1;1

4.通过训练好的层级多标签文本分类模型,输入一级词汇t1得到需要的三级词汇t3和二级词汇t2。3.根据权利要求1或2所述的一种基于分层分类文本指导的真实场景图像编辑方法,其特征在于,步骤2具体方法如下:2

1.利用在LSUN数据集上训练好的e4e模型,得到真实室内场景的反演潜在向量w,格式是.pt文件,用于作为St...

【专利技术属性】
技术研发人员:张桦王慕薇张灵均叶挺聪许艳萍吴以凡罗逸章
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1