基于单图像生成对抗网络的语义图像类比方法技术

技术编号:26766624 阅读:31 留言:0更新日期:2020-12-18 23:43
本发明专利技术公开了一种基于单图像生成对抗网络的语义图像类比方法,由上述本发明专利技术提供的技术方案可以看出,能够在给定任意图像和其语义分割图的情况下训练出专属于给定图像的生成模型,该模型能够根据期望语义布局的不同对源图像进行重新组合,生成符合目标语义布局的图像,达到语义图像类比的效果。该方法所产生的结果视觉质量和符合准确性都达到了最优。

【技术实现步骤摘要】
基于单图像生成对抗网络的语义图像类比方法
本专利技术涉及图像处理
,尤其涉及一种基于单图像生成对抗网络的语义图像类比方法。
技术介绍
诸如可变自动编码器(VariationalAuto-Encoder,VAE)和生成对抗网络(GenerativeAdversarialNetwork,GAN)的可生成模型在以可生成方式对自然图像布局进行建模方面取得了长足的进步。通过将诸如类标签,文本,边线或分割图之类的附加信号作为输入,条件生成模型可以可控方式生成照片级逼真的样本,这在诸如交互设计和艺术风格转移之类的许多多媒体应用中很有用。具体来说,分割图为生成模型提供了密集的像素级指导,并使用户能够在空间上控制预期的实例,这比像类标签或样式这样的图像级指导要灵活得多。Isola等人提出Pix2Pix模型显示了给定密集条件信号(包括草图和分割图)的条件GAN生成可控图像的能力(PhillipIsola,Jun-YanZhu,TinghuiZhou,andAlexeiA.Efros.2017.Image-to-ImageTranslationwithConditionalAdversarialNetworks.InProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).5967–5976)。Wang等人用粗到细生成器和多尺度鉴别器扩展上述框架,以生成具有高分辨率细节的图像(Ting-ChunWang,Ming-YuLiu,Jun-YanZhu,AndrewTao,JanKautz,andBryanCatanzaro.2018.High-ResolutionImageSynthesisandSemanticManipulationWithConditionalGANs.InProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).8798–8807)。Park等人提出了一种空间自适应的归一化技术(SPADE),该技术使用语义图来预测仿射变换参数,以调制归一化层中的激活(TaesungPark,Ming-YuLiu,Ting-ChunWang,andJun-YanZhu.2019.SemanticImageSynthesisWithSpatially-AdaptiveNormalization.InProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).2337–2346)。通常,这些方法需要一个大型训练数据集才能将分割类别标签映射到整个数据集的图像块外观。但是,在生成的图像中某个标签实例的出现仅限于该标签在训练数据集中的外观,因此限制了这些模型在随机自然图像上的泛化能力。另一方面,最近针对单图像GAN的研究表明,有可能从单个图像的内部补丁布局中学习生成模型。InGAN定义了调整大小的转换,并训练了一个生成模型来捕获内部补丁统计信息以进行重新定向(AssafShocher,ShaiBagon,PhillipIsola,andMichalIrani.2019.InGAN:CapturingandRetargetingthe"DNA"ofaNaturalImage.InProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision(ICCV).4491–4500)。SinGAN利用多阶段训练方案生成无条件图像,该条件可从噪声中生成任意大小的图像(TamarRottShaham,TaliDekel,andTomerMichaeli.2019.SinGAN:LearningaGenerativeModelFromaSingleNaturalImage.InProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision(ICCV).4569–4579)。KernelGAN使用深度线性生成器并对其进行约束,以学习针对盲超分辨率的图像特定的降级内核(SefiBell-Kligler,AssafShocher,andMichalIrani.2019.BlindSuper-ResolutionKernelEstimationusinganInternal-GAN.InAdvancesinNeuralInformationProcessingSystems32:AnnualConferenceonNeuralInformationProcessingSystems(NeurIPS).284–293)。尽管这些特定于图像的GAN独立于数据集并产生可喜的结果,但单幅图像内补丁的语义含义仍然鲜有探索。
技术实现思路
本专利技术的目的是提供一种基于单图像生成对抗网络的语义图像类比方法,所产生的结果视觉质量和符合准确性都达到了最优。本专利技术的目的是通过以下技术方案实现的:一种基于单图像生成对抗网络的语义图像类比方法,通过编码器、生成器、辅助分类器及鉴别器构成的网络模型实现;其中:训练阶段:在每次训练迭代期间,对于给定的源图像及对应的源语义分割图像,进行相同的随机扩充操作,获得对应的增强图像和增强语义分割图像;对于源语义分割图像及增强语义分割图像通过相同的编码器提取出各自的特征张量,再通过生成器中的语义特征转换模块基于两个特征张量预测图像域中的变换参数,从而变换参数的指导下结合源图像生成目标图像;目标图像将分别输入至鉴别器与辅助分类器,各自预测目标图像与增强图像的得分图以及目标图像对应的目标语义分割图像;利用目标图像与源图像之间的外观相似度损失、基于得分图得到的目标图像与增强图像特征匹配损失、以及目标语义分割图像与增强语义分割图像之间的语义对齐损失构建总损失函数进行训练;推断阶段:将源图像及对应的源语义分割图像、以及指定的语义分割图像输入至语义图像类比网络,输出与指定的语义分割图像相同语义布局的图像。由上述本专利技术提供的技术方案可以看出,能够在给定任意图像和其语义分割图的情况下训练出专属于给定图像的生成模型,该模型能够根据期望语义布局的不同对源图像进行重新组合,生成符合目标语义布局的图像,达到语义图像类比的效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的语义图像类比概念图示;图2为本专利技术实施例提供的一种基于单图像生成对抗网络的语义图像类比方法的示意图;图3是为本专利技术实施例提供的SFT模块的计算流程图;图4是为本专利技术实施例提供的本专利技术图本文档来自技高网
...

【技术保护点】
1.一种基于单图像生成对抗网络的语义图像类比方法,其特征在于,通过编码器、生成器、辅助分类器及鉴别器构成的网络模型实现;其中:/n训练阶段:在每次训练迭代期间,对于给定的源图像及对应的源语义分割图像,进行相同的随机扩充操作,获得对应的增强图像和增强语义分割图像;对于源语义分割图像及增强语义分割图像通过相同的编码器提取出各自的特征张量,再通过生成器中的语义特征转换模块基于两个特征张量预测图像域中的变换参数,从而变换参数的指导下结合源图像生成目标图像;目标图像将分别输入至鉴别器与辅助分类器,各自预测目标图像与增强图像的得分图以及目标图像对应的目标语义分割图像;利用目标图像与源图像之间的外观相似度损失、基于得分图得到的目标图像与增强图像特征匹配损失、以及目标语义分割图像与增强语义分割图像之间的语义对齐损失构建总损失函数进行训练;/n推断阶段:将源图像及对应的源语义分割图像、以及指定的语义分割图像输入至语义图像类比网络,输出与指定的语义分割图像相同语义布局的图像。/n

【技术特征摘要】
1.一种基于单图像生成对抗网络的语义图像类比方法,其特征在于,通过编码器、生成器、辅助分类器及鉴别器构成的网络模型实现;其中:
训练阶段:在每次训练迭代期间,对于给定的源图像及对应的源语义分割图像,进行相同的随机扩充操作,获得对应的增强图像和增强语义分割图像;对于源语义分割图像及增强语义分割图像通过相同的编码器提取出各自的特征张量,再通过生成器中的语义特征转换模块基于两个特征张量预测图像域中的变换参数,从而变换参数的指导下结合源图像生成目标图像;目标图像将分别输入至鉴别器与辅助分类器,各自预测目标图像与增强图像的得分图以及目标图像对应的目标语义分割图像;利用目标图像与源图像之间的外观相似度损失、基于得分图得到的目标图像与增强图像特征匹配损失、以及目标语义分割图像与增强语义分割图像之间的语义对齐损失构建总损失函数进行训练;
推断阶段:将源图像及对应的源语义分割图像、以及指定的语义分割图像输入至语义图像类比网络,输出与指定的语义分割图像相同语义布局的图像。


2.根据权利要求1所述的一种基于单图像生成对抗网络的语义图像类比方法,其特征在于,所述随机扩充操作包括如下操作中的一种或多种的结合:随机翻转、大小调整、旋转和裁剪中。


3.根据权利要求1所述的一种基于单图像生成对抗网络的语义图像类比方法,其特征在于,所述通过生成器中的语义特征转换模块基于两个特征张量预测图像域中的变换参数包括:对于源语义分割图像的特征张量Fsource以及增强语义分割图像的特征张量Faug进行逐元素作比和作差,得到的特征缩放张量Fscale和特征移位张量Fshift用于后续下采样阶段;对于第l个下采样阶段,计算:






其中,分别为第l个下采样阶段中从特征张量Faug、特征张量Fsource提取出的特征张量;
使用特征缩放张量和特征移位张量来作为分割图变换的缩放因子和移位因子,使用两个语义特征转换模块对从分割域到图像域的转换过程进行建模,分别处理和得到图像域的缩放因子和移位因子


4.根据权利要求3所述的一种基于单图像生成对抗网络的语义图像类比方法,其特征在于,生成器中的第l+1个下采样阶段,输出特征张量由下式得到:


...

【专利技术属性】
技术研发人员:熊志伟李家丞刘东
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1