一种无监督多模态对抗自编码的图像生成方法及框架技术

技术编号:21954633 阅读:48 留言:0更新日期:2019-08-24 18:37
本发明专利技术公开了一种无监督多模态对抗自编码的图像生成方法及框架,包括步骤:S1、输入一组共n个同域的图像数据,它们来自于相同的数据分布,彼此共享部分公有属性,且各自拥有一些差异属性;S2、将输入的图像数据分别传入到可变属性编码器和固有属性编码器中,解耦出数据的固有属性编码和可变属性编码;S3、在无监督条件下,将可变属性编码及其相应的对抗网络进行对抗学习,以求解出可变属性编码的先验分布空间;S4、在无监督条件下,随机从可变属性编码的先验分布空间中采样,并联合固有属性编码通过解码器,完成单一域数据的多模态翻译,实现多属性的变换并生成对应的图像。本发明专利技术可有效解耦域内数据的公共属性和可变属性,并生成其多模态变换。

An unsupervised multi-modal countermeasure self-coding image generation method and framework

【技术实现步骤摘要】
一种无监督多模态对抗自编码的图像生成方法及框架
本专利技术涉及计算机视觉、计算机图形学与机器学习的
,尤其是指一种无监督多模态对抗自编码的图像生成方法及框架。
技术介绍
随着深度学习技术和图像生成技术的不断发展,图像翻译领域涌现出大量优秀工作,应用于图像着色、超分辨率生成、风格转换等各个方面。当前来看,现有的图像翻译工作都建立在跨域数据的基础之上,需要明确给定两个或多个不同的图像域,而在工业设计领域,可能需要根据一个已有设计自动变换其色彩、光照等属性;在虚拟家居等领域也可能需要依据一定角度摆放不同类型的椅子、沙发等。在这些应用中,并无明显可定义的跨域数据,变换数据间具有既定的公共属性,又同时具备需要变换的差异性属性,现有的跨域数据翻译无法满足这些需求。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,针对单一域数据的一对多图像翻译需求,提出了一种无监督多模态对抗自编码的图像生成方法及框架,可有效解耦域内数据的公共属性和可变属性,并生成其多模态变换。在无监督数据的前提下,解码这些数据的共有属性,并识别差异性属性,实现输入图像的多模态生成,即保留共有属性的同时完成差异性属性的多样化变换。为实现上述目的,本专利技术所提供的技术方案如下:一种无监督多模态对抗自编码的图像生成方法,包括以下步骤:S1、输入一组共n个同域的图像数据,它们来自于相同的数据分布,彼此共享部分公有属性,且各自拥有一些差异属性;S2、将输入的图像数据分别传入到可变属性编码器和固有属性编码器中,解耦出数据的固有属性编码和可变属性编码;S3、在无监督条件下,将可变属性编码及其相应的对抗网络进行对抗学习,以求解出可变属性编码的先验分布空间;S4、在无监督条件下,随机从可变属性编码的先验分布空间中采样,并联合固有属性编码通过解码器,完成单一域数据的多模态翻译,实现多属性的变换并生成对应的图像。在步骤S1中,相同的数据分布指的是数据的来源具有一致性;差异属性指的是在图像中,同一个物体在不同季节、不同光照、不同时间和不同角度下产生的变化。在步骤S2中,可变属性编码器将数据间的差异属性作为可变属性,采用卷积、全局池化、再卷积的设计模式,提取图像特征并编码,记为可变属性编码EV;其中,所述卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;紧随其后的是全局池化层和1*1再卷积层,都旨在提取图像的高度抽象特征。在步骤S2中,固有属性编码器将数据间的公有属性作为固有属性,采用卷积、下采样、残差块的设计模式,提取图像特征并编码,记为固有属性编码EI;其中,所述卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;所述下采样的作用是降低特征维度,减少冗余信息;而最后的残差块设计为一种实例正则化密集残差块,目的是确保语义特征不变的前提下保留更加丰富的细节特征。在步骤S3中,对抗网络由(256,64,16,1)连续四个全连接层组成,将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布,从正态分布中随机采样的噪声数据所对应的分布为后验分布,从先验分布和后验分布中随机采样相同维度的数据送入对抗网络中,最后输出为0或1的二分类结果;后验分布是已经知道的正态分布,通过对抗网络,当先验分布和后验分布的对抗学习达到平衡后,先验分布能够近似等价为后验分布。在步骤S4中,解码器以可变属性编码器提取的可变属性编码EV为输入,先后通过1*1*8、1*1*256和1*1*256的3个多层感知机MLP,将可变属性编码映射为256维特征,并连同固有属性编码共同输入自适应正则化AdaIn层;设可变属性特征为xv,固有属性特征为xI,通过MLP得到的参数为δ(*)和μ(*),则AdaIn层通过下面公式完成两种属性的融合:然后,利用最近邻插值算法实现融合特征的上采样,并送入5*5卷积层完成最终解码,输出生成图像。一种无监督多模态对抗自编码的图像生成框架,包括固有属性编码器、可变属性编码器、解码器和对抗网络,其中:所述固有属性编码器用于在无监督多模态对抗自编码中,以同域内的一组数据为输入,将数据间的公有属性作为固有属性,提取图像特征并编码,记为固有属性编码EI;所述固有属性编码器采用卷积、下采样、残差块的设计模式,所述卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;所述下采样的作用是降低特征维度,减少冗余信息;而最后的残差块设计为一种实例正则化密集残差块,目的是确保语义特征不变的前提下保留更加丰富的细节特征;所述可变属性编码器以同域内的一组数据为输入,将数据间的差异属性作为可变属性,提取图像特征并编码,记为可变属性编码EV;所述可变属性编码器采用卷积、全局池化、卷积的设计模式,卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;紧随其后的是全局池化层和1*1再卷积层,都旨在提取图像的高度抽象特征;所述对抗网络由(256,64,16,1)连续四个全连接层组成,将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布,从正态分布中随机采样的噪声数据所对应的分布为后验分布,从先验分布和后验分布中均随机采样相同维度的数据送入对抗网络中,最后输出为0或1的二分类结果,后验分布是已经知道的正态分布,通过对抗网络,当先验分布和后验分布的对抗学习达到平衡后,先验分布能够近似等价为后验分布;所述解码器以可变属性编码EV为输入,先后通过1*1*8、1*1*256和1*1*256的3个多层感知机MLP,将可变属性编码映射为256维特征,并连同固有属性编码共同输入自适应正则化AdaIn层;设可变属性特征为xv,固有属性特征为xI,通过MLP得到的参数为δ(*)和μ(*),则AdaIn层通过下面公式完成两种属性的融合:然后,利用最近邻插值算法实现融合特征的上采样,并送入5*5卷积层完成最终解码,输出生成图像。本专利技术与现有技术相比,具有如下优点与有益效果:1、提出了一种无监督多模态对抗自编码的图像生成方法及框架,实现了单一域数据的多模态图像翻译。2、提出了可变属性编码器和固有属性编码器,通过提供不同类型的单域数据,可自动捕捉其公共属性和差异性属性,灵活支持色彩、光照、图像内容等各种属性的多模态变换。3、提出了一种实例正则化密集残差块,在确保语义特征不变的前提下,可使生成图像保留更加丰富的细节特征。4、同样支持有监督数据的多模态变换,且可生成语义标签一致、固有属性和可变属性联合变换的多样化图像。附图说明图1为本专利技术的整体架构图;图中,VariableAttributeEncoder为可变属性编码器,InherentAttributeEncoder为固有属性编码器。图2为本专利技术的固有属性编码器、可变属性编码器架构图;图中,Conv为卷积,Relu为非线性激活函数,Pooling为池化,IN本文档来自技高网...

【技术保护点】
1.一种无监督多模态对抗自编码的图像生成方法,其特征在于,包括以下步骤:S1、输入一组共n个同域的图像数据,它们来自于相同的数据分布,彼此共享部分公有属性,且各自拥有一些差异属性;S2、将输入的图像数据分别传入到可变属性编码器和固有属性编码器中,解耦出数据的固有属性编码和可变属性编码;S3、在无监督条件下,将可变属性编码及其相应的对抗网络进行对抗学习,以求解出可变属性编码的先验分布空间;S4、在无监督条件下,随机从可变属性编码的先验分布空间中采样,并联合固有属性编码通过解码器,完成单一域数据的多模态翻译,实现多属性的变换并生成对应的图像。

【技术特征摘要】
1.一种无监督多模态对抗自编码的图像生成方法,其特征在于,包括以下步骤:S1、输入一组共n个同域的图像数据,它们来自于相同的数据分布,彼此共享部分公有属性,且各自拥有一些差异属性;S2、将输入的图像数据分别传入到可变属性编码器和固有属性编码器中,解耦出数据的固有属性编码和可变属性编码;S3、在无监督条件下,将可变属性编码及其相应的对抗网络进行对抗学习,以求解出可变属性编码的先验分布空间;S4、在无监督条件下,随机从可变属性编码的先验分布空间中采样,并联合固有属性编码通过解码器,完成单一域数据的多模态翻译,实现多属性的变换并生成对应的图像。2.根据权利要求1所述的一种无监督多模态对抗自编码的图像生成方法,其特征在于:在步骤S1中,相同的数据分布指的是数据的来源具有一致性;差异属性指的是在图像中,同一个物体在不同季节、不同光照、不同时间和不同角度下产生的变化。3.根据权利要求1所述的一种无监督多模态对抗自编码的图像生成方法,其特征在于:在步骤S2中,可变属性编码器将数据间的差异属性作为可变属性,采用卷积、全局池化、再卷积的设计模式,提取图像特征并编码,记为可变属性编码EV;其中,所述卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;紧随其后的是全局池化层和1*1再卷积层,都旨在提取图像的高度抽象特征。4.根据权利要求1所述的一种无监督多模态对抗自编码的图像生成方法,其特征在于:在步骤S2中,固有属性编码器将数据间的公有属性作为固有属性,采用卷积、下采样、残差块的设计模式,提取图像特征并编码,记为固有属性编码EI;其中,所述卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;所述下采样的作用是降低特征维度,减少冗余信息;而最后的残差块设计为一种实例正则化密集残差块,目的是确保语义特征不变的前提下保留更加丰富的细节特征。5.根据权利要求1所述的一种无监督多模态对抗自编码的图像生成方法,其特征在于:在步骤S3中,对抗网络由(256,64,16,1)连续四个全连接层组成,将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布,从正态分布中随机采样的噪声数据所对应的分布为后验分布,从先验分布和后验分布中随机采样相同维度的数据送入对抗网络中,最后输出为0或1的二分类结果;后验分布是已经知道的正态分布,通过对抗网络,当先验分布和后验分布的对抗学习达到平衡后,先验分布能够近似等价为后验分布。6.根据权利要求1所述的一种无监督多模态对抗自编码的图像生成方法,其...

【专利技术属性】
技术研发人员:白静陈冉姬卉李赛赛
申请(专利权)人:北方民族大学
类型:发明
国别省市:宁夏,64

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1