一种基于生成对抗网络的无监督多模态图像转换方法技术

技术编号:29405888 阅读:165 留言:0更新日期:2021-07-23 22:44
一种基于生成对抗网络的无监督多模态图像转换方法,包括以下步骤:1)同时输入属于A域图像x

【技术实现步骤摘要】
一种基于生成对抗网络的无监督多模态图像转换方法
本专利技术属于深度学习中的生成对抗网络领域,并引入了注意力机制,是一种实现了无监督多模态图像转换的方法。
技术介绍
深度学习是机器学习的子领域,它使用了多层次的非线性信息处理和抽象,用于有监督、无监督、半监督、自监督、弱监督等的特征学习、表示、分类、回归和模式识别等。近年来,深度神经网络在监督学习中取得了巨大的成功,此外,深度学习模型在无监督、混合和强化学习方面也非常成功。因为缺乏足够的先验知识,因此难以人工标注或标注成本太高,我们希望计算机能够代替我们完成这些工作或提供一些帮助,因此无监督学习在近些年获得了很大的发展,这也是深度学习领域未来发展的方向。深度学习技术也越来越受到研究者的重视,并已成功地应用于许多实际应用中。而在生成对抗网络(GAN)的应用方面,近年来也是深度学习领域中一个热门的研究课题,也是迄今为止最成功的生成模型。2014年至今,人们对GAN进行了广泛的研究,并提出了大量算法,GAN由两个网络组成:一个生成器合一个判别器,分别负责伪造图片和识别图片真假。生成器产生图像的目的是诱使判别器相信它们是真实的,同时,判别器会因为发现假图片而获得奖励。通过两者的相互博弈,共同提高性能。GAN在图像处理与计算机视觉、自然语言处理、语音与音频、医学以及数据科学中都有着广泛的应用。近几年,注意力机制不管在自然语言处理还是在计算机视觉领域中,都是热门的研究方向。许多学者也提出了若干种注意力机制来提高模型的相关任务的性能。计算机视觉中的注意力机制的基本思想是想让模型学会注意力,即能够忽略无关信息而关注重点信息。图像的跨域转换是近些年新兴起的一种基于深度学习的技术,它也伴随着深度学习发展的而发展迅速。图像跨域转换旨在学习将图像从一个域转换到另一个域的映射。而传统方法只能做到对底层特征的提取,而卷积神经网络能够对图像特征的高层特征的提取,使得图像内容与域风格分离提供了可行性。从目前相关领域的研究现状来说,目前的图像转换算法主要分为两大类,一种是基于匹配数据的图像转换算法,另一种是基于非匹配数据的图像转换算法。具体来说,数据的匹配指的是从内容角度来看,两张图像具有一致的内容属性,但是从域风格角度来看,两者属于不同的风格域。根据目前的研究结果,基于匹配数据集的算法实验效果更优,但是匹配的数据集稀少,获取难度大也是不可忽视的问题,这也导致基于匹配数据集的风格转换算法应用的范围较小,这也促使基于非匹配数据的无监督图像转换算法成为了众多研究者进行研究的侧重点。目前的非匹配数据算法存在着图像细节不够清晰,边缘形状发生改变以及训练较为困难等问题。而本专利技术利用编解码器,对图像进行拆分重组操作,对拆分的内容编码进行保留,并引入注意力机制使得网络关注于重要区域的细节信息,能够解决上述存在的相关难题。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种基于生成对抗网络的无监督多模态图像转换方法,在没有互相匹配的图像数据情况下,利用深度学习技术,实现将图像的风格所属域进行有效的转换。通过精心设计的网络结构,能够有效地提高转换图像的质量且适应于更广阔的应用场景范围。本专利技术解决其技术问题所采用的技术方案是:一种基于生成对抗网络的无监督多模态图像转换方法,所述方法包括以下步骤:1)输入属于A域的图像xa以及属于B域的图像xb进入图像跨域转换神经网络中进行训练,图像跨域转换神经网络由生成器与判别器组成;2)编码器将图像编码为图像内容编码c以及域风格编码s;3)针对不同的域图像配置不同的域特定编码m;4)将内容编码c、域风格编码s和域特定编码m融合并解码,生成指定目标域图像,若将A域图像xa作为源域,则转换生成B目标域图像xa-→b,若将B域图像xb作为源域,则转换生成A目标域图像xb-→a;5)判别器对生成器生成的图像进行质量评判,区分输入判别器的图像是真实图像或网络生成的假图像;6)将步骤1)~5)不断重复设定的次数,生成器与判别器不断相互博弈,共同提高性能,直到网络收敛。进一步,所述图像跨域转换神经网络利用域特定编码,只使用一个生成网络即可完成多域图像的互相生成转换。对比传统模型需要多个生成网络模型才能完成多域的转换,本方法大大简化了模型与训练过程。更进一步,本专利技术使用的域特定编码命名为mi,mi=xn+v,i为一个指定的域特定编号。其中xn为一个具有50*n元素的一维向量,n为图像域的总个数,且50*n到50*(n+1)-1为元素1,其余位置为元素0。v是一个符合正太分布的高斯噪声,v=N(0,0.2)。利用域特定编码即可在解码阶段作为区分域的标识,输入到解码器,对解码的目标域方向进行控制。更进一步,针对生成器结构,其中包含编码器与解码器的结构,编码器对图像进行编码操作,其中包含两个编码器结构:内容编码器,对图像的内容特征进行编码,生成内容编码;域风格编码器,对图像的域风格特征进行编码,生成域风格编码;解码器对编码器完成的编码进行解码,将内容编码、域风格编码和域特定编码融合,合成对应的目标域图像。编码器通过学习特定风格的分布特点,因此成对匹配的监督数据不是训练必备,实现了无监督训练的特点,减小了数据收集的难度。更进一步,引入了一种注意力机制,将卷积网络提取的特征进行可视化后形成热力图,根据热力图,教会了神经网络能够关注于重要的区域。在生成器以及判别器中都引入了注意力机制,设某一层神经网络提取到的特征图的通道数为n,对应的n张特征图用f1、f2…fn表示,引入的注意力机制为:对每个通道的特征图计算其表示重要性的权重,用表示,且所有的权重和为1,即将每个通道对应的权重与特征图进行加权求和形成热力图,得到卷积网络的特征可视化结果,即注意力机制使网络能够教会神经网络关注于重要的区域,提升细节信息与整体的成像质量。更进一步,判别器本专利技术使用了多尺度判别器来引导生成器生成真实的细节以及正确的全局结构。本专利技术选择了三个尺度来进行判别器的训练,第一尺度为原始输入图像的分辨率,第二与第三尺度分别为原始输入图像分辨率的二分之一与四分之一。本专利技术的有益效果表现在:通过本专利技术,只需一个生成网络即可完成多域的图像转换,相比于传统模型,在完成了一对多转换的同时,也并不需要匹配的监督数据,有着广大的应用场景。附图说明图1为一种基于生成对抗网络的无监督多模态图像转换方法的主要流程机构示意图。图2为一种基于生成对抗网络的无监督多模态图像转换方法中自编码器流程示意图。图3为一种基于生成对抗网络的无监督多模态图像转换方法中自编码器内部结构细节示意图。图4为一种基于生成对抗网络的无监督多模态图像转换方法中注意力机制的方法示意图。图5为一种基于生成对抗网络的无监督多模态图像转换方法中多尺度判别器示意图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1~图5,一种基于生成对抗网络的无监督多模态图像转换方法,将需要互相转换的两本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络的无监督多模态图像转换方法,其特征在于:所述方法包括以下步骤:/n1)输入属于A域的图像x

【技术特征摘要】
1.一种基于生成对抗网络的无监督多模态图像转换方法,其特征在于:所述方法包括以下步骤:
1)输入属于A域的图像xa以及属于B域的图像xb进入图像跨域转换神经网络中进行训练,图像跨域转换神经网络为包含了生成器与判别器的生成对抗网络;
2)编码器将图像拆分编码为图像内容编码c以及域风格编码s;
3)针对不同的域图像配置不同的特定域编码m;
4)将内容编码c、域风格编码s和特定域编码m融合并解码,生成指定目标域图像,若将A域图像xa作为源域,则转换生成B目标域图像xa-→b,若将B域图像xb作为源域,则转换生成A目标域图像xb-→a;
5)判别器对生成器生成的图像进行质量评判,区分输入判别器的图像是真实图像或网络生成的假图像;
6)将步骤1)~5)不断重复设定的次数,生成器与判别器不断相互博弈,共同提高性能,直到网络收敛。


2.如权利要求1所述的一种基于生成对抗网络的无监督多模态图像转换方法,其特征在于:使用分配的域特定编码,仅使用一组生成器即可完成其他目标域图像的生成。


3.如权利要求2所述的一种基于生成对抗网络的无监督多模态图像转换方法,其特征在于:使用的域特定编...

【专利技术属性】
技术研发人员:周乾伟刘一波胡海根李小薪周晨陶俊吴延壮
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1