当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于因素分解的从文本到图像的跨模态生成方法技术

技术编号:38253306 阅读:7 留言:0更新日期:2023-07-27 10:18
本发明专利技术属于基于AI的生成内容技术领域,具体为基于因素分解的从文本到图像的跨模态生成方法。本发明专利技术使用基于因素分解的生成对抗网络;将文本条件控制和随机噪声解耦分开处理,即将两者以不同方式输入到基于因素分解的生成对抗网络中:将随机噪声直接输入到生成对抗网络中,将文本条件控制通过基于加法的实例正则化层嵌入到生成网络中,实现文本条件控制和随机噪声相解耦;生成对抗网络包含基于因素分解的基础生成器和基于注意力增强的超分模块,以及基于因素分解的联合判别器,联合判别器用于对生成模型的输出进行判别,从而优化生成模型。本发明专利技术在现有技术基础上可实现更好的条件控制生成和合成性能。控制生成和合成性能。控制生成和合成性能。

【技术实现步骤摘要】
一种基于因素分解的从文本到图像的跨模态生成方法


[0001]本专利技术属于基于AI的生成内容
,具体涉及从文本到图像的跨模态生成方法。

技术介绍

[0002]基于人工智能的内容创作(AI based Generative Content,AIGC)使用生成模型,特别是跨模态生成模型,从文本描述或者纹理图中生成逼真的图像。常用的跨模态生成模型有生成对抗网络(Generative Adversarial Nets,GAN)和扩散模型(Diffusion Model)。AIGC相关技术可以被应用在媒体和出版,设计和制图,在线教育,游戏开发等多个领域,降低创作门槛,提升创作效率。
[0003]基于GAN的文本到图像跨模态生成,通常将文本编码为一个特征向量,然后将其与一个随机噪声拼接起来,实现生成图像和输入文本语义一致的同时,生成的图像也有一定的多样性。但是,这种方法将输入条件和随机噪声耦合在一起,造成生成图像语义控制对应关系模糊。例如在CUB数据集上,语义条件通常对应于生成的鸟类图像的表观,例如鸟的品种、不同部位的颜色等。而随机噪声往往对应于生成鸟类的姿态。但是将文本条件输入和噪声向量简单拼接会造成会将这两种控制输入耦合在一起,不利于生成结果的解耦和控制。

技术实现思路

[0004]本专利技术的目的在于提供一种能够更好的实现生成控制和合成性能的基于因素分解的从文本到图像的跨模态生成方法。
[0005]本专利技术提出的基于因素分解的从文本到图像的跨模态生成方法,使用基于因素分解的生成对抗网络;将文本条件控制和随机噪声解耦分开处理,即将两者以不同方式输入到基于因素分解的生成对抗网络中:将随机噪声直接输入到生成对抗网络中,将文本条件控制通过基于加法的实例正则化层中基于加法的实例归一化方法,嵌入到生成网络中,从而实现将文本条件控制和随机噪声相解耦的效果。在公开数据集上的实验结果也表明,这种解耦输入的方式可以实现更好的生成控制和合成性能。
[0006]本专利技术中,使用的基于因素分解的生成对抗网络,其结构见图1所示。基于因素分解的生成对抗网络(Factor Decomposed Generative Adversarial Nets,FDGAN)包含基于因素分解的基础生成器和基于注意力增强的超分模块。同时还包括基于因素分解的联合判别器,用于对生成模型的输出进行判别,从而更好地优化生成模型。
[0007]基于因素分解的基础生成器,是一个多层转置卷积网络;其输入是一个高斯采样的随机噪声,经过多层转置卷积得到空域分辨率为64x64的特征h0,在转置卷积过程中,将文本视觉描述的句子级特征嵌入到转置卷积层中;注意力增强的超分模块,以h0为输入,通过一个生成模块G0得到分辨率为64x64的输出图像;h0经过两个卷积块和一个上采样层得到h1,从h1中得到分辨率为128x128的输出图像;h1经过两个卷积块和一个上采样层得到h2,从h2中得到分辨率为256x256的输出图像。分辨率从低到高过程中,通过注意力机制F
iAttn
将文
本视觉描述的词语级特征嵌入到超分生成过程中;具体过程为:
[0008]对于文本输入的词语特征e和前一层的隐藏层特征h,先经过一个新的感知层U,得到词语特征e在语义空间的表示e

=Ue。隐藏层特征h由一系列子区域的表示组成h={h1,h2...h
N
},对于第j个子区域的跨模态注意力机制的上下文向量c
j
由下式得出:
[0009][0010]其中:
[0011][0012]β
ji
表示文本中第i个词和图像隐藏层特征第j个子区域之间的注意力权重。跨模态上下文注意力机制可以表示为:
[0013]F
attn
(e,h)=(c0,c1,...c
N
‑1),
[0014]其中,N表示图像隐藏层特征h的子区域的个数。
[0015]三个分辨率的生成图像分别经过一个图像判别器,通过梯度反向传播对生成模型进行判别优化;同时针对256x256分辨率的生成图像,使用深度注意力多模态相似度模型(Deep Attentional Multimodal Similarity Model,DAMSM)
[1]对整个生成模型进行优化。其中判别器使用基于因素分解的联合判别器,同时对生成数据的有条件分布和无条件分布进行判别优化,其中第i个判别器对生成模型的损失为:
[0016][0017]本专利技术中,所述基于加法的实例正则化层中,基于加法的实例正则化方法,式在现有自适应实例正则化方法基础上,通过分析跨模态生成的噪声特点,采用的新的实例归一化方法;具体说明如下:
[0018]最基础的实例归一化方法表示为:
[0019][0020]其中,γ和β是可学习的仿射变换参数,u(x)和σ(x)分别表示对输入特征x的每一通道计算均值和方差:
[0021][0022][0023]其中,ε是一个避免除数为零的正常数,H和W分别表示图像的高和宽,下标nchw分别表示四维特征每一维的含义:样本个数、通道数、空域高度和空域宽度。
[0024]在实例归一化方法的基础上,采用自适应实例归一化方法:
[0025][0026]其中,y是用于引导风格迁移的风格图像。
[0027]本专利技术针对跨模态生成中的条件随机扰动,采用新的实例归一化方法:基于加法的实例归一化方法,其表达式:
[0028][0029]其中,c是条件特征,T
c
是对齐条件特征c和数据x的变换,u
nc
(x)和σ
nc
(x)分别表示x在样本维度和通道维度的均值和方差。该归一化方法在高斯扰动假设下可以减少扰动对条件控制的影响,实现更准确的条件控制生成。
[0030]本专利技术与现有技术相比所具有的特点和优势:
[0031]本专利技术在现有的技术基础上实现了更好的条件控制生成,能够将文本条件和随机噪声所对应的控制因素更好地解耦开,实现更精确的文本条件控制生成。同时,通过本专利技术公开的生成网络结构,也可以使基于生成对抗网络的文本到图像跨模态生成模型更加高效。
[0032]参考文献:
[0033][1]Xu T,Zhang P,Huang Q,et al.Attngan:Fine

grained text to image generation with attentional generative adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2018:1316

1324.
[0034][2]Wah C,Branson S,Welinder P,et al.The caltech

uc本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于因素分解的从文本到图像的跨模态生成方法,其特征在于,使用基于因素分解的生成对抗网络;将文本条件控制和随机噪声解耦分开处理,即将两者以不同方式输入到基于因素分解的生成对抗网络中:将随机噪声直接输入到生成对抗网络中,将文本条件控制通过基于加法的实例正则化层中基于加法的实例归一化方法嵌入到生成网络中,实现文本条件控制和随机噪声相解耦;其中,基于因素分解的生成对抗网络(FDGAN)包含基于因素分解的基础生成器和基于注意力增强的超分模块,以及基于因素分解的联合判别器,联合判别器用于对生成模型的输出进行判别,从而优化生成模型;所述基础生成器,是一个多层转置卷积网络;其输入是一个高斯采样的随机噪声,经过多层转置卷积得到空域分辨率为64x64的特征h0,在转置卷积过程中,将文本视觉描述的句子级特征嵌入到转置卷积层中;所述注意力增强的超分模块,以h0为输入,通过一个生成模块G0得到分辨率为64x64的输出图像;h0经过两个卷积块和一个上采样层得到h1,从h1中得到分辨率为128x128的输出图像;h1经过两个卷积块和一个上采样层得到h2,从h2中得到分辨率为256x256的输出图像;分辨率从低到高过程中,通过注意力机制将文本视觉描述的词语级特征嵌入到超分生成过程中;具体过程为:对于文本输入的词语特征e和前一层的隐藏层特征h,先经过一个新的感知层U,得到词语特征e在语义空间的表示e

=Ue,隐藏层特征h由一系列子区域的表示组成h={h1,h2...h
N
},对于第j个子区域的跨模态注意力机制的上下文向量c
j

【专利技术属性】
技术研发人员:黎吉国邹卓郑立荣
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1