一种基于因素分解的从文本到图像的跨模态生成方法技术

技术编号：38253306 阅读：7 留言：0更新日期：2023-07-27 10:18

本发明专利技术属于基于AI的生成内容技术领域，具体为基于因素分解的从文本到图像的跨模态生成方法。本发明专利技术使用基于因素分解的生成对抗网络；将文本条件控制和随机噪声解耦分开处理，即将两者以不同方式输入到基于因素分解的生成对抗网络中：将随机噪声直接输入到生成对抗网络中，将文本条件控制通过基于加法的实例正则化层嵌入到生成网络中，实现文本条件控制和随机噪声相解耦；生成对抗网络包含基于因素分解的基础生成器和基于注意力增强的超分模块，以及基于因素分解的联合判别器，联合判别器用于对生成模型的输出进行判别，从而优化生成模型。本发明专利技术在现有技术基础上可实现更好的条件控制生成和合成性能。控制生成和合成性能。控制生成和合成性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于因素分解的从文本到图像的跨模态生成方法

[0001]本专利技术属于基于AI的生成内容
，具体涉及从文本到图像的跨模态生成方法。

技术介绍

[0002]基于人工智能的内容创作(AI based Generative Content,AIGC)使用生成模型，特别是跨模态生成模型，从文本描述或者纹理图中生成逼真的图像。常用的跨模态生成模型有生成对抗网络(Generative Adversarial Nets,GAN)和扩散模型(Diffusion Model)。AIGC相关技术可以被应用在媒体和出版，设计和制图，在线教育，游戏开发等多个领域，降低创作门槛，提升创作效率。
[0003]基于GAN的文本到图像跨模态生成，通常将文本编码为一个特征向量，然后将其与一个随机噪声拼接起来，实现生成图像和输入文本语义一致的同时，生成的图像也有一定的多样性。但是，这种方法将输入条件和随机噪声耦合在一起，造成生成图像语义控制对应关系模糊。例如在CUB数据集上，语义条件通常对应于生成的鸟类图像的表观，例如鸟的品种、不同部位的颜色等。而随机噪声往往对应于生成鸟类的姿态。但是将文本条件输入和噪声向量简单拼接会造成会将这两种控制输入耦合在一起，不利于生成结果的解耦和控制。

技术实现思路

[0004]本专利技术的目的在于提供一种能够更好的实现生成控制和合成性能的基于因素分解的从文本到图像的跨模态生成方法。
[0005]本专利技术提出的基于因素分解的从文本到图像的跨模态生成方法，使用基于因素分解的生成对抗网...

【技术保护点】

【技术特征摘要】
1.一种基于因素分解的从文本到图像的跨模态生成方法，其特征在于，使用基于因素分解的生成对抗网络；将文本条件控制和随机噪声解耦分开处理，即将两者以不同方式输入到基于因素分解的生成对抗网络中：将随机噪声直接输入到生成对抗网络中，将文本条件控制通过基于加法的实例正则化层中基于加法的实例归一化方法嵌入到生成网络中，实现文本条件控制和随机噪声相解耦；其中，基于因素分解的生成对抗网络(FDGAN)包含基于因素分解的基础生成器和基于注意力增强的超分模块，以及基于因素分解的联合判别器，联合判别器用于对生成模型的输出进行判别，从而优化生成模型；所述基础生成器，是一个多层转置卷积网络；其输入是一个高斯采样的随机噪声，经过多层转置卷积得到空域分辨率为64x64的特征h0，在转置卷积过程中，将文本视觉描述的句子级特征嵌入到转置卷积层中；所述注意力增强的超分模块，以h0为输入，通过一个生成模块G0得到分辨率为64x64的输出图像；h0经过两个卷积块和一个上采样层得到h1，从h1中得到分辨率为128x128的输出图像；h1经过两个卷积块和一个上采样层得到h2，从h2中得到分辨率为256x256的输出图像；分辨率从低到高过程中，通过注意力机制将文本视觉描述的词语级特征嵌入到超分生成过程中；具体过程为：对于文本输入的词语特征e和前一层的隐藏层特征h，先经过一个新的感知层U，得到词语特征e在语义空间的表示e
′
＝Ue，隐藏层特征h由一系列子区域的表示组成h＝{h1，h2...h
N
}，对于第j个子区域的跨模态注意力机制的上下文向量c
j

【专利技术属性】
技术研发人员：黎吉国，邹卓，郑立荣，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人