一种基于联合嵌入的文本到多对象图像生成方法技术

技术编号:29491172 阅读:30 留言:0更新日期:2021-07-30 19:03
本发明专利技术公开的一种基于联合嵌入的文本到多对象图像生成方法,属于从文本到图像的跨模态生成领域。本发明专利技术实现方法为:将文本描述输入到语义编码器中得到文本和图像的联合语义特征,将文本输入到空间布局编码器中得到文本和分割图的联合空间特征,联合语义特征和空间特征都包含句子级和单词级。使用动态融合模块分别融合单词级特征和句子级特征。将融合得到的句子级特征喂入生成式对抗网络中的初始生成器中,生成低分辨率图像,将融合得到的单词级特征喂入到后续生成器中,生成精细高分辨率图像。构建由多对生成器和判别器组成的级联生成式对抗网络,并通过设计损失函数在数据集上训练生成对抗网络,使用训练得到的生成器生成对应图像。

【技术实现步骤摘要】
一种基于联合嵌入的文本到多对象图像生成方法
本专利技术涉及一种基于联合嵌入的文本到多对象图像生成方法,属于从文本到图像的跨模态生成领域。
技术介绍
在我们的日常生活中,大多数情况下我们并不能依靠单一的数据形式来传递一些信息,我们通常需要结合多种模态数据来表达。例如,当我们描述一件事物时,我们通常用文本辅助图像的形式来阐述。然而,这种成对匹配的数据却需要花费大量的财力和精力去收集。生成问题不同于检索问题,检索的资源都是已经存在的数据,而生成更倾向于创造数据。收集相对应的文本和图像并不是轻松的工作,文本到图像生成研究帮助解决这些问题。书本上晦涩难懂的文字经常让缺乏想象力的学生感到痛苦,我们希望借助深度学习方法为这些文本配置匹配的图像或三维场景,结合文本、对应的图像以及三维场景帮助学生更加深刻地理解这些知识。根据文本描述生成相对应的图像,是一项富有挑战和意义的研究。对于跨模态生成问题来说,关键在于联合特征的提取和生成模型的设计。正如在文本生成图像任务中,文本和图像是两种不同模态的数据,如何从输入中得到文本与图像的联合特征以及如何设计合理的模型本文档来自技高网...

【技术保护点】
1.一种基于联合嵌入的文本到多对象图像生成方法,其特征在于:包括如下步骤,/n步骤1:将文本描述输入到语义编码器中得到文本和图像的联合语义特征,语义编码器由语义编码器架构中预训练得到的文本编码器实现;/n步骤1中所述的语义编码器架构中包含一个文本编码器和一个图像编码器;在语义编码器架构中使用预训练得到的图像编码器引导训练文本编码器,通过训练得到的文本编码器能够从文本中提取得到文本和图像的联合语义特征;/n步骤2:将文本输入到空间布局编码器中得到文本和分割图的联合空间特征,空间布局编码器由空间编码器架构中预训练得到的文本编码器实现;/n步骤2中所述的空间编码器架构由一个文本编码器和一个分割图编码...

【技术特征摘要】
1.一种基于联合嵌入的文本到多对象图像生成方法,其特征在于:包括如下步骤,
步骤1:将文本描述输入到语义编码器中得到文本和图像的联合语义特征,语义编码器由语义编码器架构中预训练得到的文本编码器实现;
步骤1中所述的语义编码器架构中包含一个文本编码器和一个图像编码器;在语义编码器架构中使用预训练得到的图像编码器引导训练文本编码器,通过训练得到的文本编码器能够从文本中提取得到文本和图像的联合语义特征;
步骤2:将文本输入到空间布局编码器中得到文本和分割图的联合空间特征,空间布局编码器由空间编码器架构中预训练得到的文本编码器实现;
步骤2中所述的空间编码器架构由一个文本编码器和一个分割图编码器组成;在空间编码器架构中使用预训练得到的分割图编码器引导训练文本编码器,通过训练得到的文本编码器能够从文本中提取得到文本和分割图的联合空间布局特征;
步骤3:通过动态融合模块融合步骤1得到的语义特征和步骤2得到的空间特征,所述的语义特征和空间特征包含句子级特征和单词级特征;融合得到的句子级特征被喂入生成式对抗网络中的初始生成器中,生成低分辨率图像;融合得到的单词级特征则被用于生成式对抗网络中的后续生成器中,约束高分辨率图像的生成;
步骤4:将步骤3中融合得到的句子级特征送入到级联生成式对抗网络中的初始生成器中,生成低分辨率图像;使用注意力模块处理步骤2中得到的单词级语义特征和空间特征,得到单词级注意语义特征和注意空间特征;使用步骤3计算的方式来计算单词级注意语义-空间约束;将上一阶段生成器生成的图像特征和单词级注意语义-空间约束一起送入后续生成器中,生成更加精细的高分辨率图像;
步骤5:构建由多对生成器和判别器组成的级联生成式对抗网络,并通过设计损失函数在数据集上训练生成对抗网络,即训练得到损失函数最小化的生成对抗网络;
步骤6:使用步骤3融合步骤1和步骤2得到的单词特征和句子特征,按照步骤4所述方式喂入到级联生成式对抗网络中,使用步骤5所述方式训练生成器,训练得到的生成器能够生成不同分辨率图像。


2.如权利要求1所述的一种基于联合嵌入的文本到多对象图像生成方法,其特征在于:还包括步骤7,将步骤6生成的符合文本描述的图像,应用于跨模态生成领域中,解决相关工程技术问题;
步骤7所述相关工程技术问题包括多媒体教育资源构建、图像编辑和计算机教学辅助。


3.如权利要求1或2所述的一种基于联合嵌入的文本到多对象图像生成方法,其特征在于:语义编码器架构中通过训练得到的文本编码器能够从文本中提取得到文本和图像的联合语义特征,实现方法为:预先在ImageNet数据集上训练图像编码器,训练得到的图像编码器能够从图像中得到图像语义特征;通过最小化文本特征与语义特征之间的距离,能够迫使文本编码器从文本中提取得到文本和图像的联合语义特征;考虑到在ImageNet数据集上预训练的图像编码器并不完全适用于其他数据集,所以在优化文本编码器的同时,也在通过最小化文本特征与图像语义特征之间的距离不断优化图像编码器的部分网络层,两个编码器同步训练、优化,直到能够从文本中提取得到文本和图像的联合语义特征;所述的文本特征包含句子级特征eI和单词级特征wI,所述的图像语义特征也包含全局特征gI和局部特征vI;因此,所述的文本特征和语义特征之间的距离也包含句子级别和单词级别;
使用单词级损失和句子级损失优化语义编码器架构,其中语义编码器架构损失函数LI被定义如下:



使用配对的图像全局语义特征gI和文本句子特征eI之间的点积计算句子级损失,语义编码器架构中的句子级损失被定义为:



为了计算单词级别损失引用DAMSM(DeepAttentionalMultimodalSimilarityModel)中计算文本和图像相似度的方法计算文本特征和图像语义特征在单词级别上的相似度,具体实现方法为:
计算得到文本中的单词与图像子区域的相似矩阵s:



其中,wI表示文本的单词特征,vI表示图像的子区域特征;
通过相似矩阵s计算可以得到单词与图像块之间的相似程度,代表第i个单词与第j个图像块的相似程度,其中T代表文本中的单词个数;



通过引入一个注意力模块,为文本中的每个单词计算得到一个区域上下文向量所述区域上下文向量是句子中第i个单词关联的图像子区域的动态表示,是所有图像子区域视觉特征的加权总和,计算公式如下所示:



其中,N代表图像的子区域块个数,代表图像的第j个子区域特征,使用区域上下文向量与单词向量来计算文本和图像局部特征之间的相似度;公式如下所示:



其中,计算第i个单词关联的图像子区域的区域上下文向量和第i个单词的单词特征的余弦相似度;训练得到的文本编码器能够从文本中提取得到文本和图像的联合语义特征。


4.如权利要求3所述的一种基于联合嵌入的文本到多对象图像生成方法,其特征在于:空间编码器架构中通过训练得到的文本编码器能够从文本中提取得到文本和分割图的联合空间布局特征,实现方法为:预先在ImageNet数据集上训练分割图编码器,训练得到的分割图编码器能够从分割图中得到空间布局特征;通过最小化文本特征与分割图特征之间的距离,能够迫使文本编码器从文本中提取得到文本和分割图的联合空间布局特征;考虑到在ImageNet数据集上预训练的分割图编码器并不完全适用于其他数据集,所以在优化文本编码器的同时,也在通过最小化文本特征与分割图特征之间的距离不断优化分割图编码器的部分网络层,两个编码器同步训练、优化,直到能够从文本中提取得到文本和分割图的联合空间布局特征;所述的文本特征包含句子级特征eS和单词级特征wS,所述的空间布局特征也包含全局特征gS和局部特征vS;因此,所述的文本特征和空间布局特征之间的距离也包含句子级别的距离和单词级别的距离;
使用单词级损失和句子级损失优化空间布局编码器架构,空间编码器架构损失函数LS被定义如下:



使用配对的分割图全局空间特征gS和文本句子特征eS之间的点积计算句子级损失,空间编码器架构中的句子级损失被定义为:



为了计算单词级别损失引...

【专利技术属性】
技术研发人员:余月王孟岚杨越
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1