一种基于多辅助信息下的图像生成方法技术

技术编号:29087191 阅读:28 留言:0更新日期:2021-06-30 09:51
本发明专利技术属于计算机视觉任务下的图像生成领域,提供一种基于多辅助信息下的图像生成方法。本发明专利技术首次利用了多种辅助信息指导模型完成图像生成任务,该生成任务分两阶段完成,在第一阶段模型的输入为场景图信息和文本信息的融合特征,以场景图信息为主,文本信息为辅,以GAN网络模型为原型进行图像生成,生成粗略的图像;第二阶段的模型输入为文本信息和第一阶段的输出,目的是通过使用文本信息丰富图像细节,生成高质量的图像。本发明专利技术通过使用真实数据集进行训练并评估,同时与目前主流的图像生成模型做对比,评估其性能提升。评估其性能提升。评估其性能提升。

【技术实现步骤摘要】
一种基于多辅助信息下的图像生成方法


[0001]本专利技术属于计算机视觉任务下的图像生成领域,涉及一种基于多种辅助信息参与下指导图像生成的方法。

技术介绍

[0002]在日常生产和生活中,这样的场景随处可见:海报设计师不能很好的理解客户的描述,导致客户和海报设计师之间进行长时间的无效沟通,效率低下;案发现场的目击证人会描述出嫌疑人的模样,公安机关需要根据目击证人的描述得到嫌疑人的模样并进行破案;在房屋装修时,根据业主的描述,如果能够快速看到装修结果图,业主对装修方案的满意度也会大大提升。一直以来,人们对审美的要求很多时候都追求图文并茂,图像能够从视觉上给人冲击,展现出文字所不能描述的含义,文字则能从语义层面,用华丽的词藻展现出感官不能感受的文字美丽。只有图文共同出现时,才能从不同的角度呈现出一个场景的全方位的解读。但是在实际生活场景中,很容易获得文字数据、语音数据,在一定程度上比较难获得图像数据,因此,如何在人工智能不断取得新成果的背景下,利用新兴技术的技术形式来展现文字描述的画面,是一个促进生产、提高生活质量的重要研究方向。近些年,机器学习和深度学习不断的发展并在实际应用中取得了较多的成果,各领域不断的进度使得多模态学习的探索和应用也逐步成为人工智能的热点。所谓的多模态学习,即将多模态信息进行融合、映射、迁移、学习等,目前学术领域研究最广泛的是图像和文字之间的交互,比如将一段文字作为输入,输出则是文字对应的图像。根据文本生成图像是多模态学习任务中一个常见的应用,该项研究将会给数据智能领域带来很大的推动力,其落地也会给生产和生活带来极大的便利。
[0003]目前主流的图像生成方法,仅采用了单一的信息参与模型的训练过程。例如,sg2im模型以场景图(scenegraph)信息作为模型的输入,指导进行图像生成;stackGAN,attnGAN等主流模型以文本描述去指导模型生成符合要求的图像。sg2im提出了通过scene graph来建模文本中各对象及其关系,在获得scene graph的基础上对语义中的每个对象得到其bounding box和mask进而得到一个关于文本语义的scene layout,然后以此scene layout作为输入加入到后续的GAN网络中生成图片。stackGAN使用了两个GAN来分步生成图像。因为单纯在网络中增加up sampling并不能提升生成图片的质量,所以提出了这样一个分两阶段的GAN网络,第一阶段用于生成低精度(64x64)的图像,该阶段主要关注图像的背景,颜色及轮廓等基本信息;在第二阶段中将第一阶段的输出作为输入同时再次使用text embedding,从而获得了第一阶段丢失的细节信息,进而生成了256x256的更精细图片。同时在该方法中还加入了CA(Conditioning Augmentation)模块来对文本特征加入一些实用的随机噪声,从而使得生成图像具有更多的可变性。attnGAN增加了注意力机制,不仅提取文本的sentence feature作为全局约束,同时也将attention精确到word级别提取了word embedding作为局部约束送入网络,生成器与鉴别器每次针对word embedding部分精准优化,从而使得生成图像更能突出文本中的细节。

技术实现思路

[0004]本专利技术的提出的方法是基于多种辅助信息的图像生成,通过提取多种信息的特征并融合,充分利用所有的辅助信息,使得生成的图像尽可能真实还原。本方法以场景图和文本描述信息为例进行研究内容介绍。
[0005]任务的研究目标有两个重要方面:
[0006](1)特征的提取和融合:本任务的输入数据为场景图和文本描述,场景图提供了图像中各个对象的位置关系,文本描述提供了各个对象的实现细节,生成高质量的图像就必须要求对输入数据进行高效的特征提取和融合。目标是实现一个高质量的特征融合算法,尽可能的保留两种数据的原始信息。
[0007](2)融合特征的使用:得到的融合特征极大的保留了数据的原始信息,将该特征应用于layout生成,再到mask生成,最后生成图像。本文将要研究融合特征的应用环节和应用方式,即在哪个环节中如何加入该特征能够使特征发挥最大用处,使得最终生成满意的图像。
[0008]本专利技术的技术方案:
[0009]一种基于多辅助信息下的图像生成方法,步骤如下:
[0010]步骤S1:针对于场景图和文本信息,使用目前比较主流的方法进行表示学习;
[0011]步骤S2:图像生成第一阶段,建立GAN网络模型,将得到的场景图和文本信息作为模型输入进行训练。第一阶段注重场景图信息,设计特征融合算法模块,使模型在训练过程中能够充分利用场景图信息,文本信息进行辅助。第一阶段生成符合要求的粗略图;
[0012]步骤S3:图像生成的第二阶段,在输入第二阶段的生成模型之前,对特征进行处理。第二阶段的输入信息为第一阶段的输出图像和文本信息,此过程重点对文本信息进行充分利用;
[0013]所述步骤S1中对场景图和文本信息使用目前比较主流的方法进行表示学习的过程为:
[0014]步骤S11:场景图信息采用GCN网络进行嵌入,对每张场景图进行训练,最终得到每个对象的向量表示;
[0015]步骤S12:文本信息使用CNN

RNN textencoder进行编码,每张图像的文本描述输入到模型中,得到每段文本描述的嵌入向量;
[0016]所述步骤S2中的建立第一阶段生成模型具体步骤为:
[0017]步骤S21:对于得到的场景图信息和文本信息进行特征融合,以场景图信息为主,文本信息为辅指导第一阶段的图像生成;
[0018]步骤S22:搭建以GAN网络为原型的图像生成模型,包括生成器和判别器,以融合特征作为模型输入,输出为质量较低的粗略图像;
[0019]所述步骤S3中的建立第二阶段生成模型具体步骤为:
[0020]步骤S31:对文本信息进行处理,使得第二阶段能够对文本信息进行充分的使用,捕获更多的信息;
[0021]步骤S32:搭建包含生成器和判别器的图像生成模型,以处理后的文本信息和第一阶段的生成图像作为输入,输出高质量的图像。
[0022]本专利技术的有益效果:(1)以往的图像生成算法只使用了单一信息用于模型训练,本
专利技术借助了多种信息指导图像生成;(2)生成任务的第一阶段重点使用了场景图信息,文本信息作为辅助,通过使用场景图信息可以重点把握图像中各对象的位置关系,第二阶段注重文本信息的使用,可以进一步细化对象细节,提高图像的质量。
附图说明
[0023]图1为本专利技术的整体模块设计图。
[0024]图2为本专利技术的多信息融合模块设计图。
[0025]图3为本专利技术的文本信息指导二阶段生成模型设计图。
具体实施方式
[0026]下面结合附图和技术方案,进一步说明本专利技术的具体实施方式。
[0027]一种基于多辅助信息下的图像生成方法,步骤如下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多辅助信息下的图像生成方法,其特征在于,步骤如下:步骤S1:提取COCO数据集,根据每张图像的标注信息,提取每张图像的场景图,得到场景图数据的训练集;借助图像的标注信息,将图像对应的文本信息提取,得到对应的文本信息训练集;步骤S11:首先将场景图中的对象和关系进行初始化嵌入,得到对象初始矩阵和关系初始矩阵,然后将初始化嵌入输入到GCN网络中,得到更新后的对象矩阵和关系矩阵,实现场景图信息的嵌入,得到场景图向量矩阵;GCN网络由五层卷积块堆叠而成,每个卷积块都由全连接层、Relu层、全连接层、Relu层组成;步骤S12:对于得到的文本信息,通过使用char

CNN

RNN text encoder模型进行文字嵌入,该模型由两部分组成:用于图像特征提取的ConvAutoencoder和用于获得文本嵌入的CharEmbedding;最终输出为包含图像信息的文本嵌入向量;步骤S2:第一阶段的模型结构,主体结构为生成式对抗网络GAN,包括生成器和判别器;将得到的场景图向量矩阵和文本嵌入向量进行特征融合,得到融合特征;生成器将融合特征通过全连接层来生成高斯分布进而得到条件变量,然后与随机噪声拼接作为生成器输入,最终通过一组上采样层生成图像;判别器对文本嵌入向量进行压缩,进行空间性重复,得到特征tensor,同时将生成器生成的图像输入到下采样层,得到图像tensor,最后将特征tensor和图像tensor输入到卷积层,经过一个单节点的全连接层得到置信度得分;步骤S21:实现场景图信息和文本信息的融合,以场景图信息为主,文本信...

【专利技术属性】
技术研发人员:牛学硕尹宝才孔雨秋
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1