一种基于多辅助信息下的图像生成方法技术

技术编号：29087191 阅读：28 留言：0更新日期：2021-06-30 09:51

本发明专利技术属于计算机视觉任务下的图像生成领域，提供一种基于多辅助信息下的图像生成方法。本发明专利技术首次利用了多种辅助信息指导模型完成图像生成任务，该生成任务分两阶段完成，在第一阶段模型的输入为场景图信息和文本信息的融合特征，以场景图信息为主，文本信息为辅，以GAN网络模型为原型进行图像生成，生成粗略的图像；第二阶段的模型输入为文本信息和第一阶段的输出，目的是通过使用文本信息丰富图像细节，生成高质量的图像。本发明专利技术通过使用真实数据集进行训练并评估，同时与目前主流的图像生成模型做对比，评估其性能提升。评估其性能提升。评估其性能提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多辅助信息下的图像生成方法

[0001]本专利技术属于计算机视觉任务下的图像生成领域，涉及一种基于多种辅助信息参与下指导图像生成的方法。

技术介绍

[0002]在日常生产和生活中，这样的场景随处可见：海报设计师不能很好的理解客户的描述，导致客户和海报设计师之间进行长时间的无效沟通，效率低下；案发现场的目击证人会描述出嫌疑人的模样，公安机关需要根据目击证人的描述得到嫌疑人的模样并进行破案；在房屋装修时，根据业主的描述，如果能够快速看到装修结果图，业主对装修方案的满意度也会大大提升。一直以来，人们对审美的要求很多时候都追求图文并茂，图像能够从视觉上给人冲击，展现出文字所不能描述的含义，文字则能从语义层面，用华丽的词藻展现出感官不能感受的文字美丽。只有图文共同出现时，才能从不同的角度呈现出一个场景的全方位的解读。但是在实际生活场景中，很容易获得文字数据、语音数据，在一定程度上比较难获得图像数据，因此，如何在人工智能不断取得新成果的背景下，利用新兴技术的技术形式来展现文字描述的画面，是一个促进生产、提高生活质量的重要研究方向。近些年，机器学习和深度学习不断的发展并在实际应用中取得了较多的成果，各领域不断的进度使得多模态学习的探索和应用也逐步成为人工智能的热点。所谓的多模态学习，即将多模态信息进行融合、映射、迁移、学习等，目前学术领域研究最广泛的是图像和文字之间的交互，比如将一段文字作为输入，输出则是文字对应的图像。根据文本生成图像是多模态学习任务中一个常见的应用，该项研究将会给数据智能领域带来很大的推动力，其落地也会...

【技术保护点】

【技术特征摘要】
1.一种基于多辅助信息下的图像生成方法，其特征在于，步骤如下：步骤S1：提取COCO数据集，根据每张图像的标注信息，提取每张图像的场景图，得到场景图数据的训练集；借助图像的标注信息，将图像对应的文本信息提取，得到对应的文本信息训练集；步骤S11：首先将场景图中的对象和关系进行初始化嵌入，得到对象初始矩阵和关系初始矩阵，然后将初始化嵌入输入到GCN网络中，得到更新后的对象矩阵和关系矩阵，实现场景图信息的嵌入，得到场景图向量矩阵；GCN网络由五层卷积块堆叠而成，每个卷积块都由全连接层、Relu层、全连接层、Relu层组成；步骤S12：对于得到的文本信息，通过使用char
‑
CNN
‑
RNN text encoder模型进行文字嵌入,该模型由两部分组成：用于图像特征提取的ConvAutoencoder和用于获得文本嵌入的CharEmbedding；最终输出为包含图像信息的文本嵌入向量；步骤S2：第一阶段的模型结构，主体结构为生成式对抗网络GAN，包括生成器和判别器；将得到的场景图向量矩阵和文本嵌入向量进行特征融合，得到融合特征；生成器将融合特征通过全连接层来生成高斯分布进而得到条件变量，然后与随机噪声拼接作为生成器输入，最终通过一组上采样层生成图像；判别器对文本嵌入向量进行压缩，进行空间性重复，得到特征tensor，同时将生成器生成的图像输入到下采样层，得到图像tensor，最后将特征tensor和图像tensor输入到卷积层，经过一个单节点的全连接层得到置信度得分；步骤S21：实现场景图信息和文本信息的融合，以场景图信息为主，文本信...

【专利技术属性】
技术研发人员：牛学硕，尹宝才，孔雨秋，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人