当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于改进图卷积网络的图像生成方法技术

技术编号:27590121 阅读:20 留言:0更新日期:2021-03-10 10:07
一种基于改进图卷积网络的图像生成方法,该方法包括:一,建立输入层,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量;二,建立Bi

【技术实现步骤摘要】
一种基于改进图卷积网络的图像生成方法


[0001]本专利技术属于图像处理领域,具体而言,是一种基于改进图卷积网络的图像生成方法。

技术介绍

[0002]计算机视觉包括图像生成、语义分割、目标检测等诸多领域,其中通过自然语言描述引导图像生成一直都是图像生成领域的挑战性任务,近年来,深度学习的出现,促进了自然语言描述引导图像生成的发展,并且已经得到了很大的进展。
[0003]现阶段,生成对抗网络(Generative Adversarial Network,GAN)在图像生成领域已经得到广泛应用。由文本描述引导图像生成是近几年的热门研究领域,其主要的任务就是通过一段文本描述生成一张与描述内容相互对应的图片。由文本描述引导图像生成方法主要是利用生成对抗网络的原理来完成图像的生成工作。
[0004]起初,Reed等人提出GAN

INT

CLS网络,GAN

INT

CLS是以条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN)为模型主干,将文本描述编码为全局向量作为生成器和鉴别器的约束,GAN

INT

CLS有效地生成了分辨率为64x64的可信赖图像,但是图像缺少生动的对象细节。随后,Zhang等人为了生成高分辨率的图像,提出了分阶段的堆栈生成对抗网络(Stacked Generative Adversarial Networks,StackGAN)模型,StackGAN的训练策略是先通过文本描述生成包含基本形状、颜色的64x64低分辨率图像,再利用生成的低分辨率图像和文本描述修补丢失的细节信息,最后生成256
×
256高分辨率图像。在后续工作中,Zhang等人提出了端到端的堆栈生成对抗网络(StackGAN

v2),StackGAN

v2将生成对抗网络扩展成树状结构,利用多个生成器和多个鉴别器进行并行训练,稳定地完成不同分辨率(如64x64,128x128,256x256)的图像的生成。继StackGAN

v2之后,Xu等人又在此基础之上提出了注意生成对抗网络(Attentional Generative Adversarial Networks,AttnGAN),AttnGAN在StackGAN

v2的基础上增加了注意力机制,着重关注文本描述中的相关单词,并将其编码为单词向量输入到网络模型中,生成器和鉴别器针对最相关的单词向量进行精准优化,有效地生成了256x256高质量图像。然而,AttnGAN在处理多个交互对象的复杂场景时,就会显得十分困难。而后,Johnson等人提出了一种利用场景图生成图像的模型(Sg2im)。Sg2im通过场景图推断出对象以及其关系,将所获得的对象及其关系预测出对象的边界框和分割掩模,得到一个关于文本描述的场景布局,接着将场景布局输入到后续的生成网络中生成相互对应的图像。在复杂场景下,Sg2im生成的图像更能反映文本描述内容。但是结果中存在伪影、对象重叠、对象缺失等问题。
[0005]为了进一步解决生成图像中伪影、对象重叠、对象缺失的问题,本专利技术在从场景图生成图像的网络模型的基础上提出了一种结合场景描述的生成对抗网络模型。该模型引入了布局鉴别器,重点关注场景布局与图像之间的差距,弥合此差距,预测出更真实的场景布局,缓解生成图像中出现伪影、对象缺失的现象。同时引入掩模生成网络对数据集进行预处理,生成对象分割掩模向量,使用对象分割掩模向量作为约束,通过描述文本训练布局预测
网络,更精确地预测出各个对象在场景布局具体的位置和大小,改善生成的图像中出现多个对象相互重叠的现象,提高生成图像的质量。

技术实现思路

[0006]本方法为了克服现有方法忽略同一句子中不同目标之间的依存关系的不足,提出了一个基于多目标依存建模的图卷积网络模型。模型首先对输入文本进行语义编码,再通过GCN、attention层得到目标的隐层表示,最后再对多个目标之间的依存建模,得到目标的最终表示。
[0007]本专利技术的技术方案:
[0008]一种基于改进图卷积网络的图像生成方法,本方法中的模型总体框架图如图1所示,本方法包含以下步骤:
[0009]步骤1:建立输入层
[0010]在输入层中,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量。具体如下:
[0011]模型首先利用预训练好的词向量将一个句子中的每个词映射成一个低维、连续的词向量即对于每个都有向量其中τ+1为目标在句子中的起始位置,m为目标长度,n为句子长度,i为单词在句子中的索引,d
emb
为词向量维度。
[0012]步骤2:建立Bi

LSTM层
[0013]Bi

LSTM由正向LSTM和反向LSTM组成,将正向LSTM输出和反向LSTM输出进行拼接得到Bi

LSTM层。在步骤1得到句子的词向量表示后,将词向量输入到Bi

LSTM层中混合语义信息,其中:
[0014]将正向LSTM输出和反向LSTM输出进行拼接后得到Bi

LSTM层的输出向量组其中,表示Bi

LSTM层的输出向量,d
hid
为单向LSTM输出维度。
[0015]步骤3:构建目标向量的隐层表示
[0016]首先通过GCN层,在句法上,来混合目标与句子中其他词的信息。再使用注意力机制来计算与目标相关的上下文表示,最后将GCN层的目标向量池化后与注意力层的输出拼接得到目标向量的隐层表示。
[0017]步骤4:构建MDGCN层
[0018]首先根据依存句法树构建句子的多目标依存图,在根据多目标依存图生成邻接对称矩阵,再对邻接对称矩阵归一化后,使用图卷积网络对同一句子的多个目标进行建模。
[0019]步骤5:建立输出层
[0020]用一个全连接层将输出最终表示转换维度,再通过softmax函数将其转换为概率表示,实现如下:
[0021][0022]其中,p
i
表示输出的概率表示,表示MDGCN层的输出向量,W,b为输出层可训练的参数。
[0023]步骤6:模型训练
[0024]模型使用交叉熵误差函数和L2权重衰退共同作为损失函数,实现如下:
[0025][0026]其中p
ij
为向量p
i
第j个特征,label
ij
表示label
i
的第j个值,λ是L2权重衰退的超参数,Θ为模型中所有可训练的参数,d是输出层维度。
[0027]步骤7:图像生成
[0028]利用步骤6训练好的模型进行图像的生成。
[0029]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进图卷积网络的图像生成方法,其特征在于,包含以下步骤:步骤1:建立输入层在输入层中,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量;具体如下:模型首先利用预训练好的词向量将一个句子中的每个词映射成一个低维、连续的词向量即对于每个都有向量其中τ+1为目标在句子中的起始位置,m为目标长度,n为句子长度,i为单词在句子中的索引,d
emb
为词向量维度;步骤2:建立Bi

LSTM层Bi

LSTM由正向LSTM和反向LSTM组成,将正向LSTM输出和反向LSTM输出进行拼接得到Bi

LSTM层;在步骤1得到句子的词向量表示后,将词向量输入到Bi

LSTM层中混合语义信息,其中:将正向LSTM输出和反向LSTM输出进行拼接后得到Bi

LSTM层的输出向量组其中,表示Bi

LSTM层的输出向量,d
hid
为单向LSTM输出维度;步骤3:构建目标向量的隐层表示首先通过GCN层,在句法上,来混合目标与句子中其他词的信息;再使用注意力机制来计算与目标相关的上下文表示,最后将GCN层的目标向量池化后与注意力层的输出拼接得到目标向量的隐层表示;步骤4:构建MDGCN层首先根据依存句法树构建句子的多目标依存图,在根据多目标依存图生成邻接对称矩阵,再对邻接对称矩阵归一化后,使用图卷积网络对同一句子的多个目标进行建模;步骤5:建立输出层用一个全连接层将输出最终表示转换维度,再通过softmax函数将其转换为概率表示,实现如下:其中,p
i
表示输出的概率表示,表示MDGCN层的输出向量,W,b为输出层可训练的参数;步骤6:模型训练模型使用交叉熵误差函数和L2权重衰退共同作为损失函数,实现如下:其中p
ij
为向量p
i
第j个特征,label
ij
表示label
i
的第j个值,λ是L2权重衰退的超参数,Θ为模型中所有可训练的参数,d是输出层维度;
步骤7:图像生成利用步骤6训练好的模型进行图像的生成。2.根据权利要求1所述的一种基于改进图卷积网络的图像生成方法,其特征在于,步骤3具体为:步骤3

1:建立GCN层首先构建句子的依存句法树,依存句法树上每一个词都与该词句法上有联系的词相连接,再根据依存句法树构建邻接对称矩阵A
t
,A
t
∈R
n
×
n
,由于每一个词都与它自身相连,所以矩阵A
t
的主对角线值均为1,然后对矩阵A
t
进行归一化,具体为A
t
的每个元素均除以该元素所在行的和,公式如下:其中,表示归一化后的元素,表示需要进行归一化的元素;由于目标的依存性是由其周边词决定,其本身并不包含依存性,所以将目标置为零向量,方便目标下一步混合在句法上有联系的词的信息,公式如下:给出邻接对称矩阵和Bi

【专利技术属性】
技术研发人员:肖志勇张立柴志雷刘登峰吴秦陈璟
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1