【技术实现步骤摘要】
一种基于改进图卷积网络的图像生成方法
[0001]本专利技术属于图像处理领域,具体而言,是一种基于改进图卷积网络的图像生成方法。
技术介绍
[0002]计算机视觉包括图像生成、语义分割、目标检测等诸多领域,其中通过自然语言描述引导图像生成一直都是图像生成领域的挑战性任务,近年来,深度学习的出现,促进了自然语言描述引导图像生成的发展,并且已经得到了很大的进展。
[0003]现阶段,生成对抗网络(Generative Adversarial Network,GAN)在图像生成领域已经得到广泛应用。由文本描述引导图像生成是近几年的热门研究领域,其主要的任务就是通过一段文本描述生成一张与描述内容相互对应的图片。由文本描述引导图像生成方法主要是利用生成对抗网络的原理来完成图像的生成工作。
[0004]起初,Reed等人提出GAN
‑
INT
‑
CLS网络,GAN
‑
INT
‑
CLS是以条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN)为模型主干,将文本描述编码为全局向量作为生成器和鉴别器的约束,GAN
‑
INT
‑
CLS有效地生成了分辨率为64x64的可信赖图像,但是图像缺少生动的对象细节。随后,Zhang等人为了生成高分辨率的图像,提出了分阶段的堆栈生成对抗网络(Stacked Generative Adversarial Networks ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于改进图卷积网络的图像生成方法,其特征在于,包含以下步骤:步骤1:建立输入层在输入层中,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量;具体如下:模型首先利用预训练好的词向量将一个句子中的每个词映射成一个低维、连续的词向量即对于每个都有向量其中τ+1为目标在句子中的起始位置,m为目标长度,n为句子长度,i为单词在句子中的索引,d
emb
为词向量维度;步骤2:建立Bi
‑
LSTM层Bi
‑
LSTM由正向LSTM和反向LSTM组成,将正向LSTM输出和反向LSTM输出进行拼接得到Bi
‑
LSTM层;在步骤1得到句子的词向量表示后,将词向量输入到Bi
‑
LSTM层中混合语义信息,其中:将正向LSTM输出和反向LSTM输出进行拼接后得到Bi
‑
LSTM层的输出向量组其中,表示Bi
‑
LSTM层的输出向量,d
hid
为单向LSTM输出维度;步骤3:构建目标向量的隐层表示首先通过GCN层,在句法上,来混合目标与句子中其他词的信息;再使用注意力机制来计算与目标相关的上下文表示,最后将GCN层的目标向量池化后与注意力层的输出拼接得到目标向量的隐层表示;步骤4:构建MDGCN层首先根据依存句法树构建句子的多目标依存图,在根据多目标依存图生成邻接对称矩阵,再对邻接对称矩阵归一化后,使用图卷积网络对同一句子的多个目标进行建模;步骤5:建立输出层用一个全连接层将输出最终表示转换维度,再通过softmax函数将其转换为概率表示,实现如下:其中,p
i
表示输出的概率表示,表示MDGCN层的输出向量,W,b为输出层可训练的参数;步骤6:模型训练模型使用交叉熵误差函数和L2权重衰退共同作为损失函数,实现如下:其中p
ij
为向量p
i
第j个特征,label
ij
表示label
i
的第j个值,λ是L2权重衰退的超参数,Θ为模型中所有可训练的参数,d是输出层维度;
步骤7:图像生成利用步骤6训练好的模型进行图像的生成。2.根据权利要求1所述的一种基于改进图卷积网络的图像生成方法,其特征在于,步骤3具体为:步骤3
‑
1:建立GCN层首先构建句子的依存句法树,依存句法树上每一个词都与该词句法上有联系的词相连接,再根据依存句法树构建邻接对称矩阵A
t
,A
t
∈R
n
×
n
,由于每一个词都与它自身相连,所以矩阵A
t
的主对角线值均为1,然后对矩阵A
t
进行归一化,具体为A
t
的每个元素均除以该元素所在行的和,公式如下:其中,表示归一化后的元素,表示需要进行归一化的元素;由于目标的依存性是由其周边词决定,其本身并不包含依存性,所以将目标置为零向量,方便目标下一步混合在句法上有联系的词的信息,公式如下:给出邻接对称矩阵和Bi
技术研发人员:肖志勇,张立,柴志雷,刘登峰,吴秦,陈璟,
申请(专利权)人:江南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。