基于门控交叉单词-视觉注意力驱动的文本生成图像方法技术

技术编号:35855627 阅读:22 留言:0更新日期:2022-12-07 10:42
本发明专利技术公开了一种基于门控交叉单词

【技术实现步骤摘要】
基于门控交叉单词

视觉注意力驱动的文本生成图像方法


[0001]本专利技术涉及计算机视觉及图像处理
,具体涉及一种基于门控交叉单词

视觉注意力驱动的文本生成图像方法。

技术介绍

[0002]在爆发性的数据增长前提下,人们急需一种更高效的信息接收方式,文本可视化便是其中一种,它更容易让人们获取和理解复杂的文本信息,因此将文本转化成与之相符的图像成为了近年来一个重要的研究热点。
[0003]为加强文本信息和图像信息的融合,生成具有丰富细粒度信息的图像,目前的研究方法主要采用注意力机制,通过关注文本描述中的相关单词,在不同的图像子区域生成细粒度信息。然而若注意力机制不能一次性对每个单词在不同图像子区域的重要性产生准确的估计,那么重要的单词将被忽略,容易导致细粒度信息丢失。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于门控交叉单词

视觉注意力驱动的文本生成图像方法,实现文本生成图像方法的基本单元为门控交叉单词

视觉注意力单元,该单元由单词到视觉注意力块、选择门、视觉到单词注意力块串联而成。其中,先通过单词到视觉注意力块得到生成图像上包含的相关单词的语义信息量,为选择重要的单词提供依据;然后通过选择门比较每个单词包含的语义信息量和生成图像上包含的相关单词的语义信息量来确定每个单词的重要性,选择出图像生成过程中重要的单词;再通过视觉到单词注意力块在图像子区域上生成相关单词的细粒度信息。通过多个阶段使用门控交叉单词

视觉注意力单元,并引入改进的目标函数,保证选择的重要单词不会丢失,生成细粒度信息更丰富,更符合文本描述的图像。
[0005]本专利技术的目的可以通过采取如下技术方案达到:
[0006]一种基于门控交叉单词

视觉注意力驱动的文本生成图像方法,所述文本生成图像方法包括以下步骤:
[0007]S1、从文本描述中提取句子特征向量和第一阶段的单词特征矩阵,并将句子特征向量通过条件增强处理得到条件特征向量,然后将条件特征向量和随机噪声向量一起输入第一阶段的视觉特征转换器,得到第一阶段的视觉特征矩阵,再将第一阶段的视觉特征矩阵输入第一阶段的生成器,得到第一分辨率图像,第一分辨率图像的分辨率为64
×
64;
[0008]S2、将第一阶段的单词特征矩阵和视觉特征矩阵输入第一阶段的门控交叉单词

视觉注意力单元,得到第一阶段细化的单词特征矩阵和细化的视觉特征矩阵,并将第一阶段细化的单词特征矩阵作为第二阶段的单词特征矩阵,然后将第一阶段细化的视觉特征矩阵输入第二阶段的视觉特征转换器,得到第二阶段的视觉特征矩阵,再将第二阶段的视觉特征矩阵输入第二阶段的生成器,得到第二分辨率图像,第二分辨率图像的分辨率为128
×
128;
[0009]S3、将第二阶段的单词特征矩阵和视觉特征矩阵输入第二阶段的门控交叉单词

视觉注意力单元,得到第二阶段细化的单词特征矩阵和细化的视觉特征矩阵,并将第二阶段细化的单词特征矩阵作为第三阶段的单词特征矩阵,然后将第二阶段细化的视觉特征矩阵输入第三阶段的视觉特征转换器,得到第三阶段的视觉特征矩阵,再将第三阶段的视觉特征矩阵输入第三阶段的生成器,得到第三分辨率图像,第三分辨率图像的分辨率为256
×
256;
[0010]S4、引入改进的目标函数,通过最小化目标函数增强每个阶段生成图像的真实性以及生成图像与文本描述的语义一致性,并将第三阶段生成的第三分辨率图像作为最终生成的高质量图像。
[0011]进一步地,所述第一、第二、第三阶段的单词特征矩阵均分别由多个单词特征向量构成,使用N
w
表示第一、第二、第三阶段单词特征矩阵中单词特征向量的个数,D
w
表示第一、第二、第三阶段单词特征向量的维度;所述第一、第二、第三阶段的视觉特征矩阵均分别由多个视觉特征向量构成,使用分别表示第一、第二、第三阶段视觉特征矩阵中视觉特征向量的个数,D
v
表示第一、第二、第三阶段视觉特征向量的维度。
[0012]进一步地,所述第一、第二阶段的门控交叉单词

视觉注意力单元均分别由单词到视觉注意力块、选择门、视觉到单词注意力块串联而成;所述第一阶段的视觉特征转换器由1个全连接层和4个上采样块串联而成,所述第二、第三阶段的视觉特征转换器均分别由2个残差块和1个上采样块串联而成;所述第一、第二、第三阶段的生成器均分别由1个3
×
3卷积层构成。
[0013]进一步地,所述第一阶段门控交叉单词

视觉注意力单元中的单词到视觉注意力块以第一阶段的视觉特征矩阵和单词特征矩阵作为输入,输出为第一阶段的局部视觉特征矩阵;所述第二阶段门控交叉单词

视觉注意力单元中的单词到视觉注意力块以第二阶段的视觉特征矩阵和单词特征矩阵作为输入,输出为第二阶段的局部视觉特征矩阵;单词到视觉注意力块的计算过程为:首先将输入的视觉特征矩阵通过1
×
1卷积层进行特征映射,得到处于单词特征语义空间的视觉特征矩阵;然后将输入的单词特征矩阵和处于单词特征语义空间的视觉特征矩阵通过矩阵乘法相乘,得到相似度矩阵;再沿最后一个维度对相似度矩阵进行归一化,得到注意力权重系数矩阵;接着将处于单词特征语义空间的视觉特征矩阵和注意力权重系数矩阵通过矩阵乘法相乘,得到视觉上下文特征矩阵;最后对视觉上下文特征矩阵和输入的单词特征矩阵进行特征拼接,并通过两个线性变换层和sigmoid激活函数,得到局部视觉特征矩阵;表达式如下:
[0014]V
i

=M
v
(V
i
),i=1,2;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0015]α
i
=softmax(W
iT
V
i

),i=1,2;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0016][0017]其中,V
i
表示输入的第i阶段的视觉特征矩阵,维度为W
i
表示输入的第i阶段的单词特征矩阵,维度为D
w
×
N
w
;V
i

表示第i阶段处于单词特征语义空间的视觉特征矩阵,维度为W
iT
V
i

表示第i阶段的相似度矩阵,维度为α
i
表示第i阶段
的注意力权重系数矩阵,维度为V
i

α
iT
表示第i阶段的视觉上下文特征矩阵,维度为D
w
×
N
w
;V
il本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于门控交叉单词

视觉注意力驱动的文本生成图像方法,其特征在于,所述文本生成图像方法包括以下步骤:S1、从文本描述中提取句子特征向量和第一阶段的单词特征矩阵,并将句子特征向量通过条件增强处理得到条件特征向量,然后将条件特征向量和随机噪声向量一起输入第一阶段的视觉特征转换器,得到第一阶段的视觉特征矩阵,再将第一阶段的视觉特征矩阵输入第一阶段的生成器,得到第一分辨率图像;S2、将第一阶段的单词特征矩阵和视觉特征矩阵输入第一阶段的门控交叉单词

视觉注意力单元,得到第一阶段细化的单词特征矩阵和细化的视觉特征矩阵,并将第一阶段细化的单词特征矩阵作为第二阶段的单词特征矩阵,然后将第一阶段细化的视觉特征矩阵输入第二阶段的视觉特征转换器,得到第二阶段的视觉特征矩阵,再将第二阶段的视觉特征矩阵输入第二阶段的生成器,得到第二分辨率图像;S3、将第二阶段的单词特征矩阵和视觉特征矩阵输入第二阶段的门控交叉单词

视觉注意力单元,得到第二阶段细化的单词特征矩阵和细化的视觉特征矩阵,并将第二阶段细化的单词特征矩阵作为第三阶段的单词特征矩阵,然后将第二阶段细化的视觉特征矩阵输入第三阶段的视觉特征转换器,得到第三阶段的视觉特征矩阵,再将第三阶段的视觉特征矩阵输入第三阶段的生成器,得到第三分辨率图像;S4、引入改进的目标函数,通过最小化目标函数增强每个阶段生成图像的真实性以及生成图像与文本描述的语义一致性,并将第三阶段生成的第三分辨率图像作为最终生成的高质量图像。2.根据权利要求1所述的基于门控交叉单词

视觉注意力驱动的文本生成图像方法,其特征在于,所述第一、第二、第三阶段的单词特征矩阵均分别由多个单词特征向量构成,使用N
w
表示第一、第二、第三阶段单词特征矩阵中单词特征向量的个数,D
w
表示第一、第二、第三阶段单词特征向量的维度;所述第一、第二、第三阶段的视觉特征矩阵均分别由多个视觉特征向量构成,使用分别表示第一、第二、第三阶段视觉特征矩阵中视觉特征向量的个数,D
v
表示第一、第二、第三阶段视觉特征向量的维度。3.根据权利要求2所述的基于门控交叉单词

视觉注意力驱动的文本生成图像方法,其特征在于,所述第一、第二阶段的门控交叉单词

视觉注意力单元均分别由单词到视觉注意力块、选择门、视觉到单词注意力块串联而成;所述第一阶段的视觉特征转换器由1个全连接层和4个上采样块串联而成,所述第二、第三阶段的视觉特征转换器均分别由2个残差块和1个上采样块串联而成;所述第一、第二、第三阶段的生成器均分别由1个3
×
3卷积层构成。4.根据权利要求3所述的基于门控交叉单词

视觉注意力驱动的文本生成图像方法,其特征在于,所述第一阶段门控交叉单词

视觉注意力单元中的单词到视觉注意力块以第一阶段的视觉特征矩阵和单词特征矩阵作为输入,输出为第一阶段的局部视觉特征矩阵;所述第二阶段门控交叉单词

视觉注意力单元中的单词到视觉注意力块以第二阶段的视觉特征矩阵和单词特征矩阵作为输入,输出为第二阶段的局部视觉特征矩阵;所述单词到视觉注意力块的计算过程为:首先将输入的视觉特征矩阵通过1
×
1卷积层进行特征映射,得到处于单词特征语义空间的视觉特征矩阵;然后将输入的单词特征矩阵
和处于单词特征语义空间的视觉特征矩阵通过矩阵乘法相乘,得到相似度矩阵;再沿最后一个维度对相似度矩阵进行归一化,得到注意力权重系数矩阵;接着将处于单词特征语义空间的视觉特征矩阵和注意力权重系数矩阵通过矩阵乘法相乘,得到视觉上下文特征矩阵;最后对视觉上下文特征矩阵和输入的单词特征矩阵进行特征拼接,并通过两个线性变换层和sigmoid激活函数,得到局部视觉特征矩阵;表达式如下:V
i

=M
v
(V
i
),i=1,2;
ꢀꢀꢀꢀ
(1)α
i
=softmax(W
iT
V
i

),i=1,2;
ꢀꢀꢀꢀ
(2)其中,V
i
表示输入的第i阶段的视觉特征矩阵,维度为W
i
表示输入的第i阶段的单词特征矩阵,维度为D
w
×
N
w
;V
i

表示第i阶段处于单词特征语义空间的视觉特征矩阵,维度为W
iT
V
i

表示第i阶段的相似度矩阵,维度为α
i
表示第i阶段的注意力权重系数矩阵,维度为V
i

α
iT
表示第i阶段的视觉上下文特征矩阵,维度为D
w
×
N
w
;V
il
表示输出的第i阶段的局部视觉特征矩阵,维度为D
w
×
N
w
;M
v
()表示1
×
1卷积层,右下标v表示输入特征处于视觉特征语义空间;和表示第一、第二线性变换层,右下标w表示输入特征处于单词特征语义空间,的维度为D
w
×
D
w
,的维度为D
w
;σ()表示sigmoid激活函数,表示元素相乘,右上标T表示矩阵倒置。5.根据权利要求4所述的基于门控交叉单词

视觉注意力驱动的文本生成图像方法,其特征在于,所述第一阶段门控交叉单词

视觉注意力单元中的选择门以第一阶段的局部视觉特征矩阵和单词特征矩阵作为输入,输出为第一阶段细化的单词特征矩阵;所述第二阶段门控交叉单词

视觉注意力单元中的选择门以第二阶段的局部视觉特征矩阵和单词特征矩阵作为输入,输出为第二阶段细化的单词特征矩阵;选择门的计算过程为:将输入的局部视觉特征矩阵和单词特征矩阵通过两个线性变换层和sigmoid激活函数,得到细化的单词特征矩阵;表达式如下:其中,V
il
表示输入的第i阶段的局部视觉特征矩阵,维度为D
w
×
N
w
;W
i
表示输入的第i阶段的单词特征矩阵,维度为D
w
×
N
w
;W
ir
表示输出的第i阶段细化的单词特征矩阵,维度为D
w
×
N
w
;和表示第一、第二线性变换层,右下标w表示输入特征处于单词特征语义空间,的维度为1
×
D
w
;σ()表示sigmoid激活函数。6.根据权利要求5所述的基于门控交叉单词

视觉注意力驱动的文本生成图像方法,其特征在于,所述第一阶段门控交叉单词

视觉注意力单元中的视觉到单词注意力块以第一阶段细化的单词特征矩阵和视觉特征矩阵作为输入,输出为第一阶段细化的视觉特征矩阵;所述第二阶段门控交叉单词

视觉注意力单元中的视觉到单词注意力块以第二阶段细化的单词特征矩阵和视觉特征矩阵作为输入,输出为第二阶段细化的视觉特征矩阵;视觉到单词注意力块的计算过程为:首先将输入的细化的单词特征矩阵通过1
×
1卷积
层进行特征映射,得到处于视觉特征语义空间的单词特征矩阵;然后将处于视觉特征语义空间的单词特征矩阵和输入的视觉特征矩阵通过矩阵乘法相乘,得到相似度矩阵;再沿最后一个维度对相似度矩阵进行归一化,得到注意力权重系数矩阵;接着将处于视觉特征语义空间的单词特征矩阵和注意力权重系数矩阵通过矩阵乘法相乘,得到单词上下文特征矩阵;最后对单词上下文特征矩阵和输入的视觉特征矩阵进行特征拼接,并通过两个线性变换层和sigmoid激活函数,得到细化的视觉特征矩阵;表达式如下:W
ir

=M
w
(W
ir
),i=1,2;
ꢀꢀꢀꢀ
(5)β
i
=softmax(V
iT
W
ir

),i=1,2;
ꢀꢀꢀꢀ
(6)其中,W
ir
表示输入的第i阶段细化的单词特征矩阵,维度为D
w
×
N
w
;V
i
表示输入的第i阶段的视觉特征矩阵,维度为W
ir

表示第i阶段处于视觉特征语义空间的单词特征矩阵,维度为D
v
×
N
w
;V
iT

【专利技术属性】
技术研发人员:赖博润马丽红韦岗张中豪
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1