一种基于生成对抗网络的图像描述文本生成方法技术

技术编号:28503578 阅读:26 留言:0更新日期:2021-05-19 22:52
本发明专利技术涉及一种基于生成对抗网络的图像描述文本生成方法,包括以下步骤:1)构建用以实现对图像进行特征提取的编码器;2)对文本进行词嵌入,并构建用以生成图像描述文本的解码器;3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练;4)构建基于卷积神经网络的判别器并进行训练;5)共同训练生成器与判别器;6)将待生成描述文本的测试图像数据输入训练好的生成器中,输出生成的描述文本。与现有技术相比,本发明专利技术具有提高生成的文本的客观评测得分、可解释性好和多样性等优点。可解释性好和多样性等优点。可解释性好和多样性等优点。

【技术实现步骤摘要】
一种基于生成对抗网络的图像描述文本生成方法


[0001]本专利技术涉及人工智能方向中的计算机视觉和自然语言处理领域,尤其是涉及一种基于生成对抗网络的图像描述文本生成方法。

技术介绍

[0002]随着人工智能技术的成熟,计算机视觉、自然语言处理等领域都有了飞速发展,图像描述任务要求机器可以自动为图像生成描述性的语句,因此图像描述模型需要同时具备图像理解能力和自然语言理解能力,这依赖于模型对图像表示和文本表示的获取与处理。
[0003]现有主流的图像描述方法包括以下步骤:
[0004]1)利用编码器提取出图像特征;
[0005]2)利用解码器和注意力机制,解码输入的特征,生成文本;
[0006]3)用REINFORCE这一强化学习算法进一步优化生成器。
[0007]上述图像描述生成方法框架较为简单,在步骤1)中使用的编码器通常只是一个简单的卷积神经网络,输入图像后,输出一个完整的图像特征,在这个完整特征上使用注意力机制,相当于将图像按大小相同的网格进行了划分,而一个物体被网格切分后,可能是不完整的,由此生成的描述文本是不精确的;在步骤2)中的注意力机制只用于图像特征上,没有利用好文本自身的特征,在自然语言中,句子中通常有一些连接词,它们的生成与图像本身无关;在步骤3)中只用到了强化学习算法来优化生成器,而生成对抗网络可以进一步优化生成器。图像描述生成方法单纯依靠编码器

解码器的架构和全局的注意力机制,在生成文本描述时,仍有许多不足:用词不够准确,在客观评价指标上的评分较低,提升不明显。

技术实现思路

[0008]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于生成对抗网络的图像描述文本生成方法。
[0009]本专利技术的目的可以通过以下技术方案来实现:
[0010]一种基于生成对抗网络的图像描述文本生成方法,包括以下步骤:
[0011]1)构建用以实现对图像进行特征提取的编码器;
[0012]2)对文本进行词嵌入,并构建用以生成图像描述文本的解码器;
[0013]3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练;
[0014]4)构建基于卷积神经网络的判别器并进行训练;
[0015]5)共同训练生成器与判别器;
[0016]6)将待生成描述文本的测试图像数据输入训练好的生成器中,输出生成的描述文本。
[0017]所述的步骤1)中,所述的编码器为基于ResNet

101的Faster R

CNN模型,对于给定的一张图像,编码器从该图像中检测到的n个物体,将图像编码为n个目标区域的特征集合V={v1,

v
i

,v
n
},其中,v
i
为目标选区i经过平均池化层后的特征向量。
[0018]所述的步骤2)中,采用GloVe模型对文本进行词嵌入,得到词嵌入后的文本向量,即词嵌入表示。
[0019]所述的步骤2)中,解码器由一个双层的长短期记忆神经网络模型和两个注意力模块组成,具体包括作为第一层的注意力生成LSTM层、作为第二层的语言生成LSTM层以及设置在注意力生成LSTM层与语言生成LSTM层之间的两个用以生成视觉哨兵向量的自适应注意力模块。
[0020]所述的注意力生成LSTM层以图像I的特征表示输入词w
t
的词嵌入表示W
e
Π
t
、语言生成LSTM层在t

1步的隐藏层状态为输入,输出为第一视觉哨兵向量第二视觉哨兵向量以及注意力生成LSTM层在第t步的隐藏层状态所述的自适应注意力模块包括用以生成语境向量c
t
的第一自适应注意力模块以及用以生成目标区域集合转移信号δ
t
的第二自适应注意力模块,所述的第一自适应注意力模块以第一视觉哨兵向量和特征集合为输入,所述的第二自适应注意力模块以第二视觉哨兵向量和特征集合为输入,所述的语言生成LSTM层以注意力生成LSTM层当前的隐藏层状态和语境向量c
t
为输入,输出为生成词y
t
的概率分布,其中,图像I的特征表示具体为编码器输出的特征集合V中元素的均值,W
e
为GloVe的模型在词典Σ上的词嵌入矩阵,Π
t
为输入词w
t
的独热编码。
[0021]所述的特征集合v
t
具体为目标区域集合r
t
的特征集合,r
t
为集合R={r1,

,r
N
}中的指针在第t步指向的元素,该指针由目标区域集合转移信号δ
t
控制,则有:
[0022][0023]其中,k为解码器的步数,第0步的目标区域集合转移信号δ0默认值为0,N为集合R的大小,即包含目标区域集合r
i
的个数。
[0024]所述的步骤3)中,采用计划采样的方法对生成器进行预训练,在训练过程中,生成器的预训练目标为最小化损失函数,生成器的损失函数L
G
(θ)由预测出的生成词y
t
与真实的词之间的交叉熵损失L
w
(θ)以及预测出的目标区域集合转移信号δ
i
与真实值之间的交叉熵损失L
δ
(θ)构成。
[0025]所述的步骤4)中,以生成器生成的文本、真实的文本以及真实的图像的拼接向量作为判别器的输入,并引入高速网络提升性能。
[0026]所述的步骤5)具体包括以下步骤:
[0027]51)根据训练集中给出的图像I以及预训练后的生成器G
θ
生成的文本y
1:T
构成图像文本对{(I,y
1:T
)};
[0028]52)采用预训练后的判别器D
φ
对生成的文本进行评分,并采用评分p∈[0,1]表示这些文本是真实文本的概率;
[0029]53)通过客观指标评价模块得到对生成的文本的评分s,所述的客观指标评价模块采用CIDEr

D作为客观评价指标;
[0030]54)结合评分p和评分s给出奖励值r=λ
·
p+(1

λ)
·
s,λ为可调的超参数;
[0031]55)采用REINFORCE强化学习算法更新生成器的参数θ,并采用奖励值r作为收益,基线算法选择用贪婪算法生成的文本序列;
[0032]56)根据训练集中给出的图像I,更新参数后的生成器G
θ
重新生成文本y
1:T

[0033]57)根据训练集中给出的图像I,判别器的损失函数考虑三类文本,即与图像I相关的正确真实文本生成器生成的文本y
1:T<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的图像描述文本生成方法,其特征在于,包括以下步骤:1)构建用以实现对图像进行特征提取的编码器;2)对文本进行词嵌入,并构建用以生成图像描述文本的解码器;3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练;4)构建基于卷积神经网络的判别器并进行训练;5)共同训练生成器与判别器;6)将待生成描述文本的测试图像数据输入训练好的生成器中,输出生成的描述文本。2.根据权利要求1所述的一种基于生成对抗网络的图像描述文本生成方法,其特征在于,所述的步骤1)中,所述的编码器为基于ResNet

101的Faster R

CNN模型,对于给定的一张图像,编码器从该图像中检测到的n个物体,将图像编码为n个目标区域的特征集合V={v1,

v
i

,v
n
},其中,v
i
为目标选区i经过平均池化层后的特征向量。3.根据权利要求1所述的一种基于生成对抗网络的图像描述文本生成方法,其特征在于,所述的步骤2)中,采用GloVe模型对文本进行词嵌入,得到词嵌入后的文本向量,即词嵌入表示。4.根据权利要求3所述的一种基于生成对抗网络的图像描述文本生成方法,其特征在于,所述的步骤2)中,解码器由一个双层的长短期记忆神经网络模型和两个注意力模块组成,具体包括作为第一层的注意力生成LSTM层、作为第二层的语言生成LSTM层以及设置在注意力生成LSTM层与语言生成LSTM层之间的两个用以生成视觉哨兵向量的自适应注意力模块。5.根据权利要求4所述的一种基于生成对抗网络的图像描述文本生成方法,其特征在于,所述的注意力生成LSTM层以图像I的特征表示输入词w
t
的词嵌入表示W
e
Π
t
、语言生成LSTM层在t

1步的隐藏层状态为输入,输出为第一视觉哨兵向量第二视觉哨兵向量以及注意力生成LSTM层在第t步的隐藏层状态所述的自适应注意力模块包括用以生成语境向量c
t
的第一自适应注意力模块以及用以生成目标区域集合转移信号δ
t
的第二自适应注意力模块,所述的第一自适应注意力模块以第一视觉哨兵向量和特征集合为输入,所述的第二自适应注意力模块以第二视觉哨兵向量和特征集合为输入,所述的语言生成LSTM层以注意力生成LSTM层当前的隐藏层状态和语境向量c
t
为输入,输出为生成词y
t
的概率分布,其中,图像I的特征表示具体为编码器输出的特征集合V中元素的均值,W
e
为GloVe的模型在词典Σ上的词嵌入矩阵,Π
t
为输入词w
t
的独热编码。6.根据权利要求5所述的一种基于生成对抗网络的图像描述文本生成方法...

【专利技术属性】
技术研发人员:陆佳妮程帆
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1