【技术实现步骤摘要】
一种基于生成对抗网络的图像描述文本生成方法
[0001]本专利技术涉及人工智能方向中的计算机视觉和自然语言处理领域,尤其是涉及一种基于生成对抗网络的图像描述文本生成方法。
技术介绍
[0002]随着人工智能技术的成熟,计算机视觉、自然语言处理等领域都有了飞速发展,图像描述任务要求机器可以自动为图像生成描述性的语句,因此图像描述模型需要同时具备图像理解能力和自然语言理解能力,这依赖于模型对图像表示和文本表示的获取与处理。
[0003]现有主流的图像描述方法包括以下步骤:
[0004]1)利用编码器提取出图像特征;
[0005]2)利用解码器和注意力机制,解码输入的特征,生成文本;
[0006]3)用REINFORCE这一强化学习算法进一步优化生成器。
[0007]上述图像描述生成方法框架较为简单,在步骤1)中使用的编码器通常只是一个简单的卷积神经网络,输入图像后,输出一个完整的图像特征,在这个完整特征上使用注意力机制,相当于将图像按大小相同的网格进行了划分,而一个物体被网格切分后,可能是不完整的,由此生成的描述文本是不精确的;在步骤2)中的注意力机制只用于图像特征上,没有利用好文本自身的特征,在自然语言中,句子中通常有一些连接词,它们的生成与图像本身无关;在步骤3)中只用到了强化学习算法来优化生成器,而生成对抗网络可以进一步优化生成器。图像描述生成方法单纯依靠编码器
‑
解码器的架构和全局的注意力机制,在生成文本描述时,仍有许多不足:用词不够准确,在客观评价指标上 ...
【技术保护点】
【技术特征摘要】
1.一种基于生成对抗网络的图像描述文本生成方法,其特征在于,包括以下步骤:1)构建用以实现对图像进行特征提取的编码器;2)对文本进行词嵌入,并构建用以生成图像描述文本的解码器;3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练;4)构建基于卷积神经网络的判别器并进行训练;5)共同训练生成器与判别器;6)将待生成描述文本的测试图像数据输入训练好的生成器中,输出生成的描述文本。2.根据权利要求1所述的一种基于生成对抗网络的图像描述文本生成方法,其特征在于,所述的步骤1)中,所述的编码器为基于ResNet
‑
101的Faster R
‑
CNN模型,对于给定的一张图像,编码器从该图像中检测到的n个物体,将图像编码为n个目标区域的特征集合V={v1,
…
v
i
…
,v
n
},其中,v
i
为目标选区i经过平均池化层后的特征向量。3.根据权利要求1所述的一种基于生成对抗网络的图像描述文本生成方法,其特征在于,所述的步骤2)中,采用GloVe模型对文本进行词嵌入,得到词嵌入后的文本向量,即词嵌入表示。4.根据权利要求3所述的一种基于生成对抗网络的图像描述文本生成方法,其特征在于,所述的步骤2)中,解码器由一个双层的长短期记忆神经网络模型和两个注意力模块组成,具体包括作为第一层的注意力生成LSTM层、作为第二层的语言生成LSTM层以及设置在注意力生成LSTM层与语言生成LSTM层之间的两个用以生成视觉哨兵向量的自适应注意力模块。5.根据权利要求4所述的一种基于生成对抗网络的图像描述文本生成方法,其特征在于,所述的注意力生成LSTM层以图像I的特征表示输入词w
t
的词嵌入表示W
e
Π
t
、语言生成LSTM层在t
‑
1步的隐藏层状态为输入,输出为第一视觉哨兵向量第二视觉哨兵向量以及注意力生成LSTM层在第t步的隐藏层状态所述的自适应注意力模块包括用以生成语境向量c
t
的第一自适应注意力模块以及用以生成目标区域集合转移信号δ
t
的第二自适应注意力模块,所述的第一自适应注意力模块以第一视觉哨兵向量和特征集合为输入,所述的第二自适应注意力模块以第二视觉哨兵向量和特征集合为输入,所述的语言生成LSTM层以注意力生成LSTM层当前的隐藏层状态和语境向量c
t
为输入,输出为生成词y
t
的概率分布,其中,图像I的特征表示具体为编码器输出的特征集合V中元素的均值,W
e
为GloVe的模型在词典Σ上的词嵌入矩阵,Π
t
为输入词w
t
的独热编码。6.根据权利要求5所述的一种基于生成对抗网络的图像描述文本生成方法...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。