基于多注意力生成对抗网络的图像字幕生成方法技术

技术编号:21893417 阅读:38 留言:0更新日期:2019-08-17 15:06
本发明专利技术公开了基于多注意力生成对抗网络的图像字幕生成方法,它属于图像字幕生成技术领域,解决了基于生成对抗网络的图像字幕生成方法中提取的特征只包含局部点,而没有捕捉到全局信息的问题。本发明专利技术首次提出了基于局部和全局信息的多注意力机制用于图像字幕生成,并在此基础上,提出了多注意力生成对抗图像字幕生成网络,它包括多注意力生成器和判别器。多注意力生成器用于生成更精确的句子,多注意力判别器用于判断生成的句子是人工描述还是机器生成的。本发明专利技术在MSCOCO基准数据集上对所提出的框架进行了大量的实验验证,并通过MSCOCO字幕挑战评价服务器的评估,取得了非常有竞争力的评价结果。

Image caption generation method based on multi-attention generation antagonistic network

【技术实现步骤摘要】
基于多注意力生成对抗网络的图像字幕生成方法
本专利技术涉及计算机视觉和自然语言处理的
,特别是涉及到基于多注意力生成对抗网络的图像字幕生成方法。
技术介绍
图像字幕生成技术的目标是生成给定图像的人性化的描述语句。图像字幕生成技术在学术界掀起了一股研究热潮,它被广泛应用于视频检索和婴幼儿教育等领域。不同于其他的计算机视觉任务(图像分类、目标检测等),训练有效的图像字幕模型更具有挑战性,因为它需要全面理解图像中基本实体及其关系。传统的图像字幕生成模型采用编码器-解码器框架作为核心,它利用基于卷积神经网络的编码器将像素级的信息编码成密集维度的图像信息,而解码器被用于将这些高维信息翻译成自然语言。与先前的方法相比,基于编码器-解码器的图像字幕生成方法在基准数据集上取得了较好的效果。最近,卷积神经网络特征图上的空间注意力机制被应用到图像字幕生成方法中,注意力机制通常会生成一个空间图,从而显示出图像区域与每个生成词之间的对应关系。然而,大多数现有的编码器-解码器图像字幕生成模型利用交叉熵最小化进行训练,这通常会导致曝光偏差问题。为了解决曝光偏差问题,最近的研究建议将强化学习技术应用到传统的本文档来自技高网...

【技术保护点】
1.基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述方法包括以下步骤:S1.构建多注意力机制模块。S2.结合S1的多注意力机制模块,构建多注意力生成器模型。S3.结合S1的多注意力机制模块,构建多注意力判别器模型。S4.结合S2和S3中的多注意力生成器以及判别器,构建多注意力生成对抗网络架构。S5.多注意力生成对抗网络的训练。

【技术特征摘要】
1.基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述方法包括以下步骤:S1.构建多注意力机制模块。S2.结合S1的多注意力机制模块,构建多注意力生成器模型。S3.结合S1的多注意力机制模块,构建多注意力判别器模型。S4.结合S2和S3中的多注意力生成器以及判别器,构建多注意力生成对抗网络架构。S5.多注意力生成对抗网络的训练。2.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S1的具体过程为:多注意力机制模块包括一个全局注意力模块和一个局部注意力模块:(1)全局注意力模块:全局注意力由局部注意力派生而来,首先要提取输入图片的特征v∈RH×L嵌入到两个新的特征空间(f,g)中计算全局注意力的权重:其中,f(v)=Wfv,g(v)=Wgv,β表示第kj区域的全局注意力权重,因此全局注意力模块的输出为:其中,Wf∈RH/4×H,Wg∈RH/4×H,Wh∈RH×H是从1*1卷积层中学习到的权重矩阵。(2)局部注意力模块:局部注意力模块由空间注意力机制派生而来,给定LSTM网络中在t时刻的反馈信息(h(t)),可以得到每个图像特征vi的局部注意力权重αi,t:αt=soffmax(at)(4)其中,Wva∈RV×H,Wha∈RV×M以及Wa∈RV都是学习参数,因此,局部注意力模块的输出为:基于全局和局部注意力模块的输入,多注意力模块的最终输出为:其中是全局注意力模块输出进行平均池化的结果,λ是一个可学习的参数,并且λ初始化为0.3.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S2的具体过程为:多注意力生成器采用了编码器-解码器架构,其中编码器被用于获取图像特征,解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法,它包括了两种不同的长短期记忆网络(LSTM):注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为:ht=(xt,ht-1)(7)其中,xt是长短期记忆网络的输入向量,ht是长短期记忆网络的输出向量。(1)注意力长短期记忆网络:在注意力长短期记忆网络中在每个时刻的输入向量是由语言长短期记忆网络中的最后一个隐状态、图像特征的平均池化结果以及先前嵌入的生成单词串联而成的:其中,wt是输入单词在t时间步骤时的独热向量,We∈RV×∑代表了从没有预训练就随机初始化中学习的一个单词嵌入矩阵。然后我们将输入向量输入到注意力长短期记忆网络中,如下:最后,将注意...

【专利技术属性】
技术研发人员:曹海文魏燚伟吴春雷王雷全邵明文
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1