融合视觉注意力和语义注意力的图像字幕生成方法及系统技术方案

技术编号:17097414 阅读:46 留言:0更新日期:2018-01-21 09:12
本发明专利技术公开了融合视觉注意力和语义注意力的图像字幕生成方法及系统,通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;结合图像特征集合和时序信息,生成视觉注意力模型;结合图像特征集合、时序信息和前一时序的单词,生成语义注意力模型;根据视觉注意力模型和语义注意力模型,生成自动平衡策略模型;根据图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;根据gLSTM模型和自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;将得到的所有单词进行串联组合,产生字幕。

Method and system of image subtitle generation with visual attention and semantic attention

The invention discloses a system and method of image caption generation fusion visual attention and semantic focus, image feature extraction of images to be generated from each subtitle through convolution neural network, image feature set; the establishment of LSTM model, each image to be generated subtitles label the corresponding text description into the LSTM model, get the timing information combining with the image feature set; and timing information, generate visual attention model; combining with the image feature set, and a timing timing information before the words, the semantic attention model; based on visual attention model and semantic attention model, generation of automatic balancing strategy model; according to the text image and the corresponding image feature set and to generate captions, establish according to the gLSTM model and gLSTM model; automatic balancing strategy model, using multilayer perceptron model ML P generates the corresponding words of the image to be generated, and all the words will be combined in series to produce subtitles.

【技术实现步骤摘要】
融合视觉注意力和语义注意力的图像字幕生成方法及系统
本专利技术涉及图像生成字幕
,特别是涉及融合视觉注意力和语义注意力的图像字幕生成方法及系统。
技术介绍
在计算机视觉领域,图像字幕生成已经成为了一个极具挑战性的任务。最近的尝试主要集中利用机器翻译中的注意力模型。基于注意力模型的方法生成图像字幕主要是由编码-解码框架发展而来。这个框架将CNN编码器编码的视觉特征转换为RNN解码的字幕。基于注意力模型的要点是把对应于某个生成单词的空间特征突出的显示出来。在图像字幕生成领域,注意力模型被证明是非常有效的。但它仍然面临以下两个问题:一方面,它失去了典型的视觉信息的踪迹。生成的句子容易偏离原始图像内容。另一方面,上下文向量被证明与当前的隐藏状态有关。然而,传统的注意力模型使用上一个隐藏状态作为指导。最近,C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowingwhentolook:Adap-285tiveattentionviaavisualsentinelforimagecaptioning.,arXivpreprintarXiv:1612.01887,2016.成功的利用当前隐藏状态进行了图像字幕的生成。然而,它的方法存在一个明显的缺点:原始的视觉信息没有被充分考虑到每一个时间步骤上,这样导致了生成的字幕缺乏个性化。一个高质量的图像字幕生成器不仅要反映图像中呈现的内容,还要考虑是否符合语法规则。基于注意力模型永远只考虑视觉特征的内容,无论下一个生成的单词是什么。这样的模型也许对名词有很好的效果(例如“dog”,“filed”),但它对功能性词汇几乎没有作用(例如“the”,“through”)。图1(a)显示了软注意模型在视觉特征上的权重分布情况。当产生不同的单词时,注意力量向量的方差存在很大差异。大的方差表示下一个单词与视觉区域有明确的对应关系。相反,小的方差意味着机器对于识别下一个注意力区域存在很大困难。这种现象说明生成的标题中的所有单词并不全部依赖于视觉信息,例如“the”和“through”。事实上,语义语境在产生上述两个词时起着重要的作用。在图像字幕中应考虑视觉注意力和语义注意力。C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowingwhentolook:Adap-285tiveattentionviaavisualsentinelforimagecaptioning.,arXivpreprintarXiv:1612.01887,2016.使用存储单元中保存的信息作为语义信息。利用最后生成的单词进行语义分析对于图像字幕来就灵活一些。
技术实现思路
为了解决现有技术的不足,本专利技术提供了一种融合视觉注意力和语义注意力的图像字幕生成方法,其具有给出的图像字幕更加贴合实际的效果;利用改进的LSTM(即gLSTM)对于生成字幕是很有帮助的。一种融合视觉注意力和语义注意力的图像字幕生成方法,包括:步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。所述步骤(2)中LSTM模型为:其中,代表长短期记忆网络LSTM在t时刻的隐藏状态,xt表示t时刻输入的文字矩阵,其维度为[2048,512],代表长短期记忆网络LSTM在t-1时刻的隐藏状态,而代表t-1时刻的细胞状态。所述步骤(3)的视觉注意力模型是:其中,softmax表示逻辑回归分类函数,V代表通过卷积神经网络VGG模型提取的特征,其维度为[2048,49],tanh代表双曲正切非线性函数,代表视觉注意力向量,维度为[49],视觉注意力向量中的数字代表看向对应图像特征V区域的概率,数字总和为1,代表视觉注意力模型上下文矩阵,维度为[512,49]。VGG的英文全称是VERYDEEPCONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION。所述步骤(4)的语义注意力模型是:其中,Wt-1代表t-1时刻生成单词所转化的矩阵,其维度为[2048,512],Vt'为加权语义信息后的特征向量矩阵,softmax表示逻辑回归分类函数,tanh代表神经网络结构中的双曲正切非线性函数,代表语义注意力向量,其维度为[49],向量中的数字代表看向对应图像特征Vt'区域的概率,数字总和为1,代表语义注意力模型上下文矩阵,其维度为[512,49]。所述步骤(5)的公式为:其中,σν代表视觉注意力向量的变异系数,σs代表语义注意力向量的变异系数,所述变异系数用来衡量向量的离散程度,视觉注意力向量和语义注意力向量的长度均为N,β代表自我平衡模型的权重系数,用来给视觉注意力模型上下文矩阵和语义注意力模型上下文矩阵分配权重;ct代表自动平衡策略模型的上下文矩阵。gLSTM模型,具有指导信息的长短时记忆模型,Guidinglong-shorttermmemorymodel。所述步骤(6)的gLSTM模型为:其中,代表gLSTM模型在t时刻的隐藏状态,表示当前时刻传入gLSTM的文字矩阵,其维度为[2048,512],代表gLSTM在t-1时刻的隐藏状态,而代表gLSTM在t-1时刻的细胞状态。所述步骤(7)中:其中,MLP为多层感知机模型,wordt表示单词。所述多层感知机模型包括:步骤(71):第一全连接层将学到的和ct映射到样本标记空间,所述样本标记空间是单词空间;步骤(72):RELU激活函数为多层感知机模型加入非线性因素,防止线性模型的表达能力不够;步骤(73):droupout层遗弃设定的神经元防止多层感知机模型过拟合;步骤(74):第二全连接层将学到的和ct映射到样本标记空间。融合视觉注意力和语义注意力的图像字幕生成系统,包括:存储器、处理器以及存储在存储器上并在处理器上执行的计算机指令,所述计算机指令在处理器上运行时,完成以下步骤:步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)本文档来自技高网
...
融合视觉注意力和语义注意力的图像字幕生成方法及系统

【技术保护点】
一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,包括:步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;步骤(8):重复步骤(2)‑(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。

【技术特征摘要】
1.一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,包括:步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。2.如权利要求1所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(2)中LSTM模型为:其中,代表长短期记忆网络LSTM在t时刻的隐藏状态,xt表示t时刻输入的文字矩阵,其维度为[2048,512],代表长短期记忆网络LSTM在t-1时刻的隐藏状态,而代表t-1时刻的细胞状态。3.如权利要求2所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(3)的视觉注意力模型是:其中,softmax表示逻辑回归分类函数,V代表通过卷积神经网络VGG模型提取的特征,其维度为[2048,49],tanh代表双曲正切非线性函数,代表视觉注意力向量,维度为[49],视觉注意力向量中的数字代表看向对应图像特征V区域的概率,数字总和为1,代表视觉注意力模型上下文矩阵,维度为[512,49]。4.如权利要求3所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(4)的语义注意力模型是:其中,Wt-1代表t-1时刻生成单词所转化的矩阵,其维度为[2048,512],Vt'为加权语义信息后的特征向量矩阵,softmax表示逻辑回归分类函数,tanh代表神经网络结构中的双曲正切非线性函数,代表语义注意力向量,其维度为[49],向量中的数字代表看向对应图像特征Vt'区域的概率,数字总和为1,代表语义注意力模型上下文矩阵,其维度为[512,49]。5.如权利要求4所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(5)的公式为:

【专利技术属性】
技术研发人员:吴春雷魏燚伟储晓亮王雷全崔学荣
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1