The invention discloses a system and method of image caption generation fusion visual attention and semantic focus, image feature extraction of images to be generated from each subtitle through convolution neural network, image feature set; the establishment of LSTM model, each image to be generated subtitles label the corresponding text description into the LSTM model, get the timing information combining with the image feature set; and timing information, generate visual attention model; combining with the image feature set, and a timing timing information before the words, the semantic attention model; based on visual attention model and semantic attention model, generation of automatic balancing strategy model; according to the text image and the corresponding image feature set and to generate captions, establish according to the gLSTM model and gLSTM model; automatic balancing strategy model, using multilayer perceptron model ML P generates the corresponding words of the image to be generated, and all the words will be combined in series to produce subtitles.
【技术实现步骤摘要】
融合视觉注意力和语义注意力的图像字幕生成方法及系统
本专利技术涉及图像生成字幕
,特别是涉及融合视觉注意力和语义注意力的图像字幕生成方法及系统。
技术介绍
在计算机视觉领域,图像字幕生成已经成为了一个极具挑战性的任务。最近的尝试主要集中利用机器翻译中的注意力模型。基于注意力模型的方法生成图像字幕主要是由编码-解码框架发展而来。这个框架将CNN编码器编码的视觉特征转换为RNN解码的字幕。基于注意力模型的要点是把对应于某个生成单词的空间特征突出的显示出来。在图像字幕生成领域,注意力模型被证明是非常有效的。但它仍然面临以下两个问题:一方面,它失去了典型的视觉信息的踪迹。生成的句子容易偏离原始图像内容。另一方面,上下文向量被证明与当前的隐藏状态有关。然而,传统的注意力模型使用上一个隐藏状态作为指导。最近,C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowingwhentolook:Adap-285tiveattentionviaavisualsentinelforimagecaptioning.,arXivpreprintarXiv:1612.01887,2016.成功的利用当前隐藏状态进行了图像字幕的生成。然而,它的方法存在一个明显的缺点:原始的视觉信息没有被充分考虑到每一个时间步骤上,这样导致了生成的字幕缺乏个性化。一个高质量的图像字幕生成器不仅要反映图像中呈现的内容,还要考虑是否符合语法规则。基于注意力模型永远只考虑视觉特征的内容,无论下一个生成的单词是什么。这样的模型也许对名词有很好的效果(例如“dog”,“filed”),但它 ...
【技术保护点】
一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,包括:步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;步骤(8):重复步骤(2)‑(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。
【技术特征摘要】
1.一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,包括:步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。2.如权利要求1所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(2)中LSTM模型为:其中,代表长短期记忆网络LSTM在t时刻的隐藏状态,xt表示t时刻输入的文字矩阵,其维度为[2048,512],代表长短期记忆网络LSTM在t-1时刻的隐藏状态,而代表t-1时刻的细胞状态。3.如权利要求2所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(3)的视觉注意力模型是:其中,softmax表示逻辑回归分类函数,V代表通过卷积神经网络VGG模型提取的特征,其维度为[2048,49],tanh代表双曲正切非线性函数,代表视觉注意力向量,维度为[49],视觉注意力向量中的数字代表看向对应图像特征V区域的概率,数字总和为1,代表视觉注意力模型上下文矩阵,维度为[512,49]。4.如权利要求3所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(4)的语义注意力模型是:其中,Wt-1代表t-1时刻生成单词所转化的矩阵,其维度为[2048,512],Vt'为加权语义信息后的特征向量矩阵,softmax表示逻辑回归分类函数,tanh代表神经网络结构中的双曲正切非线性函数,代表语义注意力向量,其维度为[49],向量中的数字代表看向对应图像特征Vt'区域的概率,数字总和为1,代表语义注意力模型上下文矩阵,其维度为[512,49]。5.如权利要求4所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(5)的公式为:
【专利技术属性】
技术研发人员:吴春雷,魏燚伟,储晓亮,王雷全,崔学荣,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。