基于双向双注意力机制图像描述方法技术

技术编号：21433467 阅读：20 留言：0更新日期：2019-06-22 12:18

基于双向双注意力机制图像描述方法，基于双向双注意力机制图像描述方法，图片经过卷积神经网络提取图像特征；卷积神经网络将最后一层卷积层的图像特征作为注意力机制的输入，输入到含有注意力机制的双向长短期记忆网络中；注意力机制得到上一次双向长短期记忆网络的隐层状态，双向长短期记忆网络使用上一次的隐层状态，显著图像信息以及本次的输入预测出当前的隐层状态，再将和输入到注意力机制中得到当前显著信息；双向注意力网络根据前向隐层状态，显著图像信息，后向隐层状态，显著信息一起进行预测并进行图像描述。

全部详细技术资料下载

【技术实现步骤摘要】
基于双向双注意力机制图像描述方法
本专利技术涉及一种图像描述方法。
技术介绍
近些年，基于计算机视觉和自然语言处理的基础，在图像描述研究方面进行了大量研究。图像描述的过程是将图像输入到“编码-解码模型”中生成语言描述。编码将输入图像转化成一个固定长度向量的过程，解码将生成的向量转化成输出语言序列。在图像描述中常用的编码器模型是卷积神经网络(ConvolutionalNeuralNetwork，简称CNN)，解码器是各种变体循环神经网络(RecurrentNeuralNetwork，简称RNN)，如长短期记忆网络(LongShort-TermMemoryNetwork，简称LSTM)。近几年，KelvinXu等人将注意力机制引入其中，在生成描述时关注图像的显著部分，从而提高描述的准确率；JustinJohnson等人提出了密集描述，对图片生成多句描述，句子之间并无联系；JonathanKrause等人提出了段落描述，该任务对图片生成一段描述，这段描述在语义上是连通的。这些工作在生成当前描述时只考虑图像与上文信息，并没有考虑下文信息。在当前描述与前后信息相关性较高的情况时，模型只考虑图片与生成的上文信息将使描述的准确率降低。
技术实现思路
本专利技术所要解决的技术问题是：如何将双注意力机制模型与双向长短时记忆网络(BidirectionalLongShort-TermMemoryNetwork，简称Bi-LSTM)结合构成双向双注意力网络，并将其应用于图像描述模型中。本专利技术所采用的技术方案是：基于双向双注意力机制图像描述方法，按照如下步骤进行步骤一、图片经过卷...

【技术保护点】
1.基于双向双注意力机制图像描述方法，其特征在于：按照如下步骤进行步骤一、图片经过卷积神经网络提取图像特征；步骤二、卷积神经网络将最后一层卷积层的图像特征V作为注意力机制的输入，输入到含有注意力机制的双向长短期记忆网络中；步骤三、前向长短期记忆网络中，注意力机制得到上一次双向长短期记忆网络的隐层状态ht‑1，双向长短期记忆网络使用上一次的隐层状态ht‑1，显著图像信息Cft‑1以及本次的输入xt预测出当前的隐层状态ht，再将ht和V输入到注意力机制中得到当前显著信息Cbt；步骤四、后向长短期记忆网络过程与以上相同；步骤五、双向注意力网络根据前向隐层状态ht，显著图像信息Cft，后向隐层状态gt，显著信息Cbt一起进行预测并进行图像描述。

【技术特征摘要】
1.基于双向双注意力机制图像描述方法，其特征在于：按照如下步骤进行步骤一、图片经过卷积神经网络提取图像特征；步骤二、卷积神经网络将最后一层卷积层的图像特征V作为注意力机制的输入，输入到含有注意力机制的双向长短期记忆网络中；步骤三、前向长短期记忆网络中，注意力机制得到上一次双向长短期记忆网络的隐层状态ht-1，双向长短期记忆网络使用上一次的隐层状态ht-1，显著图像信息Cft-1以及本次的输入xt预测出当前的隐层状态ht，再将ht和V输入到注意力机制中得到当前显著信息Cbt；步骤四、后向长短期记忆网络过程与以上相同；步骤五、双向注意力网络根据前向隐层状态ht，显著图像信息Cft，后向隐层状态gt，显著信息Cbt一起进行预测并进行图像描述。2.根据权利要求1所述的基于双向双注意力机制图像描述方法，其特征在于：双向长短期记忆网络中评价标准为损失函数双向长短期记忆网络中前向训练过程公式如下：it＝σ(Wxixt+Whiht-1+CiCft-1+b...

【专利技术属性】
技术研发人员：张丽红，陶云松，
申请(专利权)人：山西大学，
类型：发明
国别省市：山西,14

全部详细技术资料下载我是这个专利的主人