一种基于多模态注意力的图像标题自动生成方法技术

技术编号：19479950 阅读：21 留言：0更新日期：2018-11-17 10:31

本发明专利技术属于计算机视觉与自然语言处理的交叉技术领域，提出了一种基于多模态注意力的图像标题自动生成方法，用以解决传统的基于神经网络的方法在预测单词过程中视觉特征和语言特征的对齐问题以及忽略句子特征的问题，提高了模型的收敛速度与图像标题的质量。本方法首先利用卷积神经网络自动地对图像区域进行特征提取；然后利用带视觉注意力的LSTM实现了句子特征的提取；最后设计了一种带多模态注意力(视觉注意力和隐变量注意力)的LSTM产生最终的图像标题。实验证明所提方法在MS COCO等基准数据集上取得了很好的结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态注意力的图像标题自动生成方法
本专利技术属于计算机视觉与自然语言处理的交叉
，涉及一种基于多模态注意力的图像标题自动生成方法。
技术介绍
为图像生成标题的本质是将图像转换为语言。设计一种高效的图像标题自动生成算法可以使缺少视觉或视觉能力差的系统(人类或计算机)具备感知周围环境的能力。近年来，有许多新颖的工作融合了计算机视觉和自然语言处理的先进技术取得了大有希望的成果。根据标题生成方式的不同，这些工作可以被分为三类：基于模板匹配的方法、基于迁移的方法和基于神经网络的方法。基于模板匹配的方法首先使用多个分类器分别将图片所包含的物体、属性和活动都识别出来，然后把这些已识别信息填入一个手工设计的固定句子模板以产生句子。该类方法虽然直观且简单，但是由于分类器与固定模板的限制而难以提取更复杂的图像内容也不能灵活地产生结构更复杂的句子。基于迁移的方法使用图像检索技术在现有数据库中搜索出与之相似的图像，然后直接把相似图像的标题作为所查询图片的结果。然而，因为搜索出的图像与待查询图像仅仅是相似而不一定完全相同，所以迁移产生的句子可能无法准确地描述待查询图像的内容。基于神经网络的方法一般先利用卷积神经网络(ConvolutionalNeuralNetwork,CNN)作为视觉模型来提取图像特征进而利用循环神经网络(RecurrentNeuralNetwork,RNN)作为语言模型产生有意义的通顺语句。Vinyals等人借鉴了机器翻译任务中的编码器-解码器结构提出了一种基于深度神经网络的图像标题生成器NIC(VinyalsO,ToshevA,BengioS,...

【技术保护点】
1.一种基于多模态注意力的图像标题自动生成方法，其特征在于，步骤如下：(1)图像的预处理使用选择性搜索算法从原始图像提取出包含物体的图像区域，对大小不同的图像区域进行放缩，同时对图像像素值进行规整化处理；(2)图像特征的提取选取ResNet作为图像特征提取器；首先在ImageNet数据集上对ResNet进行预训练，然后将一幅原始图像中提取出的图像区域分别输入到ResNet进行前向传播，最后把卷积神经网络倒数第二个全连接层的输出作为图像区域的特征；(3)句子特征的提取首先利用带视觉注意力的LSTM为原始图像生成一个初步的标题，然后提取生成过程中该LSTM各时刻隐藏层的状态作为句子特征，包括显著性图像特征的选择、LSTM隐藏层的状态更新以及新单词的预测三个部分；(3.1)显著性图像特征的选择在生成初步标题的过程中，使用视觉注意力机制，选择出对预测下一时刻单词有帮助的显著性视觉特征；视觉注意力机制根据t‑1时刻隐藏层的状态ht‑1，计算t时刻的显著性视觉特征vt；视觉注意力Av通过对图像的各局部特征vi,(i＝1,2,...,n)加权求和，得到显著性视觉特征，计算公式如下：

【技术特征摘要】
1.一种基于多模态注意力的图像标题自动生成方法，其特征在于，步骤如下：(1)图像的预处理使用选择性搜索算法从原始图像提取出包含物体的图像区域，对大小不同的图像区域进行放缩，同时对图像像素值进行规整化处理；(2)图像特征的提取选取ResNet作为图像特征提取器；首先在ImageNet数据集上对ResNet进行预训练，然后将一幅原始图像中提取出的图像区域分别输入到ResNet进行前向传播，最后把卷积神经网络倒数第二个全连接层的输出作为图像区域的特征；(3)句子特征的提取首先利用带视觉注意力的LSTM为原始图像生成一个初步的标题，然后提取生成过程中该LSTM各时刻隐藏层的状态作为句子特征，包括显著性图像特征的选择、LSTM隐藏层的状态更新以及新单词的预测三个部分；(3.1)显著性图像特征的选择在生成初步标题的过程中，使用视觉注意力机制，选择出对预测下一时刻单词有帮助的显著性视觉特征；视觉注意力机制根据t-1时刻隐藏层的状态ht-1，计算t时刻的显著性视觉特征vt；视觉注意力Av通过对图像的各局部特征vi,(i＝1,2,...,n)加权求和，得到显著性视觉特征，计算公式如下：其中，V表示图像特征，表示第i个图像特征在t时刻的注意力权重，且根据t时刻之前隐藏层的状态ht-1推断出t时刻图像各区域的显著性程度；第i个图像特征在t时刻的注意力权重通过使用图像的局部特征vi,(i＝1,2,...,n)以及t时刻之前的隐藏层的状态ht-1计算出来，计算公式如下：其中，Wh、Wv、b以及ωT是需要学习的参数；先使用Wh和Wv将ht-1和vi映射到同一个向量空间；再将Whht-1、Wvvi与偏置b相加，得到ht-1和vi的相关性向量；接着使用双曲正切函数tanh对该相关性向量进行非线性激活，最后通过与ωT相乘，计算出相关性标量表示第i个图像特征与t时刻之前的状态信息ht-1的相关性分数，取值范围是(-∞,+∞)；使用softmax函数将的取值范围压缩在(0,1)之间；(3.2)LSTM隐藏层的状态更新已知图像特征V＝{v1,v2,...,vn}和t时刻之前的所有单词{w0,w1,...,wt-1}，则t时刻单词的条件概率表示为P(wt|w0,w1,...,wt-1,V)，使用LSTM对单词的概率分布建模，其隐藏层的状态更新由如下公式定义：vt＝Av(V,ht-1)(4)it＝σ(Wixwt+Wihht-1+Wivvt+bi)(5)ft＝σ(Wfxwt+Wfhht-1+Wfvvt+bf)(6)ot＝σ(Woxwt+Wohht-1+Wovvt+bo)(7)其中，W*和b*表示需要学习的参数，σ表示sigmoid激活函数，表示元素级乘积，it、ft和ot分别表示输入门、忘记门和输出门，ct和ct-1分别表示本时刻和上一时刻的记忆单元，ht和ht-1分别表示本时刻和上一时刻的隐藏层状态；(3.3)新单词的预测sof...

【专利技术属性】
技术研发人员：葛宏伟，闫泽杭，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人