一种基于多模态注意力的图像标题自动生成方法技术

技术编号:19479950 阅读:21 留言:0更新日期:2018-11-17 10:31
本发明专利技术属于计算机视觉与自然语言处理的交叉技术领域,提出了一种基于多模态注意力的图像标题自动生成方法,用以解决传统的基于神经网络的方法在预测单词过程中视觉特征和语言特征的对齐问题以及忽略句子特征的问题,提高了模型的收敛速度与图像标题的质量。本方法首先利用卷积神经网络自动地对图像区域进行特征提取;然后利用带视觉注意力的LSTM实现了句子特征的提取;最后设计了一种带多模态注意力(视觉注意力和隐变量注意力)的LSTM产生最终的图像标题。实验证明所提方法在MS COCO等基准数据集上取得了很好的结果。

【技术实现步骤摘要】
一种基于多模态注意力的图像标题自动生成方法
本专利技术属于计算机视觉与自然语言处理的交叉
,涉及一种基于多模态注意力的图像标题自动生成方法。
技术介绍
为图像生成标题的本质是将图像转换为语言。设计一种高效的图像标题自动生成算法可以使缺少视觉或视觉能力差的系统(人类或计算机)具备感知周围环境的能力。近年来,有许多新颖的工作融合了计算机视觉和自然语言处理的先进技术取得了大有希望的成果。根据标题生成方式的不同,这些工作可以被分为三类:基于模板匹配的方法、基于迁移的方法和基于神经网络的方法。基于模板匹配的方法首先使用多个分类器分别将图片所包含的物体、属性和活动都识别出来,然后把这些已识别信息填入一个手工设计的固定句子模板以产生句子。该类方法虽然直观且简单,但是由于分类器与固定模板的限制而难以提取更复杂的图像内容也不能灵活地产生结构更复杂的句子。基于迁移的方法使用图像检索技术在现有数据库中搜索出与之相似的图像,然后直接把相似图像的标题作为所查询图片的结果。然而,因为搜索出的图像与待查询图像仅仅是相似而不一定完全相同,所以迁移产生的句子可能无法准确地描述待查询图像的内容。基于神经网络的方法一般先利用卷积神经网络(ConvolutionalNeuralNetwork,CNN)作为视觉模型来提取图像特征进而利用循环神经网络(RecurrentNeuralNetwork,RNN)作为语言模型产生有意义的通顺语句。Vinyals等人借鉴了机器翻译任务中的编码器-解码器结构提出了一种基于深度神经网络的图像标题生成器NIC(VinyalsO,ToshevA,BengioS,etal.Showandtell:Aneuralimagecaptiongenerator[C]//IEEEConferenceonComputerVisionandPatternRecognition.2015:3156-3164.)。NIC首先使用CNN作为编码器提取出一个定长向量来表示图像特征,进而使用长短期记忆模型(LongShortTermMemory,LSTM)作为解码器产生图像标题,是一种允许以端到端方式训练的模型。为了达到动态关注显著性图像区域的目的,Xu等人选择使用CNN的最后一个卷积层把整个图像转化为一组表示图像各局部特征的向量。在局部特征上应用软注意力机制或硬注意力机制可以进行显著性区域的选择,提高了模型的可解释性和性能(XuK,BaJ,KirosR,etal.Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention[J].ComputerScience,2015:2048-2057.)。为了获得更精细的图像区域特征,Li等人使用FasterR-CNN(RenS,HeK,GirshickR,etal.Fasterr-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks[C]//Advancesinneuralinformationprocessingsystems.2015:91-99.)提取图像级特征和物体级特征并提出了全局-局部注意力机制(LiL,TangS,DengL,etal.ImageCaptionwithGlobal-LocalAttention[C]//AAAI.2017:4133-4139.)。全局-局部注意力机制可以动态地从图像级特征和物体级特征中选择显著性特征以预测下一时刻的单词。提取物体级特征不仅可以使用FasterR-CNN,Fu等人一方面利用选择性搜索算法产生图像中可能包含物体的候选框,然后将包含于各候选框的图像区域输入CNN以提取物体级特征;一方面通过文档主题生成模型(LatentDirichletAllocation,LDA)训练一个单隐藏层神经网络预测图像的场景信息,为标题生成提供更多的辅助信息(FuK,JinJ,CuiR,etal.Aligningwheretoseeandwhattotell:imagecaptioningwithregion-basedattentionandscene-specificcontexts[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2017,39(12):2321-2334.)。此外,带语义注意力机制的模型被提出以提高图像标题的生成质量(YouQ,JinH,WangZ,etal.ImageCaptioningwithSemanticAttention[C]//ComputerVisionandPatternRecognition.IEEE,2016:4651-4659.)。语义注意力包括输入注意力模块和输出注意力模块两部分。输入注意力模块会根据上一时刻预测的单词选择重要的视觉概念和属性,而输出注意力模块则根据当前时刻隐藏层的状态选择重要的视觉概念和属性。Gu等人在RNN的基础上加入了时域CNN以提取单词序列的特征(GuJ,WangG,CaiJ,etal.Anempiricalstudyoflanguagecnnforimagecaptioning[C]//ProceedingsoftheInternationalConferenceonComputerVision(ICCV).2017.)。其中,时域CNN用以获取单词序列的静态表达,而RNN则用以获取单词序列的动态表达。这种结合RNN和时域CNN的方式有助于产生更通顺的句子。传统的基于神经网络的方法存在两个问题:1.用于训练CNN的图像分类数据集包含的类别数目是有限的,许多经常出现在图像标题中的语义信息(比如,颜色和大小)并不包含于有限的图像类别中,因此在图像分类数据集上训练的CNN提取出的视觉信息和图像标题中的语义信息不存在严格的对齐关系。2.根据图像特征按单词顺序生成图像标题的做法仅考虑了图像特征而忽视了句子特征,而图像特征和句子特征作为视觉和语义两方面的重要信息都应该被考虑。针对以上两个存在的问题,本专利技术利用CNN和RNN分别提取图像特征和句子特征并提出了多模态注意力机制。多模态注意力机制可以自适应地关注图像特征或句子特征,避免了视觉和语义的直接对齐,同时在预测下一时刻的单词时充分考虑了视觉信息和语义信息。
技术实现思路
针对传统的基于神经网络的方法存在视觉信息和语义信息的对齐问题以及句子特征往往被忽视的问题,本专利技术提出了一种基于多模态注意力的图像标题自动生成方法,它降低了视觉信息与语义信息之间的不对称问题对生成图像标题的不利影响,并充分考虑视觉和语义两方面信息。本专利技术使用CNN和RNN分别提取图像特征和句子特征,设计一种带多模态注意力的模型自适应地关注图像特征和句子特征以生成最终的图像标题。本专利技术的技术方案:一种基于多模态注意力的图像标题自动生成方法,步骤如下:步骤1:通过选择性搜索算法把原始图像包含物体的图像区域提取出来,并把它们缩放为统一的像素大小。将这些图像区域输入ResNet卷积神经网络进行前向传播计算,提取倒数第二个全连接层的输出作为图像特征V。步骤2:通过将单词嵌入一本文档来自技高网
...

【技术保护点】
1.一种基于多模态注意力的图像标题自动生成方法,其特征在于,步骤如下:(1)图像的预处理使用选择性搜索算法从原始图像提取出包含物体的图像区域,对大小不同的图像区域进行放缩,同时对图像像素值进行规整化处理;(2)图像特征的提取选取ResNet作为图像特征提取器;首先在ImageNet数据集上对ResNet进行预训练,然后将一幅原始图像中提取出的图像区域分别输入到ResNet进行前向传播,最后把卷积神经网络倒数第二个全连接层的输出作为图像区域的特征;(3)句子特征的提取首先利用带视觉注意力的LSTM为原始图像生成一个初步的标题,然后提取生成过程中该LSTM各时刻隐藏层的状态作为句子特征,包括显著性图像特征的选择、LSTM隐藏层的状态更新以及新单词的预测三个部分;(3.1)显著性图像特征的选择在生成初步标题的过程中,使用视觉注意力机制,选择出对预测下一时刻单词有帮助的显著性视觉特征;视觉注意力机制根据t‑1时刻隐藏层的状态ht‑1,计算t时刻的显著性视觉特征vt;视觉注意力Av通过对图像的各局部特征vi,(i=1,2,...,n)加权求和,得到显著性视觉特征,计算公式如下:

【技术特征摘要】
1.一种基于多模态注意力的图像标题自动生成方法,其特征在于,步骤如下:(1)图像的预处理使用选择性搜索算法从原始图像提取出包含物体的图像区域,对大小不同的图像区域进行放缩,同时对图像像素值进行规整化处理;(2)图像特征的提取选取ResNet作为图像特征提取器;首先在ImageNet数据集上对ResNet进行预训练,然后将一幅原始图像中提取出的图像区域分别输入到ResNet进行前向传播,最后把卷积神经网络倒数第二个全连接层的输出作为图像区域的特征;(3)句子特征的提取首先利用带视觉注意力的LSTM为原始图像生成一个初步的标题,然后提取生成过程中该LSTM各时刻隐藏层的状态作为句子特征,包括显著性图像特征的选择、LSTM隐藏层的状态更新以及新单词的预测三个部分;(3.1)显著性图像特征的选择在生成初步标题的过程中,使用视觉注意力机制,选择出对预测下一时刻单词有帮助的显著性视觉特征;视觉注意力机制根据t-1时刻隐藏层的状态ht-1,计算t时刻的显著性视觉特征vt;视觉注意力Av通过对图像的各局部特征vi,(i=1,2,...,n)加权求和,得到显著性视觉特征,计算公式如下:其中,V表示图像特征,表示第i个图像特征在t时刻的注意力权重,且根据t时刻之前隐藏层的状态ht-1推断出t时刻图像各区域的显著性程度;第i个图像特征在t时刻的注意力权重通过使用图像的局部特征vi,(i=1,2,...,n)以及t时刻之前的隐藏层的状态ht-1计算出来,计算公式如下:其中,Wh、Wv、b以及ωT是需要学习的参数;先使用Wh和Wv将ht-1和vi映射到同一个向量空间;再将Whht-1、Wvvi与偏置b相加,得到ht-1和vi的相关性向量;接着使用双曲正切函数tanh对该相关性向量进行非线性激活,最后通过与ωT相乘,计算出相关性标量表示第i个图像特征与t时刻之前的状态信息ht-1的相关性分数,取值范围是(-∞,+∞);使用softmax函数将的取值范围压缩在(0,1)之间;(3.2)LSTM隐藏层的状态更新已知图像特征V={v1,v2,...,vn}和t时刻之前的所有单词{w0,w1,...,wt-1},则t时刻单词的条件概率表示为P(wt|w0,w1,...,wt-1,V),使用LSTM对单词的概率分布建模,其隐藏层的状态更新由如下公式定义:vt=Av(V,ht-1)(4)it=σ(Wixwt+Wihht-1+Wivvt+bi)(5)ft=σ(Wfxwt+Wfhht-1+Wfvvt+bf)(6)ot=σ(Woxwt+Wohht-1+Wovvt+bo)(7)其中,W*和b*表示需要学习的参数,σ表示sigmoid激活函数,表示元素级乘积,it、ft和ot分别表示输入门、忘记门和输出门,ct和ct-1分别表示本时刻和上一时刻的记忆单元,ht和ht-1分别表示本时刻和上一时刻的隐藏层状态;(3.3)新单词的预测sof...

【专利技术属性】
技术研发人员:葛宏伟闫泽杭
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1