一种基于CBAM的图像描述生成模型方法技术

技术编号:27141747 阅读:18 留言:0更新日期:2021-01-27 21:18
本发明专利技术公开的一种基于CBAM的图像描述生成模型方法,具体为:步骤1、选取Inception

【技术实现步骤摘要】
一种基于CBAM的图像描述生成模型方法


[0001]本专利技术属于计算机视觉和自然语言处理
,具体涉及一种基于CBAM的图像描述生成模型方法。

技术介绍

[0002]图像描述生成主要经历了三个发展阶段:

基于模板的图像描述生成,该方法通过检测得物体及物体属性之间的关系,之后将单词填入固定的句子模板,但该模型过于死板;

基于检索的图像描述生成,该方法先检索与当前图像相似的图像作为模板,在检索图像关系前需要调整,这个步骤增加了算法的复杂度;

基于深度学习的图像描述生成,通过构建编码器-解码器框架,采用端到端的方法对模型进行训练,相对前两种方法,在图像描述的准确性上有较大的提升。Vinyals等人提出NIC(Neural Image Caption)模型,其思路来源于机器翻译通过最大化源语言S转化成目标语言T的概率p(T/S),将第一个循环神经网络(Recurrent Neural Networks,RNN)替换成卷积神经网络(Convolutional Neural Networks,CNN),用于提取图片的特征(Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural image caption generator[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:3156-3164.)。Xu等人在NIC模型的基础上引入注意力机制,提取到图片的重要信息,提升了模型的准确率。大多数的视觉注意力机制只建模空间注意力机制(spatial attention)(Xu K,Ba J,Kiros R,et al.Show,attend and tell:Neural image caption generation with visual attention[C]//International Conference on Machine Learning.2015:2048-2057.)。Chen等人提出了SCA-CNN模型,该模型同时建模空间注意力机制和通道注意力机制(channel-wise attention),较大的提升了模型的性能,但该模型不够轻便、灵活(Chen,L.,Zhang,H.,Xiao,J.,Nie,L.,Shao,J.,Chua,T.S.:SCA-CNN:Spatial and channel-wise attention in convolutional networks for image captioning.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017.)。Woo等人在SCA-CNN的基础上提出了一种轻量级通用卷积模块注意力机制模型(Convolutional Block Attention Module,CBAM)(Woo S,Park J,Lee J Y,et al.CBAM:Convolutional block attention module[C]//European Conference on Computer Vision,2018:3-19.)。该注意力机制结合空间注意力机制和通道注意力机制,并且两种注意力机制都使用平均池化和最大池化技术,使模型的效果更好。
[0003]考虑到注意力机制在图像描述生成中的有效性,提出了一种基于CBAM的图像描述生成模型。该模型将CBAM模块应用到Inception-v4网络中,用于提取图片特征,并送入长短期记忆网络(Long Short-Term Memory,LSTM),生成符合图像内容描述的自然语言。模型使用Dropout技术和正则化防止过拟合,利用word2vec技术对自然语言进行编码处理,以避免维度灾难等问题。

技术实现思路

[0004]本专利技术的目的是提供一种优化图像描述生成模型问题的方法,解决针对现有模型描述质量不高、对图片重要部分特征提取不足和模型过于复杂的问题。
[0005]本专利技术所采用的技术方案是,一种基于CBAM的图像描述生成模型方法,具体按照以下步骤实施:
[0006]步骤1、选取Inception-v4作为基准网络;
[0007]步骤2、引入CBAM模块,分别在Inception-v4中每个Inception模块之后加入CBAM模块,生成改进后的Inception-v4;
[0008]步骤3、使用改进后的Inception-v4提取图像特征,生成512维图像特征矩阵;
[0009]步骤4、引入LSTM,选取LSTM处理模型的时序问题,可以由单个LSTM得到输出单元h;
[0010]步骤5、搭建基于编码器-解码器框架的图像描述生成模型,完成图片到语句的转化。
[0011]本专利技术的特征还在于,
[0012]步骤3具体按照以下步骤实施:
[0013]步骤3.1、在改进后的Inception-v4中输入尺寸为299*299,3通道的图片,经过Stem模块之后输出尺寸为35*35*384;
[0014]其中,改进后的Inception-v4由Stem模块、4层Inception-A、Reduction-A、7层Inception-B、Reduction-B、3层Inception-C、平均池化层、Dropout层以及Softmax层组成;
[0015]步骤3.2、将步骤3.1的结果作为Inception-A的输入,每次经过Inception-A之后的特征送入CBAM模块,共有4层Inception-A+CBAM;
[0016]步骤3.3、将3.2生成的特征经过Reduction-A降维之后,再经过7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化以及Dropout层生成1536维特征;
[0017]步骤3.4、将3.3的结果送入全连接层,输出为512维图像特征矩阵。
[0018]步骤3.2中,CBAM模块包括两部分内容,分别是空间注意力模块和通道注意力模块。其中,通道注意力模块,输入特征F,分别经过最大池化和平均池化,接着经过共享多层感知器,将得到的两个特征相加,再经过Sigmoid函数,最终生成通道注意力特征M
c
(F),公式如下:
[0019][0020]式中,σ表示Sigmoid函数,MLP表示共享多层感知器,AvgPool表示平均池化,MaxPool表示最大池化,W0和W1表示不同的权重矩阵,表示平均池化特征,表示最大池化特征。
[0021]空间注意力模块将通道注意力特征M
c
(F)和输入特征进行一个基于对应元素逐个相乘的乘法操作,生成空间注意力模块的输入特征F...

【技术保护点】

【技术特征摘要】
1.一种基于CBAM的图像描述生成模型方法,其特征在于,具体按照以下步骤实施:步骤1、选取Inception-v4作为基准网络;步骤2、引入CBAM模块,分别在Inception-v4中每个Inception模块之后加入CBAM模块,生成改进后的Inception-v4;步骤3、使用改进后的Inception-v4提取图像特征,生成512维图像特征矩阵;步骤4、引入LSTM,选取LSTM处理模型的时序问题,可以由单个LSTM得到输出单元h;步骤5、搭建基于编码器-解码器框架的图像描述生成模型,完成图片到语句的转化。2.根据权利要求1所述的一种基于CBAM的图像描述生成模型方法,其特征在于,步骤3具体按照以下步骤实施:步骤3.1、在改进后的Inception-v4中输入尺寸为299*299,3通道的图片,经过Stem模块之后输出尺寸为35*35*384;其中,改进后的Inception-v4由Stem模块、4层Inception-A、Reduction-A、7层Inception-B、Reduction-B、3层Inception-C、平均池化层、Dropout层以及Softmax层组成;步骤3.2、将步骤3.1的结果作为Inception-A的输入,每次经过Inception-A之后的特征送入CBAM模块,共有4层Inception-A+CBAM;步骤3.3、将3.2生成的特征经过Reduction-A降维之后,再经过7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化以及Dropout层生成1536维特征;步骤3.4、将3.3的结果送入全连接层,输出为512维图像特征矩阵。3.根据权利要求2所述的一种基于CBAM的图像描述生成模型方法,其特征在于,步骤3.2中,CBAM模块包括两部分内容,分别是空间注意力模块和通道注意力模块,其中,通道注意力模块,输入特征F,分别经过最大池化和平均池化,接着经过共享多层感知器,将得到的两个特征相加,再经过Sigmoid函数,最终生成通道注意力特征M
c
(F),公式如下:式中,σ表示Sigmoid函数,MLP表示共享多层感知器,AvgPool表示平均池化,MaxPool表示最大池化,W0和W1表示不同的权重矩阵,表示平均池化特征,表示最大池化特征;空间注意力模块,将通道注意力特征M
c
(F)和输入特征进行一个基于对应元素逐个相乘的乘法操作,生成空间注意力模块的输入特征F

,对于输入的特征F

,分别经过最大池化和平均池化操作,然后进行卷积操作,接着通过Sigmoid函数生成空间注意力特征M
s
(F

),公式如下:式中,σ表示Sigmoid函数,f7×7表示7*7的卷积核,AvgPool表示平均池化,MaxPool表示最大池化,表示平均池化特征,表示最大池化特征。4.根据权利要求3所述的一种基于CBAM的图像描述生成模型方法,其特征在于,步骤4
具体按照以下步骤实施:步骤4.1、将步骤3.4生成的512维图像特征矩阵和词向量W
e...

【专利技术属性】
技术研发人员:陈金广余海波
申请(专利权)人:西安工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1