一种基于CBAM的图像描述生成模型方法技术

技术编号：27141747 阅读：18 留言：0更新日期：2021-01-27 21:18

本发明专利技术公开的一种基于CBAM的图像描述生成模型方法，具体为：步骤1、选取Inception

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CBAM的图像描述生成模型方法

[0001]本专利技术属于计算机视觉和自然语言处理
，具体涉及一种基于CBAM的图像描述生成模型方法。

技术介绍

[0002]图像描述生成主要经历了三个发展阶段：
①
基于模板的图像描述生成，该方法通过检测得物体及物体属性之间的关系，之后将单词填入固定的句子模板，但该模型过于死板；
②
基于检索的图像描述生成，该方法先检索与当前图像相似的图像作为模板，在检索图像关系前需要调整，这个步骤增加了算法的复杂度；
③
基于深度学习的图像描述生成，通过构建编码器-解码器框架，采用端到端的方法对模型进行训练，相对前两种方法，在图像描述的准确性上有较大的提升。Vinyals等人提出NIC(Neural Image Caption)模型，其思路来源于机器翻译通过最大化源语言S转化成目标语言T的概率p(T/S)，将第一个循环神经网络(Recurrent Neural Networks,RNN)替换成卷积神经网络(Convolutional Neural Networks,CNN)，用于提取图片的特征(Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural image caption generator[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:3156-3

【技术保护点】

【技术特征摘要】
1.一种基于CBAM的图像描述生成模型方法，其特征在于，具体按照以下步骤实施：步骤1、选取Inception-v4作为基准网络；步骤2、引入CBAM模块，分别在Inception-v4中每个Inception模块之后加入CBAM模块，生成改进后的Inception-v4；步骤3、使用改进后的Inception-v4提取图像特征，生成512维图像特征矩阵；步骤4、引入LSTM，选取LSTM处理模型的时序问题，可以由单个LSTM得到输出单元h；步骤5、搭建基于编码器-解码器框架的图像描述生成模型，完成图片到语句的转化。2.根据权利要求1所述的一种基于CBAM的图像描述生成模型方法，其特征在于，步骤3具体按照以下步骤实施：步骤3.1、在改进后的Inception-v4中输入尺寸为299*299,3通道的图片，经过Stem模块之后输出尺寸为35*35*384；其中，改进后的Inception-v4由Stem模块、4层Inception-A、Reduction-A、7层Inception-B、Reduction-B、3层Inception-C、平均池化层、Dropout层以及Softmax层组成；步骤3.2、将步骤3.1的结果作为Inception-A的输入，每次经过Inception-A之后的特征送入CBAM模块，共有4层Inception-A+CBAM；步骤3.3、将3.2生成的特征经过Reduction-A降维之后，再经过7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化以及Dropout层生成1536维特征；步骤3.4、将3.3的结果送入全连接层，输出为512维图像特征矩阵。3.根据权利要求2所述的一种基于CBAM的图像描述生成模型方法，其特征在于，步骤3.2中，CBAM模块包括两部分内容，分别是空间注意力模块和通道注意力模块，其中，通道注意力模块，输入特征F，分别经过最大池化和平均池化，接着经过共享多层感知器，将得到的两个特征相加，再经过Sigmoid函数，最终生成通道注意力特征M
c
(F)，公式如下：式中，σ表示Sigmoid函数，MLP表示共享多层感知器，AvgPool表示平均池化，MaxPool表示最大池化，W0和W1表示不同的权重矩阵，表示平均池化特征，表示最大池化特征；空间注意力模块，将通道注意力特征M
c
(F)和输入特征进行一个基于对应元素逐个相乘的乘法操作，生成空间注意力模块的输入特征F
′
，对于输入的特征F
′
，分别经过最大池化和平均池化操作，然后进行卷积操作，接着通过Sigmoid函数生成空间注意力特征M
s
(F
’
)，公式如下：式中，σ表示Sigmoid函数，f7×7表示7*7的卷积核，AvgPool表示平均池化，MaxPool表示最大池化，表示平均池化特征，表示最大池化特征。4.根据权利要求3所述的一种基于CBAM的图像描述生成模型方法，其特征在于，步骤4
具体按照以下步骤实施：步骤4.1、将步骤3.4生成的512维图像特征矩阵和词向量W
e...

【专利技术属性】
技术研发人员：陈金广，余海波，
申请(专利权)人：西安工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人