当前位置: 首页 > 专利查询>中山大学专利>正文

一种多尺度视觉关注图像描述方法技术

技术编号:20945044 阅读:28 留言:0更新日期:2019-04-24 02:37
本发明专利技术公开了一种多尺度视觉关注图像描述方法,通过对海量已标注文本描述的图像训练,得到一个由三部分:双层循环神经网络,多尺度视觉关注模型,多模态层组成的图像描述模型,实现对任意测试图像自动生成与其内容相关的描述语句。本发明专利技术能更加结合联系文本与视觉信息之间的联系,并将视觉关注机制应用到区域视觉特征中,得到更精确的视觉关注特征。同时通过双层循环神经网络的设计,解耦文本和视觉特征的处理,并将多尺度视觉关注模型加入多模态层,进而提高模型性能;本发明专利技术还利用共享矩阵方案,在大幅减少模型参数量的同时,也使模型性能得到更进一步提升。

A Multi-scale Visual Concern Image Description Method

The invention discloses a multi-scale visual attention image description method. By training the image described by a large number of labeled texts, an image description model composed of three parts: a double-layer cyclic neural network, a multi-scale visual attention model and a multi-modal layer is obtained, which realizes the automatic generation of descriptive sentences related to the content of any test image. The invention can combine the connection between the text and the visual information more, and apply the visual attention mechanism to the regional visual features to obtain more accurate visual attention features. At the same time, through the design of bilevel cyclic neural network, decoupling the processing of text and visual features, and adding multi-scale visual attention model to the multi-modal layer, the performance of the model is improved. The shared matrix scheme is also used to greatly reduce the amount of model parameters, and at the same time, the performance of the model is further improved.

【技术实现步骤摘要】
一种多尺度视觉关注图像描述方法
本专利技术涉及人工智能自然语言处理领域,更具体地,涉及一种多尺度视觉关注图像描述方法。
技术介绍
随着2012年基于图像识别的AlexNet的提出,基于深度学习的人工神经网络得到了迅猛的发展。如今,基于图像分类的卷积神经网络已达到超越人类的图像识别精度,视觉领域的发展已为人们的科技生活提供了极大的便利。同时,基于文本特征的循环神经网络同样发展迅速,尤其是LSTM网络的提出,有效解决了传统循环神经网络RNN对长时信息的遗忘问题。而作为一个融合计算机视觉和自然语言处理领域的图像描述问题,具有广泛的应用前景,例如图像内容的识别,早期儿童教育以及盲人导航等等。对早期儿童教育等应用而言,自动获得图像的文本描述是非常有价值的。使用人力标注显然不现实,而随着深度学习技术的发展,使用图像描述技术,可以大大降低教师和家长的工作量,具有广泛的应用前景。对于盲人导航领域,图像描述技术可以有效解决导盲犬的培育成本和相关隐患,还能提供更加精准得分析和判断路况信息,来帮助盲人导航指路。虽然传统M-RNN模型能够有效融合多种模态的特征信息,包括全局的图像视觉特征,但其并没有充分利用区域块的图像特征信息。然而一张图片中往往包含了多个目标,因此仅仅利用全局的图像特征会导致图像特征的冗余,同时也忽略了很多区域块的图像特征信息,导致最终生成的句子不能充分表达图片中的所有信息。同时,传统视觉关注模型缺乏考虑融合多种尺度的视觉特征。尽管M-RNN模型具有首尾对称结构,但模型中独热码与嵌入层之间的转换矩阵参数并没有被充分利用,这也给模型带来了额外的参数量,增加模型计算成本的同时也增加了训练时过拟合的风险。
技术实现思路
本专利技术为克服上述现有技术中参数量较大导致的计算成本高及训练时较高的过拟合风险的问题,提供一种多尺度视觉关注图像描述方法。本专利技术旨在至少在一定程度上解决上述技术问题。为解决上述技术问题,本专利技术的技术方案如下:一种多尺度视觉关注图像描述方法,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度区域块视觉特征;选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入;所述多尺度视觉关注模型MVA将循环层中第二个循环神经网络隐含层的输出结果和卷积神经网络提取的区域块视觉特征一起作为输入,并输出视觉关注特征;所述多模态层将所述第二嵌入层的输出特征、循环层第二层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;所述方法具体处理过程包括如下步骤:S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf;S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;S2:构造多尺度视觉关注模型MVA,具体步骤如下:S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多个区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量公式如下:S2.2:将S2.1中计算得到的关注激活状态向量eti作为输入,通过一个SoftMax层计算出当前时刻每个区域块的关注权重,关注权重公式如下:S2.3:将步骤S2.1和步骤S2.2得到的关注激活状态向量eti和关注权重ati进行加权求和得到视觉关注特征Ai,Bi,公式如下:S3:构造融合各类特征的多模态层,具体步骤如下:S3.1:将所述第二嵌入层的输出特征wt、循环层的第二个LSTM输出特征rt,全局视觉特征vf以及多尺度视觉关注模型MVA输出的视觉关注特征At,Bt作为多模态层的输入,将上述特征通过矩阵分别映射为同一维度的特征向量,多模态层输出m(t)表示为:m(t)=g(Vw·wt+Vr·rt+VI·vf+At+Bt)其中,Vw,Vr,VI分别表示为wt,rt,vf的映射矩阵,g(·)为调整过的双曲正切函数S4:多尺度视觉关注图像描述模型的训练和输出,具体步骤如下:S4.1:图像采集:采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证;S4.2:采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调。S4.3:将多模态层的输出输出向量经过矩阵转换为用于文本生成的独热码,独热码通过SoftMax计算出当前时刻多尺度视觉关注图像描述模型输出的单词即图像描述。进一步地,步骤S1中提取15个基于RCNN图像区域的区域块视觉特征,196个基于CNN的方格区域特征,所述视觉特征向量vf为2048维。进一步地,所述损失函数公式为:其中,N表示单词总数,Ns表示训练集句子总数,L(i)表示第i个句子的长度,θ表示模型的参数。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术通过结合文本与视觉特征的关联,应用多尺度关注机制生成区域块视觉特征,从而有效提升模型的性能和效果,同时利用共享矩阵方案大幅降低模型参数,减少模型过拟合风险的同时增加模型的性能。附图说明图1为总结构框图。图2为共享矩阵方案示意图。具体实施方式下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1参见图1,一种多尺度视觉关注图像描述方法,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度区域块视觉特征;选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入;所述多尺度视觉关注模型MVA将循环层中隐含层的输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以本文档来自技高网
...

【技术保护点】
1.一种多尺度视觉关注图像描述方法,其特征在于,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度视觉特征;选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入。同时,通过双层循环神经网络的设计,解耦文本和视觉特征的处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;所述多尺度视觉关注模型MVA将循环层中第二层的隐含层输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;所述方法具体处理过程包括如下步骤:S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf;S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;S2:构造多尺度视觉关注模型MVA,具体步骤如下:S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多种区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量...

【技术特征摘要】
1.一种多尺度视觉关注图像描述方法,其特征在于,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度视觉特征;选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入。同时,通过双层循环神经网络的设计,解耦文本和视觉特征的处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;所述多尺度视觉关注模型MVA将循环层中第二层的隐含层输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;所述方法具体处理过程包括如下步骤:S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf;S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;S2:构造多尺度视觉关注模型MVA,具体步骤如下:S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多种区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区...

【专利技术属性】
技术研发人员:胡海峰何琛张俊轩刘峥
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1