The invention discloses a multi-scale visual attention image description method. By training the image described by a large number of labeled texts, an image description model composed of three parts: a double-layer cyclic neural network, a multi-scale visual attention model and a multi-modal layer is obtained, which realizes the automatic generation of descriptive sentences related to the content of any test image. The invention can combine the connection between the text and the visual information more, and apply the visual attention mechanism to the regional visual features to obtain more accurate visual attention features. At the same time, through the design of bilevel cyclic neural network, decoupling the processing of text and visual features, and adding multi-scale visual attention model to the multi-modal layer, the performance of the model is improved. The shared matrix scheme is also used to greatly reduce the amount of model parameters, and at the same time, the performance of the model is further improved.
【技术实现步骤摘要】
一种多尺度视觉关注图像描述方法
本专利技术涉及人工智能自然语言处理领域,更具体地,涉及一种多尺度视觉关注图像描述方法。
技术介绍
随着2012年基于图像识别的AlexNet的提出,基于深度学习的人工神经网络得到了迅猛的发展。如今,基于图像分类的卷积神经网络已达到超越人类的图像识别精度,视觉领域的发展已为人们的科技生活提供了极大的便利。同时,基于文本特征的循环神经网络同样发展迅速,尤其是LSTM网络的提出,有效解决了传统循环神经网络RNN对长时信息的遗忘问题。而作为一个融合计算机视觉和自然语言处理领域的图像描述问题,具有广泛的应用前景,例如图像内容的识别,早期儿童教育以及盲人导航等等。对早期儿童教育等应用而言,自动获得图像的文本描述是非常有价值的。使用人力标注显然不现实,而随着深度学习技术的发展,使用图像描述技术,可以大大降低教师和家长的工作量,具有广泛的应用前景。对于盲人导航领域,图像描述技术可以有效解决导盲犬的培育成本和相关隐患,还能提供更加精准得分析和判断路况信息,来帮助盲人导航指路。虽然传统M-RNN模型能够有效融合多种模态的特征信息,包括全局的图像视觉特征,但其并没有充分利用区域块的图像特征信息。然而一张图片中往往包含了多个目标,因此仅仅利用全局的图像特征会导致图像特征的冗余,同时也忽略了很多区域块的图像特征信息,导致最终生成的句子不能充分表达图片中的所有信息。同时,传统视觉关注模型缺乏考虑融合多种尺度的视觉特征。尽管M-RNN模型具有首尾对称结构,但模型中独热码与嵌入层之间的转换矩阵参数并没有被充分利用,这也给模型带来了额外的参数量,增加模型计算 ...
【技术保护点】
1.一种多尺度视觉关注图像描述方法,其特征在于,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度视觉特征;选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入。同时,通过双层循环神经网络的设计,解耦文本和视觉特征的处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;所述多尺度视觉关注模型MVA将循环层中第二层的隐含层输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;所述方法具体处理过程包括如下步骤:S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和 ...
【技术特征摘要】
1.一种多尺度视觉关注图像描述方法,其特征在于,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度视觉特征;选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入。同时,通过双层循环神经网络的设计,解耦文本和视觉特征的处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;所述多尺度视觉关注模型MVA将循环层中第二层的隐含层输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;所述方法具体处理过程包括如下步骤:S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf;S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;S2:构造多尺度视觉关注模型MVA,具体步骤如下:S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多种区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区...
【专利技术属性】
技术研发人员:胡海峰,何琛,张俊轩,刘峥,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。