本发明专利技术提供一种跨层多模型特征融合与基于卷积解码的图像描述方法,涉及计算机视觉和自然语言处理领域。该跨层多模型特征融合与基于卷积解码的图像描述方法,包括以下步骤:S1.得到嵌入向量序列和最终文本特征;S2.计算得到视觉与文本融合匹配的注意力向量;S3.将注意力向量和文本特征向量和进行相加融合;S4.生成一个完整的描述句子。通过使用跨层多模型特征融合,有效弥补低层图像特征信息的丢失,从而获得更加细节的图像特征及学习到更加详细的描述句子,该模型能够有效提取和保存复杂背景图像中的语义信息,且具有处理长序列单词的能力,对图像内容的描述更准确、信息表达更丰富,值得大力推广。
【技术实现步骤摘要】
一种跨层多模型特征融合与基于卷积解码的图像描述方法
本专利技术涉及计算机视觉和自然语言处理领域,具体为一种跨层多模型特征融合与基于卷积解码的图像描述方法。
技术介绍
图像作为信息的主要载体之一,已越来越多的被人类共享,如何让计算机根据图像内容生成在语法上正确且语义上合理的自然语言句子显得至关重要,不同于目标检测、图像分类等较为简单的计算机视觉任务,图像描述属于更高层视觉理解,它不仅需要对图像中的物体和场景进行识别,还需要对物体与物体、物体与场景之间的关系进行表达,同时要求所生成的描述语句在语法和语义上都能够达到人类的标准,传统的图像描述方法分为两种:一是模板的方法,它将检测到的图像目标信息填入结构固定的句子模板中,二是基于检索的方法,它通过检索相似的图像,将已有的图像信息转移到待描述的图像上,不同于传统的动作识别方法,深度学习的方法基于卷积神经网络和循环神经网络,使用“编解码”的方式生成图像描述,使得描述句子的质量更高,生成图像的自然语言描述在实际生活中有着非常广泛的应用,例如,智能人机交互、幼儿早教、信息检索、视觉障碍者协助等,随着深度神经网络的发展以及大型数据集的应用,图像描述任务的研究受到了越来越多的关注。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种跨层多模型特征融合与基于卷积解码的图像描述方法,解决了现有的图像描述方法对图像包含的信息较复杂时描述不准确的问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种跨层多模型特征融合与基于卷积解码的图像描述方法,包括以下步骤:S1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列,然后经过6层因果卷积操作获得最终文本特征;S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中,通过构造分值图,计算得到视觉与文本融合匹配的注意力向量,并以此将视觉模块和语言模块连接起来;S3.然后将S2中具有文本信息与图像不同区域之间相关性的注意力向量和S1中得到的文本特征向量和进行相加融合;S4.再将S3得到的结果经过激活函数后输入另一个1×1的卷积层,其通道数为单词本的大小,最后通过softmax层得到下一个单词的预测概率,重复S1~S4步骤,直到最终生成一个完整的描述句子。优选的,所述视觉模块中设置有三个VGG16结构且三个VGG16结构为图像视觉特征的提取模块,所述每个VGG16结构中都添加有跨层融合结构。优选的,所述文本特征模型采用了用于机器翻译的卷积架构和用于音频生成的卷积架构,所述因果卷积模块由6层因果卷积层构成且因果卷积的卷积核宽度为3。优选的,所述Attention模型为注意力机制。优选的,所述预测模块为一个浅层神经网络。(三)有益效果本专利技术提供了一种跨层多模型特征融合与基于卷积解码的图像描述方法。具备以下有益效果:本专利技术通过使用跨层多模型特征融合,有效弥补低层图像特征信息的丢失,从而获得更加细节的图像特征及学习到更加详细的描述句子,在充分描述和表征图像语义方面起到了补充作用,使用因果卷积并行处理文本信息,实现对长序列单词的有效学习,提升了模型对包含复杂场景信息的图像描述能力,通过一种融合文本信息和视觉信息的注意力模型,针对每个由language-cnn产生的文本特征向量和每个visio-cnn产生的视觉特征向量匹配计算得一个具有强相关性的向量矩阵,从而学习文本信息与图像不同区域之间的相关性,并且该模型还可以通过因果卷积层看到先前单词的参与特征,对图像中的单一物体更为敏感,实现了模型的准确描述。本专利技术提出的模型性能较好,对于反映生成单词准确率的BLEU-1指标,它的值高达72.1%,且在其他多个评估指标上优于一些当前其他主流方法,如B-4指标超过性能优越的Hard-ATT方法6.0%,B-1和CIDEr指标分别超过emb-gLSTM方法5.1%和13.3%,与同样使用CNN+CNN策略的ConvCap方法相比,在B-1指标上本专利技术所提模型提升了0.3%,该模型能够有效提取和保存复杂背景图像中的语义信息,且具有处理长序列单词的能力,对图像内容的描述更准确、信息表达更丰富,值得大力推广。附图说明图1为本专利技术的整体框架结构图;图2为本专利技术的跨层多模型特征融合的图像特征提取模型原理图;图3为本专利技术构建的用于语言处理的CNN网络结构图;图4为本专利技术将视觉信息和文本信息融合连接的Attention模型原理图;图5为本专利技术的预测生成描述句子结构图;图6为本专利技术的实施例中的实验结果示例图一;图7为本专利技术的实施例中的实验结果示例图二。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:如图1-5所示本专利技术实施例提供一种跨层多模型特征融合与基于卷积解码的图像描述方法,包括以下步骤:S1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列,然后经过6层因果卷积操作获得最终文本特征,在进行视觉特征提取时,丰富的特征信息对图像描述结果具有良好的指导作用,所以使用三个VGG16结构作为图像视觉特征的提取模块,同时为了融合低层特征和高层特征,实现语义特征和细节特征之间的信息互补,将VGG16结构中的conv3_1与conv5_1进行求和融合来保证图像特征信息的丰富性和完整性,在融合之前,使用512个的卷积核对conv3_1输出的特征图进行卷积操作,并且对每个VGG16网络都添加这种跨层融合结构,图像并行输入到单个视觉特征提取结构,然后对三个网络的输出特征进行平均融合,如下式:视觉模块输出一个d×d×Dc的特征图,特征图的每个像素点对应一个Dc维特征向量,故可以将输出的特征图用N=d2个Dc维特征向量列表来表示v=[v1,...,vN],而在进行文本特征提取时,设定S=[w1,w2,...,wL]为包含有L个单词的一个句子,首先将每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列E=[e1,e2,...,eL],本专利技术使用深度学习框架Pytorch中的Embedding函数来实现这个功能,然后将单词嵌入向量序列输入因果卷积模块,它由6层因果卷积层构成,因果卷积是处理序列问题的一维卷积结构,结合当前时刻和历史时刻信息,得到一个新的当前时刻输出,本专利技术本文档来自技高网...
【技术保护点】
1.一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:包括以下步骤:/nS1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有D
【技术特征摘要】
20200701 CN 20201062910591.一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:包括以下步骤:
S1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列,然后经过6层因果卷积操作获得最终文本特征;
S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中,通过构造分值图,计算得到视觉与文本融合匹配的注意力向量,并以此将视觉模块和语言模块连接起来;
S3.然后将S2中具有文本信息与图像不同区域之间相关性的注意力向量和S1中得到的文本特征向量和进行相加融合;
S4.再将S3得到的结果经过激活函数后输入另一个1×1的卷积层,其通道数为单词本的大小,最后通过softmax层得...
【专利技术属性】
技术研发人员:罗会兰,岳亮亮,陈鸿坤,
申请(专利权)人:江西理工大学,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。